por

Aprendizaje Supervisado: Un enfoque probabilístico

En una entrada anterior de manera general se presentó el aprendizaje supervisado como el aprendizaje de una función que mapea desde un vector de variables conocidas a un valor de una variable desconocida, esto es:

f: X \mapsto \mathbf{y}

Sin embargo, f suele ser interpretada como una función determinista omitiendo la incertidumbre de los datos y por tanto del modelo generado. Esto conlleva la pérdida de información en los resultados y análisis superficiales que no revelan la realidad del proceso que se está modelando. Entonces, con el propósito de evitar lo anterior, en esta entrada presentaremos al aprendizaje supervisado visto desde la teoría de probabilidad, la cual toma en consideración de manera formal la incertidumbre.

Modelo predictivo

Desde la teoría de probabilidad la función f puede ser vista como una distribución condicional sobre y dado que se conoce un conjunto de variables de entrada o características \mathbf{x}. Esto es:

p(y|\mathbf{x})

La expresión anterior coloca una distribución de probabilidad sobre y para cada una de las configuraciones posibles del vector \mathbf{x}, en contraposición con el enfoque determinista que asigna un valor fijo de y para cada configuración de \mathbf{x}.

La forma de la distribución predictiva p(y|\mathbf{x}) es fijada de antemano dependiendo del tipo de datos que genera el proceso que estamos modelando. Por ejemplo, si y \in \mathbb{R} entonces comúnmente \mathbf{y} \sim \mathcal{N}(\mu, \sigma^2) (sigue una distribución Normal), o si y \in \{0,1\} entonces \mathbf{y} \sim Ber(p) (sigue una distribución de Bernoulli). En el contexto del aprendizaje supervisado, en el primer caso se abordaría una tarea de regresión y en el segundo caso una tarea de clasificación binaria. Para abordar una tarea de clasificación multi-clase la distribución elegida será Multinoulli.

Sin embargo, independientemente de la forma que tome está distribución, siempre está sujeta a un conjunto de parámetros que deben ser encontrados. Por ejemplo en el caso de la Normal la media (\mu) y la varianza (\sigma^2), y, en el caso de la distribución de Bernoulli la probabilidad de acierto (p). Esto puede ser formalizado mediante la distribución predictiva parametrizada:

p(y|\mathbf{x},\theta)

siendo \theta el conjunto de parámetros que deben ser estimados (aprendidos) desde un conjunto de datos D=\{(y_1|\mathbf{x_1}),...,(y_N|\mathbf{x_N})\}. Adicionalmente estos parámetros suelen ser funciones parametrizadas dependientes de los datos de entrada.

Por ejemplo, la media \mu en realidad es determinada por la función parametrizada \mu_w(\mathbf{x}) con estructura conocida, donde se desea disponer del conjunto de parámetros w. Dependiendo de la forma de la distribución y la estructura de las funciones de sus parámetros podemos generar distintos modelos de aprendizaje. Para dar un ejemplo, si la distribución es normal y la estructura de la media es una función lineal entonces da como resultado un modelo de regresión lineal. Esto se puede complicar tanto como el problema lo requiera, al punto de que partiendo del mismo concepto de definición estructural de los parámetros de la distribución se puede llegar a modelos como las máquinas de soporte vectorial o las redes neuronales. Por lo tanto aquí presentamos un marco general para definir cualquier tipo de modelo de aprendizaje desde una perspectiva común, la teoría de probabilidad.

Aprendizaje de parámetros

Con el fin de aprender los parámetros de la distribución predictiva es conveniente tratar a \theta como una variable aleatoria que, acorde al teorema de Bayes, sigue una distribución de probabilidad dada por:

p(\theta|D)=\frac{p(D|\theta) \, p(\theta)}{p(D)}

Para propósitos prácticos no es necesario conocer la distribución completa sobre \theta, sino solamente el conjunto de parámetros que mejor se ajuste a los datos disponibles. Una posibilidad (y una de las más aceptadas) es seleccionar la configuración más probable de parámetros o lo que es lo mismo, la moda de la distribución. Lo anterior se resume en el siguiente problema de optimización:

\hat{\theta} = \underset{\theta}{\mathrm{argmax}} p(\theta|D)

La expresión dice que el conjunto de parámetros estimados \hat{\theta} es igual al conjunto de parámetros que maximiza la distribución posterior sobre \theta conocido el conjunto de datos D.

De la expresión de la distribución posterior nótese que el denominador p(D) es solamente una constante de normalización para que de 1 la suma de los valores de la distribución. Esto quiere decir que ese elemento puede ser eliminado de la expresión garantizando la proporcionalidad con la posterior:

p(\theta|D) \propto p(D|\theta) \, p(\theta)

El lado derecho de la expresión es la distribución posterior no normalizada m(\theta|D). Lo interesante es que para fines de la resolución del problema de optimización es igual optimizar la posterior normalizada o la no normalizada.

Estimación de máxima verosimilitud

Para la resolución del problema de optimización podemos considerar el caso donde no se disponga de ningún conocimiento a priori sobre la distribución de \theta. Bajo esta circunstancia, lo mejor es considerar una distribución uniforme en la prior p(\theta), evidentemente una constante, garantizando la siguiente relación de proporcionalidad:

p(\theta|D) \propto p(D|\theta)

Al igual que antes, la optimización sobre la expresión anterior es equivalente a la realizada sobre la distribución posterior. Luego, el problema de optimización se resume a:

\hat{\theta}_{MLE} = \underset{\theta}{\mathrm{argmax}} \, p(D|\theta)

donde \hat{\theta}_{MLE} es la estimación de máxima verosimilitud (Maximum Likelihood Estimation, MLE) por tratarse del resultado obtenido de la optimización sobre la función de verosimilitud L(\theta) = p(D|\theta). Asumiendo que cada elemento (y_i|\mathbf{x_i}) de D es independiente e idénticamente distribuido (iid) y aplicando la regla de la multiplicación para eventos independientes se obtiene la siguiente función de verosimilitud.

L(\theta)=\prod_{i=1}^{N} p(y_i|\mathbf{x_i},\theta)

Desde una perspectiva computacional, la optimización de la función anterior conlleva a problemas de estabilidad numérica debido a la multiplicación sucesiva de número menores a 1 con la consecuente pérdida de información por underflow en la capacidad de representación de los ordenadores. Es por esa razón que resulta conveniente convertir el producto en suma mediante la aplicación de una función monótona como es el caso del logaritmo. Además, la mayoría de librerías informáticas para optimización tienen implantadas funciones para minimización, por lo que es conveniente transformar el problema de maximización a uno de minimización con la multiplicación de la función con -1. Tomando en cuenta estas dos recomendaciones la función a minimizar se transforma en la log-verosimilitud negativa (Negative Log-Likelihood, NLL) dada por:

NLL(\theta)=-\sum_{i=1}^{N} log \, p(y_i|\mathbf{x_i},\theta)

Estimación de máxima posterior

De la MLE salta una pregunta ¿Cómo proceder en caso que se disponga de un conocimiento a priori sobre la distribución de los parámetros del modelo?.

Respondiendo a esta interrogante, la prior p(\theta) debe codificar el conocimiento a priori sobre \theta. Entonces, la expresión a ser optimizada es la distribución posterior no normalizada:

\hat{\theta}_{MAP} = \underset{\theta}{\mathrm{argmax}} \, m(\theta|D)

donde \hat{\theta}_{MAP} es la estimación de máxima posterior (Maximum A-Posterior, MAP). Nuevamente asumiendo que cada elemento del conjunto de datos es iid obtenemos:

m(\theta|D)=p(\theta) \, \prod_{i=1}^{N} p(y_i|\mathbf{x_i},\theta)

Aplicando la función logaritmo para transformar el producto en suma y multiplicando la expresión por -1 para transformar la maximización en minimización, da como resultado la siguiente función log-posterior negativa (Negative Log-Posterior, NLP) que debe ser minimizada:

NLP=log \, p(\theta) \, \sum_{i=1}^{N} log \, p(y_i|\mathbf{x_i},\theta)

Resultado

La aplicación de MLE o MAP da como resultado un conjunto de parámetros que en junto con la estructura seleccionada para la distribución de probabilidad predictiva dan un modelo para la estimación de la distribución de la variable desconocida en función de las variables conocidas. Posteriormente se suele seleccionar aquel valor de y de la distribución estimada que tiene maximiza la probabilidad como el resultado final del modelo aprendido. Sin embargo, una de las principales ventajas al disponer de la distribución predictiva en vez de solamente una estimación puntual es poder realizar un análisis mas exhaustivo sobre la confiabilidad de la predicción.

Escribe un comentario

Comentario