|
Estoy trabajando en el ejercicio 2.2 propuesto en la página 21. En él se pide calcular (de modo exacto) la frontera de decisión bayesiana óptima. Sospecho que debemos partir del supuesto de que las 20 medias (las 10 para BLUE y las 10 para ORANGE) son conocidas ya que, antes de conocer esas 20 medias, la única diferencia entre BLUE y ORANGE es (1,0) frente a (0,1) (el punto central a partir del cual se generan las 10 medias para cada clase) y, en esa situación (contando sólo con esa información), la frontera de decisión debería ser una línea recta. ¿Qué me decís? |
|
He colgado una discusión al respecto en mi bitácora. Pasa por encima de algunos detalles como, por ejemplo, cómo se construye la función de verosimilitud de una mezcla de distribuciones, etc. Y utiliza unos centros distintos que los del libro porque éste no los fija realmente y la estética de la distribución resultante era muy azarosa. |
Ya, pero el problema es mucho más interesante --y menos lineal-- si se consideran los centros de las 20 normales fijos.
O sea, estás de acuerdo conmigo, ¿no? Debemos considerar conocidas las 20 medias.
Sí, sí,... ¡con qué poco cariño leo!
He elaborado el código que adjunto para calcular la frontera de decisión bayesiana óptima para los datos del ejemplo.
Código
He simplificado MUCHO el código anterior. En este caso, dada la simetría del proceso generador de los datos, el estimador de Bayes consiste en asignar a cada punto de R2 la etiqueta (el color) del centro más próximo (que es el que otorga a cada punto una mayor verosimilitud). En resumen, el problema se podría denominar k-centros más próximo (con k=1). Lo he resuelto con la función knn() de R tomando como /train/ los centros y como /test/ los puntos de R2. Es mucho más rápido que el código anterior. Código