viernes, 26 de noviembre de 2010

Los modelos



De la anterior reflexión podemos destacar la importancia de los modelos en el proceso de minado, si bien las metodologías tienen elementos comunes con las tareas tradicionales de análisis de información, también hay elementos nuevos en el enfoque de minado; una de ellas  es la relacionada con los modelos y su preponderancia en este nuevo enfoque.

Principiemos por destacar que los modelos a construir y sus predicciones, se asumen imperfectos. Esto es en el sentido de que no se pretenden construir explicaciones eternas ni completas de los fenómenos. Dado que se estudian fenómenos de negocios para los cuales no se ha construido un fundamento científico completo y aceptado; nos contentamos con tener predicciones de cierta calidad para el corto plazo; de ellas buscaremos obtener ventajas para aprovechar oportunidades de negocio. Fundamentalmente en esta etapa de la disciplina de minado buscaremos entender mejor a los clientes y las relaciones que con ellos establecemos; este es el pilar fundamental del ambiente de negocio y a él se ha avocado la disciplina.

Por lo anterior podemos hablar de que los modelos y sus predicciones tendrán una cualidad muy importante llamada vigencia (shelf life, en inglés). De esto se desprende que para poder lograr la excelencia el minado será mas exitoso en tanto mas imbuido en la cultura de la organización esté. Por tanto es una disciplina continua que requerirá para poder ser exitosa, fundamentalmente: compromiso organizacional, acceso a los datos y limpieza en los mismos y buenas técnicas de modelado. Obsérvese que no mencionamos a la tecnología como un requerimiento fundamental.

Otra observación importante es la relativa a la cuarta etapa del ciclo de minado: la medición de los resultados. Debido a que no tratamos con una ciencia exacta se debe tener cuidado con el carácter que se le da a la evaluación y la medición de los resultados. Esta disciplina pretende influir en el proceso de toma de decisiones y administración de la relación con los clientes y no ser la verdad última (no lo  es desde su construcción) por tanto se debe aplicar el criterio al respecto. Desarrollar las habilidades de modelación, e interpretación, será el factor fundamental para guiar el proceso. Esto requiere de compromiso organización y ejecutivo para su adecuada construcción.

En referencia  propiamente a los modelos, debemos enfatizar que se busca construir modelos predictivos, para lo cual se dispone de información histórica. De ésta última se hará uso para trabajar el modelo en dos marcos de tiempo:

  • Marco de tiempo de entrenamiento del modelo (training). Este corresponde al tiempo en el que el modelo se construye. Durante este tiempo se dispone de la información histórica de la cual se extraen subconjuntos para ir refinando el modelo y validar con el complemento de estos subconjuntos si el modelo predice adecuadamente. Por ello el nombre de entrenamiento del modelo

  • Marco de tiempo de anotación del modelo (scoring). A partir del modelo ya entrenado se contrastan las predicciones para datos futuros con datos observados en el campo y la vida real. Si el modelo puede predecir los observado se dice que anota y de ahí el nombre.

Los modelos son construidos bajos supuestos, de las anteriores reflexiones podemos mencionar como los mas importantes

  1. El pasado es un buen predictor del futuro
  2. Los datos siempre están disponibles
  3. Los datos contienen lo que queremos predecir.

Como se ve, ninguno de los supuestos es fácilmente aceptable, al menos no sin algún grado de discusión, excelentes textos se han construido para analizar los supuestos, por ejemplo Mastering Data Mining de Berry  y Linoff ofrece una perspectiva muy interesante a nivel introductoria que el lector puede consultar

No hay comentarios:

Publicar un comentario