viernes, 26 de noviembre de 2010

Los pilares para ser exitosos con el minado




Con una disciplina tan nueva y prometedora, uno se pregunta que factores hay que considerar como fundamentales, o pilares para poder ser exitoso con su aplicación. Fundamentalmente vienen en dos vertientes: técnologicas y humanas. De entre las técnológicas encontramos:

  • Las técnicas del minado de datos. Al respecto, y gracias al uso y abuso por parte de los medios y sus agoreros,  pareciera que estas son extremadamente misteriosas. Nada hay de eso, si bien es importante entender el fundamento matemático de sus elementos fundamentales (árboles de decisiones, redes neuronales, clustering, etc.) es mas importante entender sus ventajas, desventajas, cuando son apropiadas en los diferentes casos, sus variaciones y las diferentes herramientas de software que las implementan. Se debe transitar la curva de aprendizaje de manera apropiada y acercarse a un grupo consultor que pueda guiar el proceso es toral.
  • Los datos. Muchos asumen que los datos están disponibles y fácilmente utilizables. Nada mas lejano de la realidad, especialmente porque los datos provienen de muchas fuentes y presentan inconsistencias y otros inconvenientes relacionados. Por otro lado, los datos en las organizaciones tienen dueño a al menos guardián. Es fundamental conducir esfuerzos de limpieza de datos (consistencia) y de comunicación para realzar la importancia de que son propiedad de la organización como un todo. Ninguno de estos esfuerzos es trivial.
  • Las habilidades de modelado. Hemos destacado el carácter imperfecto y temporal de los modelos y sus resultados. Aparte de esto, debemos puntualizar que con los resultados de las predicciones se toman decisiones que pueden ser de enorme trascendencia. En ello hay un factor humano que es el diferenciador fundamental en el éxito del proceso. Es, por tanto, necesario que se utilice un enfoque incremental para ir puliendo las habilidades antes de su aplicación indiscriminada. Lo que es bueno para una organización o entorno no lo es para otro; por ello hay un componente del éxito que requiere de adecuación o personalización a cada situación.

De entre las humanas dos son las fundamentales:

  • El compromiso organizacional. Como se ha señalado, el minado implica un cambio organizacional muy grande. Se busca centrar la atención en el cliente consumidor y de por si esto implica esfuerzos de enorme envergadura. Si hablamos de minado, hablamos de entender los cambios o sutilezas, grandes o pequeñas, en los patrones y hábitos de consumo. Esto último implica conocer a los consumidores desde múltiples perspectivas y actuar para sacar provecho de ellas. Nada de esto es posible sin un compromiso y un empuje ejecutivo del mas alto nivel.
  • La administración apropiada de la disciplina de minado en su adopción y ejecución. El proceso de adopción y aplicación implica regularidad, persistencia y orden en su aplicación. Debido a que los consumidores cambian sus hábitos, es importante entender que el proceso no admite pausas y que una vez en él, se debe volver parte de la vida diaria.  De esta forma, se puede afirmar que la organización tendrá una herramienta esencial para asegurar su persistencia: conocer a sus consumidores,  el entorno y sus cambios con oportunidad.

Los modelos



De la anterior reflexión podemos destacar la importancia de los modelos en el proceso de minado, si bien las metodologías tienen elementos comunes con las tareas tradicionales de análisis de información, también hay elementos nuevos en el enfoque de minado; una de ellas  es la relacionada con los modelos y su preponderancia en este nuevo enfoque.

Principiemos por destacar que los modelos a construir y sus predicciones, se asumen imperfectos. Esto es en el sentido de que no se pretenden construir explicaciones eternas ni completas de los fenómenos. Dado que se estudian fenómenos de negocios para los cuales no se ha construido un fundamento científico completo y aceptado; nos contentamos con tener predicciones de cierta calidad para el corto plazo; de ellas buscaremos obtener ventajas para aprovechar oportunidades de negocio. Fundamentalmente en esta etapa de la disciplina de minado buscaremos entender mejor a los clientes y las relaciones que con ellos establecemos; este es el pilar fundamental del ambiente de negocio y a él se ha avocado la disciplina.

Por lo anterior podemos hablar de que los modelos y sus predicciones tendrán una cualidad muy importante llamada vigencia (shelf life, en inglés). De esto se desprende que para poder lograr la excelencia el minado será mas exitoso en tanto mas imbuido en la cultura de la organización esté. Por tanto es una disciplina continua que requerirá para poder ser exitosa, fundamentalmente: compromiso organizacional, acceso a los datos y limpieza en los mismos y buenas técnicas de modelado. Obsérvese que no mencionamos a la tecnología como un requerimiento fundamental.

Otra observación importante es la relativa a la cuarta etapa del ciclo de minado: la medición de los resultados. Debido a que no tratamos con una ciencia exacta se debe tener cuidado con el carácter que se le da a la evaluación y la medición de los resultados. Esta disciplina pretende influir en el proceso de toma de decisiones y administración de la relación con los clientes y no ser la verdad última (no lo  es desde su construcción) por tanto se debe aplicar el criterio al respecto. Desarrollar las habilidades de modelación, e interpretación, será el factor fundamental para guiar el proceso. Esto requiere de compromiso organización y ejecutivo para su adecuada construcción.

En referencia  propiamente a los modelos, debemos enfatizar que se busca construir modelos predictivos, para lo cual se dispone de información histórica. De ésta última se hará uso para trabajar el modelo en dos marcos de tiempo:

  • Marco de tiempo de entrenamiento del modelo (training). Este corresponde al tiempo en el que el modelo se construye. Durante este tiempo se dispone de la información histórica de la cual se extraen subconjuntos para ir refinando el modelo y validar con el complemento de estos subconjuntos si el modelo predice adecuadamente. Por ello el nombre de entrenamiento del modelo

  • Marco de tiempo de anotación del modelo (scoring). A partir del modelo ya entrenado se contrastan las predicciones para datos futuros con datos observados en el campo y la vida real. Si el modelo puede predecir los observado se dice que anota y de ahí el nombre.

Los modelos son construidos bajos supuestos, de las anteriores reflexiones podemos mencionar como los mas importantes

  1. El pasado es un buen predictor del futuro
  2. Los datos siempre están disponibles
  3. Los datos contienen lo que queremos predecir.

Como se ve, ninguno de los supuestos es fácilmente aceptable, al menos no sin algún grado de discusión, excelentes textos se han construido para analizar los supuestos, por ejemplo Mastering Data Mining de Berry  y Linoff ofrece una perspectiva muy interesante a nivel introductoria que el lector puede consultar

jueves, 25 de noviembre de 2010

Metodologías de minado



El proceso tradicional de prueba de hipótesis que se ha seguido durante mucho tiempo, sigue siendo una herramienta fundamental para el proceso de minado. De las cuatro etapas señaladas en la entrega anterior, la prueba de hipótesis se utiliza en la de análisis de datos. Es importante recordar que las etapas de identificación y tomar acción son problemas esenciales sujeto de estudio por la disciplina administrativa. Mientras que las otras dos, medición y análisis, son sujeto de estudio con un renovado enfoque: minado.

Recodando el proceso de prueba de hipótesis, éste es de tipo top-down. Se intenta aprobar o desaprobar una idea o relación entre datos previa. Mientras que un concepto nuevo llamado descubrimiento del conocimiento (knowledge discovery en inglés) y que es enfoque bottom-up comienza con los datos e intenta encontrar en ellos algo que se desconoce.

Recordando los pasos del proceso de prueba de hipótesis podemos listar:

  1. Generación de hipótesis para explicar el fenómeno.
  2. Definición de los datos a usar para probar la hipótesis.
  3. Obtención y preparación de los datos
  4. Construcción de los modelos computacionales basados en los datos
  5. Evaluación para la confirmación o rechazo de las hipótesis.
El nuevo enfoque de descubrimiento del conocimiento ha llamado la atención de muchas partes. Principalmente por que se ha conceptualizado como uno en el que se utiliza una herramienta de software y mágicamente arroja relaciones entre los datos insospechadas que han permitido a muchas organizaciones obtener  beneficios sustanciales. Mucho hay de fantasía y también realidad, el proceso sin embargo dista mucho de ser simple: las habilidades necesarias para hacer de ello realidad requiere de talentos y sutilezas.

El proceso de descubrimiento en su variante llamada directo (en el que se se pretende explicar un valor en términos de otros) consta de las siguientes etapas

  1. Identificar las fuentes de datos preclasificados
  2. Preparar los datos para analizarlos
  3. Construir y entrenar un modelo computacional
  4. Evaluar el modelo

Como se ve, estas etapas son muy parecidas a las de prueba de hipótesis tradicional, sin embargo tiene diferencias importantes pues se pondrá énfasis y un enfoque innovador al entrenamiento del modelo.

El descubrimiento indirecto, en el que no se pretende explicar un campo objetivo sino que la herramienta de software se deja suelta con la esperanza de que pueda encontrar algún tipo de estructura en los datos; por su  parte constará de las siguientes etapas:

  1. Identificar las fuentes de datos
  2. Preparar los datos para analizarlos
  3. Construir y entrenar un modelo computacional
  4. Evaluar el modelo
  5. Aplicar el modelo computacional a nuevos datos
  6. Identificar objetivos potenciales para la utilización de descubrimientos directos
  7. Generar nuevas hipótesis para probar

Como se puede observar desde el enunciado abreviado de estas metodologías, los diferentes enfoques se utilizarán conjuntamente para  identificar nuevos conocimientos.

miércoles, 17 de noviembre de 2010

Los tipos de minado y su ciclo


Los tipos de minado

Fundamentalmente son dos:
Directo. En éste, el objetivo es usar los datos disponibles para construir un modelo que describe una variable de internes en particular en función del resto de variables
Indirecto.  En contraste con el directo. Ninguna variable se presupone como objetivo y la meta es establecer algún tipo de relación entre las variables

Existen cuatro enfoques para hacer minado.
Comprar información. Existen empresas especializadas en la venta de información relativa al área de especialización del negocio a las cuales comprar información que ya ha sido procesada y a partir de ella aplicar las habilidades de negocio para aprovechar posibles oportunidades.
Comprar software para minado. De suma utilidad cuando se buscan resultados precisos lo cual implica buscar significancia estadística y por tanto capacidades de proceso numérico muy grandes. Este enfoque se está aplicando con cierta frecuencia en los negocios con el inconveniente de la dificultad en la interpretación de resultados (como veremos posteriormente).
Contratar especialistas de negocio.  Un enfoque de mucha comodidad pero con el gran inconveniente de que las decisiones se dejan en manos que pudieran no ser las mas conocedoras del negocio.
Desarrollar las habilidades propias. Quizá el enfoque con mejores perspectivas a largo plazo pero que involucra recorrer una curva de aprendizaje nada fácil.

El ciclo de minado.


Es importante considerar al minado como un proceso cíclico, parte del ciclo de negocio, como se ilustra en el diagrama.





El proceso inicia cuando se ha identificado un área de oportunidad que se desearía explorar. De ahí se parte para transformar datos referentes a ella en información. La diferencia entre estos conceptos es fundamental, los datos pueden provenir de diferentes fuentes (transacciones de ventas, reportes, datos resultado de diferentes procesos de negocio, etc.) mientras que la información supone que ya los datos se han transformado para poder afirmar que son únicos (no redundantes) y uniformes (a este proceso se le llama limpiado). La información también implica que se han vuelto a estructurar los datos de forma que pueden orientar los procesos a mejorar que están relacionados con el área de oportunidad. A esta parte del proceso de minado pertenece la aplicación de diferentes técnicas y algoritmos que presentaremos en artículos posteriores.


Los siguientes pasos del proceso (actuar y medir en el diagrama), pertenecen a otras etapas y son parte del proceso administrativo en ganeral mas propiamente que al minado en si. Sin embargo, son fundamentales para ambos procesos, pues la credibilidad de los resultados del minado depende de cómo sus recomendaciones se implementen. La medición de resultados, a su vez, es decisiva para retroalimentar el proceso. Es importante aclarar que la medición puede llegar a ser compleja e implicar la aplicación de técnicas de minado a su vez

El procesa itera en si mismo. Se pretende que retroalimente, de forma que se pueda determinar si las recomendaciones (que pudieran no ser triviales ni inmediatas) resultado del minado ha sido de valor para el negocio o si se deben buscar otro tipo de relaciones para reiniciar el ciclo.

miércoles, 10 de noviembre de 2010

Definiendo



Una definición, casi universalmente aceptada, de minado de datos es:

“El proceso de exploración y análisis, por medios automáticos o semiautomáticos, de grandes cantidades de datos con el objeto de descubrir patrones y reglas significativas en los mismos”.

La clave para poder entender la trascendencia del minado radica en los siguientes componentes (puntos claves en la definición):

Es un proceso no solo de análisis sino también de exploración. De aquí que podamos hacer minado con solo explorar los datos y sin que necesariamente se requiera de tecnologías de punta o estado del arte (y sus correspondientes inversiones) para poder beneficiarnos con el minado. Un analisis en este contexto implica la involucración de profesionales expertos en la materia y por tanto con una estructura de costos mas compleja, fuera del alcance de muchas organizaciones. Sin embargo el proceso no esta vedado para organizaciones mas pequeñas,

Por medios automáticos o semiautomáticos. La simple exploración de los datos de manera semiautomática implica que los beneficios también se pueden obtener después de hacer exploraciones con herramientas simples (como resúmenes, tablas extracto o mas ampliamente cubos). Actualmente el entorno de negocios es mas ambicioso y busca encontrar información que a primera vista pareciera insospechada o con relaciones entre los datos (patrones) que no se pueden fijar a priori. La diferencia fundamental entre los enfoques tradicionales y el enfoque moderno radica en que ahora se intenta usar herramientas que a priori no suponga un conocimiento a priori de los patrones y buscar confirmarlo; mas bien, se trata de que el proceso de exploración y análisis arroje las relaciones existentes para su posterior confirmación. Esta es la diferencia fundamental.

De grandes cantidades de datos. No se busca explicar el comportamiento para un individuo sino un comportamiento general; por tanto, el enfoque es estadístico, en muchos casos paramétrico, y por tanto implica el uso de sofisticados algoritmos y tecnologías para los casos de análisis profundo. Si bien este es el enfoque más ambicioso, también hay valor en el proceso de exploración de muestras de datos no tan grandes, aunque el mayor se obtiene cuando se examinan grandes volúmenes que le dan certidumbre a los criterios estadísticos.

Con el objeto de descubrir patrones y reglas significativas en los mismos. Como se menciona anteriormente, lo que actualmente llama mucho la atención, es el hecho de que los patrones pueden no estar fijados anteriormente al proceso de exploración. Las organizaciones por tanto encuentran mucho valor en el hecho de que el proceso les proporcione información de patrones no conocida y sobre la cual elaboran esfuerzos comerciales de enorme envergadura.

Si bien el minado se ha usado en mas de un campo del saber humano como la ciencia, la ingeniería, la cartografía, la seguridad y vigilancia publica, etc. En este blog estaremos ocupados de reflexionar en sus aplicaciones en la esfera de los negocios, en donde se ha usado, entre otras aplicaciones, para estudiar los hábitos de compra, abandono de clientes, prevención de fraudes, recursos humanos, comportamiento en Internet, análisis de redes sociales, etc.

martes, 9 de noviembre de 2010

Iniciando la reflexión


Cuando reflexionamos en el proceso de toma de decisiones, comúnmente encontramos que el proceso implica la selección de datos base, la posterior aplicación y validación de un modelo candidato y de las consecuencias de la aplicación del modelo. Lo que no es simple, es la construcción del modelo candidato, típicamente usamos la intuición o el consejo de un experto en la materia. Ninguna de estas es trivial.

En lo años recientes un enfoque distinto conocido como minado de datos (data mining en inglés) ha venido siendo utilizado con mas frecuencia. Este blog pretende reflexionar sobre los aspectos fundamentales del minado de datos y su aplicación para las decisiones de negocio.