Minado de datos para negocios: Metodologías de minado

El proceso tradicional de prueba de hipótesis que se ha seguido durante mucho tiempo, sigue siendo una herramienta fundamental para el proceso de minado. De las cuatro etapas señaladas en la entrega anterior, la prueba de hipótesis se utiliza en la de análisis de datos. Es importante recordar que las etapas de identificación y tomar acción son problemas esenciales sujeto de estudio por la disciplina administrativa. Mientras que las otras dos, medición y análisis, son sujeto de estudio con un renovado enfoque: minado.

Recodando el proceso de prueba de hipótesis, éste es de tipo top-down. Se intenta aprobar o desaprobar una idea o relación entre datos previa. Mientras que un concepto nuevo llamado descubrimiento del conocimiento (knowledge discovery en inglés) y que es enfoque bottom-up comienza con los datos e intenta encontrar en ellos algo que se desconoce.

Recordando los pasos del proceso de prueba de hipótesis podemos listar:

Generación de hipótesis para explicar el fenómeno.
Definición de los datos a usar para probar la hipótesis.
Obtención y preparación de los datos
Construcción de los modelos computacionales basados en los datos
Evaluación para la confirmación o rechazo de las hipótesis.

El nuevo enfoque de descubrimiento del conocimiento ha llamado la atención de muchas partes. Principalmente por que se ha conceptualizado como uno en el que se utiliza una herramienta de software y mágicamente arroja relaciones entre los datos insospechadas que han permitido a muchas organizaciones obtener beneficios sustanciales. Mucho hay de fantasía y también realidad, el proceso sin embargo dista mucho de ser simple: las habilidades necesarias para hacer de ello realidad requiere de talentos y sutilezas.

El proceso de descubrimiento en su variante llamada directo (en el que se se pretende explicar un valor en términos de otros) consta de las siguientes etapas

Identificar las fuentes de datos preclasificados
Preparar los datos para analizarlos
Construir y entrenar un modelo computacional
Evaluar el modelo

Como se ve, estas etapas son muy parecidas a las de prueba de hipótesis tradicional, sin embargo tiene diferencias importantes pues se pondrá énfasis y un enfoque innovador al entrenamiento del modelo.

El descubrimiento indirecto, en el que no se pretende explicar un campo objetivo sino que la herramienta de software se deja suelta con la esperanza de que pueda encontrar algún tipo de estructura en los datos; por su parte constará de las siguientes etapas:

Identificar las fuentes de datos
Preparar los datos para analizarlos
Construir y entrenar un modelo computacional
Evaluar el modelo
Aplicar el modelo computacional a nuevos datos
Identificar objetivos potenciales para la utilización de descubrimientos directos
Generar nuevas hipótesis para probar

Como se puede observar desde el enunciado abreviado de estas metodologías, los diferentes enfoques se utilizarán conjuntamente para identificar nuevos conocimientos.

Minado de datos para negocios

jueves, 25 de noviembre de 2010

Metodologías de minado

No hay comentarios:

Publicar un comentario