# El Proceso de Análisis de Datos

El análisis de datos es un proceso que transforma datos brutos en visualizaciones y predicciones.

Consiste en una secuencia de pasos, donde cada uno es crucial para los siguientes.

Se asemeja a una cadena de procesos interconectados.

Cada etapa cumple una función específica en el análisis global.

El proceso sigue una estructura definida, desde la recopilación de datos hasta la generación de resultados.

- Definición del problema
- Extracción de datos
- Limpieza de datos
- Transformación de datos
- Exploración de datos
- Modelado predictivo
- Validación/prueba del modelo
- Visualización e interpretación de resultados
- Despliegue de la solución

## Definición del Problema

El análisis de datos comienza con la definición clara del problema a resolver y el sistema a estudiar.

La definición y documentación del problema son cruciales para enfocar el análisis en obtener resultados concretos.

La planificación del proyecto determina los profesionales y recursos necesarios para una ejecución eficiente.

Se deben considerar los problemas del área, buscar especialistas y preparar el software necesario.

La formación de un equipo interdisciplinario es clave para el éxito del análisis de datos, permitiendo abordar el problema desde diferentes perspectivas.

## Extracción de Datos

Una vez que se ha definido el problema, el primer paso es obtener los datos para realizar el análisis. Los datos deben elegirse con el propósito básico de construir el modelo predictivo, por lo que su selección también es crucial para el éxito del análisis. Los datos de muestra recopilados deben reflejar tanto como sea posible el mundo real, es decir, cómo responde el sistema a estímulos del mundo real. De hecho, incluso utilizando grandes conjuntos de datos en bruto, a menudo, si no se recopilan de manera competente, estos pueden representar situaciones falsas o desequilibradas en comparación con las reales.

Por lo tanto, una mala elección de datos, o incluso realizar un análisis en un conjunto de datos que no representa perfectamente el sistema, llevará a modelos que se alejarán del sistema en estudio.

La búsqueda y recuperación de datos a menudo requiere una forma de intuición que va más allá de la mera investigación técnica y extracción de datos. También requiere una comprensión cuidadosa de la naturaleza de los datos y su forma, que solo la buena experiencia y el conocimiento en el campo de aplicación del problema pueden proporcionar.

Independientemente de la calidad y cantidad de datos necesarios, otro problema es la búsqueda y la elección correcta de las fuentes de datos.

Si el entorno de estudio es un laboratorio (técnico o científico) y los datos generados son experimentales, entonces en este caso la fuente de datos es fácilmente identificable. En este caso, los problemas solo estarán relacionados con la configuración experimental.

Pero no es posible que el análisis de datos reproduzca sistemas en los cuales los datos se recopilan de una manera estrictamente experimental en cada campo de aplicación. Muchos campos de aplicación requieren buscar datos del mundo circundante, a menudo confiando en datos experimentales externos, o incluso más a menudo recopilándolos a través de entrevistas o encuestas. Entonces, en estos casos, la búsqueda de una buena fuente de datos que pueda proporcionar toda la información que necesitas para el análisis de datos puede ser bastante desafiante. A menudo es necesario recuperar datos de múltiples fuentes de datos para suplir cualquier deficiencia, identificar cualquier discrepancia y hacer que nuestro conjunto de datos sea lo más general posible.

Cuando deseas obtener los datos, un buen lugar para comenzar es simplemente la Web. Pero la mayoría de los datos en la Web pueden ser difíciles de capturar; de hecho, no todos los datos están disponibles en un archivo o base de datos, sino que pueden ser más o menos contenido implícito que está dentro de páginas HTML en muchos formatos diferentes. Con este fin, se ha desarrollado una metodología llamada Web Scraping, que permite la recopilación de datos mediante el reconocimiento de la ocurrencia específica de etiquetas HTML dentro de las páginas web. Hay software diseñado específicamente para este propósito, y una vez que se encuentra una ocurrencia, extraen los datos deseados. Una vez que la búsqueda está completa, obtendrás una lista de datos listos para ser sometidos al análisis de datos.

## Preparación de Datos

Entre todos los pasos involucrados en el análisis de datos, la preparación de datos, aunque aparentemente menos problemática, es, de hecho, una que requiere más recursos y más tiempo para completarse. Los datos recopilados a menudo se recopilan de diferentes fuentes de datos, cada una de las cuales tendrá los datos en ella con una representación y formato diferente. Por lo tanto, todos estos datos deberán prepararse para el proceso de análisis de datos.

La preparación de los datos se ocupa de obtener, limpiar, normalizar y transformar datos en un conjunto de datos optimizado, es decir, en un formato preparado, normalmente tabular, adecuado para los métodos de análisis que se han programado durante la fase de diseño.

Muchos son los problemas que deben evitarse, como valores no válidos, ambiguos o faltantes, campos replicados o datos fuera de rango.

## Exploración/Visualización de Datos

Explorar los datos es esencialmente la búsqueda de datos en una presentación gráfica o estadística para encontrar patrones, conexiones y relaciones en los datos. La visualización de datos es la mejor herramienta para resaltar posibles patrones.

En los últimos años, la visualización de datos se ha desarrollado hasta tal punto que se ha convertido en una disciplina en sí misma. De hecho, numerosas tecnologías se utilizan exclusivamente para la visualización de datos, y muchas son las formas de visualización aplicadas para extraer la mejor información posible de un conjunto de datos.

La exploración de datos consiste en un examen preliminar de los datos, lo cual es importante para entender el tipo de información que se ha recopilado y qué significan. En combinación con la información adquirida durante la definición del problema, esta categorización determinará qué método de análisis de datos será más adecuado para llegar a una definición del modelo.

Generalmente, esta fase, además de un estudio detallado de gráficos a través de la visualización de datos, puede consistir en una o más de las siguientes actividades:

- Resumir datos
- Agrupar datos
- Exploración de la relación entre los diversos atributos
- Identificación de patrones y tendencias
- Construcción de modelos de regresión
- Construcción de modelos de clasificación

Generalmente, el análisis de datos requiere procesos de resumir declaraciones sobre los datos a estudiar. La resumir es un proceso mediante el cual los datos se reducen a la interpretación sin sacrificar información importante.

El agrupamiento es un método de análisis de datos que se usa para encontrar grupos unidos por atributos comunes (agrupamiento).

Otro paso importante del análisis se centra en la identificación de relaciones, tendencias y anomalías en los datos. Para descubrir este tipo de información, a menudo se debe recurrir a las herramientas, así como realizar otra ronda de análisis de datos, esta vez en la visualización de datos en sí.

Otros métodos de minería de datos, como árboles de decisión y reglas de asociación, extraen automáticamente hechos o reglas importantes de los datos. Estos enfoques se pueden usar en paralelo con la visualización de datos para encontrar información sobre las relaciones entre los datos.

## Modelado Predictivo

El modelado predictivo es un proceso utilizado en el análisis de datos para crear o elegir un modelo estadístico adecuado para predecir la probabilidad de un resultado.

Después de explorar los datos, tienes toda la información necesaria para desarrollar el modelo matemático que codifica la relación entre los datos. Estos modelos son útiles para entender el sistema bajo estudio y, de manera específica, se utilizan para dos propósitos principales. El primero es hacer predicciones sobre los valores de los datos producidos por el sistema; en este caso, estarás tratando con modelos de regresión. El segundo es clasificar nuevos productos de datos, y en este caso, estarás usando modelos de clasificación o agrupamiento. De hecho, es posible dividir los modelos según el tipo de resultado que producen:

- Modelos de clasificación: Si el resultado obtenido por el tipo de modelo es categórico.
- Modelos de regresión: Si el resultado obtenido por el tipo de modelo es numérico.
- Modelos de agrupamiento: Si el resultado obtenido por el tipo de modelo es descriptivo.

Los métodos simples para generar estos modelos incluyen técnicas como regresión lineal, regresión logística, árboles de clasificación y regresión, y k-vecinos más cercanos. Pero los métodos de análisis son numerosos, y cada uno tiene características específicas que lo hacen excelente para algunos tipos de datos y análisis. Cada uno de estos métodos producirá un modelo específico, y luego su elección es relevante para la naturaleza del modelo de producto.

Algunos de estos modelos proporcionarán valores que corresponden al sistema real y, además, de acuerdo con su estructura, explicarán algunas características del sistema en estudio de manera simple y clara. Otros modelos continuarán proporcionando buenas predicciones, pero su estructura no será más que una "caja negra" con capacidad limitada para explicar algunas características del sistema.

## Validación del Modelo

La validación del modelo, es decir, la fase de prueba, es una fase importante que te permite validar el modelo construido sobre la base de los datos iniciales. Eso es importante porque te permite evaluar la validez de los datos producidos por el modelo comparándolos directamente con el sistema real. Pero esta vez, estás saliendo del conjunto de datos iniciales sobre los cuales se ha establecido todo el análisis.

Generalmente, te referirás a los datos como el conjunto de entrenamiento, cuando los estés utilizando para construir el modelo, y como el conjunto de validación, cuando los estés utilizando para validar el modelo.

Así, al comparar los datos producidos por el modelo con los producidos por el sistema, podrás evaluar el error, y usando diferentes conjuntos de datos de prueba, puedes estimar los límites de validez del modelo generado. De hecho, los valores correctamente predichos podrían ser válidos solo dentro de un cierto rango, o tener diferentes niveles de coincidencia dependiendo del rango de valores considerados.

Este proceso te permite no solo evaluar numéricamente la efectividad del modelo, sino también compararlo con cualquier otro modelo existente. Hay varias técnicas en este sentido; la más famosa es la validación cruzada. Esta técnica se basa en la división del conjunto de entrenamiento en diferentes partes. Cada una de estas partes, a su vez, se utilizará como el conjunto de validación y cualquier otra como el conjunto de entrenamiento. De esta manera iterativa, tendrás un modelo cada vez más perfeccionado.

## Despliegue

Este es el paso final del proceso de análisis, que tiene como objetivo presentar los resultados, es decir, las conclusiones del análisis. En el proceso de despliegue, en el entorno empresarial, el análisis se traduce en un beneficio para el cliente que lo ha encargado. En entornos técnicos o científicos, se traduce en soluciones de diseño o publicaciones científicas. Es decir, el despliegue básicamente consiste en poner en práctica los resultados obtenidos del análisis de datos.

Hay varias formas de implementar los resultados de un análisis de datos o minería de datos. Normalmente, el despliegue de un analista de datos consiste en redactar un informe para la administración o para el cliente que solicitó el análisis. Este documento describirá conceptualmente los resultados obtenidos del análisis de datos. El informe debe estar dirigido a los gerentes, quienes luego podrán tomar decisiones. Luego, realmente pondrán en práctica las conclusiones del análisis.

En la documentación proporcionada por el analista, generalmente se discutirán en detalle cada uno de estos cuatro temas:

- Resultados del análisis
- Despliegue de decisiones
- Análisis de riesgos
- Medición del impacto empresarial

Cuando los resultados del proyecto incluyen la generación de modelos predictivos, estos modelos pueden implementarse como una aplicación independiente o integrarse dentro de otro software.
