# La importancia del Análisis Exploratorio de Datos (EDA)

Diferentes campos de la ciencia, la economía, la ingeniería y el marketing acumulan y almacenan datos principalmente en bases de datos electrónicas. Se deben tomar decisiones apropiadas y bien establecidas utilizando los datos recopilados. Es prácticamente imposible dar sentido a conjuntos de datos que contienen más de un puñado de puntos de datos sin la ayuda de programas informáticos. Para estar seguro de los conocimientos que los datos recopiladosproporciona y para tomar futuras decisiones, se realiza minería de datos donde pasamos por procesos de análisis distintivos. El análisis de datos exploratorio es clave y, por lo general, es el primer ejercicio en la minería de datos. Nos permite visualizar datos para comprenderlos así como crear hipótesis para su posterior análisis. El análisis exploratorio se centra en la creación de una sinopsis de datos o conocimientos para los próximos pasos en un proyecto de minería de datos.

En realidad, EDA revela la verdad sobre el contenido sin hacer suposiciones subyacentes. Este es el hecho de que los científicos de datos utilizan este proceso para comprender realmente qué tipo de modelos e hipótesis se pueden crear. Los componentes clave del análisis de datos exploratorios incluyen resumir datos, análisis estadístico y visualización de datos.

<img src="../images/EDA.jpg" width="100%">

# Pasos en EDA

Una vez entendido qué es EDA y su importancia, comprendamos los distintos pasos involucrados en el análisis de datos. Básicamente, implica cuatro pasos diferentes. Repasemos cada uno de ellos para comprender brevemente cada paso:

__Definición del problema__: antes de intentar extraer información útil de los datos, es fundamental definir el problema empresarial a resolver. La definición del problema funciona como fuerza impulsora para la ejecución de un plan de análisis de datos. Las principales tareas involucradas en la definición del problema son definir el objetivo principal del análisis, definir los principales entregables, delinear las principales funciones y responsabilidades, obtener el estado actual de los datos, definir el cronograma y realizar un análisis de costo/beneficio. A partir de dicha definición del problema, se puede crear un plan de ejecución.


__Preparación de datos__: este paso implica métodos para preparar el conjunto de datos antes del análisis real. En este paso, definimos las fuentes de datos, definimos esquemas y tablas de datos, comprendemos las características principales de los datos, limpiamos el conjunto de datos, eliminamos conjuntos de datos no relevantes, transformamos los datos y dividimos los datos en los fragmentos necesarios para el análisis.

__Análisis de datos__: este es uno de los pasos más cruciales que se ocupa de las estadísticas descriptivas y el análisis de los datos. Las tareas principales implican resumir los datos, encontrar la correlación oculta y las relaciones entre los datos, desarrollar modelos predictivos, evaluar los modelos y calcular las precisiones. Algunas de las técnicas utilizadas para el resumen de datos son tablas de resumen, gráficos, estadísticas descriptivas, estadísticas inferenciales, estadísticas de correlación, búsqueda, agrupación y modelos matemáticos.


__Desarrollo y representación de los resultados__: este paso implica presentar el conjunto de datos al público objetivo en forma de gráficos, tablas resumen, mapas y diagramas. Este también es un paso esencial ya que el resultado analizado del conjunto de datos debe ser interpretable por las partes interesadas del negocio, que es uno de los principales objetivos de EDA. 

La mayoría de las técnicas de análisis gráfico incluyen diagramas de dispersión, diagramas de caracteres, histogramas, diagramas de caja, diagramas de residuos, diagramas de medias y otros.

# Preguntas Clave en un Análisis Exploratorio de Datos (EDA)

## 1. Comprensión de Datos Básicos

- **¿Cuál es el tamaño del conjunto de datos?**
  - Tamaño en términos de filas (observaciones) y columnas (variables).

- **¿Cuáles son las características (variables) presentes en el conjunto de datos?**
  - Enumera y describe brevemente todas las variables presentes.

- **¿Qué tipo de datos contiene cada variable?**
  - Categóricos, numéricos, fechas, etc.

## 2. Resumen Estadístico

- **¿Cuál es la estadística descriptiva básica de las variables numéricas?**
  - Media, mediana, desviación estándar, máximo, mínimo, percentiles.

- **¿Cuál es la distribución de las variables numéricas?**
  - ¿Las variables siguen alguna distribución estadística conocida?
  - Utiliza gráficos de histogramas o diagramas de caja.

- **¿Cómo se correlacionan las variables numéricas entre sí?**
  - Calcula y visualiza las correlaciones.
  - ¿Cuáles son elementos o columnas importantes? 
  - ¿Cuáles se pueden descartar?
  - ¿Hay correlación entre las variables?

## 3. Valores Faltantes

- **¿Cuántos valores faltantes hay en el conjunto de datos?**
  - Porcentaje de valores faltantes por variable.

- **¿Cómo manejar los valores faltantes?**
  - Eliminación, imputación, etc.

## 4. Análisis de Variables Categóricas

- **¿Cuántas categorías únicas tiene cada variable categórica?**
  - Enumera las categorías únicas y su frecuencia.

- **¿Cómo se distribuyen las categorías?**
  - Histogramas, gráficos de barras.

## 5. Anomalías y Outliers

- **¿Existen valores atípicos (outliers) en las variables numéricas?**
  - Identificación y manejo de outliers.

## 6. Visualización de Datos

- **¿Cuál es la distribución general de los datos?**
  - Visualiza las variables clave.

- **¿Cómo se relacionan las variables entre sí?**
  - Gráficos de dispersión, matrices de correlación.

- **¿Existen patrones o tendencias temporales en los datos?**
  - Gráficos de series temporales.
  


## 7. Segmentación y Agrupación

- **¿Existen grupos o segmentos dentro de los datos?**
  - Aplica técnicas de agrupación como el clustering.

## 8. Conclusiones Iniciales

- **¿Qué observaciones o tendencias iniciales se pueden destacar?**
  - Resumen de hallazgos clave.

## 9. Descavalnceo de clases


**¿Los datos están balanceados de acuerdo con el objetivo?**
   
   
1. **¿Cuál es la distribución de clases?**
   - Comprender cuántas instancias hay para cada clase en el conjunto de datos.

2. **¿Cuál es la diferencia de tamaño entre las clases?**
   - Calcular la proporción o relación entre las clases para identificar el grado de desbalanceo.

3. **¿Cuál es la importancia relativa de cada clase en el problema?**
   - Determinar si todas las clases son igualmente importantes o si algunas tienen un peso mayor en la toma de decisiones.

4. **¿Cómo se distribuyen las características (features) entre las clases?**
   - Explorar si las características se distribuyen de manera similar o diferente en las clases minoritarias y mayoritarias.

5. **¿Existen características que son más informativas para las clases minoritarias?**
   - Identificar características que puedan ser más relevantes para predecir la clase minoritaria.
   
## 10. Preguntas Adicionales

- **¿Existen preguntas específicas del dominio que deben ser respondidas con este EDA?**
  - Enumera preguntas adicionales y cómo se abordarán.



# Algunas pruebas que se deben realizar a los datos

1. **Normalidad de los datos**:
   - **Razón**: Muchos métodos paramétricos asumen que los datos provienen de una distribución normal, como la prueba t y el análisis de varianza (ANOVA).
   - **Prueba**: Se verifica si los datos siguen una distribución normal o se asemejan lo suficiente a ella. Si los datos no son normales, es posible que los resultados de los métodos paramétricos no sean válidos. Se pueden utilizar pruebas de normalidad como la prueba de Shapiro-Wilk o Q-Q plots.

2. **Homogeneidad de varianzas**:
   - **Razón**: En muchos métodos paramétricos, se asume que las varianzas de las poblaciones subyacentes son iguales entre grupos o condiciones. Esto es crucial en ANOVA y regresión lineal, por ejemplo.
   - **Prueba**: Se verifica si las varianzas son consistentes entre grupos o condiciones. Si las varianzas son significativamente diferentes, los resultados de los métodos paramétricos pueden ser sesgados. Las pruebas de homogeneidad de varianzas como la prueba de Levene ayudan a evaluar esto.

3. **Independencia de observaciones**:
   - **Razón**: Se asume que las observaciones son independientes entre sí. Si existen correlaciones temporales o autocorrelaciones, esto puede violar la independencia de las observaciones.
   - **Prueba**: En datos longitudinales o series temporales, se verifica la independencia de observaciones para asegurarse de que los resultados no se vean afectados por autocorrelaciones. Se pueden realizar pruebas de autocorrelación o análisis de residuos.

4. **Linealidad de relaciones**:
   - **Razón**: Algunos modelos paramétricos asumen relaciones lineales entre variables predictoras y la variable de respuesta. Si la relación no es lineal, los resultados pueden ser inexactos.
   - **Prueba**: Se verifica la linealidad de las relaciones utilizando gráficos de dispersión y análisis de residuos. Si se detecta una relación no lineal, se pueden considerar transformaciones de variables.

5. **Aleatoriedad de muestreo**:
   - **Razón**: La aleatoriedad del muestreo es fundamental para inferir resultados a una población más amplia. Las muestras deben ser aleatorias y representativas.
   - **Prueba**: No es una prueba en sí, pero se documentan los métodos de muestreo utilizados para garantizar la aleatoriedad y representatividad de las muestras.

6. **Efectos atípicos (outliers)**:
   - **Razón**: Los valores atípicos pueden distorsionar los resultados de los modelos. Pueden influir en los parámetros estimados y en las pruebas de hipótesis.
   - **Prueba**: Se detectan y gestionan los valores atípicos utilizando gráficos de caja y bigotes, análisis de residuos y pruebas estadísticas. La gestión puede incluir la eliminación de valores atípicos o la transformación de datos.
