# Fundamentos de EDA (Exploratory Data Analysis)

El Análisis Exploratorio de Datos (EDA) es una fase crucial en el proceso de análisis de datos que se enfoca en la comprensión inicial y el resumen de las características pricipales de un conjunto de datos, generalmente utilizando métodos estadisticos y visualizaciones gráficas. El objetivo principal del EDA es descubrir patrones, detectar anomalías, probar hipótesis y verificar supuestos mediante técnicas estadísticas y gráficas.

### Conceptos generales pero muy relevantes

*Tipos de variables:*

- Variables Categóricas: Representan categorías o grupos (e.g., género, color).
- Variables Numéricas: Representan cantidades y pueden ser discretas o continuas (e.g., edad, ingresos).

*Estadísticas Descriptivas:*

- Medidas de Tendencia Central: Media, Mediana, Moda.
- Medidas de Dispersión: Rango, Varianza, Desviación Estándar, Percentiles.

*Limpieza de Datos:*

- Manejo de Valores Faltantes: Eliminación, Imputación.
- Detección y Tratamiento de Valores Atípicos: Boxplots, Z-scores.
- Corrección de Errores: Detección de inconsistencias y errores tipográficos.

*Detección de valores atípicos:*

- Boxplots: Visualización que muestra la distribución de los datos y resalta los valores atípicos.
- Z-scores: Medida que indica cuántas desviaciones estándar está un valor por encima o por debajo de la media.

*Visualización de Datos:*
- Gráficos de Barras: Útiles para variables categóricas.
- Histogramas: Útiles para variables numéricas.
- Diagramas de Dispersión: Útiles para analizar relaciones entre dos variables numéricas.
- Mapas de Calor: Útiles para visualizar matrices de correlación.

*Distribuciones de Datos:*
- Distribución Normal: Caracterizada por la curva de campana.
- Distribución Sesgada: Asimetría en la distribución de los datos.
- Distribución Bimodal: Presencia de dos picos en la distribución.


### Ciclo del análisis de datos

*¿Que vamos a resolver? ¿Por qué?*
- Definir el problema, contexto y los objetivos del análisis.
- Formular hipótesis iniciales.
- Identificar las variables clave.
- Establecer criterios de éxito.

*¿Qué datos tenemos? ¿De dónde vienen?*
- Carga y exploración de datos.
- Comprender la estructura y el formato de los datos.
- Identificar fuentes de datos adicionales si es necesario.

*¿Nos faltan o sobran datos? ¿Existen duplicados o errores?*
- Limpieza de datos.
- Manejo de valores faltantes y duplicados.
- Corrección de errores y inconsistencias.
- Transformación de datos si es necesario.

*¿Media, mediana, moda? ¿Distribuciones?*
- Análisis estadístico descriptivo.
- Cálculo de medidas de tendencia central y dispersión.
- Análisis de distribuciones de datos.
- Identificación de patrones y relaciones entre variables.

*¿Como se ven mis datos?*
- Visualización de datos.
- Creación de gráficos y diagramas para representar los datos.
- Interpretación de visualizaciones para obtener insights.

*¿Puedo identificar patrones y relaciones?*
- Identificación de patrones y relaciones.
- Análisis de correlaciones entre variables.
- Detección de tendencias y anomalías.

*¿Cuales han sido mis hallazgos?*
- Comunicación de resultados.
- Resumen de hallazgos clave.
- Presentación de visualizaciones y estadísticas relevantes.
- Formulación de conclusiones y recomendaciones basadas en el análisis.

### Herramientas que se pueden utilizar para EDA

*Python:* Es una de las opciones más usadas para realizar EDA debido a su flexibilidad y gran cantidad de bibliotecas para análisis de datos. Algunas bibliotecas populares incluyen:
- Pandas: Para manipulación y análisis de datos.
- Matplotlib y Seaborn: Para visualización de datos.
- NumPy: Para operaciones numéricas.
- Scipy: Para análisis estadístico.
- Plotly: Para visualizaciones interactivas.
- Sweetviz: Para generación automática de reportes EDA.
- Pandas Profiling: Para generación automática de reportes EDA.
- Polars: Para manipulación y análisis de datos de alto rendimiento.

*R:* Es otra de las opciones más potentes para hacer EDA, sobretodo por su capacidad estadística y sus herramientas de visualización. Algunas librerías populares incluyen:
- ggplot2: Para visualización de datos.
- dplyr: Para manipulación de datos.
- Tidyverse: Un conjunto de paquetes para manipulación y visualización de datos.
- DataExplorer: Para generación automática de reportes EDA.

*Plataformas interactivas:* Puedes realizar EDA utilizando plataformas más interactivas y visuales sin tanto código, plataformas que te permiten cargar datos y explorar visualmente. Algunas opciones incluyen:
- Tableau
- Power BI
- Google Data Studio
- QlikView/Qlik Sense

*Plataformas para machine learning:* Algunas plataformas de machine learning también incluyen herramientas para EDA como parte de su flujo de trabajo. Algunas opciones incluyen:
- Google Cloud AutoML
- Azure Machine Learning
- H2O.ai

*Conjuntos de datos pequeños:* Existen herramientas diseñadas para conjuntos de datos pequeños que permiten realizar EDA de manera sencilla, no son tan potentes como las herramientas mencionadas anteriormente, pero pueden ser útiles en casos más simples. Las dos opciones más comunes son:
- Excel: Permite realizar análisis básicos y visualizaciones de datos.
- Google Sheets: Similar a Excel, pero basado en la web y con capacidades de colaboración en tiempo real.

*IDEs y Notebooks:* Muchas veces se utilizan entornos de desarrollo integrados (IDEs) o notebooks para realizar EDA, ya que permiten combinar código, visualizaciones y texto explicativo en un solo lugar. Algunas opciones populares incluyen:
- Jupyter Notebooks: Muy utilizado en la comunidad de Python para análisis de datos.
- RStudio: IDE popular para R con soporte para notebooks.
- Google Colab: Plataforma basada en la nube que permite ejecutar notebooks de Jupyter sin necesidad de configuración local.
- VS Code: Con extensiones para trabajar con notebooks y análisis de datos.