# EDA y visualización de Datos

## 6.1 Introducción

# Importancia del Análisis Exploratorio de Datos (EDA) y la Visualización de datos.

El Análisis Exploratorio de Datos (EDA) y la visualización de datos son herramientas fundamentales en la ciencia de datos. Ambas técnicas se utilizan para obtener un entendimiento profundo de los datos antes de aplicar cualquier modelo o técnica de análisis avanzada. A lo largo de esta unidad se explorarán cómo estas herramientas permiten extraer información valiosa, detectar patrones, identificar errores y comunicar hallazgos de manera efectiva.


**Análisis Exploratorio de Datos (EDA)**

Es el primer paso en cualquier análisis de datos. Su finalidad es explorar los datos antes de aplicar modelos estadísticos o de machine learning, permitiendo así al científico de datos comprender la estructura y las relaciones que existen entre las variables.

**¿Qué hace el EDA?** Ayuda a organizar y preparar los datos, identificar fallos en su recogida y diseño, evaluar datos ausentes, identificar casos atípicos, y mucho más. Algunas de las preguntas clave que el EDA responde incluyen:

* ¿Hay sesgos en los datos?
* ¿Existen errores en la codificación de los datos?
* ¿Cómo se presentan los datos y cuál es la mejor forma de visualizarlos?
* ¿Hay datos faltantes y cómo se deberían tratar?


**Visualización de Datos**

Es una técnica crucial para presentar la información de forma gráfica, lo que facilitas la comprensión y el análisis de los conjuntos de datos complejos. A través de gráficos se pueden identificar patrones, tendencias y anomalías de manera más intuitiva.

**¿Para qué sirve la Visualización de Datos?** Ayuda a los responsables de la toma de decisiones a interpretar datos complejos de manera más sencilla, facilitando la identifficación de áreas que necesitan atención, factores de influyen en el comportamiento de los clientes y previsión de métricas clave del negocio.



El EDA y la Visualización de Datos son pilares esenciales en el análisis de datos. Estas técnicas no solo ayudan a comprender mejor la información, sino que también permiten comunicar



## 6.2 Análisis Exploratorio de Datos (EDA)

### Definición del EDA y su propósito

El Análisis Exploratorio de Datos (EDA, por sus siglas en inglés) es una técnica utilizada para explorar, resumir y visualizar datos antes de aplicar modelos estadísticos o de machine learning. su propósito principal es proporcionar un entendimiento profundo y detallado de los datos, permitiendo identificar patrones, detectar anomalías y formular hipótesis iniciales.

El EDA actúa comoun puente entre la recolección de datos y la aplicación de modelos analíticos, ayudando a los científicos de datos a tomar decisiones informadas sobre cómo proceder en el análisis posterior. A través de gráficos y análisis estadísticos básicos, el EDA permite observar las caracterísitocas de los datos y sus relaciones internas. 


### Utilidades del EDA

el EDA es una herramienta poderosa que facilita la comprensión de los datos mediante diversas utilidades, tales como:

* **Detección de Outliers:** los valores atípicos son datos que se alejan significativamente del resto de abservaciones y pueden distorsionar los resultados del análisis. El EDA permite identificar y evaluar estos outliers, ayudando a decidir si deben ser tratados o mantenidos en el conjunto de datos.

* **Identificación de Patrones de Datos Ausentes:** los datos faltantes pueden afectar la calidad del análisis si no se gestionan correctamente.El EDA ayuda a detectar la presencia de valores ausentes, identificar patrones sistemáticos y decidir el major enfoque para tratarlos, ya sea mediante la imputación de valores o la eliminación de registros incompletos.

* **Detección de Sesgos y Errores en la Codificación de Datos:** a través del EDA se pueden adentificar posibles sesgos en los datos y errores en su codificación, permitiendo corregirlos antes de avanzar a etapas más complejas.

* **Evaluación de la Distribución de las Variables:** examinar cómo se distribuyen los datos permite identificar asimetrías, curtosis y otras características que podrían influir en los resultados de modelos analíticos.


### Etapas del EDA

El proceso de EDA se dasarrolla en varias etapas, cada una con un objetivo específico que contribuye al entendimiento global del conjunto de datos:

1. **Preparación de Datos:**
    * En esta etapa los datos se organizan y se hacen accesibles para el análisis. Incluye la limpieza de datos, transformación de variables, combinación de conjuntos de datos y la selección de subconjunto relevantes. Esta preparación asegura que los datos estén en un formato adecuado para los análisis posteriores.


2. **Examen Gráfico de los Datos:**
    * Se realiza un análisis visual de las variables mediante gráficos como histogramas, gráficos de dispersión y graficos de caja. Esto facilita la identificación de patrones, tendencias, posibles errores de codificación y proporciona una visión inicial sobre la naturaleza de los datos.

3. **Análisis de Correlaciones y Dependencias:** 
    * Esta etapa se centra en evaluar la relación entre variables utilizando medidas como la correlación de Pearson para variables numéricas o la correlación de Spearman para datos ordinales. Es importante recordar que correlación no implica causalidad, por lo que los resultados deben interpretarse con cuidado.

4. **Evaluación de Supuestos Distribucionales:** 
    * Se aanalizan las distribuciones de las variables para determinar si cumplen con los supuestos necesarios para la aplicación de modelos estadísticos. Esta etapa incluye el análisis de la asimetría y la curtosis de las variables, ayudando a decidir si es necesario aplicar transformaciones adicionales. 



### Conceptos Clave

* **Valores perdidos:** datos ausentes pueden introducir sesgos en el análisis. Su identificación y tratamiento son cruciales para mantener la integridad del conjunto de datos. 

* **Correlaciones y Dependencias:** miden la relación lineal entre dos o más variables. Es esencial diferenciar entre correlación causalidad para evitar conclusiones erróneas.

* **Análisis Estadístico:** incluye la evaluación de métricas descriptivas como la media, mediana, desviasión estándar y la identificación de patrones dentro de los datos. Esta etapa proporciona un marco para entender mejor la naturaleza de los datos u su variabilidad.


El EDA es una etapa crítica crítica en el proceso de análisis de datos. Proporcionan un primer vistazo a los datos, permitiendo descubrir información clave que guiará las siguientes fases del análisis. al comprender sus utilidades y etapas, los cientificos de datos pueden optimizar la preparación y exploración de datos, asegurando un análisis riguroso y detallado. 



In [None]:
# Ejemplo de EDA en Python

# 1. Impotar librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn

# 2. Cargar datos


## 6.3 Visualización de Datos I

### Principios Generales del diseño Analítico según Edward Tufte

Edward Tufte es una de las figuras más influyentes en el campo de la visualización de datos, reconocido por sus aportes en el diseño de gráficos efectivos y claros. Sus principios generales del diseño analítico se centran en cómo presentar los datos de manera que faciliten la comprensión y el análisis, sin distorsionar la información. Estos principios incluyen:

1. **Mostrar Comparaciones:** facilitar la comparación entre conjuntos de datos para identificar patrones y tendencias. Comparar datos es esencial para entender cómo varían y se relacionan entre sí.

2. **Mostrar Causalidad y Mecanismos:** representar la estructura sistemática y los mecanismos que explican los datos. Esto permite a los usuarios ver no solo qué está ocurriendo sino también por qué podría estar ocurriendo.

3. **Mostrar Datos Multivariados:** incorporar múltiples variables en un solo gráfico, lo que permite capturar relaciones complejas entre los datos. Las visualizaciones que combinan más de una o dos variables aportan un nivel más profundo de análisis.

4. **Integrar Palabras, Números, Imágenes y Diagramas:** combinar diversos elementos para una presentación más rica y comprensible de la información. Esta integración ayuda a comunicar de manera más efectiva la historia detrás de los datos.

5. **Describir la Totalidad de la Evidencia:** mostrar todas las fuentes de datos y abordar cualquier problema relevante. Esto asegura que la visualización sea completa y fiel a los datos disponibles.

6. **Sostenerse en la Calidad, Relevancia e Integridad:** las visualizaciones deben basarse en datos de alta calidad y presentarse con integridad, evitando cualquier manipulación que distorsione la interpretación.


### Buenas prácticas en la selección y uso de gráficos.

Seleccionar el tipo correcto de gráfico y usarlo adecuadamente es fundamentaal para una buena visualización de datos. Algunas buenas prácticas incluyen:

* **Elegir el gráfico adecuado:** no todos los gráficos sirven para todos los propósitos. Por ejemplo, los graficos de barra son excelentes para comprar cantidades discretas, mientras que los gráficos de lineas son ideales para mostrar tendencias a lo largo del tiempo.

* **Menos es Más:** evitar sobrecargar de información. Es preferible mantener los gráficos limpios y simples, sin exceso de colores, etiquetas o detalles innecesarios que puedan confundir al lector.

* **Utilidad para el usuario:** cada gráfico debe ser útil y aportar claridad. La visualización debe ser fácil de interpretar y alinearse con el objetivo del análisis.

* **Escala y proporciones correctas:** las escalas deben ser consistentes y adecuadas para evitar malinterpretaciones de los datos. Es fundamental que los ejes no se manipulen para exagerar o minimizar los hallazgos.


**¿Qué hace una buena visualización?**

Una buena visualización de datos no solo presenta la información, sino que también lo hace de manera que sea accesible, honesta y perspicaz. Según expertos como Alberto Cairo y Enrico Bertini una visualización exitosa debe cumplir con los siguiente atributos:

* **Veracidad:** la visualización debe representar los datos de manera honesta y sin ocultar información crítica. Esto implica una representación fiel de los hallazgos sin manipular los datos para favorecer una narrativa específica.

* **Funcionalidad:** debe permitir que los usuarios comprendan la información con facilidad. La claridad y la simplicidad son esenciales para evitar confusiones y facilitar la toma de decisiones.

* **Estética Atractiva:** una visualización bien diseñada capta la atención del usuario mediante un uso efectivo del diseño gráfico y la usabilidad. Sin embargo, la estética nunca debe comprometer la claridad de la información.

* **Perspicacia:** una visualización debe proporcionar evidencia nueva o difícil de identificar 