# Análisis Exploratorio de Datos (EDA)

Base de datos masivas (11088) - Curso 2024

## ¿De qué se trata EDA?

Análisis exploratorio de datos o **EDA** (_Exploratory Data Analysis_) es esencial tener una visión general de los datos y poder adentrarnos en las tareas de preprocesamiento con una idea de los desafíos que nos podemos encontrar. 

Las técnicas de resumen descriptivo de datos se pueden utilizar para identificar las propiedades típicas de los datos y destacar qué valores de datos se deben tratar como ruido o valores atípicos. Para esto es importante manejar los conceptos básicos de estadística descriptiva y diferentes herramientas de visualización  ([Ver Libro de Han- _Descriptive Data Summarization_](https://drive.google.com/file/d/1VQhhdPfPdjTUG93M6pl9CBHuaNcbVWJo/view?usp=drive_link)). 

![workflowEDA](https://upload.wikimedia.org/wikipedia/commons/thumb/b/ba/Data_visualization_process_v1.png/350px-Data_visualization_process_v1.png)

## ¿Qué herramienta vamos a utilizar?

Vamos a trabajar con Python y el módulo [Pandas](https://pandas.pydata.org/). Pueden optar por usar un Google Colab o una instalación local.


In [None]:
import pandas as pd

## ¿Qué datos usamos?

Para introducirnos en las diferentes tareas de EDA vamos a utilizar el dataset  [Palmer Penguins](https://www.kaggle.com/datasets/satyajeetrai/palmer-penguins-dataset-for-eda) (Kaggle) que está disponible en el repositorio GitHub. 


## Estructura de datos Pandas: Series & DataFrame

### Series
Un objeto de tipo [Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html#pandas.Series) es una matriz etiquetada de 1-dimensión capaz de contener cualquier tipo de datos (enteros, cadenas, números de punto flotante, objetos de Python, etc.). Las etiquetas de los ejes se denominan colectivamente índice (index).

### DataFrame

[DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html#pandas.DataFrame) es una estructura de datos de 2-dimensiones con columnas de tipos potencialmente diferentes. Podemos pensar en el DataFrame como una hoja de cálculo o una tabla SQL o como un diccionario de objetos Series.

## Operar con un objeto DataFrame

In [None]:
# Definimos una variable con el path
path_datos = "data/penguins.csv"

# Leemos un archivo de texto separado por comas (csv) y lo instanciamos como un DataFrame
datos = pd.read_csv(path_datos)

In [None]:
# Consultamos el esquema de datos del dataframe
datos.info(verbose=True)

In [None]:
# Listar las columnas del DataFrame 
datos.columns

In [None]:
# Consultar las primeras 5 filas de un DataFrame
datos.head()

## Medidas de tendencia central

Las medidas más comunes para analizar la frecuencia de distribución de los datos son la media, la mediana y la moda.

In [None]:
# Media
datos["flipper_length_mm"].mean()

# QUIZ 1: ¿A qué columnas le puedo calcular la media?

In [None]:
# Mediana
datos["flipper_length_mm"].median()

In [None]:
# Moda
datos["flipper_length_mm"].mode()

In [None]:
# Moda
datos["species"].mode()

## Análisis gráfico de las medidas de centralidad

In [None]:
# Histograma de nuestra variable cuantitativa
datos["flipper_length_mm"].hist()

In [None]:
# Incorporamos Matplotlib
import matplotlib.pyplot as plt

In [None]:
# Visualización de las medidas de tendencia central en relación a la distribución de frecuencias
datos["flipper_length_mm"].hist()
plt.axvline(datos["flipper_length_mm"].mean(), color='k', linestyle='dashed', linewidth=1)
plt.axvline(datos["flipper_length_mm"].median(), color='r', linestyle='dashed', linewidth=1)
plt.axvline(datos["flipper_length_mm"].mode()[0], color='b', linestyle='dashed', linewidth=1)

## Agrupamiento: groupby

Similar a la instrucción _group by_ de SQL.

GroupBy implica uno o más de los siguientes pasos:

 - **Dividir** los datos en grupos según ciertos criterios.
 - **Aplicar** una función a cada grupo de forma independiente.
 - **Combinar** los resultados en una estructura de datos.
 
 Referencia: [Group by: split-apply-combine](https://pandas.pydata.org/docs/user_guide/groupby.html)

In [None]:
# ¿Qué especies hay?
datos.groupby("species").groups.keys()

In [None]:
# ¿Qué datos tiene una determinada especie?
especies = datos.groupby("species")
especies.get_group("Chinstrap")

In [None]:
# ¿Cómo es la longitud media de las aleta (flipper_length_mm) según la especie?
especies["flipper_length_mm"].mean()

## Operaciones de Agregación

In [None]:
# Funciones de agregación
datos[["species", "sex", "flipper_length_mm"]].groupby(["species", "sex"],as_index=False).mean()

## Medidas de Dispersión

El segundo tipo de estadística descriptiva es la medida de dispersión, también conocida como medida de variabilidad. Se utiliza para describir la variabilidad de un conjunto de datos, que puede ser una muestra o una población. 

 - Por lo general, se utiliza junto con una medida de tendencia central para proporcionar una descripción general de un conjunto de datos. 
 - Una medida de dispersión nos da una idea de qué tan bien la tendencia central representa los datos. Si analizamos el conjunto de datos de cerca, a veces, la media/promedio puede no ser la mejor representación de los datos porque variará cuando haya grandes variaciones entre los datos. En tal caso, una medida de dispersión representará la variabilidad en un conjunto de datos con mucha más precisión.

In [None]:
# Desvío Estándar
datos["flipper_length_mm"].std()

In [None]:
# Varianza
datos["flipper_length_mm"].var()

In [None]:
# Cuantiles
datos["flipper_length_mm"].quantile([.05, .5, .95])

In [None]:
datos[["species", "sex", "flipper_length_mm"]].groupby(["species", "sex"],as_index=False).std()

In [None]:
# Agregación aplicando varias funciones a través de .agg()

# Definimos la columna y las funciones que vamos a aplicar
funciones = {'flipper_length_mm': ['median', 'std', 'var']}

datos[["species", "sex", "flipper_length_mm"]].groupby(["species", "sex"],as_index=False).agg(funciones)

## Los números mágicos

In [None]:
# Los Números mágicos de resumen
datos.describe()

# QUIZ 1: ¿Qué tipo de dato son las variables que muestra por default?

In [None]:
# Podemos ver solo las variables categóricas
datos.describe(include='object')

# QUIZ 2: ¿Cómo listarlas todas juntas? ¿Qué caracteristica tiene el resultado y por qué?

## Análisis gráfico: Opciones según la naturaleza de los datos

- Gráficos de dispersión
- Gráficos de barras
- Boxplots

In [None]:
# Gráfico de dispersión
datos.plot.scatter(x="bill_length_mm", y="bill_depth_mm")

In [None]:
# Definimos un diccionario de colores
colores = dict(zip(list(datos.groupby("species").groups.keys()),["red","green","blue"]))
colores

In [None]:
# Coloreamos por especie
lista_colores = [colores[categoria] for categoria in datos["species"]]

datos.plot.scatter(x="bill_length_mm", y="bill_depth_mm", c=lista_colores)

In [None]:
# Gráficos de barras: Cantidad de casos por especie
datos[["species", "id"]].groupby('species').count().plot.bar(y="id")

In [None]:
# Gráficos de barras: Media del largo del pico por especie
datos[["species", "bill_length_mm"]].groupby('species').mean().plot.bar(y="bill_length_mm")

In [None]:
# Gráfico de Torta (pie)
datos.island.value_counts(normalize=True).plot.pie()

In [None]:
# Boxplots por especies
datos[["species", "bill_length_mm"]].boxplot(by="species")

In [None]:
import seaborn as sns

sns.pairplot(data = datos, vars=['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g'], hue="species" )
plt.show()
