[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/m-durand/propedeutico_python/blob/main/notebooks/6_eda_geda.ipynb)

# Propedéutico a programación con Python.

**Verano 2024, por el Centro de Ciencia de Datos, EGobiernoyTP.**

### Sesión 5: EDA y GEDA

1. Introducción a análisis de datos
    - Objetivos 
    - Tipos de estructura de datos
    - Tipos de exploración de datos
2. EDA/GEDA
    - Definir el tipo de dato
        - Categóricas
        - Numéricas
        - Fechas
        - Texto
        - Geolocalización
    - Algunos principios de visualización 
    - Análisis práctica

## 1. Introducción a análisis de datos

### 1.1 Objetivos:

- Conocer los datos con los que resolveremos el problema.
- Conocer el contexto del negocio y validar datos con negocio.
- Identificar errores en la adquisición de datos.
- Validar si tenemos datos relevantes y suficientes.
- **Identificar variables**, para la geración e identificación de variables.
- Estudiar y dedicar tiempo (60%) a los datos con los que cuentas.

### 1.2 Tipos de estructuras datos.

- Tabular
    - variables
    - observaciones
    - valores
- No tabular
    - No son estructuras definidas
    - No se almacenan en tablas
    - Objetos Json, grafos

### 1.3 Tipos de exploración de datos

- Exploratory Data Analysis (EDA)
- Graphical Exploratory Data Analysis (GEDA)
    - Esencial en todo proceso de análisis de datos o machine learning.
    - Describir aspectos importantes de los datos.
    - Se hace antes del análisis estadístico o modelado.
    - No sólo confíen en los estadísticos descriptivos -> [Cuarteto de Anscombe](https://www.autodesk.com/research/publications/same-stats-different-graphs)
    
    <img src="https://damassets.autodesk.net/content/dam/autodesk/research/publications-assets/gifs/same-stats-different-graphs/DinoSequentialSmaller.gif"  width="60%">

- NO SOLO USEN BOXPLOTS

<img src="https://damassets.autodesk.net/content/dam/autodesk/research/publications-assets/gifs/same-stats-different-graphs/boxplots.gif"  width="80%">

## 2. EDA y GEDA

### 2.1 Definir tipo de variable

#### Numéricas 
- Tipo: float o integer
- Número de observaciones
- Medidas de centralidad y dispersión: Mean, SD, Cuartiles, max, min, curtosis. 
- Gráficos: 
    - Histograma 
    - boxplots
    - scatterplot
    - matriz de correlación
    - Density plot

#### Categóricas
- Tipo: object
- Número de categorías
- Moda
- número de observaciones por categoría
- Gráficos de barras, lollipop, slope chart

#### Fechas
- Inicio, fin
- Periodicidad de información
- formato de fecha
- Graficos de líneas-series de tiempo, headmaps

#### Otros:

- Texto
    - NLP
    - Wordclouds

- Geolocalización 
    - Latitud, longitud
    - Direcciones
    - Mapas

### 2.2 Algunos principios de visualización

- Buscar la calidad, relevancia e integridad de la información.
- Integrar la información de manera visual.
- Muestra comparaciones, contrastes, diferencias.
- [Utiliza colores adecuados](https://pbs.twimg.com/media/FoMRYKUWQAEIl7N?format=jpg&name=large)
- Muestra datos multivariados. 
- Describe la totalidad de la evidencia.
- **Hagan gráficos pensando en que se expliquen por sí solos.**


¿Qué entienden por este gráfico?

<img src="https://tereom.github.io/fundamentos/images/tufte_cancer.jpg"  width="80%">

- No distorsionar la información por la visualización 

<div>
<img align="left" src="https://miro.medium.com/v2/resize:fit:640/format:webp/1*Q7Woxxy8QXJuQ2_3peDkTQ.png" width="40%">

<img align="right" src="https://miro.medium.com/v2/resize:fit:828/format:webp/1*XgEcfL8fK_gnB_Xh5GhK-A.png" width="50%">
</div>

### 2.3 Análisis

In [None]:
import numpy as np
import pandas as pd

# paquetes para gráficos
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
pd.set_option('display.max_rows', 2000)

In [None]:
pd.set_option('display.max_columns', 10)

In [None]:
#from google.colab import drive
#drive.mount('/content/drive', force_remount=True) 
#my_path = '/content/drive/MyDrive/propedeutico_python-main' 

## Datos
#df = pd.read_csv(my_path + '/datos/indicadores.csv', dtype='str')

In [None]:
# Datos
df = pd.read_csv('https://raw.githubusercontent.com/m-durand/propedeutico_python/main/datos/indicadores.csv')

In [None]:
df.shape

In [None]:
df.dtypes

In [None]:
df.columns

In [None]:
# Seleccionando solo variables de interes y reordenarlas
df = df[['año', 'entidad', 'cre_tot', 
        'def', 'edad_med', 'ind_env',
        'hom_mit_año','muj_mit_año','pob_mit_año',
         'muj_30_64','hom_30_64','pob_30_64']]

In [None]:
df['entidad'].unique()

In [None]:
columnas_num = ['año',  'hom_mit_año','muj_mit_año','pob_mit_año']

df[columnas_num] = df[columnas_num].astype('int64')

In [None]:
df.shape

In [None]:
df.dtypes

In [None]:
df.describe()

### Histogramas y boxplots

In [None]:
# Ajustes de gráficos
sns.set(style='whitegrid',rc={'figure.figsize':(5,3)})

In [None]:
sns.histplot(x=df['edad_med']);

In [None]:
sns.boxplot(x=df['edad_med']);

In [None]:
sns.histplot(x=df['pob_mit_año']);

In [None]:
sns.boxplot(x=df['pob_mit_año']);

In [None]:
sns.boxplot(x=df['pob_mit_año'],showfliers=False);

In [None]:
df['pob_mit_año'].describe()

In [None]:
df2 = df[df['pob_mit_año']<12e6]

In [None]:
plt.figure(figsize=(8,5))
sns.histplot(x=df2['pob_mit_año'],label='Población')
sns.histplot(x=df2['muj_mit_año'],kde=True,label='Población mujeres')
sns.histplot(x=df2['hom_mit_año'],kde=True,label='Población hombres')
plt.legend();

In [None]:
sns.set(style='whitegrid',rc={'figure.figsize':(5,4)})

In [None]:
# Para hacer un boxplot con sns debemos pasar las columnas a formato log.
df_melted = pd.melt(df2[(['pob_mit_año','muj_mit_año','hom_mit_año'])])

In [None]:
df_melted.head(5)

In [None]:
sns.boxplot(x='value',y='variable', data=df_melted, orient='h');

In [None]:
categories_interes = ['Puebla', 'Ciudad de México', 'México']
df3 = df2[df2['entidad'].isin(categories_interes)]
sns.histplot(data=df3, x='muj_mit_año', hue='entidad');

In [None]:
sns.boxplot(data=df3, x='muj_mit_año', y='entidad');

In [None]:
def categorize_age(row):
    if row['edad_med'] <= 18:
        return 'menor_edad'
    elif 18 < row['edad_med'] <= 35:
        return 'joven_adulto'
    elif 35 < row['edad_med'] <= 55:
        return 'adulto'
    else:
        return 'mayor_edad'

In [None]:
df3['edad_med_cate'] = df3.apply(categorize_age, axis=1)

In [None]:
# Conteo entre variables categoricas
sns.countplot(data=df3,x='entidad',hue='edad_med_cate');

In [None]:
# Conteo entre variables categoricas
sns.catplot(data=df3,
            x='edad_med_cate',y='muj_mit_año', col='entidad',
            kind='bar', height=4, col_wrap=4);

In [None]:
df2['edad_med_cate'] = df2.apply(categorize_age, axis=1)

In [None]:
# Conteo entre variables categoricas
sns.catplot(data=df2,
            x='edad_med_cate',y='muj_mit_año', col='entidad',
            kind='bar', height=4, col_wrap=4);

#### Referencias y links útiles para visualización
- [Principios de visualización](https://tereom.github.io/fundamentos/principios-de-visualizaci%C3%B3n.html#ref-tufte06).
- [Data to viz](https://www.data-to-viz.com/index.html).
- [Python graph gallery](https://www.python-graph-gallery.com/)
- [How to make better looking charts in python](https://learningactors.com/how-to-make-better-looking-charts-in-python/)
- [50 matplotlib visualizations to master plots in python](https://www.machinelearningplus.com/plots/top-50-matplotlib-visualizations-the-master-plots-python/)
- [R graph gallery](https://r-graph-gallery.com/).
- [The Art of Data Science](https://bookdown.org/rdpeng/artofdatascience/).