# 12 • Análisis exploratorio de datos (EDA)
El EDA es una herramienta de análisis para una revisión iterativa de las bases de datos con la cual describimos las principales características usando estadística descriptiva y visualización de datos.

## Contenido
1. Fuentes de datos
2. Descripción de los datos
3. Limpieza de datos
4. Missing values
5. Visualización de datos
6. EDA un proceso iterativo
7. Referencias

## 1. Fuentes de datos
Existen distintas fuentes de información qu epodemos utilizar para nuestros proyectos, en función de la problemática que inetntemos resolver.

### Datos estructurados y no estructurados
Las fuentes de información las podemos encontra en distintos formatos como base de datos estructuradas y no estructuradas.

Las bases de __datos estructurados__ es información que suele estar presentada en forma de tablas, clasificadas y algunas veces relacionadas. Estas bases de datos son guardadas en Excel o SQL. Algunos formatos son `xls`, `csv`, `json`, entre otros.

Por otro lado, los __datos no estructurados__ contienen una colección de datos sin una estructura específica y pueden estar en distintos formatos como texto, audio, imagen o video, es decir, archivos con terminación `doc`, `pdf`, `mp3`, `mp4`, etc. 

### Privadas y públicas
Las fuentes de datos pueden provenir de información __privada__ que manejan las empresas en sus bases de datos internas, las cuales pueden contener datos personales. En caso de utilizar estas bases de datos, se recomienda darle un tratamiento para no compartir información personal sensible de trabajadores, clientes, empresas, etc.

Las fuentes de datos __públicas__ son publicadas por instituciones públicas, empresas, fundaciones u organizaciones. Alguna de esta información proviene de fuentes oficiales como entidades gubernamentales, bancos centrales, organizaciones inetrnacionales. A continuación comparto algunos lugares donde se puede encontrar fuentes de información pública:

#### México
- [INEGI](https://www.inegi.org.mx/datosabiertos/)
- [Gobierno de México](https://datos.gob.mx/busca/dataset)
- [Banco de México](https://www.banxico.org.mx/SieInternet/)
- [IMSS](http://datos.imss.gob.mx)


#### Mundiales
- [United Nations](https://data.un.org)
- [U.S. Government’s open data](https://data.gov)
- [The World Bank](https://data.worldbank.org)
- [OECD.org](https://stats.oecd.org)
- [World Health Organization](https://www.who.int/data/gho)
- [Common Data Set Initiative](https://commondataset.org)
- [International Monetary Fund](https://www.imf.org/en/Data)
- [Human Development Index](https://hdr.undp.org/data-center)
- [European Commission Eurostat](https://ec.europa.eu/eurostat/data/database)
- [India Human Development Survey](https://ihds.umd.edu/data)
- [Open Data Pakistan](https://opendata.com.pk/dataset)

#### Otras fuentes
- [Kaggle datasets](https://www.kaggle.com/datasets)
- [Hugging Face](https://huggingface.co/datasets)
- [FiveThirtyEight](https://data.fivethirtyeight.com)
- [Awesome Public Datasets en GitHub](https://github.com/awesomedata/awesome-public-datasets)
- [University of Cambridge](https://www.data.cam.ac.uk/repository#University%20repository)

In [None]:
# Import libraries
import pandas as pd
import numpy as np
from datetime import datetime
import re

In [None]:
## To install Altair look the following link
##    https://altair-viz.github.io/getting_started/installation.html
# !pip install altair vega_datasets #<--Instalar desde `pip`
# !conda install -c conda-forge altair vega_datasets #<--Instalar desde `conda`

import altair as alt
alt.renderers.enable('default')

Para este ejercicio utilizaremos la siguiente base de datos: [Pakistan Food Prices](https://opendata.com.pk/dataset/pakistan-food-prices).

Esta base de datos contiene información de precios de comida en Pakistan, a partir de 2004, provenientes del "World Food Programme" y contiene precios de productos como maíz, arroz, frijoles, pescado, azúcar. 

In [None]:
# Load dataset
file = "https://opendata.com.pk/dataset/ec1f8db6-4f93-4d11-b062-c38ac2a5d603/resource/9b42d48c-b689-44ca-a1df-8cf919c5e1d4/download/wfp_food_prices_pakistan.csv"
df_0 = pd.read_csv(file)

## 2. Descripción de los datos

In [None]:
# Save the description of variables
description = df_0.iloc[0].to_dict()
description

In [None]:
# Head of database (& drop description's row)
df = df_0.drop([0])
df.head()

In [None]:
# Variables
df.columns

In [None]:
# Información general
df.info()

In [None]:
## Variables cuantitativas
df.describe()

In [None]:
# Número de términos únicos por variable
df.nunique()

### Información general de la base de datos

In [None]:
# fechas
print("- El rango de fechas va desde {0} hasta {1}.".format(df.date.unique().min(), df.date.unique().max()))

In [None]:
# productos de comida
print("- En la base de datos se consideraron {0} productos distintos:".format(len(df.cmname.unique())))
for i in df.cmname.unique():
    print("    * "+i)

In [None]:
# unidades de medición
print("- Las distintas unidades utilizadas:", df.unit.unique())

In [None]:
# categoría de productos
print("- Las distintas categorías de los productos:")
for i in df.category.unique():
    print("    * "+i)

In [None]:
# precios
print("- El rango de precios va de un min {0} hasta {1}, y su promedio es {2}".format(df.price.unique().min(),
                                                                                      df.price.unique().max(),
                                                                 np.round(pd.to_numeric(df.price).mean(), 2)))

In [None]:
# moneda y país
print("- La moneda utilizada es {0} y los datos corresponden a {1}.".format(df.currency.unique()[0],
                                                                             df.country.unique()[0]))

In [None]:
# administrador de base de datos
print("- Nombres de unidades administrativas:")
for i in df.admname.unique():
    print("    * "+i)

print("\n- ID de unidades administrativas:")
for i in df.adm1id.unique():
    print("    * "+i)

In [None]:
# comercios
print("- Nombre de los comercios:")
for i in df.mktname.unique():
    print("    * "+i)

print("\n- ID de los comercios:")
for i in df.mktid.unique():
    print("    * "+str(int(i)))

In [None]:
# item codes
print("- ID de productos:", df.cmid.unique())

In [None]:
# información sin identificar
print("- Valores para variable 'ptid':",df.ptid.unique())
print("\n- Valores para variable 'umid':",df.umid.unique())
print("\n- Valores para variable 'catid':",df.catid.unique())
print("\n- Valores para variable 'default':",df.default.unique())

In [None]:
# metadata id
print("\n- Valores para variable 'sn':",df.sn.unique())

## 3. Missing values


In [None]:
# Revisar los missing values
df.isnull().sum()

__Nota:__<br>
Ninguna de las variables, con excepción de `default`, tienen valores nulos; para la cual, todos sus valores son nulos (`nan`).

## 4. Limpieza de datos


In [None]:
# actualizar index de base de datos
df.reset_index(drop=True, inplace=True)

In [None]:
# eliminar variable `default` que sólo tienen NaN, y `ptid` que sólo cuenta con 1 valor (15.)
try:
    df.drop(columns=['default', 'ptid'], inplace=True)
except:
    next
    
df.head()

In [None]:
# revisar tipo de variable
df.dtypes

In [None]:
# transformar a variables numéricas:
#    price a float; adm1id, cmid y catid a integer
try:
    df = df.astype({'price':'float','adm1id':'int','cmid':'int','catid':'int'})
except:
    next
    
df.dtypes

In [None]:
# date
try:
    df.date = [datetime.strptime(i, '%Y-%m-%d') for i in df.date]
except:
    next

In [None]:
# productos de comida
# nota: dado que todos productos de comida terminan en "- Retail", aquí borramos 
#       ese texto para hacer más corto el nombre del producto

try:
    cmname_list = list()
    for i in df.cmname.unique():
        cmname_list.append(re.sub(" - Retail", "", i))
    cmname_list

    cmname_dict = dict(zip(list(df.cmname.unique()), cmname_list))

    df['producto'] = df['cmname'].map(cmname_dict)
    df.drop(columns=['cmname'], inplace=True)
except:
    next
    
df.head()

In [None]:
# Información general, segunda revisión
df.info()

In [None]:
## Variables cuantitativas, segunda revisión
df.describe()

## 5. Visualización de datos
Análisis y visualización de la base de datos limpia.

In [None]:
# base de datos limpia
df.tail()

In [None]:
df.info()

### Price

In [None]:
source = pd.DataFrame(df.price.value_counts()).reset_index().rename(columns={"index":"Price", "price":"Frequency"})

In [None]:
# price, general plot
alt.Chart(source).mark_bar().encode(
    alt.X('Price', title="Precio"),
    alt.Y('Frequency', title="Frecuencia"),
    alt.Color('Price', legend=None),
    tooltip=['Price', 'Frequency']
).properties(title="Frecuencia de precios")

In [None]:
# price, histogram
alt.Chart(source).mark_bar().encode(
    alt.X('Price', bin=True, title="Precio"),
    alt.Y('Frequency', title="Frecuencia"),
    alt.Color('Price', bin=True, legend=None),
    tooltip=['Price', 'Frequency']
).properties(title="Histograma de frecuencia de precios")

In [None]:
# price, density function
alt.Chart(source).transform_density(
    'Price',
    as_=['Price', 'density'],
).mark_area().encode(
    alt.X("Price:Q", title="Precio"),
    alt.Y('density:Q', title="Probabilidad"),
    tooltip=['Price']
).properties(title="Distribución de densidad de precios")

In [None]:
# price, log scale density function
alt.Chart(source).transform_density(
    'Price',
    as_=['Price', 'density'],
).mark_area().encode(
    alt.X("Price:Q", title="Precio"),
    y=alt.Y('density:Q', scale=alt.Scale(type="log"), title="Probabilidad"),
    tooltip=['Price']
).properties(title="Distribución de densidad de precios (usando log)")

### Producto

In [None]:
source = pd.DataFrame(df.producto.value_counts()).reset_index().rename(columns={"index":"Producto", "producto":"Frequency"})
source

In [None]:
# price, general plot
alt.Chart(source).mark_bar().encode(
    alt.X('Producto',  sort='-y'),
    alt.Y('Frequency', title="Frecuencia"),
    alt.Color('Producto', legend=None),
    tooltip=['Producto', 'Frequency']
).properties(title="Frecuencia de productos")

### Category

In [None]:
source = pd.DataFrame(df.category.value_counts()).reset_index().rename(columns={"index":"Category", "category":"Frequency"})
source

In [None]:
# price, general plot
alt.Chart(source).mark_bar().encode(
    alt.X('Category',  sort='-y', title="Categoría"),
    alt.Y('Frequency', title="Frecuencia"),
    alt.Color('Category', legend=None),
    tooltip=['Category', 'Frequency']
).properties(title="Frecuencia de categorías")

### Precio promedio por producto a lo largo del tiempo
#### _Price, Date & Producto_

In [None]:
source = pd.pivot_table(df, index=["date", "producto"], values=["price"], aggfunc=np.mean, fill_value=0).reset_index()
source

In [None]:
# Gráfica integrada
plot = alt.Chart(source).mark_line(size = 4).encode(
    alt.X('date:T', title="Fecha"),
    alt.Y('price:Q', title="Precio"),
    alt.Color('producto:N', title="Producto")).properties(title="Precio promedio de productos a lo largo del tiempo",
                width=400, height=300
    )
plot

In [None]:
# Gráfica por producto
plot.properties(width=200, height=200).facet(alt.Facet('producto:N', title=None),
            columns=3
    ).resolve_axis(
        x='independent',
        y='independent'
    ).resolve_scale(
        x='independent', 
        y='independent'
).properties(title={
      "text": ["Precio promedio por producto a lo largo del tiempo"], 
      "subtitle": ["Escalas independientes"],
      "color": "black",
      "subtitleColor": "grey"}
    )

### Precio promedio por categoría de los productos a lo largo del tiempo
#### _Price, Date & Category_

In [None]:
source = pd.pivot_table(df, index=["date", "category"], values=["price"],
                        aggfunc=np.mean, fill_value=0).reset_index()
source

In [None]:
# Gráfica integrada
plot = alt.Chart(source).mark_line(size = 4).encode(
    alt.X('date:T', title="Fecha"),
    alt.Y('price:Q', title="Precio"),
    alt.Color('category:N', title="Categoría")).properties(title="Precio promedio por categoría a lo largo del tiempo",
                width=400, height=300
    )
plot

In [None]:
# Gráfica por producto
plot.properties(width=200, height=200).facet(alt.Facet('category:N', title=None),
            columns=3
    ).resolve_axis(
        x='independent',
        y='independent'
    ).resolve_scale(
        x='independent', 
        y='independent'
).properties(title={
      "text": ["Precio promedio por categoría a lo largo del tiempo"], 
      "subtitle": ["Escalas independientes"],
      "color": "black",
      "subtitleColor": "grey"}         
)

### Precios de la categoría _'meat, fish & eggs'_ por mes y año

In [None]:
source = df[df.category=="meat, fish and eggs"].reset_index()

# para la gráfica cree dos variables nuevas: mes y año
source['year'] = pd.DatetimeIndex(source['date']).year
source['month'] = pd.DatetimeIndex(source['date']).month
print("\nLa categoría 'meat, fish and eggs' tiene un total de", len(source), "registros.\n")
source.head()

In [None]:
alt.Chart(source).mark_rect().encode(
    alt.X("month:O", title = "Mes", axis = alt.Axis(labelAngle = 0)),
    alt.Y('year:O', title = "Año", sort="-y"),
    alt.Color('price:Q', title = "Precio"),
    tooltip=['year', 'month', 'price']
).properties(title={
    "text": ["Precios de categoría proteínas"], 
    "subtitle": ["category: 'meat, fish and eggs'"],
    "color": "black",
    "subtitleColor": "grey"},
             width=400, height=200)

### Precios de productos por categoría y año

In [None]:
source = df.reset_index()
source['year'] = pd.DatetimeIndex(source['date']).year
source = pd.pivot_table(source, index=["producto", "category", "year"], values=["price"],
                        aggfunc=np.mean, fill_value=0).reset_index()
source

In [None]:
alt.Chart(source).mark_point(opacity=0.8, size=100).encode(
    alt.X("price", title = "Precio", axis = alt.Axis(labelAngle = 0)),
    alt.Y('producto', title = "Producto", sort="-y"),
    alt.Shape('category:N', title="Categoría"),
    alt.Color('year:N', title="Año"),
    tooltip=['producto', 'category', 'year', 'price']
).properties(title="Precios de productos por categoría y año", width=400, height=400)

## 6. Comentarios adicionales

- EDA un proceso iterativo:
    - esto debido a que mientras vamos realizando el análisis nos damos cuenta de diversas situaciones o acciones que pueden mejorar nuestra base de datos, como limpiar alguna variable, transformar una variable ya sea en variables numéricas, categóricas o agrupandolas, y mientras más entedamos la base de datos será más fácil trabajar con ellas y realizar mejoras.
    
    - Tener cuidado ⚠️ porque, el EDA al ser un proceso iterativo, podemos "envolvernos" en este proceso y utilizar más tiempo del necesario en esta etapa, lo cual podría tener un impacto en el tiempo de entrega del proyecto.
    
- Además, dependiendo del objetivo del proyecto, se pueden integrar varias bases de datos que se complementen. Por ejemplo, en la base de datos que trabajamos con información de precios de productos básicos de Pakistán, se podría integrar:

    - información *macroeconómica* para ver si estos precios tienen efecto en la economía del país (duuuh, claro!),
    - información *meteorológica* para comparar si los precios se vieron afectados por lluvia, sequía, terremotos, ...
    - bases de datos *de inseguridad y de desemplo* para identificar si tuvo efectos sociales, 
    - bases de datos *demográficas* para identificar los movimientos en precios afectaron las tasas de ancimientos o mortalidad, etc.

## 7. Referencias
- J. VanderPlas. (2016). [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/). O'Reilly Media.

- UBC MDS. (2019). Material público de los cursos [Programación en Python para Data Science](https://github.com/UBC-MDS/DSCI_531_viz-1) y [Visualización de datos I](https://github.com/UBC-MDS/DSCI_531_viz-1) del _Master in Data Science_ de UBC.

- K. Katari. (Aug 21, 2020).[Exploratory Data Analysis(EDA): Python](https://towardsdatascience.com/exploratory-data-analysis-eda-python-87178e35b14). Towards Data Science. 

- J.M. Reid. (Oct 14, 2021). [13 ways to access data in Python](https://towardsdatascience.com/13-ways-to-access-data-in-python-bac5683e0063). Towards Data Science. 

- A.K. Garg, V. Cuspinera-Contreras, Y. Qian. (Oct 2020). [Bike Sharing Machine Learning Model, EDA section](https://github.com/vcuspinera/MDS_Bike_Sharing/blob/master/eda/EDA.ipynb).

- Pure Storage, Inc. (2022). [Datos estructurados frente a datos no estructurados](https://www.purestorage.com/la/knowledge/big-data/structured-vs-unstructured-data.html).

