# 12 • Análisis exploratorio de datos (EDA)
El EDA es una herramienta de análisis para una revisión iterativa de las bases de datos con la cual describimos las principales características usando estadística descriptiva y visualización de datos.

## Contenido
1. Fuentes de datos
2. Descripción de los datos
3. Limpieza de datos
4. Missing values
5. Visualización de datos
6. EDA un proceso iterativo
7. Referencias

## 1. Fuentes de datos
Existen distintas fuentes de información qu epodemos utilizar para nuestros proyectos, en función de la problemática que inetntemos resolver.

### Datos estructurados y no estructurados
Las fuentes de información las podemos encontra en distintos formatos como base de datos estructuradas y no estructuradas.

Las bases de __datos estructurados__ es información que suele estar presentada en forma de tablas, clasificadas y algunas veces relacionadas. Estas bases de datos son guardadas en Excel o SQL. Algunos formatos son `xls`, `csv`, `json`, entre otros.

Por otro lado, los __datos no estructurados__ contienen una colección de datos sin una estructura específica y pueden estar en distintos formatos como texto, audio, imagen o video, es decir, archivos con terminación `doc`, `pdf`, `mp3`, `mp4`, etc. 

### Privadas y públicas
Las fuentes de datos pueden provenir de información __privada__ que manejan las empresas en sus bases de datos internas, las cuales pueden contener datos personales. En caso de utilizar estas bases de datos, se recomienda darle un tratamiento para no compartir información personal sensible de trabajadores, clientes, empresas, etc.

Las fuentes de datos __públicas__ son publicadas por instituciones públicas, empresas, fundaciones u organizaciones. Alguna de esta información proviene de fuentes oficiales como entidades gubernamentales, bancos centrales, organizaciones inetrnacionales. A continuación comparto algunos lugares donde se puede encontrar fuentes de información pública:

#### México
- [INEGI](https://www.inegi.org.mx/datosabiertos/)
- [Gobierno de México](https://datos.gob.mx/busca/dataset)
- [Banco de México](https://www.banxico.org.mx/SieInternet/)
- [IMSS](http://datos.imss.gob.mx)


#### Mundiales
- [United Nations](https://data.un.org)
- [U.S. Government’s open data](https://data.gov)
- [The World Bank](https://data.worldbank.org)
- [OECD.org](https://stats.oecd.org)
- [World Health Organization](https://www.who.int/data/gho)
- [Common Data Set Initiative](https://commondataset.org)
- [International Monetary Fund](https://www.imf.org/en/Data)
- [Human Development Index](https://hdr.undp.org/data-center)
- [European Commission Eurostat](https://ec.europa.eu/eurostat/data/database)
- [India Human Development Survey](https://ihds.umd.edu/data)
- [Open Data Pakistan](https://opendata.com.pk/dataset)

#### Otras fuentes
- [Kaggle datasets](https://www.kaggle.com/datasets)
- [Hugging Face](https://huggingface.co/datasets)
- [FiveThirtyEight](https://data.fivethirtyeight.com)
- [Awesome Public Datasets en GitHub](https://github.com/awesomedata/awesome-public-datasets)
- [University of Cambridge](https://www.data.cam.ac.uk/repository#University%20repository)

In [1]:
# Import libraries
import pandas as pd
import numpy as np
import altair as alt
from datetime import datetime

Para este ejercicio utilizaremos la siguiente base de datos: [Pakistan Food Prices](https://opendata.com.pk/dataset/pakistan-food-prices).

Esta base de datos contiene información de precios de comida en Pakistan, a partir de 2004, provenientes del "World Food Programme" y contiene precios de productos como maíz, arroz, frijoles, pescado, azúcar. 

In [2]:
# Load dataset
file = "https://opendata.com.pk/dataset/ec1f8db6-4f93-4d11-b062-c38ac2a5d603/resource/9b42d48c-b689-44ca-a1df-8cf919c5e1d4/download/wfp_food_prices_pakistan.csv"
df_0 = pd.read_csv(file)

## 2. Descripción de los datos

In [3]:
# Save the description of variables
description = df_0.iloc[0].to_dict()
description

{'date': '#date',
 'cmname': '#item+name',
 'unit': '#item+unit',
 'category': '#item+type',
 'price': '#value',
 'currency': '#currency',
 'country': '#country+name',
 'admname': '#adm1+name',
 'adm1id': '#adm1+code',
 'mktname': '#name+market',
 'mktid': nan,
 'cmid': '#item+code',
 'ptid': nan,
 'umid': nan,
 'catid': '#item+type+code',
 'sn': '#meta+id',
 'default': nan}

In [4]:
# Head of database (& drop description's row)
df = df_0.drop([0])
df.head()

Unnamed: 0,date,cmname,unit,category,price,currency,country,admname,adm1id,mktname,mktid,cmid,ptid,umid,catid,sn,default
1,2004-01-15,Wheat flour - Retail,KG,cereals and tubers,13.0,PKR,Pakistan,Balochistan,2272,Quetta,295.0,58,15.0,5.0,1,295_58_15_5,
2,2004-02-15,Wheat flour - Retail,KG,cereals and tubers,13.0,PKR,Pakistan,Balochistan,2272,Quetta,295.0,58,15.0,5.0,1,295_58_15_5,
3,2004-03-15,Wheat flour - Retail,KG,cereals and tubers,14.25,PKR,Pakistan,Balochistan,2272,Quetta,295.0,58,15.0,5.0,1,295_58_15_5,
4,2004-04-15,Wheat flour - Retail,KG,cereals and tubers,12.5,PKR,Pakistan,Balochistan,2272,Quetta,295.0,58,15.0,5.0,1,295_58_15_5,
5,2004-05-15,Wheat flour - Retail,KG,cereals and tubers,13.25,PKR,Pakistan,Balochistan,2272,Quetta,295.0,58,15.0,5.0,1,295_58_15_5,


In [5]:
# Variables
df.columns

Index(['date', 'cmname', 'unit', 'category', 'price', 'currency', 'country',
       'admname', 'adm1id', 'mktname', 'mktid', 'cmid', 'ptid', 'umid',
       'catid', 'sn', 'default'],
      dtype='object')

In [29]:
# Información general
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7662 entries, 0 to 7661
Data columns (total 15 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   date      7662 non-null   datetime64[ns]
 1   cmname    7662 non-null   object        
 2   unit      7662 non-null   object        
 3   category  7662 non-null   object        
 4   price     7662 non-null   float64       
 5   currency  7662 non-null   object        
 6   country   7662 non-null   object        
 7   admname   7662 non-null   object        
 8   adm1id    7662 non-null   int64         
 9   mktname   7662 non-null   object        
 10  mktid     7662 non-null   float64       
 11  cmid      7662 non-null   int64         
 12  umid      7662 non-null   float64       
 13  catid     7662 non-null   int64         
 14  sn        7662 non-null   object        
dtypes: datetime64[ns](1), float64(3), int64(3), object(8)
memory usage: 898.0+ KB


In [6]:
## Variables cuantitativas
df.describe()

Unnamed: 0,mktid,ptid,umid,default
count,7662.0,7662.0,7662.0,0.0
mean,292.975333,15.0,9.745236,
std,1.404504,0.0,10.767328,
min,291.0,15.0,5.0,
25%,292.0,15.0,5.0,
50%,293.0,15.0,5.0,
75%,294.0,15.0,5.0,
max,295.0,15.0,51.0,


In [7]:
# Número de términos únicos por variable
df.nunique()

date         190
cmname        17
unit           4
category       7
price       2988
currency       1
country        1
admname        4
adm1id         4
mktname        5
mktid          5
cmid          17
ptid           1
umid           4
catid          7
sn            85
default        0
dtype: int64

### Información general de la base de datos

In [8]:
# fechas
print("- El rango de fechas va desde {0} hasta {1}.".format(df.date.unique().min(), df.date.unique().max()))

- El rango de fechas va desde 2004-01-15 hasta 2019-10-15.


In [9]:
# productos de comida
print("- En la base de datos se consideraron {0} productos distintos:".format(len(df.cmname.unique())))
for i in df.cmname.unique():
    print("    * "+i)

- En la base de datos se consideraron 17 productos distintos:
    * Wheat flour - Retail
    * Rice (coarse) - Retail
    * Lentils (masur) - Retail
    * Milk - Retail
    * Oil (cooking) - Retail
    * Wheat - Retail
    * Eggs - Retail
    * Sugar - Retail
    * Ghee (artificial) - Retail
    * Rice (basmati, broken) - Retail
    * Poultry - Retail
    * Salt - Retail
    * Fuel (diesel) - Retail
    * Fuel (petrol-gasoline) - Retail
    * Lentils (moong) - Retail
    * Beans(mash) - Retail
    * Wage (non-qualified labour, non-agricultural) - Retail


In [10]:
# unidades de medición
print("- Las distintas unidades utilizadas:", df.unit.unique())

- Las distintas unidades utilizadas: ['KG' 'L' 'Dozen' 'Day']


In [11]:
# categoría de productos
print("- Las distintas categorías de los productos:")
for i in df.category.unique():
    print("    * "+i)

- Las distintas categorías de los productos:
    * cereals and tubers
    * pulses and nuts
    * milk and dairy
    * oil and fats
    * meat, fish and eggs
    * miscellaneous food
    * non-food


In [12]:
# precios
print("- El rango de precios va de un min {0} hasta {1}, y su promedio es {2}".format(df.price.unique().min(),
                                                                                      df.price.unique().max(),
                                                                 np.round(pd.to_numeric(df.price).mean(), 2)))

- El rango de precios va de un min 10.0 hasta 997.0, y su promedio es 106.92


In [13]:
# moneda y país
print("- La moneda utilizada es {0} y los datos corresponden a {1}.".format(df.currency.unique()[0],
                                                                             df.country.unique()[0]))

- La moneda utilizada es PKR y los datos corresponden a Pakistan.


In [14]:
# administrador de base de datos
print("- Nombres de unidades administrativas:")
for i in df.admname.unique():
    print("    * "+i)

print("\n- ID de unidades administrativas:")
for i in df.adm1id.unique():
    print("    * "+i)

- Nombres de unidades administrativas:
    * Balochistan
    * Khyber Pakhtunkhwa
    * Punjab
    * Sindh

- ID de unidades administrativas:
    * 2272
    * 2275
    * 2276
    * 2277


In [15]:
# comercios
print("- Nombre de los comercios:")
for i in df.mktname.unique():
    print("    * "+i)

print("\n- ID de los comercios:")
for i in df.mktid.unique():
    print("    * "+str(int(i)))

- Nombre de los comercios:
    * Quetta
    * Peshawar
    * Lahore
    * Multan
    * Karachi

- ID de los comercios:
    * 295
    * 294
    * 291
    * 292
    * 293


In [16]:
# item codes
print("- ID de productos:", df.cmid.unique())

- ID de productos: ['58' '60' '61' '81' '82' '84' '92' '97' '106' '122' '138' '185' '284'
 '285' '325' '326' '465']


In [17]:
# información sin identificar
print("- Valores para variable 'ptid':",df.ptid.unique())
print("\n- Valores para variable 'umid':",df.umid.unique())
print("\n- Valores para variable 'catid':",df.catid.unique())
print("\n- Valores para variable 'default':",df.default.unique())

- Valores para variable 'ptid': [15.]

- Valores para variable 'umid': [ 5. 15. 35. 51.]

- Valores para variable 'catid': ['1' '5' '3' '6' '2' '7' '8']

- Valores para variable 'default': [nan]


In [18]:
# metadata id
print("\n- Valores para variable 'sn':",df.sn.unique())


- Valores para variable 'sn': ['295_58_15_5' '295_60_15_5' '295_61_15_5' '295_81_15_15' '295_82_15_15'
 '295_84_15_5' '295_92_15_35' '295_97_15_5' '295_106_15_5' '295_122_15_5'
 '295_138_15_5' '295_185_15_5' '295_284_15_15' '295_285_15_15'
 '295_325_15_5' '295_326_15_5' '295_465_15_51' '294_58_15_5' '294_60_15_5'
 '294_61_15_5' '294_81_15_15' '294_82_15_15' '294_84_15_5' '294_92_15_35'
 '294_97_15_5' '294_106_15_5' '294_122_15_5' '294_138_15_5' '294_185_15_5'
 '294_284_15_15' '294_285_15_15' '294_325_15_5' '294_326_15_5'
 '294_465_15_51' '291_58_15_5' '291_60_15_5' '291_61_15_5' '291_81_15_15'
 '291_82_15_15' '291_84_15_5' '291_92_15_35' '291_97_15_5' '291_106_15_5'
 '291_122_15_5' '291_138_15_5' '291_185_15_5' '291_284_15_15'
 '291_285_15_15' '291_325_15_5' '291_326_15_5' '291_465_15_51'
 '292_58_15_5' '292_60_15_5' '292_61_15_5' '292_81_15_15' '292_82_15_15'
 '292_84_15_5' '292_92_15_35' '292_97_15_5' '292_106_15_5' '292_122_15_5'
 '292_138_15_5' '292_185_15_5' '292_284_15_15' '292_

## 3. Missing values


In [19]:
# Revisar los missing values
df.isnull().sum()

date           0
cmname         0
unit           0
category       0
price          0
currency       0
country        0
admname        0
adm1id         0
mktname        0
mktid          0
cmid           0
ptid           0
umid           0
catid          0
sn             0
default     7662
dtype: int64

__Nota:__<br>
Ninguna de las variables, con excepción de `default`, tienen valores nulos; para la cual, todos sus valores son nulos (`nan`).

## 4. Limpieza de datos


In [20]:
# actualizar index de base de datos
df.reset_index(drop=True, inplace=True)

In [21]:
# eliminar variable `default` que sólo tienen NaN, y `ptid` que sólo cuenta con 1 valor (15.)
try:
    df.drop(columns=['default', 'ptid'], inplace=True)
except:
    next
    
df.head()

Unnamed: 0,date,cmname,unit,category,price,currency,country,admname,adm1id,mktname,mktid,cmid,umid,catid,sn
0,2004-01-15,Wheat flour - Retail,KG,cereals and tubers,13.0,PKR,Pakistan,Balochistan,2272,Quetta,295.0,58,5.0,1,295_58_15_5
1,2004-02-15,Wheat flour - Retail,KG,cereals and tubers,13.0,PKR,Pakistan,Balochistan,2272,Quetta,295.0,58,5.0,1,295_58_15_5
2,2004-03-15,Wheat flour - Retail,KG,cereals and tubers,14.25,PKR,Pakistan,Balochistan,2272,Quetta,295.0,58,5.0,1,295_58_15_5
3,2004-04-15,Wheat flour - Retail,KG,cereals and tubers,12.5,PKR,Pakistan,Balochistan,2272,Quetta,295.0,58,5.0,1,295_58_15_5
4,2004-05-15,Wheat flour - Retail,KG,cereals and tubers,13.25,PKR,Pakistan,Balochistan,2272,Quetta,295.0,58,5.0,1,295_58_15_5


In [22]:
# revisar tipo de variable
df.dtypes

date         object
cmname       object
unit         object
category     object
price        object
currency     object
country      object
admname      object
adm1id       object
mktname      object
mktid       float64
cmid         object
umid        float64
catid        object
sn           object
dtype: object

In [23]:
# transformar a variables numéricas:
#    price a float; adm1id, cmid y catid a integer
try:
    df = df.astype({'price':'float','adm1id':'int','cmid':'int','catid':'int'})
except:
    next
    
df.dtypes

date         object
cmname       object
unit         object
category     object
price       float64
currency     object
country      object
admname      object
adm1id        int64
mktname      object
mktid       float64
cmid          int64
umid        float64
catid         int64
sn           object
dtype: object

In [24]:
# date
try:
    df.date = [datetime.strptime(i, '%Y-%m-%d') for i in df.date]
except:
    next

In [31]:
# Información general, segunda revisión
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7662 entries, 0 to 7661
Data columns (total 15 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   date      7662 non-null   datetime64[ns]
 1   cmname    7662 non-null   object        
 2   unit      7662 non-null   object        
 3   category  7662 non-null   object        
 4   price     7662 non-null   float64       
 5   currency  7662 non-null   object        
 6   country   7662 non-null   object        
 7   admname   7662 non-null   object        
 8   adm1id    7662 non-null   int64         
 9   mktname   7662 non-null   object        
 10  mktid     7662 non-null   float64       
 11  cmid      7662 non-null   int64         
 12  umid      7662 non-null   float64       
 13  catid     7662 non-null   int64         
 14  sn        7662 non-null   object        
dtypes: datetime64[ns](1), float64(3), int64(3), object(8)
memory usage: 898.0+ KB


In [32]:
## Variables cuantitativas, segunda revisión
df.describe()

Unnamed: 0,price,adm1id,mktid,cmid,umid,catid
count,7662.0,7662.0,7662.0,7662.0,7662.0,7662.0
mean,106.919688,2275.241321,292.975333,140.65727,9.745236,3.488906
std,124.318398,1.692555,1.404504,107.135975,10.767328,2.724781
min,9.0,2272.0,291.0,58.0,5.0,1.0
25%,36.9225,2275.0,292.0,61.0,5.0,1.0
50%,72.73,2276.0,293.0,97.0,5.0,2.0
75%,138.3975,2276.0,294.0,138.0,5.0,6.0
max,997.0,2277.0,295.0,465.0,51.0,8.0


## 5. Visualización de datos
Análisis y visualización de la base de datos limpia.

In [138]:
# Use the following to show altair plots in GitHub:
# Source: https://stackoverflow.com/questions/71346406/why-are-my-altair-data-visualizations-not-showing-up-in-github

alt.renderers.enable('altair_viewer') # <-- Usual way but not displaying in GitHub
# alt.renderers.enable('jupyterlab') # <-- for JupyterLab or
#alt.renderers.enable('notebook') # <-- for Jupyter Notebook

RendererRegistry.enable('altair_viewer')

In [132]:
# base de datos limpia
df.tail()

Unnamed: 0,date,cmname,unit,category,price,currency,country,admname,adm1id,mktname,mktid,cmid,umid,catid,sn
7657,2019-06-15,"Wage (non-qualified labour, non-agricultural) ...",Day,non-food,988.0,PKR,Pakistan,Sindh,2277,Karachi,293.0,465,51.0,8,293_465_15_51
7658,2019-07-15,"Wage (non-qualified labour, non-agricultural) ...",Day,non-food,988.0,PKR,Pakistan,Sindh,2277,Karachi,293.0,465,51.0,8,293_465_15_51
7659,2019-08-15,"Wage (non-qualified labour, non-agricultural) ...",Day,non-food,988.0,PKR,Pakistan,Sindh,2277,Karachi,293.0,465,51.0,8,293_465_15_51
7660,2019-09-15,"Wage (non-qualified labour, non-agricultural) ...",Day,non-food,984.0,PKR,Pakistan,Sindh,2277,Karachi,293.0,465,51.0,8,293_465_15_51
7661,2019-10-15,"Wage (non-qualified labour, non-agricultural) ...",Day,non-food,994.0,PKR,Pakistan,Sindh,2277,Karachi,293.0,465,51.0,8,293_465_15_51


In [133]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7662 entries, 0 to 7661
Data columns (total 15 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   date      7662 non-null   datetime64[ns]
 1   cmname    7662 non-null   object        
 2   unit      7662 non-null   object        
 3   category  7662 non-null   object        
 4   price     7662 non-null   float64       
 5   currency  7662 non-null   object        
 6   country   7662 non-null   object        
 7   admname   7662 non-null   object        
 8   adm1id    7662 non-null   int64         
 9   mktname   7662 non-null   object        
 10  mktid     7662 non-null   float64       
 11  cmid      7662 non-null   int64         
 12  umid      7662 non-null   float64       
 13  catid     7662 non-null   int64         
 14  sn        7662 non-null   object        
dtypes: datetime64[ns](1), float64(3), int64(3), object(8)
memory usage: 898.0+ KB


### Price

In [134]:
source = pd.DataFrame(df.price.value_counts()).reset_index().rename(columns={"index":"Price", "price":"Frequency"})

In [139]:
# price, general plot
alt.Chart(source).mark_bar().encode(
    alt.X('Price'),
    alt.Y('Frequency'),
    alt.Color('Price', legend=None),
    tooltip=['Price', 'Frequency']
)

In [140]:
# price, histogram
alt.Chart(source).mark_bar().encode(
    alt.X('Price', bin=True),
    alt.Y('Frequency'),
    alt.Color('Price', bin=True, legend=None),
    tooltip=['Price', 'Frequency']
)

In [141]:
# price, density function
alt.Chart(source).transform_density(
    'Price',
    as_=['Price', 'density'],
).mark_area().encode(
    x="Price:Q",
    y='density:Q',
    tooltip=['Price']
)

In [142]:
# price, log scale density function
alt.Chart(source).transform_density(
    'Price',
    as_=['Price', 'density'],
).mark_area().encode(
    x="Price:Q",
    y=alt.Y('density:Q', scale=alt.Scale(type="log")),
    tooltip=['Price']
)

## 6. EDA un proceso iterativo

## 7. Referencias
- J. VanderPlas. (2016). [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/). O'Reilly Media.
- K. Katari. (Aug 21, 2020).["Exploratory Data Analysis(EDA): Python"](https://towardsdatascience.com/exploratory-data-analysis-eda-python-87178e35b14). Towards Data Science. 
- Material público de los cursos [Programación en Python para Data Science](https://github.com/UBC-MDS/DSCI_531_viz-1) y [Visualización de datos I](https://github.com/UBC-MDS/DSCI_531_viz-1) de UBC MDS.
- Pure Storage, Inc. (2022). [Datos estructurados frente a datos no estructurados](https://www.purestorage.com/la/knowledge/big-data/structured-vs-unstructured-data.html).