#### Diplomado en Ciencia de Datos
M√≥dulo 2: Business Intelligence  
## **Tema 1: Niveles de Medida y Agregaci√≥n**

*Notebook by [Pedro V Hernandez Serrano](https://github.com/pedrohserrano)*

---
![](header.jpg)

# Niveles de medida

En matem√°ticas y estad√≠stica, **el nivel de medida de una variable es una clasificaci√≥n acordada con el fin de describir la naturaleza de la informaci√≥n contenida dentro de los n√∫meros asignados a los objetos** y, por lo tanto, dentro de una variable (Salkind, N. J., 1998)

Entender el nivel de medida de una variable es importante en la visualizaci√≥n de datos porque determina los tipos de visualizaciones y operaciones estad√≠sticas que se pueden aplicar.

# Niveles de agregaci√≥n

La agregaci√≥n de datos se refiere al **proceso de transformar datos individuales a un formato resumido mediante la aplicaci√≥n de operaciones como agrupaci√≥n, suma, promedio o recuento**. Esto se logra mediante m√©todos como "group by" o "pivot", que organizan y condensan puntos de datos individuales en una descripci√≥n general de nivel superior, lo que facilita la identificaci√≥n de patrones, tendencias y perspectivas en diferentes categor√≠as o dimensiones. Permitiendo un an√°lisis y una visualizaci√≥n m√°s eficiente.


**The Pandas Cheatsheet (el acordeon de la paqueter√≠a pandas)**.  

‚úÖ [Data Wrangling with Pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)

---
## Regla general para agrupar en Python

```python
______.groupby('categorical_____')['numerical_____'].agg(['operation_____'])

# Example
dataset.groupby('continent')['lifeExp'].agg(['mean'])
```

## The Data: Global flows

Para este notebook, usaremos el [ejemplo de Gapminder](https://www.gapminder.org/fw/world-health-chart/), un dataset que ya est√° contenido en la biblioteca de Plotly, pero tambi√©n en un CSV en este repo. El dataset contiene informaci√≥n sobre la esperanza de vida, la poblaci√≥n y el PIB per c√°pita de los pa√≠ses por a√±o.

Este dataset se hizo famoso ya que se ha utilizado constantemente para ilustrar el poder de la visualizaci√≥n de datos en diferentes conferencias, presentaciones, paneles e infograf√≠as.

Aqu√≠ abajo hay un video que explica los datos de Gapminder en un buen ejercicio de visualizaci√≥n de datos en la vida real (haz clic en reproducir ‚ñ∫).  
Tambi√©n te dejo un enlace al video. 

In [2]:
import pandas as pd
dataset = pd.read_csv('data/gapminder_data_world_health.csv')

In [3]:
dataset

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
0,Afghanistan,Asia,1952,28.801,8425333,779.445314,AFG,4
1,Afghanistan,Asia,1957,30.332,9240934,820.853030,AFG,4
2,Afghanistan,Asia,1962,31.997,10267083,853.100710,AFG,4
3,Afghanistan,Asia,1967,34.020,11537966,836.197138,AFG,4
4,Afghanistan,Asia,1972,36.088,13079460,739.981106,AFG,4
...,...,...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306,ZWE,716
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786,ZWE,716
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960,ZWE,716
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623,ZWE,716


# EJERCICIO 1

1. Describe las variables del dataset en los correspondientes tipos de datos y medidas. 
- Cuales variables son categoricas y cuales son num√©ricas?
- Cuales son continuas de intervalo, continuas de ratio, nominales y ordinales?

2. Utiliza la funci√≥n de pandas `dataset.dtypes`
- Describe cual es la relaci√≥n entre los "data types" que utiliza pandas y las que describiste el el punto anterior

In [4]:
#1
dataset.columns

Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap',
       'iso_alpha', 'iso_num'],
      dtype='object')

'country': Categorico nominal \
'continent': Categorico nominal \
'year': Num√©rico discreto \
'lifeExp': Num√©rico, continuo de ratio\
'pop': Num√©rico, continuo de ratio \
'gdpPercap': Numerico continuo de ratio \
'iso_alpha': Categorico nominal\
'iso_num': Categorico nominal

In [7]:
#2. 
dataset.dtypes

country       object
continent     object
year           int64
lifeExp      float64
pop            int64
gdpPercap    float64
iso_alpha     object
iso_num        int64
dtype: object

"data types" de pandas identifica los tipos de variables, por ejemplo, las categ√≥ricas nominales, las identifica como objetos. Mientras que las num√©ricas discretas en int, las continias como float. Sin embargo, tambi√©n los c√≥digos n√∫mericos los identifica como n√∫meros (int). 

# EJERCICIO 2

- Utiliza la funci√≥n `groupby` para agrupar los datos por continente y calcula el promedio de la columna `lifeExp` (esperanza de vida) para cada grupo.

In [11]:
# ______.groupby('categorical_____')['numerical_____'].agg(['operation_____'])
prom_lifeExp = dataset.groupby(['continent']).agg(
    {
        'lifeExp':'mean'
    }
)
print(prom_lifeExp)

prom_lifeExp2 = dataset.groupby('continent')['lifeExp'].agg({'mean'})
print(prom_lifeExp2)


             lifeExp
continent           
Africa     48.865330
Americas   64.658737
Asia       60.064903
Europe     71.903686
Oceania    74.326208
                mean
continent           
Africa     48.865330
Americas   64.658737
Asia       60.064903
Europe     71.903686
Oceania    74.326208


# EJERCICIO 3

- Extiende el ejercicio anterior para que, adem√°s del promedio de `lifeExp`, tambi√©n calcules el valor m√°ximo y m√≠nimo de la esperanza de vida para cada continente.

In [12]:
# ______.groupby('categorical_____')['numerical_____'].agg(['operation_____'])


prom_max_min_lifeExp = dataset.groupby('continent')['lifeExp'].agg({'mean', 'max','min'})
print(prom_max_min_lifeExp)

              max       mean     min
continent                           
Africa     76.442  48.865330  23.599
Americas   80.653  64.658737  37.579
Asia       82.603  60.064903  28.801
Europe     81.757  71.903686  43.585
Oceania    81.235  74.326208  69.120


# EJERCICIO 4

- Crea una tabla din√°mica (pivot table) que muestre el promedio de `lifeExp` para cada continente (filas), con los a√±os como columnas  
Nota: ve los ejemplos de como se usa la funci√≥n `pivot_table` de pandas. [Ejemplos](https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html)

In [18]:
table_lifeExp = pd.pivot_table(dataset, values='lifeExp', index=['continent'],
                       columns=['year'], aggfunc="mean")#, fill_value=0)
print(table_lifeExp)


year            1952       1957       1962       1967       1972       1977  \
continent                                                                     
Africa     39.135500  41.266346  43.319442  45.334538  47.450942  49.580423   
Americas   53.279840  55.960280  58.398760  60.410920  62.394920  64.391560   
Asia       46.314394  49.318544  51.563223  54.663640  57.319269  59.610556   
Europe     64.408500  66.703067  68.539233  69.737600  70.775033  71.937767   
Oceania    69.255000  70.295000  71.085000  71.310000  71.910000  72.855000   

year            1982       1987       1992       1997       2002       2007  
continent                                                                    
Africa     51.592865  53.344788  53.629577  53.598269  53.325231  54.806038  
Americas   66.228840  68.090720  69.568360  71.150480  72.422040  73.608120  
Asia       62.617939  64.851182  66.537212  68.020515  69.233879  70.728485  
Europe     72.806400  73.642167  74.440100  75.505167  7

# EJERCICIO 5 

- Agrupa los datos por continente y calcula la suma de la columna `iso_num` para cada grupo.  
Reflexiona sobre el significado de esta suma en el contexto de los datos.

In [30]:
# ______.groupby('categorical_____')['numerical_____'].agg(['operation_____'])

sum_iso_num = dataset.groupby('continent')['iso_num'].agg({'sum'})
print(sum_iso_num)


              sum
continent        
Africa     286308
Americas   118116
Asia       160248
Europe     153948
Oceania      7080


iso_num entiendo que es un c√≥digo que identifica a cada pa√≠s, por lo que en este caso, estamos sumando n√∫meros que representan categor√≠as nominales, no n√∫meros como tal. Es decir, no deber√≠amos hacer esta suma, porque aunque se pueda realizar por ser n√∫meros, en cuanto al contexto de los datos, nos brinda informaci√≥n err√≥nea.

## üéâüéâ Congrats!!  

## You've finished the notebook