#### Diplomado en Ciencia de Datos
Módulo 2: Business Intelligence  
## **Tema 1: Niveles de Medida y Agregación**

*Notebook by [Pedro V Hernandez Serrano](https://github.com/pedrohserrano)*

---
![](../img/header.jpg)

# Niveles de medida

En matemáticas y estadística, **el nivel de medida de una variable es una clasificación acordada con el fin de describir la naturaleza de la información contenida dentro de los números asignados a los objetos** y, por lo tanto, dentro de una variable (Salkind, N. J., 1998)

Entender el nivel de medida de una variable es importante en la visualización de datos porque determina los tipos de visualizaciones y operaciones estadísticas que se pueden aplicar.

# Niveles de agregación

La agregación de datos se refiere al **proceso de transformar datos individuales a un formato resumido mediante la aplicación de operaciones como agrupación, suma, promedio o recuento**. Esto se logra mediante métodos como "group by" o "pivot", que organizan y condensan puntos de datos individuales en una descripción general de nivel superior, lo que facilita la identificación de patrones, tendencias y perspectivas en diferentes categorías o dimensiones. Permitiendo un análisis y una visualización más eficiente.


**The Pandas Cheatsheet (el acordeon de la paquetería pandas)**.  

✅ [Data Wrangling with Pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)

---
## Regla general para agrupar en Python

```python
______.groupby('categorical_____')['numerical_____'].agg(['operation_____'])

# Example
dataset.groupby('continent')['lifeExp'].agg(['mean'])
```

## The Data: Global flows

Para este notebook, usaremos el [ejemplo de Gapminder](https://www.gapminder.org/fw/world-health-chart/), un dataset que ya está contenido en la biblioteca de Plotly, pero también en un CSV en este repo. El dataset contiene información sobre la esperanza de vida, la población y el PIB per cápita de los países por año.

Este dataset se hizo famoso ya que se ha utilizado constantemente para ilustrar el poder de la visualización de datos en diferentes conferencias, presentaciones, paneles e infografías.

Aquí abajo hay un video que explica los datos de Gapminder en un buen ejercicio de visualización de datos en la vida real (haz clic en reproducir ►).  
También te dejo un enlace al video. 

In [1]:
import pandas as pd
dataset = pd.read_csv('../data/gapminder_data_world_health.csv')

In [2]:
dataset

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
0,Afghanistan,Asia,1952,28.801,8425333,779.445314,AFG,4
1,Afghanistan,Asia,1957,30.332,9240934,820.853030,AFG,4
2,Afghanistan,Asia,1962,31.997,10267083,853.100710,AFG,4
3,Afghanistan,Asia,1967,34.020,11537966,836.197138,AFG,4
4,Afghanistan,Asia,1972,36.088,13079460,739.981106,AFG,4
...,...,...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306,ZWE,716
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786,ZWE,716
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960,ZWE,716
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623,ZWE,716


# EJERCICIO 1

1. Describe las variables del dataset en los correspondientes tipos de datos y medidas. 
- Cuales variables son categoricas y cuales son numéricas?
- Cuales son continuas de intervalo, continuas de ratio, nominales y ordinales?

2. Utiliza la función de pandas `dataset.dtypes`
- Describe cual es la relación entre los "data types" que utiliza pandas y las que describiste el el punto anterior

- country - Categorica
- continent	- Categorica
- year - Numerica- discreta
- lifeExp -  Numerica- ratio
- pop - Numerica- dicreata
- gdpPercap - Numerica- ratio
- iso_alpha - Categorica
- iso_num - Categorica

In [3]:

dataset.dtypes



country       object
continent     object
year           int64
lifeExp      float64
pop            int64
gdpPercap    float64
iso_alpha     object
iso_num        int64
dtype: object

In [None]:
#la mayoria de las categoricas python las toma como objetos y por ejemplo la de ratio son float64, solo la de iso_num la identifica como int pero es categorica porque es un identificador de país

# EJERCICIO 2

- Utiliza la función `groupby` para agrupar los datos por continente y calcula el promedio de la columna `lifeExp` (esperanza de vida) para cada grupo.

In [4]:
# ______.groupby('categorical_____')['numerical_____'].agg(['operation_____'])



dataset.groupby('continent')['lifeExp'].agg(['mean'])

Unnamed: 0_level_0,mean
continent,Unnamed: 1_level_1
Africa,48.86533
Americas,64.658737
Asia,60.064903
Europe,71.903686
Oceania,74.326208


# EJERCICIO 3

- Extiende el ejercicio anterior para que, además del promedio de `lifeExp`, también calcules el valor máximo y mínimo de la esperanza de vida para cada continente.

In [10]:
# ______.groupby('categorical_____')['numerical_____'].agg(['operation_____'])



dataset.groupby('continent').agg(
    promedio = pd.NamedAgg(column='lifeExp', aggfunc = 'mean'),
    max_lifeExp	= pd.NamedAgg(column = 'lifeExp' , aggfunc = max),
    min_lifeExp	= pd.NamedAgg(column = 'lifeExp' , aggfunc = min)
)

Unnamed: 0_level_0,promedio,max_lifeExp,min_lifeExp
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Africa,48.86533,76.442,23.599
Americas,64.658737,80.653,37.579
Asia,60.064903,82.603,28.801
Europe,71.903686,81.757,43.585
Oceania,74.326208,81.235,69.12


# EJERCICIO 4

- Crea una tabla dinámica (pivot table) que muestre el promedio de `lifeExp` para cada continente (filas), con los años como columnas  
Nota: ve los ejemplos de como se usa la función `pivot_table` de pandas. [Ejemplos](https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html)

In [19]:

table = pd.pivot_table(dataset, values='lifeExp', index='continent',
                       columns='year', aggfunc='mean')
table


year,1952,1957,1962,1967,1972,1977,1982,1987,1992,1997,2002,2007
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Africa,39.1355,41.266346,43.319442,45.334538,47.450942,49.580423,51.592865,53.344788,53.629577,53.598269,53.325231,54.806038
Americas,53.27984,55.96028,58.39876,60.41092,62.39492,64.39156,66.22884,68.09072,69.56836,71.15048,72.42204,73.60812
Asia,46.314394,49.318544,51.563223,54.66364,57.319269,59.610556,62.617939,64.851182,66.537212,68.020515,69.233879,70.728485
Europe,64.4085,66.703067,68.539233,69.7376,70.775033,71.937767,72.8064,73.642167,74.4401,75.505167,76.7006,77.6486
Oceania,69.255,70.295,71.085,71.31,71.91,72.855,74.29,75.32,76.945,78.19,79.74,80.7195


# EJERCICIO 5 

- Agrupa los datos por continente y calcula la suma de la columna `iso_num` para cada grupo.  
Reflexiona sobre el significado de esta suma en el contexto de los datos.

In [20]:
# ______.groupby('categorical_____')['numerical_____'].agg(['operation_____'])


dataset.groupby('continent')['iso_num'].agg(['sum'])

#No es correcta esta suma dado que iso_num es un identificador de pais y no un valor al cual se le puedan aplicar operaciones :) 

Unnamed: 0_level_0,sum
continent,Unnamed: 1_level_1
Africa,286308
Americas,118116
Asia,160248
Europe,153948
Oceania,7080


## 🎉🎉 Congrats!!  

## You've finished the notebook