#### Diplomado en Ciencia de Datos
Módulo 2: Business Intelligence  
## **Tema 1: Niveles de Medida y Agregación**

*Notebook by [Pedro V Hernandez Serrano](https://github.com/pedrohserrano)*

---
![](../img/header.jpg)

# Niveles de medida

En matemáticas y estadística, **el nivel de medida de una variable es una clasificación acordada con el fin de describir la naturaleza de la información contenida dentro de los números asignados a los objetos** y, por lo tanto, dentro de una variable (Salkind, N. J., 1998)

Entender el nivel de medida de una variable es importante en la visualización de datos porque determina los tipos de visualizaciones y operaciones estadísticas que se pueden aplicar.

# Niveles de agregación

La agregación de datos se refiere al **proceso de transformar datos individuales a un formato resumido mediante la aplicación de operaciones como agrupación, suma, promedio o recuento**. Esto se logra mediante métodos como "group by" o "pivot", que organizan y condensan puntos de datos individuales en una descripción general de nivel superior, lo que facilita la identificación de patrones, tendencias y perspectivas en diferentes categorías o dimensiones. Permitiendo un análisis y una visualización más eficiente.


**The Pandas Cheatsheet (el acordeon de la paquetería pandas)**.  

✅ [Data Wrangling with Pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)

---
## Regla general para agrupar en Python

```python
______.groupby('categorical_____')['numerical_____'].agg(['operation_____'])

# Example
dataset.groupby('continent')['lifeExp'].agg(['mean'])
```

## The Data: Global flows

Para este notebook, usaremos el [ejemplo de Gapminder](https://www.gapminder.org/fw/world-health-chart/), un dataset que ya está contenido en la biblioteca de Plotly, pero también en un CSV en este repo. El dataset contiene información sobre la esperanza de vida, la población y el PIB per cápita de los países por año.

Este dataset se hizo famoso ya que se ha utilizado constantemente para ilustrar el poder de la visualización de datos en diferentes conferencias, presentaciones, paneles e infografías.

Aquí abajo hay un video que explica los datos de Gapminder en un buen ejercicio de visualización de datos en la vida real (haz clic en reproducir ►).  
También te dejo un enlace al video. 

In [1]:
import pandas as pd
dataset = pd.read_csv('../data/gapminder_data_world_health.csv')

In [2]:
dataset

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
0,Afghanistan,Asia,1952,28.801,8425333,779.445314,AFG,4
1,Afghanistan,Asia,1957,30.332,9240934,820.853030,AFG,4
2,Afghanistan,Asia,1962,31.997,10267083,853.100710,AFG,4
3,Afghanistan,Asia,1967,34.020,11537966,836.197138,AFG,4
4,Afghanistan,Asia,1972,36.088,13079460,739.981106,AFG,4
...,...,...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306,ZWE,716
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786,ZWE,716
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960,ZWE,716
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623,ZWE,716


# EJERCICIO 1

1. Describe las variables del dataset en los correspondientes tipos de datos y medidas. 
- Cuales variables son categoricas y cuales son numéricas?
- Cuales son continuas de intervalo, continuas de ratio, nominales y ordinales?

2. Utiliza la función de pandas `dataset.dtypes`
- Describe cual es la relación entre los "data types" que utiliza pandas y las que describiste el el punto anterior

In [None]:
"""
Tipo en pandas*

Tipo object:country, continent
Tipo de variable: Categórica
Medida: Nominal
year: Año de la observación.
Tipo : int64
variable: Numérica
Medida: Continua de Intervalo 
lifeExp: Esperanza de vida en el país.
Tipo: float64
variable: Numérica
Medida: Continua de Ratio
pop: Población del país.
Tipo : int64
variable: Numérica
Medida: Continua de Ratio
gdpPercap: PIB percapita del país.
Tipo : float64
variable: Numérica
Medida: Continua de Ratio
iso_alpha: Código de país.
Tipo : object
variable: Categórica
Medida: Nominal
iso_num: Código numérico del país.
Tipo : int64
variable: Categórica
Medida: Nominal
"""

In [8]:
import pandas as pd


dataset = pd.read_csv('../data/gapminder_data_world_health.csv')

print(dataset.dtypes)




country       object
continent     object
year           int64
lifeExp      float64
pop            int64
gdpPercap    float64
iso_alpha     object
iso_num        int64
dtype: object


# EJERCICIO 2

- Utiliza la función `groupby` para agrupar los datos por continente y calcula el promedio de la columna `lifeExp` (esperanza de vida) para cada grupo.

In [None]:
# ______.groupby('categorical_____')['numerical_____'].agg(['operation_____'])




# EJERCICIO 3

- Extiende el ejercicio anterior para que, además del promedio de `lifeExp`, también calcules el valor máximo y mínimo de la esperanza de vida para cada continente.

In [None]:
# ______.groupby('categorical_____')['numerical_____'].agg(['operation_____'])




# EJERCICIO 4

- Crea una tabla dinámica (pivot table) que muestre el promedio de `lifeExp` para cada continente (filas), con los años como columnas  
Nota: ve los ejemplos de como se usa la función `pivot_table` de pandas. [Ejemplos](https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html)

# EJERCICIO 5 

- Agrupa los datos por continente y calcula la suma de la columna `iso_num` para cada grupo.  
Reflexiona sobre el significado de esta suma en el contexto de los datos.

In [None]:
# ______.groupby('categorical_____')['numerical_____'].agg(['operation_____'])




## 🎉🎉 Congrats!!  

## You've finished the notebook