<a href="https://colab.research.google.com/github/veneco/Apiwhatsapp/blob/main/Copia_de_dds_intro_py_02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análisis de Datos con `pandas`

**Diplomado en Data Science Versión 2024** <br>
**Facultad de Matemáticas**<br>
**Pontificia Universidad Católica de Chile**

---

## Asignación Ayudantes

| Ayudante          | Desde                             | Hasta                            |
|-------------------|-----------------------------------|----------------------------------|
| Vanesa Reinoso    | Milena Evelyn Aburto Vivians      | Nicolas Ernesto Carvajal Ahumada |
| Josefa Silva      | Eduardo Castillo Castan           | Jose Ignacio Galvez Gutierrez    |
| Bladimir Morales  | Carlos Garces Vasquez             | Maria Francisca Lyng Villagra    |
| Benjamín Urrutia  | Sofia Madariaga Alvarado          | Francesca Palacios               |
| Diego Aravena     | Paul Michael Celso Parra Muoz     | Felipe Solis Ramrez              |
| Felipe Moya       | Andrés Soto Saldivia              | Milenka Zuvic Pinochet           |


<a id="que-es-pandas"></a>
### ¿Qué es Pandas?
<img src="https://www.kindpng.com/picc/b/574-5747046_pandas-png.png" width="500">

* Es una librería escrita como extensión de NumPy para manipulación y análisis de datos.
* Fue desarrollada en 2008 con el propósito de manejar series de tiempo. Su nombre se puede descomponer como _Panel Data_.
* Por convención se importa con el alias `pd`.
* Tiene soporte para cargar y guardar archivos fuera de Python.
* Rápida conexión con otras librerías como `NumPy`, `Matplotlib`, `SciPy` y `scikit-learn`.
* Soporte para transformación de datos.
* Manejo de datos faltantes.
* Documentación: <https://pandas.pydata.org/docs/>.
* Etc.

<a id="estructura-dataframe-y-series"></a>
### Estructura DataFrame y Series

* `Series`: Estructura de datos unidimensional con un conjunto de datos asociados a un índice. Se puede crear directamente desde un array o una lista. Su estructura subyaciente es el array de *NumPy*, por lo que hereda la mayoría de sus atributos y métodos.
* `DataFrame`: Es una estructura de datos bidimensional, compuesta de una colección de `Series` del mismo tamaño, potencialmente heterogéneas. Se puede crear directamente desde una lista, array multidimensional o diccionario. Cada una de las `Series` que le compone llevan un nombre que se conoce como *variable* o *característica*.
* Para una visualización correcta de `DataFrame`s dentro de los *Jupyter Notebook*s, cambiaremos `print` por la función `display` proveniente de la librería `IPython` (es cargada automáticamente `jupyter`) .

In [None]:
# Ejemplo de crear Series
import pandas as pd
precios = [1000, 2000, 1500, 300, 600, 500, 5000]

precios_series = pd.Series(precios)
print(precios_series)
print(precios_series[4]) # Accedemos al 5to elemento

0    1000
1    2000
2    1500
3     300
4     600
5     500
6    5000
dtype: int64
600


In [None]:
# Ejemplo de crear DataFrame a partir de un diccionario.
diccionario = [
    {"idSpotify": 1, "nombre": "La Bachata", "artista": "Manuel Turizo", "repr": 269343},
    {"idSpotify": 2, "nombre": "Te Felicito", "artista": "Shakira", "repr": 101857},
    {"idSpotify": 3, "nombre": "Shakira: Bzrp Mussic Sessions, Vol. 53", "artista": "Shakira", "repr": 533493},
    {"idSpotify": 4, "nombre": "Parcera", "artista": "Pailita", "repr": 159147}
] # Es una lista, en donde cada elemento es un diccionario

data_canciones = pd.DataFrame(diccionario)
display(data_canciones) # display es para mostrarlo a pesar de que hayan mas objetos

Unnamed: 0,idSpotify,nombre,artista,repr
0,1,La Bachata,Manuel Turizo,269343
1,2,Te Felicito,Shakira,101857
2,3,"Shakira: Bzrp Mussic Sessions, Vol. 53",Shakira,533493
3,4,Parcera,Pailita,159147


* Además, podemos asignar una columna como índice, cumpliendo la función de _identificador_ dentro del conjunto de datos.
* Un *identificador* no aporta una carácterística respecto a una observación, sino que solo tiene el fin de *identificarla*. Ejemplos: *RUT*, *Número de cliente*, *Patente*, etc.
* Se puede establecer un índice para los objetos del tipo `DataFrame` mediante el método `set_index(nombre_columna)`.

In [None]:
# Ejemplo de aplicar índice
data_indice = data_canciones.set_index("idSpotify") # idSpotify no aporta información
# data_indice = data_canciones.set_index(["idSpotify", "artista"])
display(data_indice)

data_indice = data_canciones.set_index(["idSpotify", "artista"])
display(data_indice)


Unnamed: 0_level_0,nombre,artista,repr
idSpotify,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,La Bachata,Manuel Turizo,269343
2,Te Felicito,Shakira,101857
3,"Shakira: Bzrp Mussic Sessions, Vol. 53",Shakira,533493
4,Parcera,Pailita,159147


Unnamed: 0_level_0,Unnamed: 1_level_0,nombre,repr
idSpotify,artista,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Manuel Turizo,La Bachata,269343
2,Shakira,Te Felicito,101857
3,Shakira,"Shakira: Bzrp Mussic Sessions, Vol. 53",533493
4,Pailita,Parcera,159147


<a id="carga-de-datasets"></a>
### Carga de datasets
* `pandas` puede leer datos desde una gran variedad de formatos usando sus funciones de carga, estas comienzan con el prefijo `read_*()`.
* Para cargar un archivo, este debe estar en el mismo directorio que este cuadernillo.
* Algunas funciones para lectura de datos externos.

| Formato                    | Tipo de archivo | Separador por defecto | Función            |
|----------------------------|-----------------|-----------------------|--------------------|
| Comma Separated Values     | `.csv`          | `,`                   | `pd.read_csv()`    |
| Text File                  | `.txt`          | Espacio en blanco     | `pd.read_table()`  |
| Javascript Object Notation | `.json`         | No aplica             | `pd.read_json()`   |
| Excel                      | `.xlsx`, `.xls` | No aplica             | `pd.read_excel()`* |
| SQL                        | No aplica       | No aplica             | `pd.read_sql()`    |
| Web                        | Link            | No aplica             | `pd.read_html()`   |
| SPSS                       | `.sav`          | No aplica             | `pd.read_spss()`   |
| SAS                        | `.sas7bdat`     | No aplica             | `pd.read_sas()`    |
| STATA                      | `.dta`          | No aplica             | `pd.read_stata()`  |

* Podemos indicar algunos parámetros adicionales a la ruta del archivo como `index_col`, `sep`, `columns`, `skiprows`, `encoding`, `parse_dates`, etc.
* Encodings usuales:
    * `encoding="UTF-8"`: suele solucionar algunos problemas de lectura.
    * `encoding="latin1"`: para bases de datos provenientes de fuentes chilenas.
* En particular, el parámetro `parse_dates` debe recibir una lista con las variables que se desee reconocer como fechas, estás deben seguir el estándar [ISO 8601](https://www.iso.org/iso-8601-date-and-time-format.html).
* Accedemos a las cinco primeras observaciones de un objeto del tipo `DataFrame` con el método `head()`.

Caguemos la base de datos `mcdonalds.xlsx`, que muestra datos sobre la información nutricional sobre algunos de sus alimentos a la venta.

In [None]:
# Ejemplo de cargar bases de datos. Con archivo "mcdonalds.xlsx".
# data = pd.read_excel("mcdonalds.xlsx")
#data = pd.read_excel("datos/mcdonalds.xlsx")
data = pd.read_excel("mcdonalds.xlsx", sheet_name="Products", index_col="articulo_id", parse_dates=["fecha_analisis"])
display(data.head())# Muestra las cinco primeras filas del data frame

Unnamed: 0_level_0,fecha_analisis,categoria,tamano_porcion,calorias,calorias_de_grasa,grasa_total,grasa_total_pct_diario,grasa_saturada,grasa_saturada_pct_diario,grasas_trans,...,carbohidratos,carbohidratos_pct_diario,fibra_dietetica,fibra_dietetica_pct_diario,azucares,proteina,vitamina_a_pct_diario,vitamina_c_pct_diario,calcio_pct_diario,hierro_pct_diario
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
A1,2023-02-23,Desayuno,136,300,120,13.0,20,5.0,25.0,0.0,...,31,10,4,17,3,17,10,0,25,15
A2,2023-02-20,Desayuno,135,250,70,8.0,12,3.0,15.0,0.0,...,30,10,4,17,3,18,6,0,25,8
A3,2023-01-25,Desayuno,111,370,200,23.0,35,8.0,42.0,0.0,...,29,10,4,17,2,14,8,0,25,10
A4,2023-02-07,Desayuno,161,450,250,28.0,43,10.0,52.0,0.0,...,30,10,4,17,2,21,15,0,30,15
A5,2023-01-23,Desayuno,161,400,210,23.0,35,8.0,42.0,0.0,...,30,10,4,17,2,21,6,0,25,10


<a id="analisis-inicial-de-datos"></a>
### Análisis Inicial de Datos

* Es necesario para obtener una perspectiva general de nuestros datos, antes de realizar un análisis más profundo.
* Las dimensiones de la base de datos las obtenemos con el atributo `shape`.
* Obtenemos el nombre de las variables de la base de datos con el atributo `columns`.
* Visualizamos tipos de variables y datos faltantes con el método `info()`.
* Obtenemos una descripción cuantitativa con el método `describe()`.

In [None]:
# Uso de shape
print("Dimensiones:", data.shape)

Dimensiones: (121, 24)


In [None]:
# Uso de columns
print("Variables:", data.columns)

Variables: Index(['fecha_analisis', 'categoria', 'tamano_porcion', 'calorias',
       'calorias_de_grasa', 'grasa_total', 'grasa_total_pct_diario',
       'grasa_saturada', 'grasa_saturada_pct_diario', 'grasas_trans',
       'colesterol', 'colesterol_pct_diario', 'sodio', 'sodio_pct_diario',
       'carbohidratos', 'carbohidratos_pct_diario', 'fibra_dietetica',
       'fibra_dietetica_pct_diario', 'azucares', 'proteina',
       'vitamina_a_pct_diario', 'vitamina_c_pct_diario', 'calcio_pct_diario',
       'hierro_pct_diario'],
      dtype='object')


In [None]:
# Uso de info()
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 121 entries, A1 to A121
Data columns (total 24 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   fecha_analisis              121 non-null    datetime64[ns]
 1   categoria                   121 non-null    object        
 2   tamano_porcion              121 non-null    int64         
 3   calorias                    121 non-null    int64         
 4   calorias_de_grasa           121 non-null    int64         
 5   grasa_total                 121 non-null    float64       
 6   grasa_total_pct_diario      121 non-null    int64         
 7   grasa_saturada              121 non-null    float64       
 8   grasa_saturada_pct_diario   115 non-null    float64       
 9   grasas_trans                121 non-null    float64       
 10  colesterol                  121 non-null    int64         
 11  colesterol_pct_diario       121 non-null    int64         
 1

* El tipo de variable `object`, hace referencia a que el contenido de esta son elementos del tipo `str` (o sea, la variable es cualitativa).
* El tipo de variable `datetime64[ns]`, significa que la fecha está siendo medida en nanosegundos. Este formato es necesario para manipular las fechas de forma apropiada.

In [None]:
# Uso de describe para variables cuantitativas
#display(data.describe()) #Estadísticas de las variables cuantitativas en data frame
#display(data.describe().T) #Transpuesta de las estadísticas
display(data.describe())

Unnamed: 0,fecha_analisis,tamano_porcion,calorias,calorias_de_grasa,grasa_total,grasa_total_pct_diario,grasa_saturada,grasa_saturada_pct_diario,grasas_trans,colesterol,...,carbohidratos,carbohidratos_pct_diario,fibra_dietetica,fibra_dietetica_pct_diario,azucares,proteina,vitamina_a_pct_diario,vitamina_c_pct_diario,calcio_pct_diario,hierro_pct_diario
count,121,121.0,121.0,121.0,121.0,121.0,121.0,115.0,121.0,121.0,...,121.0,121.0,121.0,121.0,121.0,121.0,121.0,121.0,121.0,121.0
mean,2023-01-31 03:34:12.892561920,204.61157,462.066116,200.371901,22.27686,34.31405,7.884298,39.226087,0.235537,89.380165,...,45.743802,15.231405,2.636364,10.553719,13.46281,19.92562,17.115702,12.347107,17.429752,14.479339
min,2023-01-01 00:00:00,29.0,15.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,4.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,2023-01-18 00:00:00,143.0,330.0,110.0,12.0,18.0,3.5,18.5,0.0,30.0,...,32.0,11.0,2.0,6.0,3.0,11.0,2.0,0.0,10.0,8.0
50%,2023-01-31 00:00:00,185.0,440.0,190.0,21.0,33.0,8.0,36.0,0.0,50.0,...,42.0,14.0,3.0,10.0,7.0,20.0,6.0,2.0,15.0,15.0
75%,2023-02-15 00:00:00,251.0,540.0,260.0,29.0,45.0,11.0,55.0,0.0,90.0,...,55.0,18.0,3.0,13.0,14.0,27.0,10.0,15.0,25.0,20.0
max,2023-02-27 00:00:00,646.0,1880.0,1060.0,118.0,182.0,20.0,102.0,2.5,575.0,...,139.0,46.0,7.0,28.0,128.0,87.0,170.0,160.0,70.0,40.0
std,,98.982269,251.856994,138.693555,15.449508,23.809673,5.033538,25.265975,0.479037,115.732397,...,24.404757,8.138141,1.565248,6.349476,20.357653,12.567926,33.965716,24.841065,11.615239,8.365703


In [None]:
# Uso de describe para variables cualitativas
# object: variable cualitativa
display(data.describe(include=["object"]))

Unnamed: 0,categoria
count,121
unique,8
top,Desayuno
freq,42


<a id="subconjuntos-de-columnas-en-dataframes"></a>
### Subconjuntos de columnas en DataFrames

* Contamos con muchas formas de abordar la selección de subconjuntos de columnas, estas son algunas:
* __Incorporar subsetting directamente__: `datos[lista_de_columnas]`.
* __De acuerdo a su posición__: `datos.iloc[:, indices_de_columnas]`.
* __Eliminar columnas__: `datos.drop(columns=columnas_a_eliminar)`.
* Si seleccionamos solo una variable, obtendremos un objeto del tipo `Series`.

In [None]:
# Ejemplo 1: Seleccionar la columna 'sodio'
print(data["sodio"])

articulo_id
A1      750
A2      770
A3      780
A4      860
A5      880
       ... 
A117    280
A118    380
A119    190
A120    400
A121    200
Name: sodio, Length: 121, dtype: int64


In [None]:
# Ejemplo 2: Seleccionar las columnas que terminen con la palabra 'diario'
print("Columnas:", data.columns)
print("Máscara:", data.columns.str.endswith('diario'))
columnas_diario = data.columns[data.columns.str.endswith('diario')]
print("Columnas a seleccionar:", columnas_diario)
# Ahora realizamos la selección en la base de datos
data_diario = data[columnas_diario]
display(data_diario.head())

Columnas: Index(['fecha_analisis', 'categoria', 'tamano_porcion', 'calorias',
       'calorias_de_grasa', 'grasa_total', 'grasa_total_pct_diario',
       'grasa_saturada', 'grasa_saturada_pct_diario', 'grasas_trans',
       'colesterol', 'colesterol_pct_diario', 'sodio', 'sodio_pct_diario',
       'carbohidratos', 'carbohidratos_pct_diario', 'fibra_dietetica',
       'fibra_dietetica_pct_diario', 'azucares', 'proteina',
       'vitamina_a_pct_diario', 'vitamina_c_pct_diario', 'calcio_pct_diario',
       'hierro_pct_diario'],
      dtype='object')
Máscara: [False False False False False False  True False  True False False  True
 False  True False  True False  True False False  True  True  True  True]
Columnas a seleccionar: Index(['grasa_total_pct_diario', 'grasa_saturada_pct_diario',
       'colesterol_pct_diario', 'sodio_pct_diario', 'carbohidratos_pct_diario',
       'fibra_dietetica_pct_diario', 'vitamina_a_pct_diario',
       'vitamina_c_pct_diario', 'calcio_pct_diario', 'hierro_pc

Unnamed: 0_level_0,grasa_total_pct_diario,grasa_saturada_pct_diario,colesterol_pct_diario,sodio_pct_diario,carbohidratos_pct_diario,fibra_dietetica_pct_diario,vitamina_a_pct_diario,vitamina_c_pct_diario,calcio_pct_diario,hierro_pct_diario
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
A1,20,25.0,87,31,10,17,10,0,25,15
A2,12,15.0,8,32,10,17,6,0,25,8
A3,35,42.0,15,33,10,17,8,0,25,10
A4,43,52.0,95,36,10,17,15,0,30,15
A5,35,42.0,16,37,10,17,6,0,25,10


In [None]:
# Ejemplo 3: Seleccionar las 3 primeras columnas de la base de datos
data_3_col = data.iloc[:, :3]
display(data_3_col.head())

Unnamed: 0_level_0,fecha_analisis,categoria,tamano_porcion
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A1,2023-02-23,Desayuno,136
A2,2023-02-20,Desayuno,135
A3,2023-01-25,Desayuno,111
A4,2023-02-07,Desayuno,161
A5,2023-01-23,Desayuno,161


In [None]:
## Ejemplo 4: Eliminar columnas que terminen con "diario" de la base de datos -> menos preciso
## drop crea un DataFrame nuevo sin las columnas que le indique -> más preciso
data_sin_diario = data.drop(columns=columnas_diario)
display(data_sin_diario.head())

Unnamed: 0_level_0,fecha_analisis,categoria,tamano_porcion,calorias,calorias_de_grasa,grasa_total,grasa_saturada,grasas_trans,colesterol,sodio,carbohidratos,fibra_dietetica,azucares,proteina
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
A1,2023-02-23,Desayuno,136,300,120,13.0,5.0,0.0,260,750,31,4,3,17
A2,2023-02-20,Desayuno,135,250,70,8.0,3.0,0.0,25,770,30,4,3,18
A3,2023-01-25,Desayuno,111,370,200,23.0,8.0,0.0,45,780,29,4,2,14
A4,2023-02-07,Desayuno,161,450,250,28.0,10.0,0.0,285,860,30,4,2,21
A5,2023-01-23,Desayuno,161,400,210,23.0,8.0,0.0,50,880,30,4,2,21



### Selección de filas en DataFrames

**Según su posición**

* Para seleccinar filas de acuerdo a su posición, utilizaremos `data.iloc[seleccion_filas, :]`
* Notar que con `iloc` se puede mezclar la selección de filas y columnas.

In [None]:
# Ejemplo 1: Seleccionar las filas 11 a 15 de la base de datos
data_10_15 = data.iloc[10:15, :]
display(data_10_15)

Unnamed: 0_level_0,fecha_analisis,categoria,tamano_porcion,calorias,calorias_de_grasa,grasa_total,grasa_total_pct_diario,grasa_saturada,grasa_saturada_pct_diario,grasas_trans,...,carbohidratos,carbohidratos_pct_diario,fibra_dietetica,fibra_dietetica_pct_diario,azucares,proteina,vitamina_a_pct_diario,vitamina_c_pct_diario,calcio_pct_diario,hierro_pct_diario
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
A11,2023-01-03,Desayuno,117,430,240,27.0,42,12.0,62.0,0.0,...,34,11,2,6,2,11,0,0,6,15
A12,2023-02-02,Desayuno,131,480,280,31.0,48,13.0,,0.0,...,39,13,3,11,3,11,4,0,8,15
A13,2023-01-08,Desayuno,163,510,290,33.0,50,14.0,71.0,0.0,...,36,12,2,6,2,18,6,0,10,20
A14,2023-01-06,Desayuno,177,570,330,37.0,57,15.0,74.0,0.0,...,42,14,3,11,3,18,10,0,10,20
A15,2023-02-11,Desayuno,167,460,250,27.0,42,12.0,62.0,0.0,...,34,11,2,6,3,18,0,0,8,15


In [None]:
# Ejemplo 2: Seleccionar filas 5 a 15 y columnas 10 a la 13
display(data.iloc[4:15, 9:13])

Unnamed: 0_level_0,grasas_trans,colesterol,colesterol_pct_diario,sodio
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A5,0.0,50,16,880
A6,1.0,300,100,960
A7,0.0,250,83,1300
A8,0.0,250,83,1410
A9,0.0,35,11,1300
A10,0.0,35,11,1420
A11,0.0,30,10,1080
A12,0.0,30,10,1190
A13,0.0,250,83,1170
A14,0.0,250,83,1280


**Según una condición**

* Además, para seleccionar filas podemos usar filtros, esto es seleccionar solo las que cumplan cierta condición.
* Algunas formas son las siguientes:
* __Escribir directamente la condición__: `datos[condicion]`. (para consultas más complejas)
* __Método query__: `datos.query("condicion")`. (para consultas más sencillas)
* __Importante__: los operadores `and` y `or` en pandas son reemplazados por `&` y `|` y las condiciones deben estar entre parentesis.

In [None]:
data["categoria"]

articulo_id
A1      Desayuno
A2      Desayuno
A3      Desayuno
A4      Desayuno
A5      Desayuno
          ...   
A117     Batidos
A118     Batidos
A119     Batidos
A120     Batidos
A121     Batidos
Name: categoria, Length: 121, dtype: object

In [None]:
# Ejemplo 1.1: Filtrar alimentos que sean de la categoría "Desayuno"
condicion = data["categoria"] == "Desayuno"
data_desayuno = data[condicion]
display(data_desayuno.head())

Unnamed: 0_level_0,fecha_analisis,categoria,tamano_porcion,calorias,calorias_de_grasa,grasa_total,grasa_total_pct_diario,grasa_saturada,grasa_saturada_pct_diario,grasas_trans,...,carbohidratos,carbohidratos_pct_diario,fibra_dietetica,fibra_dietetica_pct_diario,azucares,proteina,vitamina_a_pct_diario,vitamina_c_pct_diario,calcio_pct_diario,hierro_pct_diario
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
A1,2023-02-23,Desayuno,136,300,120,13.0,20,5.0,25.0,0.0,...,31,10,4,17,3,17,10,0,25,15
A2,2023-02-20,Desayuno,135,250,70,8.0,12,3.0,15.0,0.0,...,30,10,4,17,3,18,6,0,25,8
A3,2023-01-25,Desayuno,111,370,200,23.0,35,8.0,42.0,0.0,...,29,10,4,17,2,14,8,0,25,10
A4,2023-02-07,Desayuno,161,450,250,28.0,43,10.0,52.0,0.0,...,30,10,4,17,2,21,15,0,30,15
A5,2023-01-23,Desayuno,161,400,210,23.0,35,8.0,42.0,0.0,...,30,10,4,17,2,21,6,0,25,10


In [None]:
# Ejemplo 1.2: Usando método query
data_desayuno2 = data.query("categoria == 'Desayuno'")
display(data_desayuno2.head())

Unnamed: 0_level_0,fecha_analisis,categoria,tamano_porcion,calorias,calorias_de_grasa,grasa_total,grasa_total_pct_diario,grasa_saturada,grasa_saturada_pct_diario,grasas_trans,...,carbohidratos,carbohidratos_pct_diario,fibra_dietetica,fibra_dietetica_pct_diario,azucares,proteina,vitamina_a_pct_diario,vitamina_c_pct_diario,calcio_pct_diario,hierro_pct_diario
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
A1,2023-02-23,Desayuno,136,300,120,13.0,20,5.0,25.0,0.0,...,31,10,4,17,3,17,10,0,25,15
A2,2023-02-20,Desayuno,135,250,70,8.0,12,3.0,15.0,0.0,...,30,10,4,17,3,18,6,0,25,8
A3,2023-01-25,Desayuno,111,370,200,23.0,35,8.0,42.0,0.0,...,29,10,4,17,2,14,8,0,25,10
A4,2023-02-07,Desayuno,161,450,250,28.0,43,10.0,52.0,0.0,...,30,10,4,17,2,21,15,0,30,15
A5,2023-01-23,Desayuno,161,400,210,23.0,35,8.0,42.0,0.0,...,30,10,4,17,2,21,6,0,25,10


In [None]:
# Ejemplo 2: Seleccionar alimentos que fueron analizados
# los primeros siete días de febrero de 2023
condicion1 = data["fecha_analisis"] >= "2023-02-01"
condicion2 = data["fecha_analisis"] <= "2023-02-07"
condicion = condicion1 & condicion2
data_feb = data[condicion]
display(data_feb.head())

Unnamed: 0_level_0,fecha_analisis,categoria,tamano_porcion,calorias,calorias_de_grasa,grasa_total,grasa_total_pct_diario,grasa_saturada,grasa_saturada_pct_diario,grasas_trans,...,carbohidratos,carbohidratos_pct_diario,fibra_dietetica,fibra_dietetica_pct_diario,azucares,proteina,vitamina_a_pct_diario,vitamina_c_pct_diario,calcio_pct_diario,hierro_pct_diario
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
A4,2023-02-07,Desayuno,161,450,250,28.0,43,10.0,52.0,0.0,...,30,10,4,17,2,21,15,0,30,15
A6,2023-02-01,Desayuno,185,430,210,23.0,36,9.0,46.0,1.0,...,31,10,4,18,3,26,15,2,30,20
A12,2023-02-02,Desayuno,131,480,280,31.0,48,13.0,,0.0,...,39,13,3,11,3,11,4,0,8,15
A20,2023-02-02,Desayuno,174,460,190,21.0,32,9.0,44.0,0.0,...,48,16,2,9,15,19,10,10,20,15
A35,2023-02-02,Desayuno,437,1050,450,50.0,77,16.0,81.0,0.0,...,115,38,7,28,18,35,4,2,25,30


In [None]:
data[(data["fecha_analisis"] >= "2023-02-01") & (data["fecha_analisis"] <= "2023-02-07")]

Unnamed: 0_level_0,fecha_analisis,categoria,tamano_porcion,calorias,calorias_de_grasa,grasa_total,grasa_total_pct_diario,grasa_saturada,grasa_saturada_pct_diario,grasas_trans,...,carbohidratos,carbohidratos_pct_diario,fibra_dietetica,fibra_dietetica_pct_diario,azucares,proteina,vitamina_a_pct_diario,vitamina_c_pct_diario,calcio_pct_diario,hierro_pct_diario
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
A4,2023-02-07,Desayuno,161,450,250,28.0,43,10.0,52.0,0.0,...,30,10,4,17,2,21,15,0,30,15
A6,2023-02-01,Desayuno,185,430,210,23.0,36,9.0,46.0,1.0,...,31,10,4,18,3,26,15,2,30,20
A12,2023-02-02,Desayuno,131,480,280,31.0,48,13.0,,0.0,...,39,13,3,11,3,11,4,0,8,15
A20,2023-02-02,Desayuno,174,460,190,21.0,32,9.0,44.0,0.0,...,48,16,2,9,15,19,10,10,20,15
A35,2023-02-02,Desayuno,437,1050,450,50.0,77,16.0,81.0,0.0,...,115,38,7,28,18,35,4,2,25,30
A44,2023-02-06,Carne de cerdo,202,520,240,26.0,41,12.0,61.0,1.5,...,41,14,3,11,10,30,10,2,30,25
A49,2023-02-05,Carne de cerdo,98,240,70,8.0,12,3.0,15.0,0.0,...,32,11,1,6,6,12,2,2,10,15
A62,2023-02-04,Pollo y pescado,230,610,250,28.0,43,6.0,31.0,0.0,...,57,19,3,13,11,32,4,20,15,20
A71,2023-02-03,Pollo y pescado,316,630,280,32.0,49,9.0,45.0,0.5,...,56,19,3,13,7,32,60,20,20,20
A87,2023-02-06,Ensaladas,241,220,80,8.0,13,4.0,20.0,0.0,...,8,3,2,10,4,29,110,30,15,8


In [None]:
# Otra forma con query:
data_feb2 = data.query("fecha_analisis >= '2023-02-01' & fecha_analisis <= '2023-02-07'")
display(data_feb2.head())

Unnamed: 0_level_0,fecha_analisis,categoria,tamano_porcion,calorias,calorias_de_grasa,grasa_total,grasa_total_pct_diario,grasa_saturada,grasa_saturada_pct_diario,grasas_trans,...,carbohidratos,carbohidratos_pct_diario,fibra_dietetica,fibra_dietetica_pct_diario,azucares,proteina,vitamina_a_pct_diario,vitamina_c_pct_diario,calcio_pct_diario,hierro_pct_diario
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
A4,2023-02-07,Desayuno,161,450,250,28.0,43,10.0,52.0,0.0,...,30,10,4,17,2,21,15,0,30,15
A6,2023-02-01,Desayuno,185,430,210,23.0,36,9.0,46.0,1.0,...,31,10,4,18,3,26,15,2,30,20
A12,2023-02-02,Desayuno,131,480,280,31.0,48,13.0,,0.0,...,39,13,3,11,3,11,4,0,8,15
A20,2023-02-02,Desayuno,174,460,190,21.0,32,9.0,44.0,0.0,...,48,16,2,9,15,19,10,10,20,15
A35,2023-02-02,Desayuno,437,1050,450,50.0,77,16.0,81.0,0.0,...,115,38,7,28,18,35,4,2,25,30


**Segun la falta de información**

* Es un tema ampliamente discutido ¿Qué hago ante la falta de información en mis observaciones?
* La información `NA` (*Not Available*), se presenta cuando una celda en el archivo de datos se encuentra vacía.
* Podemos ver cuales celdas contienen datos faltantes utilizando el método `isna()`, que retorna un `DataFrame` de `True` y `False` dependiendo de la ausencia o no de información.
* Concatenando el método `sum()` al método `isna()`, obtenemos la cantidad de datos faltantes según cada variable.

In [None]:
display(data.isna())

Unnamed: 0_level_0,fecha_analisis,categoria,tamano_porcion,calorias,calorias_de_grasa,grasa_total,grasa_total_pct_diario,grasa_saturada,grasa_saturada_pct_diario,grasas_trans,...,carbohidratos,carbohidratos_pct_diario,fibra_dietetica,fibra_dietetica_pct_diario,azucares,proteina,vitamina_a_pct_diario,vitamina_c_pct_diario,calcio_pct_diario,hierro_pct_diario
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
A1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
A2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
A3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
A4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
A5,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
A117,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
A118,False,False,False,False,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,False,False
A119,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
A120,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [None]:
import numpy as np
booleanos = np.array([True, False, False, True])
print(booleanos)

[ True False False  True]


In [None]:
print("Suma:", booleanos.sum())
print("Array números:", booleanos * 1)

Suma: 2
Array números: [1 0 0 1]


In [None]:
condicion_faltantes = data["grasa_saturada_pct_diario"].isna()
print(condicion_faltantes)

articulo_id
A1      False
A2      False
A3      False
A4      False
A5      False
        ...  
A117    False
A118     True
A119    False
A120    False
A121    False
Name: grasa_saturada_pct_diario, Length: 121, dtype: bool


In [None]:
display(data[condicion_faltantes])

Unnamed: 0_level_0,fecha_analisis,categoria,tamano_porcion,calorias,calorias_de_grasa,grasa_total,grasa_total_pct_diario,grasa_saturada,grasa_saturada_pct_diario,grasas_trans,...,carbohidratos,carbohidratos_pct_diario,fibra_dietetica,fibra_dietetica_pct_diario,azucares,proteina,vitamina_a_pct_diario,vitamina_c_pct_diario,calcio_pct_diario,hierro_pct_diario
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
A12,2023-02-02,Desayuno,131,480,280,31.0,48,13.0,,0.0,...,39,13,3,11,3,11,4,0,8,15
A24,2023-02-19,Desayuno,205,500,230,26.0,40,10.0,,0.0,...,46,15,2,9,15,21,2,0,20,10
A30,2023-01-22,Desayuno,272,640,330,37.0,57,14.0,,0.0,...,50,17,3,12,3,26,0,2,10,15
A85,2023-02-15,Ensaladas,223,140,70,7.0,11,3.5,,0.0,...,10,3,3,12,4,9,170,30,15,6
A112,2023-01-27,Bebidas,236,130,0,0.0,0,0.0,,0.0,...,23,8,1,2,22,9,10,0,30,8
A118,2023-02-10,Batidos,381,690,200,23.0,35,12.0,,1.0,...,106,35,1,5,85,15,20,0,50,10


In [None]:
data.isna().sum()

fecha_analisis                0
categoria                     0
tamano_porcion                0
calorias                      0
calorias_de_grasa             0
grasa_total                   0
grasa_total_pct_diario        0
grasa_saturada                0
grasa_saturada_pct_diario     6
grasas_trans                  0
colesterol                    0
colesterol_pct_diario         0
sodio                         0
sodio_pct_diario              0
carbohidratos                 0
carbohidratos_pct_diario      0
fibra_dietetica               0
fibra_dietetica_pct_diario    0
azucares                      0
proteina                      0
vitamina_a_pct_diario         0
vitamina_c_pct_diario         0
calcio_pct_diario             0
hierro_pct_diario             0
dtype: int64

In [None]:
# Porcentaje de celdas vacías por columna
data.isna().mean()

fecha_analisis                0.000000
categoria                     0.000000
tamano_porcion                0.000000
calorias                      0.000000
calorias_de_grasa             0.000000
grasa_total                   0.000000
grasa_total_pct_diario        0.000000
grasa_saturada                0.000000
grasa_saturada_pct_diario     0.049587
grasas_trans                  0.000000
colesterol                    0.000000
colesterol_pct_diario         0.000000
sodio                         0.000000
sodio_pct_diario              0.000000
carbohidratos                 0.000000
carbohidratos_pct_diario      0.000000
fibra_dietetica               0.000000
fibra_dietetica_pct_diario    0.000000
azucares                      0.000000
proteina                      0.000000
vitamina_a_pct_diario         0.000000
vitamina_c_pct_diario         0.000000
calcio_pct_diario             0.000000
hierro_pct_diario             0.000000
dtype: float64

In [None]:
# Total de celdas vacías por columnas
observaciones_sin_info = data.isna()
print(observaciones_sin_info.sum())

fecha_analisis                0
categoria                     0
tamano_porcion                0
calorias                      0
calorias_de_grasa             0
grasa_total                   0
grasa_total_pct_diario        0
grasa_saturada                0
grasa_saturada_pct_diario     6
grasas_trans                  0
colesterol                    0
colesterol_pct_diario         0
sodio                         0
sodio_pct_diario              0
carbohidratos                 0
carbohidratos_pct_diario      0
fibra_dietetica               0
fibra_dietetica_pct_diario    0
azucares                      0
proteina                      0
vitamina_a_pct_diario         0
vitamina_c_pct_diario         0
calcio_pct_diario             0
hierro_pct_diario             0
dtype: int64


* A modo de simplicidad, podemos eliminar las observaciones (filas) que contengan datos faltantes con el método `dropna()`.
* Sin embargo, se recomienda estudiar en profundidad el motivo de la ausencia de información, ya que se puede estar perdiendo información valiosa para su análisis al eliminar una observación completa.
* **Que un dato contenga información faltante también aportan mucha información**.  

In [None]:
data_sin_faltantes = data.dropna()
print(data_sin_faltantes.isna().sum())

fecha_analisis                0
categoria                     0
tamano_porcion                0
calorias                      0
calorias_de_grasa             0
grasa_total                   0
grasa_total_pct_diario        0
grasa_saturada                0
grasa_saturada_pct_diario     0
grasas_trans                  0
colesterol                    0
colesterol_pct_diario         0
sodio                         0
sodio_pct_diario              0
carbohidratos                 0
carbohidratos_pct_diario      0
fibra_dietetica               0
fibra_dietetica_pct_diario    0
azucares                      0
proteina                      0
vitamina_a_pct_diario         0
vitamina_c_pct_diario         0
calcio_pct_diario             0
hierro_pct_diario             0
dtype: int64


<a id="creacion-y-edicion-de-variables"></a>
### Creación y edición de variables
* En ciertas ocaciones, crear columnas a través de las que ya tenemos disponibles nos ayuda a comprender de mejor forma nuestro conjunto de datos.
* Aplicar nuestros conocimientos previos es de suma relevancia para crear columnas con información útil para el análisis.
* El objeto tipo `Series` se encuentra vectorizado, lo que nos evita usar `loops` u otras funciones más compejas cuando la edición o creación de variables es sencilla.
* **Ejemplos**: Transformar dólares a pesos chilenos o viceversa, crear una columna que me indique si la fecha es víspera de las fiestas de fin de año, variable que me índique si es feriado o fin de semana, o si el monto de la venta es inferior a lo esperado.

Funciones útil para crear categorías:

* `np.where()`: Funciona como la estructura ternaria, pero está vectorizada.

```python
import numpy as np
datos["columna_nueva"] = np.where(condicion, valor_si_True, valor_si_False)

```

* `np.select()`: Es una extensión a la función `np.where()`, para evaluar más de una condición.

```python
datos["columna_nueva"] = np.select(
    condlist   = [condicion_1, condicion_2, ..., condicion_n],
    choicelist = [valor_1, valor_2, ..., valor_n],
    default    = "No cumple ninguna condición"
)

```

In [None]:
# Ejemplo 1: Convertir calcio_pct_diario a escala 0-1
data["calcio_pct_diario_0-1"] = data["calcio_pct_diario"] / 100
display(data.head())

Unnamed: 0_level_0,fecha_analisis,categoria,tamano_porcion,calorias,calorias_de_grasa,grasa_total,grasa_total_pct_diario,grasa_saturada,grasa_saturada_pct_diario,grasas_trans,...,carbohidratos_pct_diario,fibra_dietetica,fibra_dietetica_pct_diario,azucares,proteina,vitamina_a_pct_diario,vitamina_c_pct_diario,calcio_pct_diario,hierro_pct_diario,calcio_pct_diario_0-1
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
A1,2023-02-23,Desayuno,136,300,120,13.0,20,5.0,25.0,0.0,...,10,4,17,3,17,10,0,25,15,0.25
A2,2023-02-20,Desayuno,135,250,70,8.0,12,3.0,15.0,0.0,...,10,4,17,3,18,6,0,25,8,0.25
A3,2023-01-25,Desayuno,111,370,200,23.0,35,8.0,42.0,0.0,...,10,4,17,2,14,8,0,25,10,0.25
A4,2023-02-07,Desayuno,161,450,250,28.0,43,10.0,52.0,0.0,...,10,4,17,2,21,15,0,30,15,0.3
A5,2023-01-23,Desayuno,161,400,210,23.0,35,8.0,42.0,0.0,...,10,4,17,2,21,6,0,25,10,0.25


In [None]:
# Ejemplo 2: Crear una variable que sea 'Si' si el porcentaje diario de calcio
# que aporta el alimento es mayor a 50%, 'No' en caso contrario.
import numpy as np

data["calcio_mayor_50_pct"] = np.where(data["calcio_pct_diario_0-1"] > 0.5, "Si", "No")
display(data.head())

Unnamed: 0_level_0,fecha_analisis,categoria,tamano_porcion,calorias,calorias_de_grasa,grasa_total,grasa_total_pct_diario,grasa_saturada,grasa_saturada_pct_diario,grasas_trans,...,fibra_dietetica,fibra_dietetica_pct_diario,azucares,proteina,vitamina_a_pct_diario,vitamina_c_pct_diario,calcio_pct_diario,hierro_pct_diario,calcio_pct_diario_0-1,calcio_mayor_50_pct
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
A1,2023-02-23,Desayuno,136,300,120,13.0,20,5.0,25.0,0.0,...,4,17,3,17,10,0,25,15,0.25,No
A2,2023-02-20,Desayuno,135,250,70,8.0,12,3.0,15.0,0.0,...,4,17,3,18,6,0,25,8,0.25,No
A3,2023-01-25,Desayuno,111,370,200,23.0,35,8.0,42.0,0.0,...,4,17,2,14,8,0,25,10,0.25,No
A4,2023-02-07,Desayuno,161,450,250,28.0,43,10.0,52.0,0.0,...,4,17,2,21,15,0,30,15,0.3,No
A5,2023-01-23,Desayuno,161,400,210,23.0,35,8.0,42.0,0.0,...,4,17,2,21,6,0,25,10,0.25,No


In [None]:
# Ejemplo: Categorizar variable "hierro_pct_diario" indicando "Bajo", "Medio" y "Alto".


data["hierro_pct_diario_cat"] = np.select(
  condlist = [data["hierro_pct_diario"] > 80, data["hierro_pct_diario"] > 30, data["hierro_pct_diario"] > 0],
  choicelist = ["Alto", "Medio", "Bajo"],
  default = "Error de tipeo"
)

display(data.head())

Unnamed: 0_level_0,fecha_analisis,categoria,tamano_porcion,calorias,calorias_de_grasa,grasa_total,grasa_total_pct_diario,grasa_saturada,grasa_saturada_pct_diario,grasas_trans,...,fibra_dietetica_pct_diario,azucares,proteina,vitamina_a_pct_diario,vitamina_c_pct_diario,calcio_pct_diario,hierro_pct_diario,calcio_pct_diario_0-1,calcio_mayor_50_pct,hierro_pct_diario_cat
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
A1,2023-02-23,Desayuno,136,300,120,13.0,20,5.0,25.0,0.0,...,17,3,17,10,0,25,15,0.25,No,Bajo
A2,2023-02-20,Desayuno,135,250,70,8.0,12,3.0,15.0,0.0,...,17,3,18,6,0,25,8,0.25,No,Bajo
A3,2023-01-25,Desayuno,111,370,200,23.0,35,8.0,42.0,0.0,...,17,2,14,8,0,25,10,0.25,No,Bajo
A4,2023-02-07,Desayuno,161,450,250,28.0,43,10.0,52.0,0.0,...,17,2,21,15,0,30,15,0.3,No,Bajo
A5,2023-01-23,Desayuno,161,400,210,23.0,35,8.0,42.0,0.0,...,17,2,21,6,0,25,10,0.25,No,Bajo


* Cuando las transformaciones necesarias son algo más complejas, es de ayuda el método `apply`, que recibe como argumento una función predefinida o anónima.

```python
datos[columnas] = datos[columnas].apply(funcion)
```

In [None]:
# Ejemplo: Agregar "%" a variable "hierro_pct_diario"
data["hierro_pct%_diario"] = data["hierro_pct_diario"].apply(lambda x: f"{x}%")
display(data.head())

Unnamed: 0_level_0,fecha_analisis,categoria,tamano_porcion,calorias,calorias_de_grasa,grasa_total,grasa_total_pct_diario,grasa_saturada,grasa_saturada_pct_diario,grasas_trans,...,azucares,proteina,vitamina_a_pct_diario,vitamina_c_pct_diario,calcio_pct_diario,hierro_pct_diario,calcio_pct_diario_0-1,calcio_mayor_50_pct,hierro_pct_diario_cat,hierro_pct%_diario
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
A1,2023-02-23,Desayuno,136,300,120,13.0,20,5.0,25.0,0.0,...,3,17,10,0,25,15,0.25,No,Bajo,15%
A2,2023-02-20,Desayuno,135,250,70,8.0,12,3.0,15.0,0.0,...,3,18,6,0,25,8,0.25,No,Bajo,8%
A3,2023-01-25,Desayuno,111,370,200,23.0,35,8.0,42.0,0.0,...,2,14,8,0,25,10,0.25,No,Bajo,10%
A4,2023-02-07,Desayuno,161,450,250,28.0,43,10.0,52.0,0.0,...,2,21,15,0,30,15,0.3,No,Bajo,15%
A5,2023-01-23,Desayuno,161,400,210,23.0,35,8.0,42.0,0.0,...,2,21,6,0,25,10,0.25,No,Bajo,10%


**Conversión de datos**

* Para convertir elementos de un objeto `Series` de un tipo a otro se utiliza el método `astype()`, que recibe como argumento el tipo de dato al que se desea convertir.
* Algunos tipos de datos:
  * `"int16"`, `"int32"`, `"int64"`.
  * `"float16"`, `"float32"`, `"float64"`.
  * `"object"`
  * `"bool"`
* Muchas variables que `pandas` lee como númericas, en verdad están representando una jerarquía o categorías independientes. En tal caso, se recomienda cambiar el tipo de variable a `object`.

In [None]:
# Ejemplo: Transformar variable calorias a tipo float16, int64 y object
data["calorias1"] = data["calorias"].astype("float64")
data["calorias2"] = data["calorias"].astype("int64")
data["calorias3"] = data["calorias"].astype("object")
# 2024-05-20
# 20-05-2024 -> '%d-%m-%Y'
#Función pd.to_datetime(serie, format = '%Y-%m-%d') -> Fecha formato dia-mes-año

* Para comprobar nuevamente los tipos de variables, también se puede usar el atributo `dtypes` en vez del método `info()`.

In [None]:
print(data.dtypes)

fecha_analisis                datetime64[ns]
categoria                             object
tamano_porcion                         int64
calorias                               int64
calorias_de_grasa                      int64
grasa_total                          float64
grasa_total_pct_diario                 int64
grasa_saturada                       float64
grasa_saturada_pct_diario            float64
grasas_trans                         float64
colesterol                             int64
colesterol_pct_diario                  int64
sodio                                  int64
sodio_pct_diario                       int64
carbohidratos                          int64
carbohidratos_pct_diario               int64
fibra_dietetica                        int64
fibra_dietetica_pct_diario             int64
azucares                               int64
proteina                               int64
vitamina_a_pct_diario                  int64
vitamina_c_pct_diario                  int64
calcio_pct

### Orden de filas según una variable

* Muchas veces puede ser de interés ver los valores más altos de una variable. Para ello utilizamos el método `sort_values()` sobre la base de datos. Debemos entregar como primer argumento las variables a utilizar para establecer el orden.
* Si la variable es numérica, los valores se ordenarán desde el mas pequeño al mas grande.
* Si la variable es categórica, los valores se ordenarán en orden alfabético.
* Se puede invertir el orden del resultado mediante el parámetro `ascending=[False]`.

In [None]:
# Ejemplo: Mostrar las cinco observaciones que tienen mayor tamaño de porción.
data_mayor_porcion = data.sort_values(["tamano_porcion"], ascending=[False])
data.sort_values(["categoria", "tamano_porcion"], ascending=[True, False])
display(data_mayor_porcion.head())

Unnamed: 0_level_0,fecha_analisis,categoria,tamano_porcion,calorias,calorias_de_grasa,grasa_total,grasa_total_pct_diario,grasa_saturada,grasa_saturada_pct_diario,grasas_trans,...,vitamina_c_pct_diario,calcio_pct_diario,hierro_pct_diario,calcio_pct_diario_0-1,calcio_mayor_50_pct,hierro_pct_diario_cat,hierro_pct%_diario,calorias1,calorias2,calorias3
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
A83,2023-01-31,Pollo y pescado,646,1880,1060,118.0,182,20.0,101.0,1.0,...,15,8,25,0.08,No,Bajo,25%,1880.0,1880,1880
A115,2023-02-13,Batidos,460,930,290,33.0,50,20.0,102.0,1.0,...,0,70,10,0.7,Si,Bajo,10%,930.0,930,930
A35,2023-02-02,Desayuno,437,1050,450,50.0,77,16.0,81.0,0.0,...,2,25,30,0.25,No,Bajo,30%,1050.0,1050,1050
A33,2023-02-17,Desayuno,434,1150,540,60.0,93,20.0,100.0,0.0,...,2,30,40,0.3,No,Medio,40%,1150.0,1150,1150
A34,2023-02-12,Desayuno,423,990,410,46.0,70,16.0,78.0,0.0,...,2,25,30,0.25,No,Bajo,30%,990.0,990,990


<a id="resumen-de-variables"></a>
### Resumen de variables
* Una forma de representar variables es a través de *estadísticos de resumen*.
* Estos incluyen medias, varianzas, percentiles, etc.
* Al igual que en *NumPy*, podemos acceder a distintos métodos directamente desde una variable seleccionada.
* Podemos cálcular varios resúmenes a través del método `agg` (aggregate), que puede recibir como argumento una lista con las estadísticas a calcular: "mean", "std", "var", "median", "mode", "count", etc.
* También podemos entregar funciones previamente definidas.

```python
datos["columna"].estadistica()
datos["columna"].agg(["estadística1", "estadística2", "etc"])
datos.agg({
    "columna1": ["estadística1", "estadística2", "etc"],
    "columna2": ["estadística3", "estadística4", "etc"]
})

```

In [None]:
# Ejemplo 1: Calcular media y desviación estandar de la variable calorias
print("Media:", data["calorias"].mean())
print("Desv. Estándar:", data["calorias"].std())

Media: 462.06611570247935
Desv. Estándar: 251.85699432869936


In [None]:
funcion = lambda x: np.quantile(x, 0.95)
print("Mediana:", data["calorias"].agg(funcion))

Mediana: articulo_id
A1      300.0
A2      250.0
A3      370.0
A4      450.0
A5      400.0
        ...  
A117    510.0
A118    690.0
A119    340.0
A120    810.0
A121    410.0
Name: calorias, Length: 121, dtype: float64


In [None]:
# Ejemplo 2: Calcular media y mediana de la variable calorias
forma1 = data["calorias"].agg(["mean", "median"])
forma2 = data.agg({
    "calorias"      : ["mean", "median"],
    "tamano_porcion": ["mean", "median"],
    "grasa_saturada": ["var", "std", funcion]
})
print("Forma 1:")
print(forma1)
print("")
print("Forma 2:")
display(forma2)

ValueError: cannot combine transform and aggregation operations

* También podemos observar estadísticas por grupo.
* Esto es ver el comportamiento de cada categoría de una variable respecto a las estadísticas indicadas.
* Para llevar esto a cabo, usamos el método `groupby()`, que recibe como argumento una lista con las variables para agrupar.
* Luego de esto, podemos realizar los resúmenes de variables necesarios.

In [None]:
# Ejemplo 1: Repetir ejemplo anterior pero agrupando por variable "categoria"
data_agrupada = data.groupby(["categoria"])
print("- Media calorías según categoría:")
print(data_agrupada["calorias"].mean())

- Media calorías según categoría:
categoria
Aperitivos y acompañamientos    245.769231
Batidos                         596.250000
Bebidas                         103.333333
Carne de cerdo                  494.000000
Desayuno                        526.666667
Ensaladas                       270.000000
Pollo y pescado                 552.962963
Postres                         222.142857
Name: calorias, dtype: float64


In [None]:
# Ejemplo 2: Cálcular media y mediana de calorías según categoría
print("Media y mediana de calorías según categoría:")
calorias_segun_categoria = data_agrupada["calorias"].agg(["mean", "median"])
display(calorias_segun_categoria)

Media y mediana de calorías según categoría:


Unnamed: 0_level_0,mean,median
categoria,Unnamed: 1_level_1,Unnamed: 2_level_1
Aperitivos y acompañamientos,245.769231,260.0
Batidos,596.25,580.0
Bebidas,103.333333,100.0
Carne de cerdo,494.0,500.0
Desayuno,526.666667,470.0
Ensaladas,270.0,255.0
Pollo y pescado,552.962963,480.0
Postres,222.142857,250.0


### Frecuencias dentro de variables
* Esto es útil para observar el comportamiento de las categorías pertenecientes a una variable cualitativa.
* Encontramos la frecuencia absoluta y relativa.
* __Frecuencia absoluta__: Es una medida estadística que nos indica la cantidad de veces que ocurren ciertos eventos.
* __Frecuencia relativa__: Es el cuociente entre la frecuencia absoluta y la cantidad de observaciones disponibles (en el contexto de una base de datos).
* Para calcular **frecuencias absolutas**, usamos el método `value_counts()` de una variable seleccionada.
* Para calcular **frecuencias relativas**, además debemos especificar el argumento `normalize=True`.

In [None]:
# Ejemplo 1: Calcular frecuencias de la variable categoria.
# Frecuencia absoluta
frec_abs_categoria = data["categoria"].value_counts()
print("Frecuencia Absoluta:")
print(frec_abs_categoria)

Frecuencia Absoluta:
categoria
Desayuno                        42
Pollo y pescado                 27
Carne de cerdo                  15
Aperitivos y acompañamientos    13
Batidos                          8
Postres                          7
Ensaladas                        6
Bebidas                          3
Name: count, dtype: int64


In [None]:
# Frecuencia relativa
frec_rel_categoria = data["categoria"].value_counts(normalize=True)
print("Frecuencia Relativa:")
print(frec_rel_categoria)

Frecuencia Relativa:
categoria
Desayuno                        0.347107
Pollo y pescado                 0.223140
Carne de cerdo                  0.123967
Aperitivos y acompañamientos    0.107438
Batidos                         0.066116
Postres                         0.057851
Ensaladas                       0.049587
Bebidas                         0.024793
Name: proportion, dtype: float64


* Se puede concatenar objetos tipo `Series` o `DataFrame` con la función `pd.concat()`, que recibe:
  * `objs`: Una lista con los objetos a concatenar.
  * `axis`: `0` para concatenar filas, `1` para concatenar columnas.
  * Si se entrega `axis=1` y hay índices en cada objeto, la concatenación será según el índice. Para desactivar este comportamiento se puede entregar `ignore_index=True`.

In [None]:
estadisticas_por_categoria = pd.concat(
    objs = [frec_abs_categoria, frec_rel_categoria, calorias_segun_categoria],
    axis = 1
)
display(estadisticas_por_categoria)
estadisticas_por_categoria.columns = ["Frec. Absoluta", "Frec. Relativa", "Media Calorías", "Mediana Calorías"]
display(estadisticas_por_categoria)

Unnamed: 0_level_0,count,proportion,mean,median
categoria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Desayuno,42,0.347107,526.666667,470.0
Pollo y pescado,27,0.22314,552.962963,480.0
Carne de cerdo,15,0.123967,494.0,500.0
Aperitivos y acompañamientos,13,0.107438,245.769231,260.0
Batidos,8,0.066116,596.25,580.0
Postres,7,0.057851,222.142857,250.0
Ensaladas,6,0.049587,270.0,255.0
Bebidas,3,0.024793,103.333333,100.0


Unnamed: 0_level_0,Frec. Absoluta,Frec. Relativa,Media Calorías,Mediana Calorías
categoria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Desayuno,42,0.347107,526.666667,470.0
Pollo y pescado,27,0.22314,552.962963,480.0
Carne de cerdo,15,0.123967,494.0,500.0
Aperitivos y acompañamientos,13,0.107438,245.769231,260.0
Batidos,8,0.066116,596.25,580.0
Postres,7,0.057851,222.142857,250.0
Ensaladas,6,0.049587,270.0,255.0
Bebidas,3,0.024793,103.333333,100.0


In [None]:
estadisticas_por_categoria.style.bar(["Frec. Absoluta"])

KeyError: "None of [Index(['Frec. Absoluta'], dtype='object')] are in the [columns]"

<pandas.io.formats.style.Styler at 0x7b40c45f3820>

In [None]:
display(data.head())

Unnamed: 0_level_0,fecha_analisis,categoria,tamano_porcion,calorias,calorias_de_grasa,grasa_total,grasa_total_pct_diario,grasa_saturada,grasa_saturada_pct_diario,grasas_trans,...,vitamina_c_pct_diario,calcio_pct_diario,hierro_pct_diario,calcio_pct_diario_0-1,calcio_mayor_50_pct,hierro_pct_diario_cat,hierro_pct%_diario,calorias1,calorias2,calorias3
articulo_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
A1,2023-02-23,Desayuno,136,300,120,13.0,20,5.0,25.0,0.0,...,0,25,15,0.25,No,Bajo,15%,300.0,300,300
A2,2023-02-20,Desayuno,135,250,70,8.0,12,3.0,15.0,0.0,...,0,25,8,0.25,No,Bajo,8%,250.0,250,250
A3,2023-01-25,Desayuno,111,370,200,23.0,35,8.0,42.0,0.0,...,0,25,10,0.25,No,Bajo,10%,370.0,370,370
A4,2023-02-07,Desayuno,161,450,250,28.0,43,10.0,52.0,0.0,...,0,30,15,0.3,No,Bajo,15%,450.0,450,450
A5,2023-01-23,Desayuno,161,400,210,23.0,35,8.0,42.0,0.0,...,0,25,10,0.25,No,Bajo,10%,400.0,400,400


## Cruce de bases de datos

* Cruzar datos es una tarea común y útil en el análisis de datos.
* Hace referencia a la combinación de información proveniente de dos fuentes diferentes.
* Es posible descubrir relaciones, patrones y tendencias que no serían evidentes al examinar cada conjunto de datos por separado.
* El cruce de bases de datos permite enriquecer los datos al agregar información adicional a través de variables comunes, lo que puede mejorar la precisión y la calidad del análisis llevado a cabo.

Para que un cruce de datos sea exitoso, hay que tener algunos aspectos en consideración.

1. **Variables de cruce**: Identifica las variables comunes en ambas bases de datos que se utilizarán para realizar el cruce. Estas variables deben tener un significado similar o relacionarse directamente entre sí. **Ejemplo clásico**: ambas bases de datos tienen una variable identificadora del cliente.
2. **Tipo de cruce**: Determina el tipo de cruce que deseas realizar. Los tipos comunes incluyen cruces internos (*inner join*), cruces externo (*outer join*), cruces izquierdos (*left join)* y cruces derechos (*right join*). Cada tipo de cruce tiene diferentes efectos en los datos resultantes.
3. **Limpieza y preprocesamiento de datos**: Antes de realizar el cruce, los datos deben estar limpios y formateados correctamente. Esto implica manejar valores faltantes, eliminar duplicados (método `drop_duplicated()`) y asegurarse de que los tipos de datos sean consistentes.

### Tipos de cruces de datos

<img src="https://i.ibb.co/FKH0QSZ/join-types-python-merge-programming.png" width="700">

* **Cruce interno (inner join)**: Devuelve únicamente los registros que tienen valores coincidentes en ambas bases de datos. Los registros sin coincidencias se excluyen del resultado final.
* **Cruce externo (outer join)**: Devuelve todos los registros de ambas bases de datos y rellena los valores faltantes con `NaN` cuando no hay coincidencias.
* **Cruce izquierdo (left join)**: Devuelve todos los registros de la base de datos izquierda y los registros coincidentes de la base de datos derecha.
* **Cruce derecho (right join)**: Devuelve todos los registros de la base de datos derecha y los registros coincidentes de la base de datos izquierda.

*Pandas* proporciona el método `merge()` para realizar cruces de bases de datos. Consideremos los datos de a continuación:

In [None]:
data_A = pd.DataFrame([
    {"idTrabajador": "K1", "horasTrabajo": 8},
    {"idTrabajador": "K2", "horasTrabajo": 7},
    {"idTrabajador": "K3", "horasTrabajo": 8},
    {"idTrabajador": "K4", "horasTrabajo": 6},
    {"idTrabajador": "K5", "horasTrabajo": 9},
])

data_B = pd.DataFrame([
    {"idTrabajador": "K1", "costoHora": 20000},
    {"idTrabajador": "K2", "costoHora": 25000},
    {"idTrabajador": "K3", "costoHora": 19000},
    {"idTrabajador": "K4", "costoHora": 21000},
])
data_C = pd.DataFrame([
    {"idTrab": "K2", "diasSemanales": 4},
    {"idTrab": "K3", "diasSemanales": 5},
    {"idTrab": "K4", "diasSemanales": 4},
    {"idTrab": "K5", "diasSemanales": 6},
    {"idTrab": "K6", "diasSemanales": 5},
])
print("Data A:")
display(data_A)
print("Data B:")
display(data_B)
print("Data C:")
display(data_C)

Data A:


Unnamed: 0,idTrabajador,horasTrabajo
0,K1,8
1,K2,7
2,K3,8
3,K4,6
4,K5,9


Data B:


Unnamed: 0,idTrabajador,costoHora
0,K1,20000
1,K2,25000
2,K3,19000
3,K4,21000


Data C:


Unnamed: 0,idTrab,diasSemanales
0,K2,4
1,K3,5
2,K4,4
3,K5,6
4,K6,5


In [None]:
# Ejemplo inner join
data_inner = data_A.merge(
    right = data_B,
    how   = "inner",
    on    = "idTrabajador"
)
display(data_inner)

Unnamed: 0,idTrabajador,horasTrabajo,costoHora
0,K1,8,20000
1,K2,7,25000
2,K3,8,19000
3,K4,6,21000


In [None]:
# Ejemplo outer join
data_outer = data_A.merge(
    right = data_B,
    how   = "outer",
    on    = "idTrabajador"
)
display(data_outer)

Unnamed: 0,idTrabajador,horasTrabajo,costoHora
0,K1,8,20000.0
1,K2,7,25000.0
2,K3,8,19000.0
3,K4,6,21000.0
4,K5,9,


In [None]:
# Ejemplo left join
data_left = data_A.merge(
    right = data_B,
    how   = "left",
    on    = "idTrabajador"
)
display(data_left)

Unnamed: 0,idTrabajador,horasTrabajo,costoHora
0,K1,8,20000.0
1,K2,7,25000.0
2,K3,8,19000.0
3,K4,6,21000.0
4,K5,9,


In [None]:
# Ejemplo right join
data_right = data_A.merge(
    right = data_B,
    how   = "right",
    on    = "idTrabajador"
)
display(data_right)

Unnamed: 0,idTrabajador,horasTrabajo,costoHora
0,K1,8,20000
1,K2,7,25000
2,K3,8,19000
3,K4,6,21000


¿Qué ocurre cuando las variables comunes tienen nombres distintos en ambas bases de datos?

* Para ello, podemos fijar los parámetros `left_on` y `right_on` con el fin de indicar el nombre de la variable en cada base de datos.
* Finalmente, calculemos un aproximado del sueldo mensual para los trabajadores que tengan información completa, esto se lleva a cabo mediante *inner join*s.

In [None]:
data_final = data_inner.merge(
    right    = data_C,
    how      = "inner",
    left_on  = "idTrabajador",
    right_on = "idTrab"
)
print("Data final:")
display(data_final)
print("Sueldo trabajadores:")
data_final["sueldoMensual"] = data_final["horasTrabajo"] * data_final["costoHora"] * data_final["diasSemanales"] * 4.5
print(data_final.set_index("idTrabajador")["sueldoMensual"])

Data final:


Unnamed: 0,idTrabajador,horasTrabajo,costoHora,idTrab,diasSemanales
0,K2,7,25000,K2,4
1,K3,8,19000,K3,5
2,K4,6,21000,K4,4


Sueldo trabajadores:
idTrabajador
K2    3150000.0
K3    3420000.0
K4    2268000.0
Name: sueldoMensual, dtype: float64


## Redimensionado de Datos

* Consiste en transformar la estructura de los datos para adaptarlos a los requisitos y objetivos específicos del análisis. Esta tarea implica ajustar la forma y la organización de los datos, ya sea cambiando la estructura de filas y columnas o reorganizando los valores de los datos.
* Al modificar la estructura de los datos, es posible presentarlos y analizarlos de manera más efectiva, facilitando la identificación de patrones, tendencias y relaciones entre variables.
* En *Pandas*, los métodos `melt()` y `pivot()` sobre los objetos del tipo `DataFrame` nos permiten el redimensionado de datos.

### Formato ancho a formato largo


*  Esto permite "alargar" los datos apilando varias columnas en una sola columna y creando nuevas columnas para identificar los valores originales.
*  Algunos casos de uso:
   *  Cuando se tienen múltiples columnas que representan diferentes variables o categorías relacionadas y se necesita consolidarlas en una única columna.
   *  Cuando se necesita desagregar datos agregados o resumidos, es decir, convertir columnas de valores agregados en registros individuales.
   *  Cuando se trabaja con datos en formato de tabla cruzada o matriz y se necesita desplegar las celdas de la tabla en filas individuales.
*  Para este fin, utilizamos el método `melt()`, al que se le deben asignar los siguientes parámetros:
   *  `id_vars`: las variables que no deseamos reestructurar.
   *  `var_name`: Nombre de la columna donde irán los nombres de las variables a estructurar.
   *  `value_name`: Nombre de la columna donde irán los valores de las variables a estructurar.


Como ejemplo, consideremos una base de datos en formato "ancho" con las temperaturas en cuatro ciudades del país:

In [None]:
data_ancho = pd.DataFrame([
    {"Ciudad": "Concepción", "Region": "Biobío","Dia 1": 20, "Dia 2": 23, "Dia 3": 22},
    {"Ciudad": "Iquique", "Region": "Tarapacá", "Dia 1": 15, "Dia 2": 16, "Dia 3": 15},
    {"Ciudad": "Santiago", "Region": "Metropolitana", "Dia 1": 22, "Dia 2": 20, "Dia 3": 19},
    {"Ciudad": "Valparaíso", "Region": "Valparaíso", "Dia 1": 14, "Dia 2": 13, "Dia 3": 15}
])
display(data_ancho)

Unnamed: 0,Ciudad,Region,Dia 1,Dia 2,Dia 3
0,Concepción,Biobío,20,23,22
1,Iquique,Tarapacá,15,16,15
2,Santiago,Metropolitana,22,20,19
3,Valparaíso,Valparaíso,14,13,15


In [None]:
data_largo = data_ancho.melt(
    id_vars    = ["Ciudad", "Region"],
    var_name   = "Dia",
    value_name = "Temperatura"
)
display(data_largo)

Unnamed: 0,Ciudad,Region,Dia,Temperatura
0,Concepción,Biobío,Dia 1,20
1,Iquique,Tarapacá,Dia 1,15
2,Santiago,Metropolitana,Dia 1,22
3,Valparaíso,Valparaíso,Dia 1,14
4,Concepción,Biobío,Dia 2,23
5,Iquique,Tarapacá,Dia 2,16
6,Santiago,Metropolitana,Dia 2,20
7,Valparaíso,Valparaíso,Dia 2,13
8,Concepción,Biobío,Dia 3,22
9,Iquique,Tarapacá,Dia 3,15


### Formato largo a formato ancho

* Esto permite "ensanchar" los datos al desagregar una columna en varias columnas nuevas.
* Algunos casos de uso:
  * Cuando se tiene una columna de valores que se desea expandir en múltiples columnas para mostrar información más detallada.
  * Cuando se necesita necesita resumir datos en forma de tabla o matriz, donde cada fila representa una categoría y las columnas representan diferentes variables o subcategorías.
* En este tipo de casos utilizamos el método `pivot()`, se le deben incluir los siguientes parámetros:
  * `index`: Columnas identificadoras de cada unidad experimental.
  * `columns`: Columnas que se desea desagrupar.
  * `values`: Valores que contendrán las columnas que se desean desagrupar.

Para ejemplificar el método `pivot()`, utilicemos la base de datos "larga" generada anteriormente para compararla con los resultados originales.

In [None]:
data_ancho2 = data_largo.pivot(
    index   = ["Ciudad", "Region"],
    columns = ["Dia"],
    values  = ["Temperatura"]
)
print("Data original:")
display(data_ancho)
print("Data generada por pivot():")
display(data_ancho2)

Data original:


Unnamed: 0,Ciudad,Region,Dia 1,Dia 2,Dia 3
0,Concepción,Biobío,20,23,22
1,Iquique,Tarapacá,15,16,15
2,Santiago,Metropolitana,22,20,19
3,Valparaíso,Valparaíso,14,13,15


Data generada por pivot():


Unnamed: 0_level_0,Unnamed: 1_level_0,Temperatura,Temperatura,Temperatura
Unnamed: 0_level_1,Dia,Dia 1,Dia 2,Dia 3
Ciudad,Region,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Concepción,Biobío,20,23,22
Iquique,Tarapacá,15,16,15
Santiago,Metropolitana,22,20,19
Valparaíso,Valparaíso,14,13,15


## Ejercicios de práctica

La base de datos `gapminder` contiene información sobre distintos índices a lo largo del tiempo en la mayoría de los países del mundo, con el fin de promover el desarrollo global y desmentir mitos comunes sobre salud.
Algunas variables de la base de datos son:
* `country`: País.
* `year`: Año.
* `infanty_mortality`: Índice de mortalidad infantil.
* `life_expectancy`: Esperanza de vida en años.
* `fertility`: Índice de fertilidad.
* `population`: Población total del país.
* `gdp`: PIB anual del país medido en dólares.
* `continent`: Continente.
* `region`: Región.

A continuación, llevará a cabo un análisis en el que investigará sobre las diferencias en la esperanza de vida y PIB de acuerdo a la ubicación geográfica de los países.  


**1.** Cargue la base de datos `gapminder.xlsx` usando la funcion apropiada para cargar archivos de *Excel* y muestre las primeras observaciones. Recuerde importar `pandas` con el alias `pd`.

In [None]:
# Responda aquí:


**2.** Muestre información de la base de datos con los métodos `describe` e `info`. ¿Qué aspectos destacan? ¿Y los valores faltantes?

In [None]:
# Responda aquí:


**3.** Para el análisis, no tomaremos en cuenta el índice de fertilidad ni la región. Remueva estas variables de la base de datos.

In [None]:
# Responda aquí:


**4.** Para ser consistentes, solo consideraremos la información disponible en un solo año. Filtre la base de datos para solo conservar las observaciones del año 2011.

In [None]:
# Responda aquí:


**5.** ¿Cuántos países hay en cada continente? ¿De que forma esto puede afectar el análisis?

In [None]:
# Responda aquí:


**6.** Muestre una tabla donde se diferencie el promedio de esperanza de vida en cada continente. ¿Qué es relevante en este análisis?

In [None]:
# Responda aquí:


**7.** Nos interesa comparar el PIB medio entre distintos contienentes. Sin embargo, esto carece de sentido ya que es de esperar que en cada país el PIB sea mayor a medida que su población lo sea. Para ello calcule el PIB per-cápita (PIB/población) de cada país y luego genere una tabla que permita calcular el PIB per-cápita medio entre continentes.

In [None]:
# Responda aquí:


**8.** Vuelva a considerar la base de datos contenida en el archivo `mcdonals.xksx` y ahora la base de datos `articulos.csv`. Cargue la base de datos de artículos, y realice un cruce de datos mediante la variable `articulo_id` que permita obtener el nombre del artículo para cada observación. ¿Cuáles son los nombres de los tres artículos con mayor contenido de proteína?

In [None]:
# Responda aquí:
