### **Creación de variables agregadas a partir del dataset del dataset [Cost of Living](https://www.kaggle.com/datasets/mvieira101/global-cost-of-living/code)**

Este notebook implementa la creación de **7 índices calculados** sobre el dataset `cost-of-living-clean.csv`.

La idea general es que variables desagregadas sobre el coste de frutas o verduras por separada aportan poco valor analítico. 

En cambio el cálculo de variables agregadas relacionadas con coste de la cesta de compra o precio de la vivienda sí lo hacen. 

#### **Pasos a seguir y descripción de variables agregadas**

1. **Setup y carga de datos**: Importar librerías y cargar `cost-of-living-clean.csv`
2. **Exploración inicial**: Verificar columnas disponibles y tipos de datos
3. **Variables agregada 1 — `nomad_housing_cost`**: promedio alquiler 1br (centro + afueras) / 2
4. **Variables agregada 2 — `basic_basket_index`**: promedio productos básicos supermercado
5. **Variables agregada 3 — `daily_meal_cost`**: cappuccino + comida restaurante económico
6. **Variables agregada 4 — `monthly_nomad_cost`**: coste mensual total (vivienda + comida + internet + utilities + transporte)
7. **Variables agregada 5 — `local_purchasing_power`**: salario / coste mensual nómada
8. **Variables agregada 6 — `cappuccino_index`**: normalización del precio cappuccino
9. **Variables agregada 7 — `housing_salary_ratio`**: (alquiler / salario) × 100
10. **Creación del nuevo CSV con la variables agregadas**: creación de nuevas columnas y exportar CSV actualizado

#### **Dependencias entre variables agregadas**

- **Independientes**: las variables agregadas 1, 2, 3 y 6 se pueden crear en paralelo.
- **Variable agregada 4**: depende de las variables 1, 2 y 3.
- **Variable agregada 5**: depende de la variable 4
- **Variable agregada 7**: depende de la variable 1

#### **Hipótesis que validan**

1. La variable `nomad_housing_cost` está relacionada con la verificación de las hipótesis 1 y 4 del planteamiento del EDA. 
2. La variable `basic_basket_index` con las hipótesis 1 y 2. 
3. La variable `daily_meal_cost` con la hipótesis 1. 
4. La variable `monthly_nomad_cost` con las hipótesis 1 y 5. 
5. La variable `local_purchasing_power` con la hipótesis 2. 
6. La variable `cappuccino_index` con la hipótesis 1. 
7. La variable `housing_salary_ratio` con las hipótesis 2 y 4. 

### 1. **Importar librerías y cargar el dataset de Cost of Living**

In [1]:
import numpy as np
import pandas as pd

pd.options.mode.copy_on_write = True # CoW por defecto a partir de pandas 3.0.0 

In [3]:
df_cost = pd.read_csv("./data/cost-of-living-clean.csv")
df_cost.head(20) # Cargamos el CSV limpios de Cost of Living y visualizamos 20 filas tenerlo cargado

Unnamed: 0,city_name,country_name,meal_inexpensive_restaurant,meal_midrange_restaurant_2p,mcmeal_fastfood,beer_domestic_restaurant_0_5l,beer_imported_restaurant_0_33l,cappuccino_restaurant,soda_restaurant_0_33l,water_restaurant_0_33l,...,rent_1br_city_center,rent_1br_outside_center,rent_3br_city_center,rent_3br_outside_center,price_sqm_city_center,price_sqm_outside_center,avg_net_salary,mortgage_interest_rate_20y,data_quality_flag,continent
0,Seoul,South Korea,7.68,53.78,6.15,3.07,4.99,3.93,1.48,0.79,...,742.54,557.52,2669.12,1731.08,22067.7,10971.9,2689.62,3.47,1,Asia
1,Shanghai,China,5.69,39.86,5.69,1.14,4.27,3.98,0.53,0.33,...,1091.93,569.88,2952.7,1561.59,17746.11,9416.35,1419.87,5.03,1,Asia
2,Guangzhou,China,4.13,28.47,4.98,0.85,1.71,3.54,0.44,0.33,...,533.28,317.45,1242.24,688.05,12892.82,5427.45,1211.68,5.19,1,Asia
3,Mumbai,India,3.68,18.42,3.68,2.46,4.3,2.48,0.48,0.19,...,522.4,294.05,1411.12,699.8,6092.45,2777.51,640.81,7.96,1,Asia
4,Delhi,India,4.91,22.11,4.3,1.84,3.68,1.77,0.49,0.19,...,229.84,135.31,601.02,329.15,2506.73,1036.74,586.46,8.06,1,Asia
5,Dhaka,Bangladesh,1.95,11.71,4.88,5.85,5.12,1.95,0.29,0.16,...,142.09,87.79,347.57,208.5,1119.98,571.72,280.73,9.26,1,Asia
6,Osaka,Japan,7.45,48.39,5.36,3.35,3.72,3.28,1.09,0.81,...,674.96,376.14,1737.21,993.17,8043.38,4825.58,2322.46,1.49,1,Asia
7,Jakarta,Indonesia,2.59,22.69,3.57,2.06,3.24,2.23,0.61,0.27,...,505.59,277.43,1172.14,615.04,2632.8,1241.09,509.12,9.05,1,Asia
8,Shenzhen,China,4.27,28.47,4.98,1.14,3.99,4.2,0.47,0.34,...,738.75,435.07,1682.3,886.16,17898.73,8091.57,1572.22,4.99,1,Asia
9,Kinshasa,Congo,15.11,42.63,10.08,1.74,2.5,4.35,2.78,0.84,...,2000.0,725.0,4500.0,1160.0,6170.63,933.33,400.0,19.33,0,Africa
