### **EDA: nomadismo digital y coste de vida global**

**Miembros Team 4 EDA:** Daniela Aguirre, Alejandro Balaguer y Juan F. Cía

----

### **1. Introducción: contexto de negocio**

#### **1.1 Qué buscamos con el análisis**

El nomadismo digital ha crecido de forma acelerada, pero no todos los destinos son igual de atractivos para este perfil. 

Elegir un destino depende de la evaluación de varios factores entre lo que tenemos:

- **Coste de vida**: vivienda, alimentación y transporte.
- **Infraestructura digital**: velocidad y coste de internet.
- **Calidad de vida**: seguridad, bienestar y servicios.
- **Capacidad económica local**: relación entre el promedio de salarios y el coste mensual de productos y servicios.
- **Accesibilidad burocrática a trabajar en esos destinos**: facilidad de visa y requisitos legales.

**Impacto en negocio:**

Lógicamente este tipo de análisis puede tener interés no solo para los propios nómadas digital, también para gobiernos, instituciones o empresas que están relacionados con el tejido productivo y que este análisis ayude a tomar decisiones. 

1. **Gobiernos e instituciones**: ser un destino ideal para el nomadismo digital puede atraer profesionales cualificados e inversiones.
2. **Empresas de tecnología o remote-first**: oportunidad competitiva para obtener talento de profesionales en países nómadas digitales.
3. **Empresas relacionadas con el mundo inmobiliario**: los nómadas buscan viviendas en páises de destino. 
4. **Empresas de tramitaciones burocráticas**: empresas que asesores y tramiten documentación legal a nómadas en países de destino. 
5. **Plataformas de relocación**: empresas que faciliten la recolación de nómadas digitales entre países y empresas. 
6. **Empresas de servicios específicos para nomadismo**.

#### **1.2 Objetivo del EDA**

> ¿Qué características económicas y de coste de vida diferencian a los países y ciudades mejor posicionados para el nomadismo digital frente a los menos atractivos?

#### **1.3 Hipótesis a validar en el análisis**

El análisis se estructura en torno a hipótesis primarias y secundarias:

##### Hipótesis primarias

- **Hipótesis 1**: coste de vida medio --> ¿los mejores destinos siempre son los que menos coste mensual exigen?
- **Hipótesis 2**: salarios vs coste --> ¿la relación entre los salarios y el coste es clave para ser un buen destino?
- **Hipótesis 3**: conectividad para trabajar --> ¿cuanto más velocidad de conexión a menos precio, mejor destino nómada digital?

##### Hipótesis secundarias

- **Hipótesis 4**: la variable vivienda --> ¿el alquiler de vivienda es una razón determinante por encima de alimentación y transporte?
- **Hipótesis 5**: más por menos dinero --> ¿hay países que ofrecen mejores condiciones generales por menos coste mensual?
- **Hipótesis 6**: bienestar social --> ¿los países con buen índice de felicidad atraen más nómadas digitales?
- **Hipótesis 7**: outliers estratégicos --> ¿países fuera de rango por coste y puntuación que son buenos destinos para los nómadas?
- **Hipótesis 8**: seguridad --> la seguridad es un elemento decisivo en la elección, incluso con costes elevados
- **Hipótesis 9**: facilidad de visado --> la accesibilidad legal a los países es una variable que afecta al ránking de destinos

### **1. Cargamos las librerías y los datasets limpios procedentes del ETL**

In [1]:
# Cargamos las librerías que vamos a necesitar

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

pd.options.mode.copy_on_write = True

# Configuración de las visualizaciones del análisis univariante:
# 1. Estilos de Matplotlib y Seaborn
# 2. Paleta estándar viridis

plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("viridis")

# Cargamos todos los datasets totalmente limpios del proceso de ETL

df_cost = pd.read_csv("./data/variables-agregadas-cost-of-living.csv")
df_circleloop = pd.read_csv("./data/digital-nomad-index-cicleloop-clean.csv")
df_movingto = pd.read_csv("./data/digital-nomad-index-movingto-clean.csv")

# Cargamos los datasets para saber si todo está correcto

df_cost.head(10) # Selección de variables originales y agregadas de Cost of Living

Unnamed: 0,city_name,country_name,meal_inexpensive_restaurant,meal_midrange_restaurant_2p,mcmeal_fastfood,beer_domestic_restaurant_0_5l,beer_imported_restaurant_0_33l,cappuccino_restaurant,soda_restaurant_0_33l,water_restaurant_0_33l,...,avg_net_salary,mortgage_interest_rate_20y,data_quality_flag,continent,nomad_housing_cost,basic_basket_index,daily_meal_cost,monthly_nomad_cost,local_purchasing_power,housing_salary_ratio
0,Seoul,South Korea,7.68,53.78,6.15,3.07,4.99,3.93,1.48,0.79,...,2689.62,3.47,1,Asia,650.03,4.631667,11.61,1209.99,2.222845,24.168098
1,Shanghai,China,5.69,39.86,5.69,1.14,4.27,3.98,0.53,0.33,...,1419.87,5.03,1,Asia,830.905,1.995,9.67,1147.345,1.237527,58.519794
2,Guangzhou,China,4.13,28.47,4.98,0.85,1.71,3.54,0.44,0.33,...,1211.68,5.19,1,Asia,425.365,1.5725,7.67,692.37,1.750047,35.105391
3,Mumbai,India,3.68,18.42,3.68,2.46,4.3,2.48,0.48,0.19,...,640.81,7.96,1,Asia,408.225,1.078333,6.16,590.785,1.084675,63.70453
4,Delhi,India,4.91,22.11,4.3,1.84,3.68,1.77,0.49,0.19,...,586.46,8.06,1,Asia,182.575,1.0475,6.68,391.89,1.496491,31.131705
5,Dhaka,Bangladesh,1.95,11.71,4.88,5.85,5.12,1.95,0.29,0.16,...,280.73,9.26,1,Asia,114.94,1.193333,3.9,286.73,0.979074,40.943255
6,Osaka,Japan,7.45,48.39,5.36,3.35,3.72,3.28,1.09,0.81,...,2322.46,1.49,1,Asia,525.55,3.3025,10.73,1035.305,2.243262,22.629023
7,Jakarta,Indonesia,2.59,22.69,3.57,2.06,3.24,2.23,0.61,0.27,...,509.12,9.05,1,Asia,391.51,1.765,4.82,643.55,0.791112,76.899356
8,Shenzhen,China,4.27,28.47,4.98,1.14,3.99,4.2,0.47,0.34,...,1572.22,4.99,1,Asia,586.91,1.829167,8.47,890.265,1.766013,37.330017
9,Kinshasa,Congo,15.11,42.63,10.08,1.74,2.5,4.35,2.78,0.84,...,400.0,19.33,0,Africa,1362.5,4.215,19.46,2664.84,0.150103,340.625


In [21]:
df_cost.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4742 entries, 0 to 4741
Data columns (total 64 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   city_name                            4742 non-null   object 
 1   country_name                         4742 non-null   object 
 2   meal_inexpensive_restaurant          4742 non-null   float64
 3   meal_midrange_restaurant_2p          4742 non-null   float64
 4   mcmeal_fastfood                      4742 non-null   float64
 5   beer_domestic_restaurant_0_5l        4742 non-null   float64
 6   beer_imported_restaurant_0_33l       4742 non-null   float64
 7   cappuccino_restaurant                4742 non-null   float64
 8   soda_restaurant_0_33l                4742 non-null   float64
 9   water_restaurant_0_33l               4742 non-null   float64
 10  milk_1l                              4742 non-null   float64
 11  bread_white_500g              

In [2]:
df_circleloop.head(10) # Dataset de Nomad Index de Circleloop

Unnamed: 0,rank,country,broadband_speed_mbps,mobile_speed_mbps,broadband_cost,monthly_rent,happiness_index,migrant_population_pct,remote_jobs_searches,digital_nomad_score
0,1,Canada,149.35,84.54,43.77,1111.5,7.23,21.3,83900,74.35
1,2,UK,76.49,41.72,44.83,1084.59,7.17,14.1,68400,63.43
2,3,Romania,188.55,41.48,10.23,380.25,6.12,2.4,10980,62.28
3,4,Sweden,158.73,56.64,49.72,1035.45,7.35,20.0,3490,61.54
4,5,Denmark,179.81,66.68,60.55,1239.03,7.65,12.5,1080,61.49
5,6,France,177.93,50.45,34.91,886.86,6.66,12.8,5360,60.8
6,7,Netherlands,125.82,88.13,53.27,1419.21,7.45,13.4,3440,60.27
7,8,Australia,58.52,88.35,60.71,1343.16,7.22,30.0,17600,60.16
8,9,Switzerland,186.4,73.85,90.52,1807.65,7.56,29.9,3840,60.15
9,10,Germany,120.13,49.67,36.09,964.08,7.08,15.7,12720,60.0


In [3]:
df_movingto.head(10) # Dataset de Nomad Index de Circleloop

Unnamed: 0,rank,country,overall_score,internet_speed,cost_of_living,safety,visa_ease,quality_of_life,taxes,tax_free_period
0,1,Portugal,92,90,85,95,95,95,NHR 20%,10 years
1,2,Estonia,91,95,75,90,98,92,0-20%,183 days/year
2,3,Georgia,90,85,88,82,100,80,1%,183 days/year
3,4,Spain,89,88,80,92,92,94,24%,183 days/year
4,5,Thailand,88,85,95,80,90,88,0-35%,183 days/year
5,6,Mexico,87,82,90,75,94,86,1.92-35%,183 days/year
6,7,Czech Republic,86,87,78,88,85,90,15%,183 days/year
7,8,Malaysia,85,80,92,85,90,85,0-30%,182 days/year
8,9,Croatia,84,84,76,88,88,89,24%,1 year
9,10,Costa Rica,83,79,85,80,90,88,0-25%,183 days/year


### **2. Descripción de los datasets antes de comenzar el análisis**

#### **2.1. Dataset de variables agregadas de Cost of Living**

1. **Número de filas**: 4.742 ciudades
2. **Número de variables**: 65 en total (58 originales + 7 variables agregadas)
3. **Fuente**: Numbeo / Kaggle
4. **Categorías de variables:**
- Restaurantes y bebidas (x1-x8)
- Supermercado (x9-x27)
- Transporte (x28-x33)
- Vivienda y suministros (x36-x38, x48-x53)
- Economía (x54-x55: salario, hipoteca)
5. **Variables agregadas**:
- **Variables agregada 1 — `nomad_housing_cost`**: promedio del alquiler de un dormitorio (centro + afueras) / 2
- **Variables agregada 2 — `basic_basket_index`**: promedio de productos básicos de supermercado
- **Variables agregada 3 — `daily_meal_cost`**: cappuccino + comida de restaurante económico
- **Variables agregada 4 — `monthly_nomad_cost`**: coste mensual total (vivienda + comida + internet + utilities + transporte)
- **Variables agregada 5 — `local_purchasing_power`**: salario / coste mensual nómada
- **Variables agregada 6 — `cappuccino_index`**: normalización del precio del cappuccino
- **Variables agregada 7 — `housing_salary_ratio`**: (alquiler / salario) × 100


#### **2.2. Dataset de Nomad Index de Circleloop**

1. **Número de filas**: 85 países
2. **Número de variables**: 10 variables en total
3. **Fuente**: Circleloop
4. **Variables propias de este dataset**:
- `broadband_speed_mbps`y `mobile_speed_mbps`: conectividad a internet general y móvil
- `broadband_cost` y `monthly_rent`: costes en conectividad y alquiler
- `happiness_index`: índice de felicidad y bienestar
- `digital_nomad_score`: variable clave con la puntuación sobre mejores destino para nómadas digitales.

#### **2.3. Dataset de Nomad Index de Movingto**

1. **Número de filas**: 40 registros
2. **Número de variables**: 10 variables en total
3. **Fuente**: Movingto
4. **Variables propias de este dataset**:
- `safety`: score de seguridad de 0 a 100.
- `visa_ease`: facilidad de visa para nómadas digitales de 0 a 100. 
- `taxes` y `tax_free_period`: información fiscal sobre impueestos. 

