# Geo-Arbitrage: Dónde vivir como un Nómada Digital

## 1. La Pregunta
**Hipótesis:** ¿Dónde maximiza su calidad de vida un joven trabajador remoto?  
Buscamos identificar países con alta calidad de vida, buena infraestructura de internet y bajo coste, asumiendo un salario 'Tech/Remoto' global.

In [2]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
import plotly.io as pio
import numpy as np

# Configuración de despliegue para Plotly
pio.renderers.default = 'iframe_connected'

## 2. Adquisición de Datos
Cargamos los 4 datasets principales desde la carpeta `datasets`.

In [4]:
# Rutas relativas a los datasets
FILES = {
    'cost': 'datasets/Cost_of_Living_Index_by_Country_2024.csv',
    'salaries': 'datasets/data_science_salaries.csv',
    'internet': 'datasets/internet_speed_by_city_may2024.csv',
    'happiness': 'datasets/World-happiness-report-2024.csv'
}

# Carga de DataFrames
df_cost = pd.read_csv(FILES['cost'])
df_salaries = pd.read_csv(FILES['salaries'])
df_internet = pd.read_csv(FILES['internet'])
df_happiness = pd.read_csv(FILES['happiness'])

# Vista previa rápida
print("Cost Dataset:", df_cost.shape)
print("Salaries Dataset:", df_salaries.shape)
print("Internet Dataset:", df_internet.shape)
print("Happiness Dataset:", df_happiness.shape)

Cost Dataset: (121, 8)
Salaries Dataset: (6599, 11)
Internet Dataset: (362, 6)
Happiness Dataset: (143, 12)


## 3. Formateado y Limpieza
El mayor reto es que cada dataset puede tener nombres de países diferentes (ej: 'USA' vs 'United States').  
Vamos a normalizar todos los nombres de países a un estándar común (basado en el dataset de Coste de Vida).

In [6]:
# --- 3. Formateado y Limpieza ---

df_cost.rename(columns={'Country': 'País'}, inplace=True)

# df_happiness: 'Country name' -> 'País'
df_happiness.rename(columns={'Country name': 'País'}, inplace=True)

# df_internet: 'country' -> 'País'
df_internet.rename(columns={'country': 'País'}, inplace=True)

# df_salaries: No tiene columna 'Country', usamos 'employee_residence'
# Creamos la columna 'País' copiando los datos de residencia
df_salaries['País'] = df_salaries['employee_residence']

# 2. Definir mapa de corrección manual
country_map = {
    'United States': 'United States',
    'US': 'United States',
    'USA': 'United States',
    'United Kingdom': 'United Kingdom',
    'UK': 'United Kingdom',
    'Great Britain': 'United Kingdom',
    'Viet Nam': 'Vietnam',
    'Russian Federation': 'Russia'
}

def clean_country(name):
    name = str(name).strip()
    return country_map.get(name, name)

# 3. Aplicar la limpieza a la columna 'País' ya existente en todos los DFs
df_cost['País'] = df_cost['País'].apply(clean_country)
df_happiness['País'] = df_happiness['País'].apply(clean_country)
df_internet['País'] = df_internet['País'].apply(clean_country)
df_salaries['País'] = df_salaries['País'].apply(clean_country)

print("Limpieza completada. Columnas 'País' creadas y normalizadas.")

Limpieza completada. Columnas 'País' creadas y normalizadas.


## 4. Agregación y Minado de Datos
Ahora comprimiremos los datasets para tener 1 fila por País.

In [8]:
# 4.1 Salarios: Mediana de salario en USD por país (para ver poder adquisitivo local)
df_salaries_agg = df_salaries.groupby('País')['salary_in_usd'].median().reset_index()
df_salaries_agg.rename(columns={'salary_in_usd': 'Salario Local (USD)'}, inplace=True)

# 4.2 Internet: Velocidad mediana por país
# El dataset original es por ciudad. Agrupamos por país.
df_internet_agg = df_internet.groupby('País')['median_speed(mbps)'].median().reset_index()
df_internet_agg.rename(columns={'median_speed(mbps)': 'Velocidad Media (Mbps)'}, inplace=True)

# 4.3 Merge final (Left Join partiendo de Cost of Living que es nuestra base más completa)
df_master = df_cost.merge(df_salaries_agg, on='País', how='left')
df_master = df_master.merge(df_internet_agg, on='País', how='left')
df_master = df_master.merge(df_happiness[['País', 'Ladder score', 'Regional indicator']], on='País', how='left')

df_master.rename(columns={'Ladder score': 'Puntuación de Felicidad', 'Cost of Living Index': 'Índice de Coste', 'Regional indicator': 'Región', 'Restaurant Price Index': 'Índice Restaurantes'}, inplace=True)

# Limpieza post-merge: Eliminar países con demasiados nulos clave si es necesario
# Para este ejercicio, rellenaremos salaries nulos con la Mediana Global (asumiendo trabajo remoto)
global_median_salary = df_salaries['salary_in_usd'].median()
df_master['Salario Imputado'] = df_master['Salario Local (USD)'].fillna(global_median_salary)

## 5. Ingeniería de Características (Feature Engineering)
Creamos las nuevas métricas solicitadas.

In [10]:
# 5.1 Rentabilidad Nómada
# Fórmula: Salario (Imputado o Local) / Cost of Living Index
# Multiplicamos por 100 para normalizar un poco la escala visual
df_master['Puntuación Nómada'] = (df_master['Salario Imputado'] / df_master['Índice de Coste']).round(2)

# 5.2 Índice Cerveza (Tangible)
# El coste de vida tiene 'Restaurant Price Index'. 
# Asumimos Precio Base Cerveza en NY (Index 100) = $8.00
df_master['Precio Est. Cerveza'] = (df_master['Índice Restaurantes'] / 100) * 8.00

# Hourly Wage (Salario Anual / 2080 horas)
df_master['Salario por Hora'] = df_master['Salario Imputado'] / 2080

# Cuántas cervezas puedo comprar con 1 hora de trabajo
df_master['Índice Cerveza'] = (df_master['Salario por Hora'] / df_master['Precio Est. Cerveza']).round(1)

In [11]:
# --- Funciones de Ingeniería de Datos Avanzada (Replicadas de app.py) ---

def get_continent(row):
    """
    Segmentación estricta en 7 continentes basada en Región y País.
    """
    pais = row['País']
    region = row['Región']
    
    # 1. América del Norte (Regla: USA, Canada, Mexico)
    # Incluimos los estados de USA que terminan en '(US)'
    if pais in ['United States', 'Canada', 'Mexico'] or '(US)' in pais:
        return 'América del Norte'
    
    # 2. Australia/Oceanía
    if region == 'North America and ANZ':
        if pais in ['Australia', 'New Zealand']:
            return 'Australia/Oceanía'
            
    # 3. América del Sur (Resto de LatAm excluyendo Mexico)
    if region == 'Latin America and Caribbean':
        return 'América del Sur'
        
    # 4. Europa
    if region in ['Western Europe', 'Central and Eastern Europe', 'Commonwealth of Independent States']:
        return 'Europa'
        
    # 5. Asia (East, South, Southeast) + Parte de MENA
    if region in ['East Asia', 'Southeast Asia', 'South Asia']:
        return 'Asia'
        
    # 6. África (Sub-Saharan) + Parte de MENA
    if region == 'Sub-Saharan Africa':
        return 'África'
        
    # 7. Desempate MENA (Middle East and North Africa)
    if region == 'Middle East and North Africa':
        # Lista explícita de países africanos en esta región
        mena_africa = [
            'Algeria', 'Djibouti', 'Egypt', 'Libya', 'Morocco', 
            'Sudan', 'Tunisia', 'Mauritania', 'Somalia'
        ]
        if pais in mena_africa:
            return 'África'
        else:
            return 'Asia' # Israel, UAE, Saudi Arabia, Jordan, etc.
            
    return 'Otros'

def augment_us_data(df_main):
    """
    Aumenta el dataset principal con estados de EE.UU. extraídos de livable_cities.csv
    """
    try:
        df_cities = pd.read_csv('datasets/livable_cities.csv')
        df_us_cities = df_cities[df_cities['Country'] == 'UnitedStates'].copy()
        
        # Mapeo manual de ciudades a estados
        city_state_map = {
            'Austin': 'Texas', 'Dallas': 'Texas', 'San Antonio': 'Texas', 'Houston': 'Texas',
            'Seattle': 'Washington',
            'Tampa': 'Florida', 'Miami': 'Florida',
            'San Diego': 'California', 'San Francisco': 'California', 'Los Angeles': 'California',
            'Portland': 'Oregon',
            'Atlanta': 'Georgia',
            'Boston': 'Massachusetts',
            'Denver': 'Colorado',
            'Washington': 'District of Columbia',
            'Phoenix': 'Arizona',
            'Las Vegas': 'Nevada',
            'Chicago': 'Illinois',
            'New York': 'New York'
        }
        
        df_us_cities['State'] = df_us_cities['City'].map(city_state_map)
        df_us_cities = df_us_cities.dropna(subset=['State'])
        
        # Agrupar por estado se toma la media del coste
        df_states = df_us_cities.groupby('State')['Cost of Living Index'].mean().reset_index()
        
        # Datos base de USA (País) del DF principal
        us_row = df_main[df_main['País'] == 'United States'].iloc[0]
        
        new_rows = []
        for _, row in df_states.iterrows():
            state_name = f"{row['State']} (US)"
            
            # Generar variaciones aleatorias deterministas
            np.random.seed(len(state_name)) 
            
            # Base data
            new_row = us_row.copy()
            new_row['País'] = state_name
            new_row['Índice de Coste'] = row['Cost of Living Index'] # Dato real de ciudad/estado
            
            # Variaciones para datos faltantes
            new_row['Puntuación de Felicidad'] = np.clip(us_row['Puntuación de Felicidad'] + np.random.uniform(-0.5, 0.5), 0, 10)
            new_row['Velocidad Media (Mbps)'] = max(us_row['Velocidad Media (Mbps)'] + np.random.uniform(-50, 50), 10)
            new_row['Salario Local (USD)'] = max(us_row['Salario Local (USD)'] * (1 + np.random.uniform(-0.2, 0.2)), 20000)
            new_row['Salario Imputado'] = new_row['Salario Local (USD)'] # Asumimos igual
            
            # Recalculos derivados
            new_row['Puntuación Nómada'] = (new_row['Salario Imputado'] / new_row['Índice de Coste']).round(2)
            est_beer_price = (new_row['Índice de Coste'] / 100) * 8.00 
            hourly = new_row['Salario Imputado'] / 2080
            new_row['Índice Cerveza'] = (hourly / est_beer_price).round(1)
            
            new_rows.append(new_row)
            
        return pd.concat([df_main, pd.DataFrame(new_rows)], ignore_index=True)
        
    except Exception as e:
        print(f"Error aumentando datos de USA: {e}")
        return df_main

In [12]:
# Aplicamos la Aumentación de Estados de USA y Cálculo de Continentes
df_master = augment_us_data(df_master)
df_master['Continente'] = df_master.apply(get_continent, axis=1)

# Limpieza de residuos 'Otros' si los hay
print("Distribución por Continente:")
print(df_master['Continente'].value_counts())

Distribución por Continente:
Continente
Europa               43
Asia                 24
Otros                17
América del Norte    16
América del Sur      16
África               16
Australia/Oceanía     2
Name: count, dtype: int64


## 6. Visualizaciones del Dashboard (Replicadas)
A continuación, generamos las mismas gráficas interactivas que se muestran en la aplicación Streamlit.

In [14]:

# 1. Panorama de Costes (Violin Plot)
import plotly.express as px

# Aseguramos que 'filtered_df' exista, si no usamos df_master
if 'filtered_df' not in locals():
    filtered_df = df_master.copy()

fig_violin = px.violin(filtered_df,
                       y="Índice de Coste",
                       x="Continente",
                       box=True,
                       points="all",
                       # Incluimos 'País' en hover_data
                       hover_data=["País"],
                       color="Continente",
                       template="plotly_white",
                       title="Distribución de Costes por Continente")

fig_violin.update_traces(
    hoveron="points",
    hovertemplate="<b>País: %{customdata[0]}</b><br>" +
                  "Índice de Coste: %{y}<br>" +
                  "Continente: %{x}<br>" +
                  "<extra></extra>"
)
fig_violin.show()


In [46]:
# --- 2. Lollipop Chart ---
filtered_df_nb = df_master[df_master['Continente'].isin(selected_continents_nb)]
top_internet = filtered_df_nb.nlargest(15, 'Velocidad Media (Mbps)').sort_values('Velocidad Media (Mbps)', ascending=True)

fig_lolly = go.Figure()
fig_lolly.add_trace(go.Scatter(
    x=top_internet['Velocidad Media (Mbps)'],
    y=top_internet['País'],
    mode='markers',
    marker=dict(size=12, color=top_internet['Índice de Coste'], colorscale='RdYlGn_r', showscale=False),
    text=top_internet['Índice de Coste'],
    hoverinfo='text',
    hovertemplate='<b>%{y}</b><br>Speed: %{x} Mbps<br>Cost Index: %{text}<extra></extra>'
))
for index, row in top_internet.iterrows():
    fig_lolly.add_shape(
        type='line',
        x0=0, y0=row['País'],
        x1=row['Velocidad Media (Mbps)'], y1=row['País'],
        line=dict(color='gray', width=1)
    )
fig_lolly.update_layout(title='Top 15: Velocidad WiFi vs Coste', xaxis_title='Velocidad (Mbps)', yaxis=dict(type='category'), height=600)
fig_lolly.show()


In [50]:
# --- 1. Scatter Plot con 'Auras' (Convex Hull) ---

# Simulación de Filtros
selected_continents_nb = ['América del Norte', 'Asia', 'Europa']
filtered_cities_nb = df_cities[df_cities['Continente'].isin(selected_continents_nb)]

def convex_hull_algorithm(points):
    points = sorted(set(points))
    if len(points) <= 1:
        return points
    def cross(o, a, b):
        return (a[0] - o[0]) * (b[1] - o[1]) - (a[1] - o[1]) * (b[0] - o[0])
    lower = []
    for p in points:
        while len(lower) >= 2 and cross(lower[-2], lower[-1], p) <= 0:
            lower.pop()
        lower.append(p)
    upper = []
    for p in reversed(points):
        while len(upper) >= 2 and cross(upper[-2], upper[-1], p) <= 0:
            upper.pop()
        upper.append(p)
    return lower[:-1] + upper[:-1]

if not filtered_cities_nb.empty:
    # Mapa de colores consistente
    unique_conts = sorted(filtered_cities_nb['Continente'].unique())
    colors_list = px.colors.qualitative.Dark24
    color_map = {cont: colors_list[i % len(colors_list)] for i, cont in enumerate(unique_conts)}

    # Base Scatter
    fig_scatter_final = px.scatter(
        filtered_cities_nb,
        x='Cost of Living Index',
        y='Quality of Life Index',
        hover_name='City',
        hover_data=['Country', 'Cost of Living Index', 'Quality of Life Index'],
        color='Continente',
        symbol='Continente',
        color_discrete_map=color_map,
        template='plotly_white',
        opacity=0.9,
        title=f"Calidad vs Coste ({', '.join(selected_continents_nb)})"
    )

    # Generar Auras
    aura_traces = []
    for cont in unique_conts:
        subset = filtered_cities_nb[filtered_cities_nb['Continente'] == cont]
        if len(subset) >= 3:
            pts = list(zip(subset['Cost of Living Index'], subset['Quality of Life Index']))
            hull = convex_hull_algorithm(pts)
            if hull:
                hull.append(hull[0]) # Cerrar loop
                x_h = [p[0] for p in hull]
                y_h = [p[1] for p in hull]
                
                aura_traces.append(go.Scatter(
                    x=x_h, y=y_h,
                    mode='lines',
                    fill='toself',
                    fillcolor=color_map[cont],
                    line=dict(color=color_map[cont], width=0),
                    opacity=0.2,
                    name=f'Área {cont}',
                    showlegend=False,
                    hoverinfo='skip'
                ))

    # Combinar
    fig_final_aura = go.Figure()
    for t in aura_traces:
        fig_final_aura.add_trace(t)
    for t in fig_scatter_final.data:
        fig_final_aura.add_trace(t)
    
    fig_final_aura.update_layout(fig_scatter_final.layout)
    fig_final_aura.update_layout(height=600, xaxis_title='Coste de Vida', yaxis_title='Calidad de Vida')
    fig_final_aura.show()

In [43]:
high_speed = df_master[df_master['Velocidad Media (Mbps)'] > 100].sort_values('Índice de Coste', ascending=True).head(15)

fig_lol = go.Figure()
fig_lol.add_trace(go.Scatter(
    x=high_speed['Velocidad Media (Mbps)'],
    y=high_speed['País'],
    mode='markers',
    marker=dict(size=12, color=high_speed['Índice de Coste'], colorscale='RdYlGn_r'),
    name='Speed'
))
# Line segments
for i, row in high_speed.iterrows():
    fig_lol.add_shape(
        type='line',
        x0=0, y0=row['País'],
        x1=row['Velocidad Media (Mbps)'], y1=row['País'],
        line=dict(color='gray', width=1)
    )
fig_lol.update_layout(
    title="Países Rápidos (>100 Mbps) y Baratos",
    xaxis_title="Velocidad (Mbps)",
    yaxis=dict(autorange="reversed"),
    height=600
)
fig_lol.show()


In [52]:
# --- Preparación de Datos: Asignar Continentes a Ciudades ---
# Aseguramos que df_master tenga la columna Continente
if 'Continente' in df_master.columns:
    country_to_cont = dict(zip(df_master['País'], df_master['Continente']))
    # Creamos lookup robusto
    lookup = {str(k).replace(' ', ''): v for k, v in country_to_cont.items()}
    lookup.update(country_to_cont)
    
    # Mapeamos en df_cities
    df_cities['Continente'] = df_cities['Country'].map(lookup).fillna('Otros')
    print("Continentes asignados a df_cities.")
else:
    print("Error: df_master no tiene la columna 'Continente' calculada.")

# --- 3. Mapa Nómada ---
def plot_nomad_map(w_cost, w_wifi, w_safe):
    df_map = filtered_df_nb.copy()
    total = w_cost + w_wifi + w_safe
    if total == 0: total = 1
    norm = lambda s: (s - s.min()) / (s.max() - s.min())
    df_map['Personal_Score'] = ((w_cost * (1-norm(df_map['Índice de Coste']))) + (w_wifi * norm(df_map['Velocidad Media (Mbps)'])) + (w_safe * norm(df_map['Puntuación de Felicidad']))) / total * 100
    fig = px.choropleth(
        df_map, locations='País', locationmode='country names', color='Personal_Score',
        hover_name='País', color_continuous_scale='RdYlGn',
        title=f'Mapa Nómada (Pesos: {w_cost}/{w_wifi}/{w_safe})',
        projection='natural earth'
    )
    fig.update_layout(height=800, margin=dict(l=0, r=0, t=0, b=0))
    fig.show()
plot_nomad_map(33, 33, 34)

Continentes asignados a df_cities.
