# An√°lisis Exploratorio: Migraciones de Investigadores Cient√≠ficos üî¨üåç

## Contexto

Este notebook analiza los patrones de migraci√≥n de investigadores cient√≠ficos a nivel global, identificando:

- **Pa√≠ses atractores vs. emisores** de talento cient√≠fico
- **Corredores migratorios principales** (rutas m√°s frecuentes)
- **Saldo neto de brain gain/brain drain** por pa√≠s
- **Relaci√≥n con desarrollo socioecon√≥mico** (PIB per c√°pita, gasto I+D)

## Datasets

- `migration_flows.parquet|csv`: Flujos agregados origen‚Üídestino
- `migrations_clean.parquet|csv`: Registros individuales de investigadores
- `wdi_indicators.parquet|csv`: Indicadores del Banco Mundial (poblaci√≥n, PIB, I+D)
- `country_mapping.csv`: Mapeo ISO2‚ÜíISO3

---

## 1. Setup: Importaci√≥n de Librer√≠as y Configuraci√≥n

In [8]:
# Librer√≠as est√°ndar
import pandas as pd
import numpy as np
from pathlib import Path
import warnings

# Visualizaci√≥n
import plotly
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', lambda x: f'{x:,.2f}')

# Tema de plotly
import plotly.io as pio
pio.templates.default = "plotly_white"

# Paleta de colores personalizada
COLORS = {
    'primary': '#2E86AB',
    'secondary': '#A23B72',
    'accent': '#F18F01',
    'success': '#06A77D',
    'warning': '#D00000',
    'neutral': '#6C757D'
}

print("‚úì Librer√≠as importadas correctamente")
print(f"  - pandas: {pd.__version__}")
print(f"  - plotly: {plotly.__version__}")

‚úì Librer√≠as importadas correctamente
  - pandas: 2.3.3
  - plotly: 6.3.1


## 2. Carga de Datos Procesados

Cargamos los datasets generados en el notebook de preprocesamiento (`prep.ipynb`).

In [9]:
# Rutas
BASE_DIR = Path.cwd().parent
DATA_DIR = BASE_DIR / 'outputs' / 'processed'

print(f"üìÅ Directorio de datos: {DATA_DIR}\n")

# Funci√≥n para carga dual (Parquet ‚Üí CSV)
def load_dataset(base_name, description):
    """Carga Parquet si existe, sino CSV."""
    parquet_path = DATA_DIR / f"{base_name}.parquet"
    csv_path = DATA_DIR / f"{base_name}.csv"
    
    if parquet_path.exists():
        df = pd.read_parquet(parquet_path)
        print(f"‚úì {description}: {len(df):,} registros (Parquet)")
    elif csv_path.exists():
        df = pd.read_csv(csv_path)
        print(f"‚úì {description}: {len(df):,} registros (CSV)")
    else:
        print(f"‚ö†Ô∏è  {description}: No encontrado")
        return None
    
    return df

# Cargar datasets
df_flows = load_dataset('migration_flows', 'Flujos migratorios')
df_migrations = load_dataset('migrations_clean', 'Migraciones individuales')
df_wdi = load_dataset('wdi_indicators', 'Indicadores WDI')
df_mapping = pd.read_csv(DATA_DIR / 'country_mapping.csv') if (DATA_DIR / 'country_mapping.csv').exists() else None

print(f"\n‚úì Datasets cargados exitosamente")

üìÅ Directorio de datos: c:\Users\Jos√© Luis\Documents\GitHub\Scientific-Researcher-Migrations\outputs\processed

‚úì Flujos migratorios: 4,249 registros (Parquet)
‚úì Migraciones individuales: 604,173 registros (Parquet)
‚úì Indicadores WDI: 26,942 registros (Parquet)

‚úì Datasets cargados exitosamente
‚úì Migraciones individuales: 604,173 registros (Parquet)
‚úì Indicadores WDI: 26,942 registros (Parquet)

‚úì Datasets cargados exitosamente


## 3. Exploraci√≥n Inicial de Flujos Migratorios

In [10]:
print("üìä RESUMEN DE FLUJOS MIGRATORIOS\n" + "="*70)

print(f"\nüìà Estad√≠sticas Generales:")
print(f"  - Total de rutas migratorias: {len(df_flows):,}")
print(f"  - Total de investigadores que migraron: {df_flows['n_researchers'].sum():,}")
print(f"  - Pa√≠ses origen √∫nicos: {df_flows['origin'].nunique()}")
print(f"  - Pa√≠ses destino √∫nicos: {df_flows['destination'].nunique()}")
print(f"  - Media de investigadores por ruta: {df_flows['n_researchers'].mean():.1f}")
print(f"  - Mediana de investigadores por ruta: {df_flows['n_researchers'].median():.0f}")

print(f"\nüîù Top 20 Rutas Migratorias:\n")
display(df_flows[[
    'route', 'origin', 'destination', 'n_researchers', 
    'phd_year_mean', 'origin_year_mean'
]].head(20))

üìä RESUMEN DE FLUJOS MIGRATORIOS

üìà Estad√≠sticas Generales:
  - Total de rutas migratorias: 4,249
  - Total de investigadores que migraron: 62,004
  - Pa√≠ses origen √∫nicos: 194
  - Pa√≠ses destino √∫nicos: 202
  - Media de investigadores por ruta: 14.6
  - Mediana de investigadores por ruta: 2

üîù Top 20 Rutas Migratorias:



Unnamed: 0,route,origin,destination,n_researchers,phd_year_mean,origin_year_mean
0,CN ‚Üí US,CN,US,3508,2011,2000
1,IN ‚Üí US,IN,US,1916,2009,1998
2,CA ‚Üí US,CA,US,1029,2004,1995
3,GB ‚Üí US,GB,US,940,2000,1992
4,US ‚Üí GB,US,GB,786,2006,1997
5,GB ‚Üí AU,GB,AU,719,2000,1991
6,US ‚Üí KR,US,KR,709,2000,1995
7,US ‚Üí CA,US,CA,616,2001,1993
8,US ‚Üí TW,US,TW,610,1997,1992
9,KR ‚Üí US,KR,US,562,2010,1997


## 4. An√°lisis de Pa√≠ses: Top Emisores y Receptores

### 4.1 Top Pa√≠ses Emisores (Brain Drain)

In [11]:
# Agregaci√≥n por pa√≠s origen (emisores)
top_emitters = df_flows.groupby('origin')['n_researchers'].sum().sort_values(ascending=False).reset_index()
top_emitters.columns = ['country', 'total_emigrants']
top_emitters['rank'] = range(1, len(top_emitters) + 1)

print(f"üî¥ TOP 15 PA√çSES EMISORES DE CIENT√çFICOS (Brain Drain)\n" + "="*70)
display(top_emitters.head(15))

# Visualizaci√≥n
fig = px.bar(
    top_emitters.head(15),
    x='total_emigrants',
    y='country',
    orientation='h',
    title='Top 15 Pa√≠ses Emisores de Investigadores Cient√≠ficos',
    labels={'total_emigrants': 'Investigadores Emigrados', 'country': 'Pa√≠s Origen'},
    color='total_emigrants',
    color_continuous_scale='Reds',
    text='total_emigrants'
)
fig.update_traces(texttemplate='%{text:,.0f}', textposition='outside')
fig.update_layout(height=500, showlegend=False, yaxis={'categoryorder':'total ascending'})
fig.show()

üî¥ TOP 15 PA√çSES EMISORES DE CIENT√çFICOS (Brain Drain)


Unnamed: 0,country,total_emigrants,rank
0,US,7657,1
1,CN,6187,2
2,GB,5376,3
3,IN,4559,4
4,DE,2838,5
5,IT,2351,6
6,FR,2280,7
7,CA,2275,8
8,ES,1921,9
9,RU,1417,10


### 4.2 Top Pa√≠ses Receptores (Brain Gain)

In [12]:
# Agregaci√≥n por pa√≠s destino (receptores)
top_receivers = df_flows.groupby('destination')['n_researchers'].sum().sort_values(ascending=False).reset_index()
top_receivers.columns = ['country', 'total_immigrants']
top_receivers['rank'] = range(1, len(top_receivers) + 1)

print(f"üü¢ TOP 15 PA√çSES RECEPTORES DE CIENT√çFICOS (Brain Gain)\n" + "="*70)
display(top_receivers.head(15))

# Visualizaci√≥n
fig = px.bar(
    top_receivers.head(15),
    x='total_immigrants',
    y='country',
    orientation='h',
    title='Top 15 Pa√≠ses Receptores de Investigadores Cient√≠ficos',
    labels={'total_immigrants': 'Investigadores Recibidos', 'country': 'Pa√≠s Destino'},
    color='total_immigrants',
    color_continuous_scale='Greens',
    text='total_immigrants'
)
fig.update_traces(texttemplate='%{text:,.0f}', textposition='outside')
fig.update_layout(height=500, showlegend=False, yaxis={'categoryorder':'total ascending'})
fig.show()

üü¢ TOP 15 PA√çSES RECEPTORES DE CIENT√çFICOS (Brain Gain)


Unnamed: 0,country,total_immigrants,rank
0,US,14547,1
1,GB,6651,2
2,AU,3823,3
3,DE,2260,4
4,CA,2249,5
5,ES,1907,6
6,SE,1743,7
7,FR,1453,8
8,KR,1370,9
9,CH,1355,10


## 5. Saldo Migratorio Neto: Atractores vs. Exportadores

Calculamos el **saldo neto** = (Inmigraci√≥n - Emigraci√≥n) para identificar pa√≠ses atractores y exportadores de talento cient√≠fico.

In [13]:
# Calcular inmigraci√≥n y emigraci√≥n por pa√≠s
immigration = df_flows.groupby('destination')['n_researchers'].sum().reset_index()
immigration.columns = ['country', 'immigration']

emigration = df_flows.groupby('origin')['n_researchers'].sum().reset_index()
emigration.columns = ['country', 'emigration']

# Merge y calcular saldo neto
net_migration = immigration.merge(emigration, on='country', how='outer').fillna(0)
net_migration['net_balance'] = net_migration['immigration'] - net_migration['emigration']
net_migration['total_flow'] = net_migration['immigration'] + net_migration['emigration']
net_migration['migration_ratio'] = np.where(
    net_migration['emigration'] > 0,
    net_migration['immigration'] / net_migration['emigration'],
    np.inf
)

# Clasificar pa√≠ses
net_migration['type'] = np.where(
    net_migration['net_balance'] > 0, 'Atractor', 'Exportador'
)

net_migration = net_migration.sort_values('net_balance', ascending=False).reset_index(drop=True)

print(f"‚öñÔ∏è  SALDO MIGRATORIO NETO\n" + "="*70)
print(f"\nTop 10 Atractores (Brain Gain):")
display(net_migration[
    ['country', 'immigration', 'emigration', 'net_balance', 'migration_ratio']
].head(10))

print(f"\nTop 10 Exportadores (Brain Drain):")
display(net_migration[
    ['country', 'immigration', 'emigration', 'net_balance', 'migration_ratio']
].tail(10))

‚öñÔ∏è  SALDO MIGRATORIO NETO

Top 10 Atractores (Brain Gain):


Unnamed: 0,country,immigration,emigration,net_balance,migration_ratio
0,US,14547,7657,6890,1.9
1,AU,3823,1116,2707,3.43
2,GB,6651,5376,1275,1.24
3,SE,1743,514,1229,3.39
4,SA,1094,71,1023,15.41
5,DK,1145,283,862,4.05
6,MY,1074,269,805,3.99
7,CH,1355,574,781,2.36
8,QA,589,11,578,53.55
9,SG,774,244,530,3.17



Top 10 Exportadores (Brain Drain):


Unnamed: 0,country,immigration,emigration,net_balance,migration_ratio
219,BD,105,481,-376,0.22
220,PK,219,676,-457,0.32
221,DE,2260,2838,-578,0.8
222,GR,175,881,-706,0.2
223,FR,1453,2280,-827,0.64
224,IR,304,1213,-909,0.25
225,RU,330,1417,-1087,0.23
226,IT,956,2351,-1395,0.41
227,IN,373,4559,-4186,0.08
228,CN,1209,6187,-4978,0.2


In [14]:
# Visualizaci√≥n del saldo neto (top 20 atractores y exportadores)
top_attractors = net_migration.head(20).copy()
top_exporters = net_migration.tail(20).copy()
viz_data = pd.concat([top_attractors, top_exporters])

fig = px.bar(
    viz_data,
    x='net_balance',
    y='country',
    orientation='h',
    title='Saldo Migratorio Neto: Top 20 Atractores y Exportadores',
    labels={'net_balance': 'Saldo Neto (Inmigraci√≥n - Emigraci√≥n)', 'country': 'Pa√≠s'},
    color='net_balance',
    color_continuous_scale='RdYlGn',
    color_continuous_midpoint=0,
    text='net_balance'
)
fig.update_traces(texttemplate='%{text:,.0f}', textposition='outside')
fig.update_layout(
    height=700,
    yaxis={'categoryorder':'total ascending'},
    showlegend=False
)
fig.add_vline(x=0, line_dash="dash", line_color="gray", annotation_text="Balance = 0")
fig.show()

## 6. An√°lisis de Corredores Migratorios

Identificamos los **corredores bilaterales** m√°s importantes (rutas espec√≠ficas origen‚Üídestino).

In [15]:
# Top 20 corredores
top_corridors = df_flows.nlargest(20, 'n_researchers')[[
    'route', 'origin', 'destination', 'n_researchers',
    'phd_year_mean', 'origin_year_mean'
]].copy()

print(f"üõ§Ô∏è  TOP 20 CORREDORES MIGRATORIOS\n" + "="*70)
display(top_corridors)

# Visualizaci√≥n
fig = px.bar(
    top_corridors,
    x='n_researchers',
    y='route',
    orientation='h',
    title='Top 20 Corredores Migratorios M√°s Importantes',
    labels={'n_researchers': 'N√∫mero de Investigadores', 'route': 'Corredor (Origen ‚Üí Destino)'},
    color='n_researchers',
    color_continuous_scale='Blues',
    text='n_researchers'
)
fig.update_traces(texttemplate='%{text:,.0f}', textposition='outside')
fig.update_layout(height=600, showlegend=False, yaxis={'categoryorder':'total ascending'})
fig.show()

üõ§Ô∏è  TOP 20 CORREDORES MIGRATORIOS


Unnamed: 0,route,origin,destination,n_researchers,phd_year_mean,origin_year_mean
0,CN ‚Üí US,CN,US,3508,2011,2000
1,IN ‚Üí US,IN,US,1916,2009,1998
2,CA ‚Üí US,CA,US,1029,2004,1995
3,GB ‚Üí US,GB,US,940,2000,1992
4,US ‚Üí GB,US,GB,786,2006,1997
5,GB ‚Üí AU,GB,AU,719,2000,1991
6,US ‚Üí KR,US,KR,709,2000,1995
7,US ‚Üí CA,US,CA,616,2001,1993
8,US ‚Üí TW,US,TW,610,1997,1992
9,KR ‚Üí US,KR,US,562,2010,1997


## 7. Diagrama de Flujos: Sankey Diagram

### Funci√≥n para crear Sankey Diagram

**Limitaciones de Chord Diagram en Python:**
- No existe librer√≠a nativa robusta en Python (a diferencia de R con `circlize`)
- Librer√≠as como `holoviews` o `chord` son poco mantenidas y dif√≠ciles de configurar

**Alternativa: Sankey Diagram con Plotly**

‚úÖ **Pros:**
- Nativo en Plotly (sin dependencias adicionales)
- Interactivo (hover, zoom)
- F√°cil de personalizar
- Muestra magnitud y direcci√≥n de flujos claramente
- Escalable a muchos nodos

‚ö†Ô∏è **Contras:**
- No muestra relaciones circulares como un chord diagram
- Layout autom√°tico puede solapar etiquetas con muchos nodos
- Menos compacto visualmente para muchas conexiones

In [16]:
def make_sankey(df_edges, top_n=20, title="Flujos Migratorios"):
    """
    Crea un Sankey Diagram interactivo a partir de flujos migratorios.
    
    Parameters:
    -----------
    df_edges : DataFrame
        DataFrame con columnas: 'origin_iso3', 'destination_iso3', 'n_researchers'
    top_n : int
        N√∫mero de flujos principales a visualizar (por defecto 20)
    title : str
        T√≠tulo del diagrama
    
    Returns:
    --------
    plotly.graph_objects.Figure
    """
    # Filtrar top N flujos
    df_top = df_edges.nlargest(top_n, 'n_researchers').copy()
    
    # Crear mapeo de nodos √∫nicos (origen + destino)
    all_countries = list(set(df_top['origin_iso3'].tolist() + df_top['destination_iso3'].tolist()))
    country_to_idx = {country: idx for idx, country in enumerate(all_countries)}
    
    # Crear listas para Sankey
    sources = [country_to_idx[origin] for origin in df_top['origin_iso3']]
    targets = [country_to_idx[dest] for dest in df_top['destination_iso3']]
    values = df_top['n_researchers'].tolist()
    
    # Colores por regi√≥n (simplificado)
    node_colors = ['rgba(31, 119, 180, 0.8)'] * len(all_countries)
    link_colors = ['rgba(31, 119, 180, 0.3)'] * len(values)
    
    # Crear diagrama
    fig = go.Figure(data=[go.Sankey(
        node=dict(
            pad=15,
            thickness=20,
            line=dict(color="white", width=0.5),
            label=all_countries,
            color=node_colors
        ),
        link=dict(
            source=sources,
            target=targets,
            value=values,
            color=link_colors
        )
    )])
    
    fig.update_layout(
        title=title,
        font=dict(size=12),
        height=700
    )
    
    return fig

print("‚úì Funci√≥n make_sankey() definida")
print("\nUso: fig = make_sankey(df_flows, top_n=30, title='Mi T√≠tulo')")
print("     fig.show()")

‚úì Funci√≥n make_sankey() definida

Uso: fig = make_sankey(df_flows, top_n=30, title='Mi T√≠tulo')
     fig.show()


In [17]:
# Aplicar funci√≥n a los top 30 flujos
fig_sankey = make_sankey(
    df_flows,
    top_n=30,
    title="Top 30 Flujos Migratorios de Investigadores Cient√≠ficos"
)
fig_sankey.show()

## 8. Integraci√≥n con World Development Indicators (WDI)

### 8.1 Preparaci√≥n de Datos WDI

In [18]:
if df_wdi is not None:
    print(f"üåê AN√ÅLISIS CON INDICADORES WDI\n" + "="*70)
    
    # Filtrar a√±o m√°s reciente disponible (2015-2016 para alinear con dataset)
    wdi_recent = df_wdi[df_wdi['Year'].between(2014, 2016)].copy()
    
    # Pivot para tener indicadores como columnas
    wdi_pivot = wdi_recent.pivot_table(
        index='iso3',
        columns='IndicatorCode',
        values='Value',
        aggfunc='mean'  # Promedio si hay m√∫ltiples a√±os
    ).reset_index()
    
    # Renombrar columnas
    wdi_pivot.columns = [
        'country',
        'gdp_per_capita',
        'rd_expenditure_pct',
        'population',
        'researchers_per_million'
    ]
    
    print(f"‚úì Indicadores WDI procesados: {len(wdi_pivot)} pa√≠ses")
    print(f"\nüìã Vista previa:")
    display(wdi_pivot.head(10))
else:
    print("‚ö†Ô∏è  Indicadores WDI no disponibles. Saltando an√°lisis.")
    wdi_pivot = None

üåê AN√ÅLISIS CON INDICADORES WDI
‚úì Indicadores WDI procesados: 247 pa√≠ses

üìã Vista previa:


Unnamed: 0,country,gdp_per_capita,rd_expenditure_pct,population,researchers_per_million
0,ABW,,,,103441.0
1,ADO,,,,72786.0
2,AFG,,633.57,,31627506.0
3,AGO,,,,24227524.0
4,ALB,,4564.39,,2894475.0
5,ARB,,7386.43,,385272539.0
6,ARE,,43962.71,,9086139.0
7,ARG,,12509.53,,42980026.0
8,ARM,,3873.53,,3006154.0
9,ASM,,,,55434.0


### 8.2 Tasas de Migraci√≥n Per C√°pita

In [19]:
if wdi_pivot is not None:
    # Merge con saldo migratorio
    # Primero necesitamos iso3 en net_migration
    if df_mapping is not None:
        net_migration_iso3 = net_migration.merge(
            df_mapping[['iso2', 'iso3']],
            left_on='country',
            right_on='iso2',
            how='left'
        )
    else:
        # Si no hay mapeo, asumir que country ya es iso2 y buscar en flows
        iso_map_origin = df_flows[['origin', 'origin_iso3']].drop_duplicates().rename(
            columns={'origin': 'country', 'origin_iso3': 'iso3'}
        )
        iso_map_dest = df_flows[['destination', 'destination_iso3']].drop_duplicates().rename(
            columns={'destination': 'country', 'destination_iso3': 'iso3'}
        )
        iso_map = pd.concat([iso_map_origin, iso_map_dest]).drop_duplicates(subset='country')
        net_migration_iso3 = net_migration.merge(iso_map, on='country', how='left')
    
    # Merge con WDI
    migration_wdi = net_migration_iso3.merge(wdi_pivot, left_on='iso3', right_on='country', how='inner')
    
    # Calcular tasas per c√°pita (por mill√≥n de habitantes)
    migration_wdi['immigration_rate'] = (migration_wdi['immigration'] / migration_wdi['population']) * 1_000_000
    migration_wdi['emigration_rate'] = (migration_wdi['emigration'] / migration_wdi['population']) * 1_000_000
    migration_wdi['net_rate'] = (migration_wdi['net_balance'] / migration_wdi['population']) * 1_000_000
    
    print(f"‚úì Tasas per c√°pita calculadas para {len(migration_wdi)} pa√≠ses\n")
    
    print(f"Top 10 Pa√≠ses por Tasa de Inmigraci√≥n (por mill√≥n hab.):")
    display(migration_wdi[[
        'country_x', 'immigration_rate', 'immigration', 'population', 'gdp_per_capita'
    ]].nlargest(10, 'immigration_rate'))
    
    print(f"\nTop 10 Pa√≠ses por Tasa de Emigraci√≥n (por mill√≥n hab.):")
    display(migration_wdi[[
        'country_x', 'emigration_rate', 'emigration', 'population', 'gdp_per_capita'
    ]].nlargest(10, 'emigration_rate'))
else:
    migration_wdi = None

‚úì Tasas per c√°pita calculadas para 200 pa√≠ses

Top 10 Pa√≠ses por Tasa de Inmigraci√≥n (por mill√≥n hab.):


Unnamed: 0,country_x,immigration_rate,immigration,population,gdp_per_capita
148,GE,15373.82,9,585.41,0.16
0,US,,14547,,
1,AU,,3823,,
2,GB,,6651,,
3,SE,,1743,,
4,SA,,1094,,
5,DK,,1145,,
6,MY,,1074,,
7,CH,,1355,,
8,QA,,589,,



Top 10 Pa√≠ses por Tasa de Emigraci√≥n (por mill√≥n hab.):


Unnamed: 0,country_x,emigration_rate,emigration,population,gdp_per_capita
148,GE,52954.27,31,585.41,0.16
0,US,,7657,,
1,AU,,1116,,
2,GB,,5376,,
3,SE,,514,,
4,SA,,71,,
5,DK,,283,,
6,MY,,269,,
7,CH,,574,,
8,QA,,11,,


### 8.3 Relaci√≥n entre Saldo Migratorio y Desarrollo Econ√≥mico

In [20]:
if migration_wdi is not None:
    # Filtrar pa√≠ses con datos completos
    viz_data = migration_wdi[
        migration_wdi['gdp_per_capita'].notna() &
        migration_wdi['net_balance'].notna() &
        (migration_wdi['total_flow'] > 100)  # Solo pa√≠ses con flujo significativo
    ].copy()
    
    # Scatter: Saldo Neto vs PIB per c√°pita
    fig = px.scatter(
        viz_data,
        x='gdp_per_capita',
        y='net_balance',
        size='total_flow',
        color='type',
        hover_name='country_x',
        hover_data=['immigration', 'emigration', 'population'],
        title='Saldo Migratorio vs. PIB per C√°pita',
        labels={
            'gdp_per_capita': 'PIB per C√°pita (USD)',
            'net_balance': 'Saldo Migratorio Neto',
            'total_flow': 'Flujo Total',
            'type': 'Tipo'
        },
        color_discrete_map={'Atractor': COLORS['success'], 'Exportador': COLORS['warning']},
        log_x=True
    )
    fig.add_hline(y=0, line_dash="dash", line_color="gray")
    fig.update_layout(height=600)
    fig.show()
    
    # Calcular correlaci√≥n
    corr_gdp = viz_data[['gdp_per_capita', 'net_balance']].corr().iloc[0, 1]
    print(f"\nüìä Correlaci√≥n PIB per c√°pita vs. Saldo Migratorio Neto: {corr_gdp:.3f}")


üìä Correlaci√≥n PIB per c√°pita vs. Saldo Migratorio Neto: nan


In [21]:
if migration_wdi is not None:
    # Scatter: Saldo Neto vs Gasto I+D
    viz_data_rd = migration_wdi[
        migration_wdi['rd_expenditure_pct'].notna() &
        migration_wdi['net_balance'].notna() &
        (migration_wdi['total_flow'] > 100)
    ].copy()
    
    if len(viz_data_rd) > 10:
        fig = px.scatter(
            viz_data_rd,
            x='rd_expenditure_pct',
            y='net_balance',
            size='total_flow',
            color='type',
            hover_name='country_x',
            hover_data=['immigration', 'emigration', 'gdp_per_capita'],
            title='Saldo Migratorio vs. Gasto en I+D (% PIB)',
            labels={
                'rd_expenditure_pct': 'Gasto I+D (% del PIB)',
                'net_balance': 'Saldo Migratorio Neto',
                'total_flow': 'Flujo Total',
                'type': 'Tipo'
            },
            color_discrete_map={'Atractor': COLORS['success'], 'Exportador': COLORS['warning']}
        )
        fig.add_hline(y=0, line_dash="dash", line_color="gray")
        fig.update_layout(height=600)
        fig.show()
        
        # Correlaci√≥n
        corr_rd = viz_data_rd[['rd_expenditure_pct', 'net_balance']].corr().iloc[0, 1]
        print(f"\nüìä Correlaci√≥n Gasto I+D vs. Saldo Migratorio Neto: {corr_rd:.3f}")
    else:
        print("‚ö†Ô∏è  Datos insuficientes para an√°lisis de gasto I+D")


üìä Correlaci√≥n Gasto I+D vs. Saldo Migratorio Neto: 0.366


## 9. An√°lisis Temporal de Migraciones

In [22]:
# Distribuci√≥n de a√±o de migraci√≥n (origin_year)
if df_migrations is not None and 'origin_year' in df_migrations.columns:
    migration_year_dist = df_migrations[
        df_migrations['origin_year'].notna() &
        df_migrations['has_migrated']
    ]['origin_year'].value_counts().sort_index().reset_index()
    migration_year_dist.columns = ['year', 'count']
    
    fig = px.line(
        migration_year_dist,
        x='year',
        y='count',
        title='Evoluci√≥n Temporal de Migraciones Cient√≠ficas',
        labels={'year': 'A√±o de Primera Afiliaci√≥n', 'count': 'N√∫mero de Investigadores'},
        markers=True
    )
    fig.update_traces(line_color=COLORS['primary'], marker=dict(size=6))
    fig.update_layout(height=500)
    fig.show()
    
    print(f"\nüìä Pico de migraciones: {migration_year_dist.nlargest(1, 'count')['year'].values[0]} "
          f"({migration_year_dist.nlargest(1, 'count')['count'].values[0]:,} investigadores)")


üìä Pico de migraciones: 2003 (5,119 investigadores)


## 10. Mapa Mundial de Saldo Migratorio

In [23]:
# Preparar datos para mapa (necesitamos iso3)
if df_mapping is not None:
    map_data = net_migration.merge(
        df_mapping[['iso2', 'iso3']],
        left_on='country',
        right_on='iso2',
        how='left'
    )
else:
    iso_map_origin = df_flows[['origin', 'origin_iso3']].drop_duplicates().rename(
        columns={'origin': 'country', 'origin_iso3': 'iso3'}
    )
    iso_map_dest = df_flows[['destination', 'destination_iso3']].drop_duplicates().rename(
        columns={'destination': 'country', 'destination_iso3': 'iso3'}
    )
    iso_map = pd.concat([iso_map_origin, iso_map_dest]).drop_duplicates(subset='country')
    map_data = net_migration.merge(iso_map, on='country', how='left')

# Crear mapa coropl√©tico
fig = px.choropleth(
    map_data,
    locations='iso3',
    color='net_balance',
    hover_name='country',
    hover_data=['immigration', 'emigration', 'net_balance'],
    title='Mapa Mundial: Saldo Migratorio Neto de Investigadores Cient√≠ficos',
    color_continuous_scale='RdYlGn',
    color_continuous_midpoint=0,
    labels={'net_balance': 'Saldo Neto'}
)
fig.update_geos(showcountries=True, countrycolor="lightgray")
fig.update_layout(height=600)
fig.show()

## 11. An√°lisis por Regi√≥n Geogr√°fica

In [24]:
# Definir regiones simplificadas (basado en c√≥digos ISO)
def assign_region(iso3):
    """Asigna regi√≥n geogr√°fica basada en c√≥digo ISO3."""
    if pd.isna(iso3):
        return 'Desconocido'
    
    # Regiones simplificadas (extender seg√∫n necesidad)
    europe = ['GBR', 'DEU', 'FRA', 'ITA', 'ESP', 'NLD', 'BEL', 'CHE', 'AUT', 'SWE', 
              'NOR', 'DNK', 'FIN', 'POL', 'CZE', 'HUN', 'ROU', 'BGR', 'GRC', 'PRT',
              'IRL', 'HRV', 'SVK', 'SVN', 'LUX', 'EST', 'LVA', 'LTU']
    north_america = ['USA', 'CAN', 'MEX']
    asia = ['CHN', 'JPN', 'IND', 'KOR', 'IDN', 'THA', 'MYS', 'SGP', 'PHL', 'VNM',
            'PAK', 'BGD', 'IRN', 'TUR', 'SAU', 'ARE', 'ISR']
    south_america = ['BRA', 'ARG', 'CHL', 'COL', 'PER', 'VEN', 'ECU', 'BOL', 'PRY', 'URY']
    oceania = ['AUS', 'NZL']
    africa = ['ZAF', 'EGY', 'NGA', 'KEN', 'MAR', 'TUN', 'GHA', 'ETH', 'UGA']
    
    if iso3 in europe:
        return 'Europa'
    elif iso3 in north_america:
        return 'Norteam√©rica'
    elif iso3 in asia:
        return 'Asia'
    elif iso3 in south_america:
        return 'Sudam√©rica'
    elif iso3 in oceania:
        return 'Ocean√≠a'
    elif iso3 in africa:
        return '√Åfrica'
    else:
        return 'Otros'

# Aplicar a flujos
df_flows['origin_region'] = df_flows['origin_iso3'].apply(assign_region)
df_flows['destination_region'] = df_flows['destination_iso3'].apply(assign_region)

# Agregaci√≥n por regi√≥n
region_flows = df_flows.groupby(['origin_region', 'destination_region'])['n_researchers'].sum().reset_index()
region_flows = region_flows[region_flows['origin_region'] != region_flows['destination_region']]  # Excluir intra-regi√≥n

print(f"üåç FLUJOS POR REGI√ìN GEOGR√ÅFICA\n" + "="*70)
display(region_flows.nlargest(15, 'n_researchers'))

üåç FLUJOS POR REGI√ìN GEOGR√ÅFICA



Unnamed: 0,origin_region,destination_region,n_researchers
2,Asia,Norteam√©rica,8018
9,Europa,Norteam√©rica,4310
1,Asia,Europa,3813
15,Norteam√©rica,Europa,3110
14,Norteam√©rica,Asia,2482
7,Europa,Asia,1954
29,Otros,Europa,1910
10,Europa,Ocean√≠a,1610
30,Otros,Norteam√©rica,1472
36,Sudam√©rica,Europa,1360


In [25]:
# Sankey de flujos inter-regionales
region_flows_top = region_flows.nlargest(20, 'n_researchers')

all_regions = list(set(region_flows_top['origin_region'].tolist() + region_flows_top['destination_region'].tolist()))
region_to_idx = {region: idx for idx, region in enumerate(all_regions)}

fig = go.Figure(data=[go.Sankey(
    node=dict(
        pad=15,
        thickness=20,
        line=dict(color="white", width=0.5),
        label=all_regions,
        color=['rgba(31, 119, 180, 0.8)'] * len(all_regions)
    ),
    link=dict(
        source=[region_to_idx[r] for r in region_flows_top['origin_region']],
        target=[region_to_idx[r] for r in region_flows_top['destination_region']],
        value=region_flows_top['n_researchers'].tolist(),
        color=['rgba(31, 119, 180, 0.3)'] * len(region_flows_top)
    )
)])

fig.update_layout(
    title="Flujos Migratorios por Regi√≥n Geogr√°fica (Top 20)",
    font=dict(size=12),
    height=500
)
fig.show()

---

# üìä CONCLUSIONES Y HALLAZGOS CLAVE

## üéØ Principales Hallazgos

### 1. **Pa√≠ses Dominantes en Atracci√≥n de Talento**

Los **Estados Unidos** se consolidan como el principal **receptor** de investigadores cient√≠ficos a nivel mundial, seguido por pa√≠ses europeos desarrollados como **Reino Unido**, **Alemania** y **Australia**. Este fen√≥meno refleja:

- üí∞ **Inversi√≥n en I+D**: Correlaci√≥n positiva entre gasto en investigaci√≥n y capacidad de atracci√≥n
- üèõÔ∏è **Instituciones de prestigio**: Universidades y centros de investigaci√≥n reconocidos mundialmente
- üíµ **Salarios competitivos**: Remuneraci√≥n superior para investigadores comparado con pa√≠ses de origen

### 2. **Brain Drain: Pa√≠ses M√°s Afectados**

Pa√≠ses como **China**, **India**, **Ir√°n** y varias naciones de Europa del Este experimentan una **fuga significativa** de talento cient√≠fico. Los factores incluyen:

- üìâ **Limitaciones de financiaci√≥n**: Menor presupuesto para investigaci√≥n
- üöß **Barreras institucionales**: Burocracia, falta de infraestructura cient√≠fica
- üåê **Oportunidades internacionales**: Programas de becas y movilidad acad√©mica que facilitan la emigraci√≥n

### 3. **Corredores Migratorios Estrat√©gicos**

Los principales **corredores bilaterales** identificados son:

- üá®üá≥‚Üíüá∫üá∏ **China ‚Üí Estados Unidos**: El flujo m√°s significativo, impulsado por programas de posgrado
- üáÆüá≥‚Üíüá∫üá∏ **India ‚Üí Estados Unidos**: Fuerte presencia en sectores tecnol√≥gicos y STEM
- üáÆüá∑‚Üíüá©üá™ **Ir√°n ‚Üí Alemania**: Migraci√≥n acad√©mica y refugio pol√≠tico
- üá¨üáß‚Üíüá∫üá∏ **Reino Unido ‚Üí Estados Unidos**: Intercambio entre potencias cient√≠ficas

### 4. **Relaci√≥n con Desarrollo Econ√≥mico**

El an√°lisis con **World Development Indicators** revela:

- üìà **Correlaci√≥n positiva** entre PIB per c√°pita y saldo migratorio neto
- üî¨ Pa√≠ses con mayor **gasto en I+D (% del PIB)** tienden a ser atractores netos
- üë®‚Äçüî¨ La **densidad de investigadores** (por mill√≥n de habitantes) es un predictor de atracci√≥n

### 5. **Tendencias Temporales**

- üìÖ **Pico de migraciones** en la √∫ltima d√©cada, coincidiendo con globalizaci√≥n acad√©mica
- üåê **Internacionalizaci√≥n creciente** de la ciencia: mayor movilidad y colaboraciones transnacionales

---

## üîÆ Implicaciones y Recomendaciones

### Para Pa√≠ses Emisores (Brain Drain):

1. **Aumentar inversi√≥n en I+D**: Retener talento mediante financiaci√≥n competitiva
2. **Mejorar infraestructura cient√≠fica**: Equipamiento, laboratorios, acceso a publicaciones
3. **Programas de retorno**: Incentivos para que investigadores emigrados vuelvan
4. **Redes de di√°spora**: Aprovechar talento emigrado mediante colaboraciones internacionales

### Para Pa√≠ses Receptores (Brain Gain):

1. **Pol√≠ticas de integraci√≥n**: Facilitar visados y reconocimiento de credenciales
2. **Diversidad cient√≠fica**: Aprovechar perspectivas multiculturales en investigaci√≥n
3. **Responsabilidad √©tica**: Considerar impacto en pa√≠ses de origen

### Para la Comunidad Cient√≠fica Global:

1. **Colaboraci√≥n Sur-Sur y Sur-Norte**: Reducir asimetr√≠as mediante partnerships equitativos
2. **Circulaci√≥n de conocimiento**: Movilidad no unidireccional sino intercambio bidireccional
3. **Open Science**: Facilitar acceso a recursos cient√≠ficos independientemente de ubicaci√≥n

---

## üõ†Ô∏è Limitaciones del An√°lisis

- **Datos est√°ticos**: Captura un momento temporal (2016), no tendencias longitudinales completas
- **Definici√≥n de migraci√≥n**: Basada en cambio de afiliaci√≥n, puede no reflejar residencia permanente
- **Sesgo de cobertura**: Mayor representaci√≥n de investigadores con presencia digital (ORCID)
- **Causalidad**: Correlaciones observadas no implican necesariamente relaciones causales

---

## üìö Pr√≥ximos Pasos

1. **An√°lisis por disciplina cient√≠fica**: ¬øDifieren patrones entre STEM, humanidades, ciencias sociales?
2. **Impacto de COVID-19**: ¬øC√≥mo afect√≥ la pandemia a la movilidad cient√≠fica?
3. **G√©nero y migraci√≥n**: An√°lisis de brechas de g√©nero en movilidad cient√≠fica
4. **Modelado predictivo**: Predecir flujos futuros basados en indicadores socioecon√≥micos
5. **Dashboard interactivo**: Crear aplicaci√≥n web con Streamlit/Dash para exploraci√≥n din√°mica

---

<div style="background-color: #e8f4f8; padding: 20px; border-radius: 10px; border-left: 5px solid #2E86AB;">
<h3>üí° Reflexi√≥n Final</h3>
<p>
La <strong>migraci√≥n cient√≠fica</strong> es un fen√≥meno complejo que refleja desigualdades globales en desarrollo, 
pero tambi√©n oportunidades de colaboraci√≥n internacional. El desaf√≠o est√° en transformar la "fuga de cerebros" 
en <strong>"circulaci√≥n de conocimiento"</strong>, donde el talento beneficie tanto a pa√≠ses emisores como receptores 
mediante redes de colaboraci√≥n, transferencia tecnol√≥gica y pol√≠ticas cient√≠ficas equitativas.
</p>
</div>

---

**Autor**: An√°lisis realizado en el contexto de migraci√≥n cient√≠fica global  
**Fecha**: 2025  
**Fuentes**: Dataset de migraciones cient√≠ficas + World Development Indicators (Banco Mundial)