1. Limpieza y Transformación de Datos (3 puntos)
- Carga el dataset en un DataFrame de Pandas.
- Identifica y trata valores perdidos en el dataset.
- Detecta y filtra outliers usando el método del rango intercuartílico (IQR).
- Reemplaza los valores de la columna "Razon_Migracion" usando mapeo de valores (ejemplo: "Económica" → "Trabajo", "Conflicto" → "Guerra").

In [11]:
import pandas as pd
import numpy as np

migracion = pd.read_csv("/content/sample_data/migracion.csv")
display(migracion.isnull().sum())

#migracion.head(10)

Q1 = migracion["Cantidad_Migrantes"].quantile(0.25)
Q3 = migracion["Cantidad_Migrantes"].quantile(0.75)
IQR = Q3 - Q1
fil_migracion = migracion[(migracion['Cantidad_Migrantes'] >= Q1 - 1.5 * IQR) & (migracion['Cantidad_Migrantes'] <= Q3 + 1.5 * IQR)]

fil_migracion.head(10)

fil_migracion['Razon_Migracion'] = fil_migracion['Razon_Migracion'].replace('Económica', 'Trabajo')
fil_migracion['Razon_Migracion'] = fil_migracion['Razon_Migracion'].replace('Conflicto', 'Guerra')
fil_migracion


Unnamed: 0,0
Pais_Origen,0
Pais_Destino,0
Año,0
Cantidad_Migrantes,0
Razon_Migracion,0
PIB_Origen,0
PIB_Destino,0
IDH_Origen,0
IDH_Destino,0


Unnamed: 0,Pais_Origen,Pais_Destino,Año,Cantidad_Migrantes,Razon_Migracion,PIB_Origen,PIB_Destino,IDH_Origen,IDH_Destino
0,Venezuela,España,2018,250000,Trabajo,5000,30000,0.7,0.89
1,Siria,Alemania,2015,800000,Guerra,2000,45000,0.55,0.94
2,México,EEUU,2020,300000,Trabajo,9000,65000,0.78,0.92
3,India,Canadá,2019,150000,Educativa,2500,48000,0.65,0.93
4,Bangladesh,Italia,2021,120000,Trabajo,2000,35000,0.61,0.89
5,Afganistán,Pakistán,2022,500000,Guerra,1000,5000,0.49,0.6
6,Ucrania,Polonia,2022,700000,Guerra,13000,18000,0.77,0.85
7,Filipinas,Arabia Saudita,2017,200000,Trabajo,3200,23000,0.71,0.85
8,Haití,Chile,2019,90000,Trabajo,1800,15000,0.5,0.85
9,Argentina,España,2021,110000,Trabajo,10000,30000,0.83,0.89


2. Análisis Exploratorio (2 puntos)
- Muestra las 5 primeras filas del dataset.
- Obtén información general del dataset con .info() y .describe().
- Calcula estadísticas clave:
- Media y mediana de la cantidad de migrantes.
- PIB promedio de los países de origen y destino: Usa .value_counts() para contar cuántos movimientos de migración ocurrieron por cada razón.

In [12]:
fil_migracion.head(5)
fil_migracion.info()
fil_migracion.describe()
fil_migracion['Cantidad_Migrantes'].mean()
fil_migracion['Cantidad_Migrantes'].median()
fil_migracion['PIB_Origen'].value_counts()
fil_migracion['PIB_Destino'].value_counts()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Pais_Origen         10 non-null     object 
 1   Pais_Destino        10 non-null     object 
 2   Año                 10 non-null     int64  
 3   Cantidad_Migrantes  10 non-null     int64  
 4   Razon_Migracion     10 non-null     object 
 5   PIB_Origen          10 non-null     int64  
 6   PIB_Destino         10 non-null     int64  
 7   IDH_Origen          10 non-null     float64
 8   IDH_Destino         10 non-null     float64
dtypes: float64(2), int64(4), object(3)
memory usage: 852.0+ bytes


Unnamed: 0_level_0,count
PIB_Destino,Unnamed: 1_level_1
30000,2
45000,1
65000,1
48000,1
35000,1
5000,1
18000,1
23000,1
15000,1


3. Agrupamiento y Sumarización de Datos (2 puntos)
- Agrupa los datos por "Razon_Migracion" y calcula la suma total de migrantes para cada categoría.
- Obtén la media del IDH de los países de origen por cada tipo de migración.
- Ordena el DataFrame de mayor a menor cantidad de migrantes.

In [13]:
groupby_migracion = fil_migracion.groupby('Razon_Migracion')['Cantidad_Migrantes'].sum()
display(groupby_migracion)

media_idh = fil_migracion.groupby('Razon_Migracion')['IDH_Origen'].mean()
display(media_idh)

fil_migracion.sort_values(by='Cantidad_Migrantes', ascending=False)

Unnamed: 0_level_0,Cantidad_Migrantes
Razon_Migracion,Unnamed: 1_level_1
Educativa,150000
Guerra,2000000
Trabajo,1070000


Unnamed: 0_level_0,IDH_Origen
Razon_Migracion,Unnamed: 1_level_1
Educativa,0.65
Guerra,0.603333
Trabajo,0.688333


Unnamed: 0,Pais_Origen,Pais_Destino,Año,Cantidad_Migrantes,Razon_Migracion,PIB_Origen,PIB_Destino,IDH_Origen,IDH_Destino
1,Siria,Alemania,2015,800000,Guerra,2000,45000,0.55,0.94
6,Ucrania,Polonia,2022,700000,Guerra,13000,18000,0.77,0.85
5,Afganistán,Pakistán,2022,500000,Guerra,1000,5000,0.49,0.6
2,México,EEUU,2020,300000,Trabajo,9000,65000,0.78,0.92
0,Venezuela,España,2018,250000,Trabajo,5000,30000,0.7,0.89
7,Filipinas,Arabia Saudita,2017,200000,Trabajo,3200,23000,0.71,0.85
3,India,Canadá,2019,150000,Educativa,2500,48000,0.65,0.93
4,Bangladesh,Italia,2021,120000,Trabajo,2000,35000,0.61,0.89
9,Argentina,España,2021,110000,Trabajo,10000,30000,0.83,0.89
8,Haití,Chile,2019,90000,Trabajo,1800,15000,0.5,0.85


4. Filtros y Selección de Datos (2 puntos)
- Filtra y muestra solo las migraciones por conflicto.
- Selecciona y muestra las filas donde el IDH del país de destino sea mayor a 0.90.
- Crea una nueva columna "Diferencia_IDH" que calcule la diferencia de IDH entre país de origen y destino.

In [14]:
conflicto = fil_migracion[fil_migracion['Razon_Migracion'] == 'Guerra']
display(conflicto)

idh_mayor = fil_migracion[fil_migracion['IDH_Destino'] > 0.90]
display(idh_mayor)



Unnamed: 0,Pais_Origen,Pais_Destino,Año,Cantidad_Migrantes,Razon_Migracion,PIB_Origen,PIB_Destino,IDH_Origen,IDH_Destino
1,Siria,Alemania,2015,800000,Guerra,2000,45000,0.55,0.94
5,Afganistán,Pakistán,2022,500000,Guerra,1000,5000,0.49,0.6
6,Ucrania,Polonia,2022,700000,Guerra,13000,18000,0.77,0.85


Unnamed: 0,Pais_Origen,Pais_Destino,Año,Cantidad_Migrantes,Razon_Migracion,PIB_Origen,PIB_Destino,IDH_Origen,IDH_Destino
1,Siria,Alemania,2015,800000,Guerra,2000,45000,0.55,0.94
2,México,EEUU,2020,300000,Trabajo,9000,65000,0.78,0.92
3,India,Canadá,2019,150000,Educativa,2500,48000,0.65,0.93


5. Exportación de Datos (1 punto)
- Guarda el DataFrame final en un nuevo archivo CSV llamado "Migracion_Limpio.csv", sin el índice.

In [15]:
fil_migracion.to_csv('Migracion_Limpio.csv', index=False)

print("DataFrame successfully saved to Migracion_Limpio.csv")

DataFrame successfully saved to Migracion_Limpio.csv
