# Analisis de migración

## 0. Carga de librerias

In [40]:
import pandas as pd
import numpy as np

## 1. Limpieza y transformación de datos

### 1.1 Carga de los datos

In [41]:
df = pd.read_csv('migracion.csv')
df

Unnamed: 0,Pais_Origen,Pais_Destino,Año,Cantidad_Migrantes,Razon_Migracion,PIB_Origen,PIB_Destino,IDH_Origen,IDH_Destino
0,Venezuela,España,2018,250000,Económica,5000,30000,0.7,0.89
1,Siria,Alemania,2015,800000,Conflicto,2000,45000,0.55,0.94
2,México,EEUU,2020,300000,Económica,9000,65000,0.78,0.92
3,India,Canadá,2019,150000,Educativa,2500,48000,0.65,0.93
4,Bangladesh,Italia,2021,120000,Económica,2000,35000,0.61,0.89
5,Afganistán,Pakistán,2022,500000,Conflicto,1000,5000,0.49,0.6
6,Ucrania,Polonia,2022,700000,Conflicto,13000,18000,0.77,0.85
7,Filipinas,Arabia Saudita,2017,200000,Económica,3200,23000,0.71,0.85
8,Haití,Chile,2019,90000,Económica,1800,15000,0.5,0.85
9,Argentina,España,2021,110000,Económica,10000,30000,0.83,0.89


### 1.2 Valores nulos

In [42]:
df.isnull().sum()

Pais_Origen           0
Pais_Destino          0
Año                   0
Cantidad_Migrantes    0
Razon_Migracion       0
PIB_Origen            0
PIB_Destino           0
IDH_Origen            0
IDH_Destino           0
dtype: int64

### 1.3 Tratamiento de outliers

In [43]:
df_num = df.select_dtypes(include = 'number')
q1 = df_num.quantile(0.25)
q3 = df_num.quantile(0.75)
iqr = q3 - q1
lim_inf = q1 - 1.5 * iqr
lim_sup = q3 + 1.5 * iqr
outliers = ((df_num < lim_inf) | (df_num > lim_sup))
df_sin_outliers = df[~outliers.any(axis = 1)]

### 1.4 Reemplazar valores

In [44]:
df_sin_outliers['Razon_Migracion'].unique()

array(['Económica', 'Conflicto', 'Educativa'], dtype=object)

In [45]:
motivos_migracion = {'Económica': 'Trabajo', 'Conflicto': 'Guerra', 'Educativa': 'Academica'}
df_sin_outliers['Razon_Migracion'] = df_sin_outliers['Razon_Migracion'].map(motivos_migracion)
df_sin_outliers['Razon_Migracion'].unique()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_sin_outliers['Razon_Migracion'] = df_sin_outliers['Razon_Migracion'].map(motivos_migracion)


array(['Trabajo', 'Guerra', 'Academica'], dtype=object)

## 2. Análisis Exploratorio EDA

### 2.1 Mostrar las 5 primeras filas

In [46]:
df_sin_outliers.head(5)

Unnamed: 0,Pais_Origen,Pais_Destino,Año,Cantidad_Migrantes,Razon_Migracion,PIB_Origen,PIB_Destino,IDH_Origen,IDH_Destino
0,Venezuela,España,2018,250000,Trabajo,5000,30000,0.7,0.89
1,Siria,Alemania,2015,800000,Guerra,2000,45000,0.55,0.94
2,México,EEUU,2020,300000,Trabajo,9000,65000,0.78,0.92
3,India,Canadá,2019,150000,Academica,2500,48000,0.65,0.93
4,Bangladesh,Italia,2021,120000,Trabajo,2000,35000,0.61,0.89


### 2.2 Obtener información general

In [47]:
df_sin_outliers.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9 entries, 0 to 9
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Pais_Origen         9 non-null      object 
 1   Pais_Destino        9 non-null      object 
 2   Año                 9 non-null      int64  
 3   Cantidad_Migrantes  9 non-null      int64  
 4   Razon_Migracion     9 non-null      object 
 5   PIB_Origen          9 non-null      int64  
 6   PIB_Destino         9 non-null      int64  
 7   IDH_Origen          9 non-null      float64
 8   IDH_Destino         9 non-null      float64
dtypes: float64(2), int64(4), object(3)
memory usage: 720.0+ bytes


In [48]:
df_sin_outliers.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Año,9.0,2019.111111,2.204793,2015.0,2018.0,2019.0,2021.0,2022.0
Cantidad_Migrantes,9.0,302222.222222,263997.053856,90000.0,120000.0,200000.0,300000.0,800000.0
PIB_Origen,9.0,5388.888889,4203.702072,1800.0,2000.0,3200.0,9000.0,13000.0
PIB_Destino,9.0,34333.333333,16000.0,15000.0,23000.0,30000.0,45000.0,65000.0
IDH_Origen,9.0,0.677778,0.110088,0.5,0.61,0.7,0.77,0.83
IDH_Destino,9.0,0.89,0.035,0.85,0.85,0.89,0.92,0.94


### 2.3 Calculo de estadisticas

In [65]:
print('Media de cantidad de migrantes: ', df['Cantidad_Migrantes'].mean())
print('Media de cantidad de migrantes: ', df['Cantidad_Migrantes'].median())
print('PBI promedio de los paises de origen: ', df['PIB_Origen'].mean())
print('PBI promedio de los paises de destino: ', df['PIB_Destino'].mean())
print('Motivos de migracion: \n')
df_sin_outliers['Razon_Migracion'].value_counts().to_frame()

Media de cantidad de migrantes:  322000.0
Media de cantidad de migrantes:  225000.0
PBI promedio de los paises de origen:  4950.0
PBI promedio de los paises de destino:  31400.0
Motivos de migracion: 



Unnamed: 0_level_0,count
Razon_Migracion,Unnamed: 1_level_1
Trabajo,6
Guerra,2
Academica,1


## 3. Agrupamiento y sumarizacion de datos

### 3.1 Agrupamiento por Razon de migración

In [70]:
df_sin_outliers.groupby('Razon_Migracion')['Cantidad_Migrantes'].sum()

Razon_Migracion
Academica     150000
Guerra       1500000
Trabajo      1070000
Name: Cantidad_Migrantes, dtype: int64

### 3.2 Media del IDH de los paises de origen

In [71]:
df_sin_outliers.groupby('Razon_Migracion')['IDH_Origen'].mean()

Razon_Migracion
Academica    0.650000
Guerra       0.660000
Trabajo      0.688333
Name: IDH_Origen, dtype: float64

### 3.3 Dataset ordenado por cantidad de migrantes

In [72]:
df_ordenado = df_sin_outliers.sort_values(by = 'Cantidad_Migrantes', ascending = False)
df_ordenado

Unnamed: 0,Pais_Origen,Pais_Destino,Año,Cantidad_Migrantes,Razon_Migracion,PIB_Origen,PIB_Destino,IDH_Origen,IDH_Destino
1,Siria,Alemania,2015,800000,Guerra,2000,45000,0.55,0.94
6,Ucrania,Polonia,2022,700000,Guerra,13000,18000,0.77,0.85
2,México,EEUU,2020,300000,Trabajo,9000,65000,0.78,0.92
0,Venezuela,España,2018,250000,Trabajo,5000,30000,0.7,0.89
7,Filipinas,Arabia Saudita,2017,200000,Trabajo,3200,23000,0.71,0.85
3,India,Canadá,2019,150000,Academica,2500,48000,0.65,0.93
4,Bangladesh,Italia,2021,120000,Trabajo,2000,35000,0.61,0.89
9,Argentina,España,2021,110000,Trabajo,10000,30000,0.83,0.89
8,Haití,Chile,2019,90000,Trabajo,1800,15000,0.5,0.85


## 4. Filtros y selección de datos

### 4.1 Filtrar las migraciones por guerra

In [81]:
df_ordenado[df_ordenado['Razon_Migracion'] == 'Guerra']

Unnamed: 0,Pais_Origen,Pais_Destino,Año,Cantidad_Migrantes,Razon_Migracion,PIB_Origen,PIB_Destino,IDH_Origen,IDH_Destino
1,Siria,Alemania,2015,800000,Guerra,2000,45000,0.55,0.94
6,Ucrania,Polonia,2022,700000,Guerra,13000,18000,0.77,0.85


### 4.2 Seleccionar las filas con IDH > 0.9 de los paises de destino

In [82]:
df_ordenado[df_ordenado['IDH_Destino'] > 0.90]

Unnamed: 0,Pais_Origen,Pais_Destino,Año,Cantidad_Migrantes,Razon_Migracion,PIB_Origen,PIB_Destino,IDH_Origen,IDH_Destino
1,Siria,Alemania,2015,800000,Guerra,2000,45000,0.55,0.94
2,México,EEUU,2020,300000,Trabajo,9000,65000,0.78,0.92
3,India,Canadá,2019,150000,Academica,2500,48000,0.65,0.93


### 4.3 Crear columna Diferencia de IDH

In [83]:
df_ordenado['Diferencia_IDH'] = df_ordenado['IDH_Origen'] - df_ordenado['IDH_Destino']
df_ordenado

Unnamed: 0,Pais_Origen,Pais_Destino,Año,Cantidad_Migrantes,Razon_Migracion,PIB_Origen,PIB_Destino,IDH_Origen,IDH_Destino,Diferencia_IDH
1,Siria,Alemania,2015,800000,Guerra,2000,45000,0.55,0.94,-0.39
6,Ucrania,Polonia,2022,700000,Guerra,13000,18000,0.77,0.85,-0.08
2,México,EEUU,2020,300000,Trabajo,9000,65000,0.78,0.92,-0.14
0,Venezuela,España,2018,250000,Trabajo,5000,30000,0.7,0.89,-0.19
7,Filipinas,Arabia Saudita,2017,200000,Trabajo,3200,23000,0.71,0.85,-0.14
3,India,Canadá,2019,150000,Academica,2500,48000,0.65,0.93,-0.28
4,Bangladesh,Italia,2021,120000,Trabajo,2000,35000,0.61,0.89,-0.28
9,Argentina,España,2021,110000,Trabajo,10000,30000,0.83,0.89,-0.06
8,Haití,Chile,2019,90000,Trabajo,1800,15000,0.5,0.85,-0.35


## 5. Exportación de datos

In [None]:
df_ordenado.to_csv('Migracion_Limpio.csv', index=False)