EVALUACIÓN FINAL: ANÁLISIS DE DATOS DE MIGRACIÓN CON NUMPY Y PANDAS

Un instituto de investigación internacional está analizando datos de migración del siglo XXI para identificar tendencias y factores socioeconómicos que afectan los movimientos de población. Se ha entregado un dataset en formato CSV con información sobre migraciones entre distintos países, incluyendo cantidad de migrantes, razones de migración y variables económicas.
El instituto necesita que analices, transformes y prepares los datos para extraer información útil que ayude en la toma de decisiones.

Objetivo

Evaluar la capacidad del estudiante para manejar datos utilizando NumPy y Pandas, aplicando técnicas de limpieza, transformación, agrupamiento y combinación de datos en un contexto realista.

# **Importa Librerias**

In [23]:
import pandas as pd
import csv
from google.colab import files
import numpy as np

# **Limpieza y Transformación de Datos**

In [24]:
files.upload()
archivo_csv = 'migracion.csv'

#Carga Dataset(defino el separador, para asegurarme de poder leerlo correctamente)
with open(archivo_csv, 'r', encoding='utf-8') as f:
    sample = f.read(2048)
    dialect = csv.Sniffer().sniff(sample)

df_migracion = pd.read_csv(archivo_csv, sep=dialect.delimiter)
print(df_migracion)

Saving migracion.csv to migracion (1).csv
  Pais_Origen    Pais_Destino   Año  Cantidad_Migrantes Razon_Migracion  \
0   Venezuela          España  2018              250000       Económica   
1       Siria        Alemania  2015              800000       Conflicto   
2      México            EEUU  2020              300000       Económica   
3       India          Canadá  2019              150000       Educativa   
4  Bangladesh          Italia  2021              120000       Económica   
5  Afganistán        Pakistán  2022              500000       Conflicto   
6     Ucrania         Polonia  2022              700000       Conflicto   
7   Filipinas  Arabia Saudita  2017              200000       Económica   
8       Haití           Chile  2019               90000       Económica   
9   Argentina          España  2021              110000       Económica   

   PIB_Origen  PIB_Destino  IDH_Origen  IDH_Destino  
0        5000        30000        0.70         0.89  
1        2000        450

In [25]:
#Valores nulos
df_migracion.isnull().sum()

Unnamed: 0,0
Pais_Origen,0
Pais_Destino,0
Año,0
Cantidad_Migrantes,0
Razon_Migracion,0
PIB_Origen,0
PIB_Destino,0
IDH_Origen,0
IDH_Destino,0


In [26]:
#Detecta y filtra outliers usando el método del rango intercuartílico (IQR).
print("\n\033[4mDatos Sin Filtrar:\033[0m")
print(df_migracion)


# Calcular los cuartiles
primer_cuartil =np.percentile(df_migracion["Cantidad_Migrantes"],25)
mediana =np.percentile(df_migracion["Cantidad_Migrantes"],50)
tercer_cuartil =np.percentile(df_migracion["Cantidad_Migrantes"],75)

# Calcular el rango intercuartílico (IQR)
rango_intercuartil = tercer_cuartil - primer_cuartil
limite_inferior = primer_cuartil - 1.5 * rango_intercuartil
limite_superior = tercer_cuartil + 1.5 * rango_intercuartil

#Filtrar los datos dentro del rango permitido
datos_rellenos = df_migracion[(df_migracion["Cantidad_Migrantes"] >= limite_inferior) & (df_migracion["Cantidad_Migrantes"] <= limite_superior)]


#Mostrar resultados
print("\n\033[4mCuartiles:\033[0m")
print(f"Primer cuartil (Q1, 25%): $ {primer_cuartil:.2f}")
print(f"Tercer cuartil  (Q3, 75%): $ {tercer_cuartil:.2f}")
print(f"IQR: $ {rango_intercuartil:.2f}")
print(f"\n\033[4mRango Permitido: $\033[0m {limite_inferior:.2f} - {limite_superior:.2f}")
print(f"\n\033[4mTransacciones dentro del rango permitido:\033[0m")
print(datos_rellenos)


[4mDatos Sin Filtrar:[0m
  Pais_Origen    Pais_Destino   Año  Cantidad_Migrantes Razon_Migracion  \
0   Venezuela          España  2018              250000       Económica   
1       Siria        Alemania  2015              800000       Conflicto   
2      México            EEUU  2020              300000       Económica   
3       India          Canadá  2019              150000       Educativa   
4  Bangladesh          Italia  2021              120000       Económica   
5  Afganistán        Pakistán  2022              500000       Conflicto   
6     Ucrania         Polonia  2022              700000       Conflicto   
7   Filipinas  Arabia Saudita  2017              200000       Económica   
8       Haití           Chile  2019               90000       Económica   
9   Argentina          España  2021              110000       Económica   

   PIB_Origen  PIB_Destino  IDH_Origen  IDH_Destino  
0        5000        30000        0.70         0.89  
1        2000        45000        0.55

In [50]:
#Mapeo "Razon Migracion"

print("\n\033[4mRazones de Migracion:\033[0m")
df_migracion["Razon_Migracion"] = df_migracion["Razon_Migracion"].replace({
    "Económica": "Trabajo",
    "Conflicto": "Guerra"
})
print(df_migracion)


[4mRazones de Migracion:[0m
  Pais_Origen    Pais_Destino   Año  Cantidad_Migrantes Razon_Migracion  \
0   Venezuela          España  2018              250000         Trabajo   
1       Siria        Alemania  2015              800000          Guerra   
2      México            EEUU  2020              300000         Trabajo   
3       India          Canadá  2019              150000       Educativa   
4  Bangladesh          Italia  2021              120000         Trabajo   
5  Afganistán        Pakistán  2022              500000          Guerra   
6     Ucrania         Polonia  2022              700000          Guerra   
7   Filipinas  Arabia Saudita  2017              200000         Trabajo   
8       Haití           Chile  2019               90000         Trabajo   
9   Argentina          España  2021              110000         Trabajo   

   PIB_Origen  PIB_Destino  IDH_Origen  IDH_Destino  Diferencia_IDH  
0        5000        30000        0.70         0.89           -0.19  
1  

# **Análisis Exploratorio**

In [28]:
df_migracion.head()
df_migracion.info()
df_migracion.describe()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Pais_Origen         10 non-null     object 
 1   Pais_Destino        10 non-null     object 
 2   Año                 10 non-null     int64  
 3   Cantidad_Migrantes  10 non-null     int64  
 4   Razon_Migracion     10 non-null     object 
 5   PIB_Origen          10 non-null     int64  
 6   PIB_Destino         10 non-null     int64  
 7   IDH_Origen          10 non-null     float64
 8   IDH_Destino         10 non-null     float64
dtypes: float64(2), int64(4), object(3)
memory usage: 852.0+ bytes


Unnamed: 0,Año,Cantidad_Migrantes,PIB_Origen,PIB_Destino,IDH_Origen,IDH_Destino
count,10.0,10.0,10.0,10.0,10.0,10.0
mean,2019.4,322000.0,4950.0,31400.0,0.659,0.861
std,2.270585,256636.361847,4199.272424,17708.754897,0.119578,0.097462
min,2015.0,90000.0,1000.0,5000.0,0.49,0.6
25%,2018.25,127500.0,2000.0,19250.0,0.565,0.85
50%,2019.5,225000.0,2850.0,30000.0,0.675,0.89
75%,2021.0,450000.0,8000.0,42500.0,0.755,0.9125
max,2022.0,800000.0,13000.0,65000.0,0.83,0.94


In [29]:
#estadísticas clave
#**MEDIA**
media = df_migracion["Cantidad_Migrantes"].mean()
print("Media:", media)

#**MEDIANA Cantidad**
mediana = df_migracion["Cantidad_Migrantes"].median()
print("Mediana:", mediana)

# PIB Promedio
promedio_PIB_origen = df_migracion["PIB_Origen"].mean()
promedio_PIB_destino = df_migracion["PIB_Destino"].mean()
print("Promedio PIB Origen:", promedio_PIB_origen)
print("Promedio PIB Destino:", promedio_PIB_destino)




Media: 322000.0
Mediana: 225000.0
Promedio PIB Origen: 4950.0
Promedio PIB Destino: 31400.0


# **Agrupamiento y Sumarización de Datos**

In [52]:
#Agrupa los datos por "Razon_Migracion" y calcula la suma total de migrantes para cada categoría.
df_migrantes_x_razon= df_migracion.groupby("Razon_Migracion")["Cantidad_Migrantes"].sum()
print("\n\033[4mCantidad de Migrantes por Razon de Migracion:\033[0m")
print(df_migrantes_x_razon)

# media del IDH de los países de origen por cada tipo de migración.
df_media_IDH = df_migracion.groupby("Razon_Migracion")["IDH_Origen"].mean()
print("\n\033[4mMedia del IDH de los países de origen por cada tipo de migración:\033[0m")
print (df_media_IDH)

#Ordena de mayor a menor cantidad de migrantes.
print("\n\033[4mDatos Ordenados por Cantidad de Migrantes:\033[0m")
df_migracion_ordenado = df_migracion.sort_values(by="Cantidad_Migrantes", ascending=False)
print(df_migracion_ordenado)




[4mCantidad de Migrantes por Razon de Migracion:[0m
Razon_Migracion
Educativa     150000
Guerra       2000000
Trabajo      1070000
Name: Cantidad_Migrantes, dtype: int64

[4mMedia del IDH de los países de origen por cada tipo de migración:[0m
Razon_Migracion
Educativa    0.650000
Guerra       0.603333
Trabajo      0.688333
Name: IDH_Origen, dtype: float64

[4mDatos Ordenados por Cantidad de Migrantes:[0m
  Pais_Origen    Pais_Destino   Año  Cantidad_Migrantes Razon_Migracion  \
1       Siria        Alemania  2015              800000          Guerra   
6     Ucrania         Polonia  2022              700000          Guerra   
5  Afganistán        Pakistán  2022              500000          Guerra   
2      México            EEUU  2020              300000         Trabajo   
0   Venezuela          España  2018              250000         Trabajo   
7   Filipinas  Arabia Saudita  2017              200000         Trabajo   
3       India          Canadá  2019              150000     

# **Filtros y Selección de Datos**

In [45]:
df_migracion_conflicto = df_migracion[df_migracion["Razon_Migracion"] == "Guerra"]
print("\n\033[4mMigraciones por Conflicto:\033[0m")
print(df_migracion_conflicto)

#filtro IDH del país de destino sea mayor a 0.90.
df_migracion_conflicto_sample = df_migracion[df_migracion["IDH_Destino"] > 0.9]
print("\n\033[4mIDH Pais Destino > 0.9:\033[0m")
print(df_migracion_conflicto_sample)

#"Diferencia_IDH"
df_diferencia_IDH = df_migracion["IDH_Origen"] - df_migracion["IDH_Destino"]
df_migracion["Diferencia_IDH"] = df_diferencia_IDH
print("\n\033[4mDiferencia de IDH:\033[0m")
print(df_migracion)




[4mMigraciones por Conflicto:[0m
  Pais_Origen Pais_Destino   Año  Cantidad_Migrantes Razon_Migracion  \
1       Siria     Alemania  2015              800000          Guerra   
5  Afganistán     Pakistán  2022              500000          Guerra   
6     Ucrania      Polonia  2022              700000          Guerra   

   PIB_Origen  PIB_Destino  IDH_Origen  IDH_Destino  Diferencia_IDH  
1        2000        45000        0.55         0.94           -0.39  
5        1000         5000        0.49         0.60           -0.11  
6       13000        18000        0.77         0.85           -0.08  

[4mIDH Pais Destino > 0.9:[0m
  Pais_Origen Pais_Destino   Año  Cantidad_Migrantes Razon_Migracion  \
1       Siria     Alemania  2015              800000          Guerra   
2      México         EEUU  2020              300000         Trabajo   
3       India       Canadá  2019              150000       Educativa   

   PIB_Origen  PIB_Destino  IDH_Origen  IDH_Destino  Diferencia_IDH  
1  

# **Exportación de Datos**

In [47]:
df_migracion.to_csv("Migracion_Limpio.csv", index=False)