In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

In [None]:

Df_final = pd.read_parquet("data/migrantes.parquet")

## INFORMACION GENERAL DEL DF

In [None]:
Df_final.info()

In [None]:

print(f'Número de filas: {Df_final.shape[0]}\nNúmero de columnas: {Df_final.shape[1]}')

In [None]:
Df_final.describe(include='object')

In [None]:
vbles_numericas = Df_final.select_dtypes(include='number').columns

vbles_numericas

## ANALISIS Y VISUALIZACIÓN

Los datos analizados corresponden a personas nacidas en Colombia

In [None]:
areas = Df_final['Área Conocimiento'].value_counts().sort_values(ascending=False).head(7)


plt.figure(figsize=(8,6))
sns.barplot(x=areas.values / 1000,
            y=areas.index,
            palette='Set2')
plt.title('Cantidad de personas por area del conocimiento\n', fontsize=14)
plt.xlabel('Número de personas(miles)')

plt.tight_layout()
plt.show()

In [None]:

# Conteo de países
Pais = Df_final['País'].value_counts().sort_values(ascending=False)

labels = Pais.index
sizes = Pais.values

# Porcentajes para la leyenda
porcentajes = (sizes / sizes.sum() * 100).round(2)

# Paleta de colores
colors = sns.color_palette("Set2", len(labels))

plt.figure(figsize=(8,6))

# Pie chart limpio (sin texto dentro)
wedges, _ = plt.pie(
    sizes,
    colors=colors,
    labels=None,

)

# LEYENDA con País + %
legend_labels = [f"{labels[i]} — {porcentajes[i]}%" for i in range(len(labels))]
plt.legend(
    wedges,
    legend_labels,
    title="Distribución por país",
    loc="center left",
    bbox_to_anchor=(1, 0.5)
)

plt.title("MIGRACIÓN POR PAÍS DESTINO", fontsize=14, fontweight="bold")
plt.tight_layout()
plt.show()

In [None]:
df_gen = Df_final[Df_final['Género'].isin(['FEMENINO', 'MASCULINO'])]

In [None]:
plt.figure(figsize=(8,6))
sns.countplot(data=df_gen,
              hue='Género',
              y='Nivel Académico',
              palette= 'Paired',
              order = df_gen['Nivel Académico'].value_counts().index)
plt.title('GENERO POR NIVEL ACADEMICO\n', fontweight='bold')
plt.ylabel('NIVEL ACADEMICO', fontweight='bold')
plt.xlabel('CANTIDAD DE MIGRANTES', fontweight='bold')
plt.tight_layout()

In [None]:
departamento = Df_final['departamento de origen'].value_counts().sort_values(ascending=False).head(7)

plt.figure(figsize=(8,6))
sns.barplot(x=departamento.values / 1000,
            y=departamento.index,
            palette='Set2')
plt.title('Personas en el extranjero por departemento\n', fontsize=14, fontdict={'fontweight':'bold'})
plt.xlabel('Cantidad de personas(miles)', fontweight='bold')
plt.ylabel('DEPARTAMENTO', fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
reguistros = Df_final['Año de Registro'].value_counts().sort_index()

plt.figure(figsize=(8,6))
sns.lineplot(x=reguistros.index,
             y=reguistros.values,
             marker='o',
             color='b')
plt.title('Registros de migrantes a lo largo de los años\n', fontsize=14, fontweight='bold')
plt.xlabel('AÑO DE REGISTRO', fontweight='bold')
plt.ylabel('CANTIDAD DE REGISTROS', fontweight='bold')
plt.tight_layout()
plt.show()  

In [None]:

Df_final.columns

In [None]:
df_y = Df_final.groupby('Grupo edad')['departamento de origen'].value_counts().unstack().fillna(0)


In [None]:
df_y['AMAZONAS']

In [None]:
df_y = Df_final.groupby('Etnia de la persona')['País'].value_counts().unstack().fillna(0)

In [None]:
df_y

In [None]:
plt.figure(figsize=(8,6))
sns.barplot(x=df_y['AUSTRALIA'].values,
            y=df_y.index,
            palette='Set2')
plt.title('Personas en el extranjero por departemento\n', fontsize=14, fontdict={'fontweight':'bold'})
plt.xlabel('Cantidad de personas(miles)', fontweight='bold')
plt.ylabel('DEPARTAMENTO', fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
areas = Df_final['Área Conocimiento'].value_counts().sort_values(ascending=False).head(7)

In [None]:
subareas = Df_final.groupby('Sub Area Conocimiento')['Área Conocimiento'].value_counts().unstack().fillna(0)

In [None]:
filtro = Df_final['Área Conocimiento'] == 'ADMINISTRACION DE EMPRESAS Y DERECHO'

admin = Df_final[filtro]

In [None]:
subadmin = admin['Sub Area Conocimiento'].value_counts().sort_values(ascending=False)

In [None]:
plt.figure(figsize=(8,6))
sns.barplot(x=subadmin.values / 1000,   
            y=subadmin.index,
            palette='Set2')         
plt.title('Personas en el extranjero por subarea de conocimiento\n', fontsize=14, fontdict={'fontweight':'bold'})
plt.xlabel('Cantidad de personas(miles)', fontweight='bold')

In [None]:
nivel_genero = Df_final.groupby('Nivel Académico')['Género'].value_counts().unstack().fillna(0).plot.bar(stacked=True, figsize=(10,7), color=['#FF9999','#66B2FF'])
plt.title('Distribución de Género por Nivel Académico', fontsize=16, fontweight='bold')
plt.xlabel('Nivel Académico', fontsize=14, fontweight='bold')                

In [None]:
#modelos para la app
df_pais = Df_final.groupby('País')['Etnia de la persona'].value_counts().unstack().fillna(0)
display(df_pais)

condicion = Df_final['País'] == 'AUSTRALIA'
df_pais = Df_final[condicion]

df_region = df_pais.groupby('Estado de residencia')['Etnia de la persona'].value_counts().unstack().fillna(0)
display(df_region)


In [None]:
#para indicadores de migracion
indicadores_de_migracion = [reguistros.values[i+1] - reguistros.values[i] for i in range(len(reguistros.values)-1)]