## **Samsung Innovation Campus (SIC 2024)**

**Nombre del Proyecto: Migración de la población a la capital debido a la Desigualdad Económica en Panamá**

**Grupo: Data Wizards Gang**

**Conformado por:**
1. Justin Williams
2. Carlos Rodríguez Chong
3. José Luis Camarena
4. Oscar Pérez
5. Alejandro Cardona

## **Problema a resolver:**

Panamá tiene una alta migración a la capital debido a la desigualdad económica que se presenta a lo largo de las pronvincias debido a diferentes factores como el PIB por provincia, desempleo, el nivel de educación y la actividad económica en las provincias. En este miniproyecto nos enfocaremos al estudio de estas variables para ver realmente el impacto que tienen y como se puede idear una solución a este problema. Los datos fueron obtenidos del Instituto Nacional de Estadística y Censo de los años 2015 al 2022 para hacer el estudio.


# Cambio de Datos Null a Valor 0 Desempleo por nivel de preparación 2015-2022

In [None]:
import pandas as pd

# Ruta al archivo Excel
ruta_archivo = 'Datos\desempleados_por_nivel_de_preparacion_2015_2022.xlsx'

# Usar pd.ExcelFile para leer las hojas del archivo
excel_file = pd.ExcelFile(ruta_archivo)

# Crear un objeto ExcelWriter para escribir de vuelta al mismo archivo
with pd.ExcelWriter(ruta_archivo, engine='openpyxl', mode='a', if_sheet_exists='replace') as writer:
    for sheet_name in excel_file.sheet_names:
        # Leer cada hoja del archivo como un DataFrame
        df = excel_file.parse(sheet_name)
        
        # Reemplazar "-" por 0 en el DataFrame
        df.replace('-', 0, inplace=True)
        
        # DataFrame modificado de vuelta a la hoja correspondiente
        df.to_excel(writer, sheet_name=sheet_name, index=False)


# Cambio de Datos Null a Valor 0 estudiantes aprobados y reprobados por 2015-2022


In [None]:
import pandas as pd

# Ruta al archivo Excel
ruta_archivo = 'Datos\estudiantes_aprobados_reprobados_provincia_2015_2022.xlsx'

# Usar pd.ExcelFile para leer las hojas del archivo
excel_file = pd.ExcelFile(ruta_archivo)

# Crear un objeto ExcelWriter para escribir de vuelta al mismo archivo
with pd.ExcelWriter(ruta_archivo, engine='openpyxl', mode='a', if_sheet_exists='replace') as writer:
    for sheet_name in excel_file.sheet_names:
        # Leer cada hoja del archivo como un DataFrame
        df = excel_file.parse(sheet_name)
        
        # Reemplazar "-" por 0 en el DataFrame
        df.replace('-', 0, inplace=True)
        
        # Escribir el DataFrame modificado de vuelta a la hoja correspondiente
        df.to_excel(writer, sheet_name=sheet_name, index=False)


# Desempleados por nivel de preparación del año 2015-2022


In [None]:
import pandas as pd
import plotly.express as px

# Leer el archivo Excel
archivo_excel = 'Datos\desempleados_por_nivel_de_preparacion_2015_2022.xlsx'
datos = pd.read_excel(archivo_excel, sheet_name=None)

# Inicializar diccionario para almacenar el total de desempleados por año
total_desempleados_por_año = {}

# Recorrer cada hoja del archivo Excel
for año, df in datos.items():
    # Sumar el total de desempleados para cada año
    total_desempleados_por_año[año] = df['total_desempleados'].sum()

# Convertir diccionario a DataFrame
df_total_desempleados = pd.DataFrame(total_desempleados_por_año.items(), columns=['Año', 'Total_Desempleados'])

# Asegúrate de que los datos estén en el formato correcto para graficar
df_total_desempleados['Año'] = pd.to_numeric(df_total_desempleados['Año'])
df_total_desempleados.sort_values('Año', inplace=True)

# Graficar con plotly.express
fig = px.line(df_total_desempleados, x='Año', y='Total_Desempleados', title='Total de Desempleados por Año')
fig.update_xaxes(title='Año')
fig.update_yaxes(title='Total de Desempleados')
fig.show()


# Estimación de Población por provincia de 2015-2022

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Carga de datos
workbook1 = 'Datos/estimacion_poblacion_por_provincia_2015_2022.xlsx'
df = pd.read_excel(workbook1)

# Seleccionar las columnas de interés
valores = df[["region", "2015", "2016", "2017", "2018", "2019", "2020", "2021", "2022"]]

# Configurar el tamaño de la figura
plt.figure(figsize=(12, 8))

# Total de años para graficar
años = valores.columns[1:]  # Ignora la primera columna que es "region"

# Número de regiones para calcular el ancho de las barras
n_regiones = len(valores['region'])

# Ancho de las barras
ancho = 0.15

# Generar las barras para cada año
for i, año in enumerate(años):
    # Calcular el desplazamiento para cada año. Se centran las barras alrededor de 0, 1, 2, ..., n_regiones
    desplazamiento = [x + (i - len(años) / 2) * ancho for x in range(n_regiones)]
    plt.bar(desplazamiento, valores[año], width=ancho, label=año)

# Añadir título y etiquetas
plt.title('Estimación de población por provincia (2015-2022)')
plt.xlabel('Región')
plt.ylabel('Población estimada')

# Ajustar las etiquetas del eje X para que muestren los nombres de las regiones
plt.xticks(range(n_regiones), valores['region'], rotation=45)

# Añadir la leyenda
plt.legend(title='Año')

# Mostrar la gráfica
plt.tight_layout()
plt.show()


# Media de Salario por Provincia de 2015-2022

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Carga de datos
workbook1 = 'Datos/media_de_salario_dolares_por_provincia_2015_2022.xlsx'
df = pd.read_excel(workbook1)

# Asegurarse de que 'region' y los años son las columnas en df
print(df.columns)  # Esto debería imprimir las columnas correctas según tu última respuesta

# Preparar los datos (si 'valores' no es necesario y df ya tiene la estructura correcta, se puede omitir este paso)
valores = df[["region", 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022]]

# Configurar el tamaño de la figura
plt.figure(figsize=(12, 8))

# Total de años para graficar
años = [2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022]  # Los años ya son enteros

# Ancho de las barras
ancho = 0.15

# Número de regiones para calcular el ancho de las barras
n_regiones = len(valores['region'])

# Generar las barras para cada año utilizando los índices correctos
for i, año in enumerate(años):
    desplazamiento = [x + (i - len(años) / 2) * ancho for x in range(n_regiones)]
    plt.bar(desplazamiento, valores.iloc[:, i + 1], width=ancho, label=str(año))  # Corrección aquí: acceso a las columnas por posición

# Añadir título y etiquetas
plt.title('Media de Salario en Dólares por Provincia (2015-2022)')
plt.xlabel('Región')
plt.ylabel('Salario Medio en Dólares')

# Ajustar las etiquetas del eje X para mostrar los nombres de las regiones
plt.xticks(range(n_regiones), valores['region'], rotation=45)  # Esto asume que 'region' es la primera columna

# Añadir la leyenda
plt.legend(title='Año')

# Mostrar la gráfica
plt.tight_layout()
plt.show()


In [5]:
#Promedio del valor económico por Provincia
import pandas as pd
import plotly.express as px

# Cargar el archivo Excel en un DataFrame de pandas
df = pd.read_excel('Datos/valor_economico_por_provincia_2015_2022.xlsx')

# Obtener las columnas numéricas para calcular el promedio
columnas_numericas = df.select_dtypes(include=['float64', 'int64']).columns

# Calcular el promedio por provincia
df_mean = df[columnas_numericas].mean(axis=1)
df_mean = pd.DataFrame(df_mean, columns=['Promedio'])

# Agregar la columna de provincias
df_mean['Provincia'] = df['region']

# Graficar los datos utilizando plotly.express
fig = px.bar(df_mean, x='Provincia', y='Promedio', title='Promedio del valor económico por provincia')
fig.update_layout(xaxis_title='Provincia', yaxis_title='Promedio Valor Económico')
fig.show()

In [7]:
import pandas as pd
import plotly.express as px

# Leer el archivo Excel
archivo_excel = 'Datos/trabajadores_por_educacion_por_provincia_2015_2022.xlsx'
datos = pd.read_excel(archivo_excel, sheet_name=None)

# Inicializar diccionario para almacenar el total de trabajadores y trabajadores universitarios por año
total_trabajadores_por_año = {}
trabajadores_universitarios_por_año = {}

# Recorrer cada hoja del archivo Excel
for año, df in datos.items():
    # Sumar el total de trabajadores y trabajadores universitarios para cada año
    total_trabajadores_por_año[año] = df['total_trabajadores'].sum()
    trabajadores_universitarios_por_año[año] = df['trabajadores_universitarios'].sum()

# Convertir diccionarios a DataFrames
df_total_trabajadores = pd.DataFrame(total_trabajadores_por_año.items(), columns=['Año', 'Total_Trabajadores'])
df_trabajadores_universitarios = pd.DataFrame(trabajadores_universitarios_por_año.items(), columns=['Año', 'Trabajadores_Universitarios'])

# Unir los DataFrames
df_porcentaje = pd.merge(df_total_trabajadores, df_trabajadores_universitarios, on='Año')

# Calcular el porcentaje de trabajadores universitarios respecto al total de trabajadores
df_porcentaje['Porcentaje_Trabajadores_Universitarios'] = (df_porcentaje['Trabajadores_Universitarios'] / df_porcentaje['Total_Trabajadores']) * 100

# Graficar con plotly.express
fig = px.line(df_porcentaje, x='Año', y='Porcentaje_Trabajadores_Universitarios', title='Porcentaje de Trabajadores Universitarios vs Total de Trabajadores por Año')
fig.update_xaxes(title='Año')
fig.update_yaxes(title='Porcentaje de Trabajadores Universitarios')
fig.show()

## **Solución:**

En base los datos analizados por llegar a la conclusión que no solo la preparación de los profesionales influye sino también las actividades económicas que poseen las provincias. Debido a esto una solución óptima sería trasladar empresas o abrir nuevas en lugares donde la población es alta y se puede explotar el capital humano de forma positiva para igualar el salario a nivel nacional brindando las mismas oportunidades a nivel nacional.

## **Propuesta de Valor:**

Sería de gran utilidad poder analizar otros aspectos que no pudimos debido a la data conseguida en el INEC con respecto étnias y sexo que también nos ayudarían a identificar de mejor manera la desigualdad que puede existir entre los salarios. Continuar con el estudio serviría para seguir mitigando la desigualdad económica y evitar la migración a la capital y provincias con mayor desarrollo económico en el país.