# **Profesiones**

In [1]:
# Manejo de datos
import os # Directorios
import pandas as pd # Manipulación df
# Gráficas
import plotly.graph_objects as go #Para obtener librería usar: pip install plotly
from plotly.subplots import make_subplots
import plotly.io as pio # Exportar gráfica

# Obtener el directorio actual de trabajo
directorio_actual = os.getcwd()

# Directorio donde se encuentran los archivos JSON (ruta relativa)
directorio_json = os.path.join(directorio_actual, '../../db/datos_json')

# Obtener la lista de archivos JSON en el directorio
archivos_json = os.listdir(directorio_json)

# Cargar los archivos JSON y crear DataFrames
for archivo in archivos_json:
    nombre_tabla = archivo.replace('datos_', '').replace('.json', '')
    ruta_json = os.path.join(directorio_json, archivo)
    globals()[f"df_{nombre_tabla}"] = pd.read_json(ruta_json)

# Obtener todos los nombres de las variables globales
nombres_variables_globales = list(globals().keys())

# Filtrar los nombres que comienzan con "df_", contienen "alfa_q" y "pachuca"
nombres_df_filtrados = [
    nombre for nombre in nombres_variables_globales 
    if nombre.startswith("df_") and "salarios" in nombre and "puebla" in nombre
]

# Imprimir la lista de DataFrames filtrados
print("Lista de DataFrames filtrados:")
nombres_df_filtrados

Lista de DataFrames filtrados:


['df_salarios_puebla']

In [2]:
# Crear una lista de DataFrames seleccionados con las columnas específicas
dataframes_list = []
for nombre_df in nombres_df_filtrados:
    # Seleccionar las columnas 'id' y 'categoria'
    segment_df = globals()[nombre_df][['id_salarios', 'Occupation','Salario_Variable','Categoria']]
    # Añadir el DataFrame a la lista
    dataframes_list.append(segment_df)

In [4]:
# Ordenar el DataFrame por el valor del salario en orden ascendente
profesiones_df_salarios_puebla_sorted = df_salarios_puebla.sort_values(by='Salario_Variable')

# Dividir el DataFrame en dos partes: bajos y altos salarios
corte = len(profesiones_df_salarios_puebla_sorted) // 2
profesiones_bajas = profesiones_df_salarios_puebla_sorted.iloc[:corte]
profesiones_altas = profesiones_df_salarios_puebla_sorted.iloc[corte:]

# Imprimir la lista de ocupaciones para salarios más bajos
print("Profesiones con los salarios más bajos:")
print(profesiones_bajas['Occupation'].tolist())

# Imprimir la lista de ocupaciones para salarios más altos
print("\nProfesiones con los salarios más altos:")
print(profesiones_altas['Occupation'].tolist())

Profesiones con los salarios más bajos:
['Trabajadores de Apoyo que Realizan Actividades Agrícolas y Ganaderas', 'Trabajadores en la Cría de Caprinos y Ovinos', 'Coordinadores y Jefes de Área en Servicios Contables, Financieros, Banca y Seguros', 'Artesanos y Confeccionadores de Productos Textiles', 'Técnicos de Laboratorios Médicos', 'Parteras', 'Taladores, Trocadores, Cortadores de Árboles y Similares', 'Trabajadores en el Cultivo de Maíz Y/O Frijol', 'Cerrajeros, Afiladores y Pulidores de Herramientas', 'Trabajadores que Combinan Actividades Agrícolas con Ganaderas', 'Curanderos, Hierberos y Hueseros', 'Agrónomos', 'Administradores de Bases de Datos y Redes de Computadora', 'Bailarines y Coreógrafos', 'Escritores y Críticos Literarios', 'Productores de Carbón Vegetal', 'Trabajadores del Vidrio y Similares', 'Carteros (A Pie y en Bicicleta)', 'Coordinadores y Jefes de Área en Informática', 'Trabajadores de la Fuerza Armada Marítima', 'Supervisores, Encargados y Capataces de Trabajado

In [6]:
# Ordenar el DataFrame por el valor del salario en orden ascendente
profesiones_df_salarios_puebla_sorted = df_salarios_puebla.sort_values(by='Salario_Variable')

# Dividir el DataFrame en dos partes: bajos y altos salarios
corte = len(profesiones_df_salarios_puebla_sorted) // 2
profesiones_bajas = profesiones_df_salarios_puebla_sorted.iloc[:corte].head(10)  # Obtener solo las 10 primeras
profesiones_altas = profesiones_df_salarios_puebla_sorted.iloc[corte:].head(10)  # Obtener solo las 10 primeras
df_bajas = pd.DataFrame({'Profesiones Más Bajas': profesiones_bajas['Occupation']})
df_altas = pd.DataFrame({'Profesiones Más Altas': profesiones_altas['Occupation']})

# Unir los dos DataFrames en una sola tabla
tabla_comparativa = pd.concat([df_bajas.reset_index(drop=True), df_altas.reset_index(drop=True)], axis=1)
print(tabla_comparativa)

# Exportar tabla como archivo HTML
def guardar_tabla_como_html(tabla, nombre_archivo, carpeta='assets/tablas'):
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)  # Crear la carpeta si no existe
    
    # Tabla como archivo HTML en la carpeta especificada
    tabla.to_html(f'{carpeta}/{nombre_archivo}.html', index=False)

# Exportar la tabla
guardar_tabla_como_html(tabla_comparativa, 'tabla_profesiones')

                               Profesiones Más Bajas  \
0  Trabajadores de Apoyo que Realizan Actividades...   
1       Trabajadores en la Cría de Caprinos y Ovinos   
2  Coordinadores y Jefes de Área en Servicios Con...   
3  Artesanos y Confeccionadores de Productos Text...   
4                   Técnicos de Laboratorios Médicos   
5                                           Parteras   
6  Taladores, Trocadores, Cortadores de Árboles y...   
7      Trabajadores en el Cultivo de Maíz Y/O Frijol   
8  Cerrajeros, Afiladores y Pulidores de Herramie...   
9  Trabajadores que Combinan Actividades Agrícola...   

                               Profesiones Más Altas  
0           Trabajadores de Apoyo en la Construcción  
1  Instructores y Capacitadores en Oficios y para...  
2                               Capturistas de Datos  
3  Trabajadores en la Elaboración de Productos Lá...  
4                                          Tapiceros  
5  Agentes y Representantes de Ventas y Consignat... 