# **Profesiones**

In [2]:
# Manejo de datos
import os # Directorios
import pandas as pd # Manipulación df
# Gráficas
import plotly.graph_objects as go #Para obtener librería usar: pip install plotly
from plotly.subplots import make_subplots
import plotly.io as pio # Exportar gráfica

# Obtener el directorio actual de trabajo
directorio_actual = os.getcwd()

# Directorio donde se encuentran los archivos JSON (ruta relativa)
directorio_json = os.path.join(directorio_actual, '../../db/datos_json')

# Obtener la lista de archivos JSON en el directorio
archivos_json = os.listdir(directorio_json)

# Cargar los archivos JSON y crear DataFrames
for archivo in archivos_json:
    nombre_tabla = archivo.replace('datos_', '').replace('.json', '')
    ruta_json = os.path.join(directorio_json, archivo)
    globals()[f"df_{nombre_tabla}"] = pd.read_json(ruta_json)

# Obtener todos los nombres de las variables globales
nombres_variables_globales = list(globals().keys())

# Filtrar los nombres que comienzan con "df_", contienen "alfa_q" y "pachuca"
nombres_df_filtrados = [
    nombre for nombre in nombres_variables_globales 
    if nombre.startswith("df_") and "queretaro" in nombre
]

# Imprimir la lista de DataFrames filtrados
print("Lista de DataFrames filtrados:")
nombres_df_filtrados

Lista de DataFrames filtrados:


['df_alfa_abril_2024_queretaro',
 'df_alfa_agosto_2024_queretaro',
 'df_alfa_marzo_2024_queretaro',
 'df_alfa_mayo_2024_queretaro',
 'df_financiamientos_2019_queretaro',
 'df_financiamientos_2020_queretaro',
 'df_financiamientos_2021_queretaro',
 'df_financiamientos_2022_queretaro',
 'df_financiamientos_2023_queretaro',
 'df_financiamientos_2024_queretaro',
 'df_junio_2023_queretaro',
 'df_poblacion_queretaro']

In [None]:
# Crear una lista de DataFrames seleccionados con las columnas específicas
dataframes_list = []
for nombre_df in nombres_df_filtrados:
    # Seleccionar las columnas 'id' y 'categoria'
    segment_df = globals()[nombre_df][['id_salarios', 'Occupation','Salario_Variable','Categoria']]
    # Añadir el DataFrame a la lista
    dataframes_list.append(segment_df)

In [4]:
#Por si no se tiene el json, desde csv:
#df = pd.read_csv('C:\\xampp\\htdocs/datalpine/resources/db/Scrapining/salarios/bases/QUERETARO_24.csv')

#Por si no se tiene el json, desde csv:
import os
directorio_actual = os.getcwd()  # Cambiado de __file__ a getcwd()
df = pd.read_csv(os.path.join(directorio_actual, '../../db/Scrapining/salarios/clean/QUERETARO_24.csv'))
df_salarios_pachuca = df.copy()

In [5]:
# Ordenar el DataFrame por el valor del salario en orden ascendente
profesiones_df_salarios_puebla_sorted = df.sort_values(by='Salario_Variables')

# Dividir el DataFrame en dos partes: bajos y altos salarios
corte = len(profesiones_df_salarios_puebla_sorted) // 2
profesiones_bajas = profesiones_df_salarios_puebla_sorted.iloc[:corte]
profesiones_altas = profesiones_df_salarios_puebla_sorted.iloc[corte:]

# Imprimir la lista de ocupaciones para salarios más bajos
print("Profesiones con los salarios más bajos:")
print(profesiones_bajas['Occupation'].tolist())

# Imprimir la lista de ocupaciones para salarios más altos
print("\nProfesiones con los salarios más altos:")
print(profesiones_altas['Occupation'].tolist())

Profesiones con los salarios más bajos:
['Especialistas en Trabajo Social', 'Especialistas en Archivonomía, Biblioteconomía y Museografía', 'Bailarines y Coreógrafos', 'Actores', 'Veterinarios y Zootecnistas', 'Agrónomos', 'Ecólogos y Especialistas en Ciencias Atmosféricas', 'Investigadores y Especialistas en Física', 'Otros Operadores de Instalaciones y Maquinaria Fija Industrial, no Clasificados Anteriormente', 'Operadores de Máquinas e Instalaciones para la Generación de Energía', 'Recolectores de Leña y Acarreadores de Agua', 'Otros Operadores de Maquinaria Industrial, Ensambladores y Conductores de Transporte, no Clasificados Anteriormente', 'Supervisores de Trabajadores en la Elaboración y Procesamiento de Alimentos, Bebidas y Productos de Tabaco', 'Artesanos de Productos de Bejuco, Vara, Palma, Carrizo y Mimbre, Excepto Madera', 'Ingenieros en Minas, Metalurgia y Petróleo', 'Operadores de Máquinas y Equipos para la Captación, Bombeo y Distribución de Agua', 'Trabajadores de la F

In [6]:
# Ordenar el DataFrame por el valor del salario en orden ascendente
profesiones_df_salarios_puebla_sorted = df.sort_values(by='Salario_Variables')

# Dividir el DataFrame en dos partes: bajos y altos salarios
corte = len(profesiones_df_salarios_puebla_sorted) // 2
profesiones_bajas = profesiones_df_salarios_puebla_sorted.iloc[:corte].head(10)  # Obtener solo las 10 primeras
profesiones_altas = profesiones_df_salarios_puebla_sorted.iloc[corte:].head(10)  # Obtener solo las 10 primeras
df_bajas = pd.DataFrame({'Profesiones Más Bajas': profesiones_bajas['Occupation']})
df_altas = pd.DataFrame({'Profesiones Más Altas': profesiones_altas['Occupation']})

# Unir los dos DataFrames en una sola tabla
tabla_comparativa = pd.concat([df_bajas.reset_index(drop=True), df_altas.reset_index(drop=True)], axis=1)
print(tabla_comparativa)

# Exportar tabla como archivo HTML
def guardar_tabla_como_html(tabla, nombre_archivo, carpeta='assets/tablas'):
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)  # Crear la carpeta si no existe
    
    # Tabla como archivo HTML en la carpeta especificada
    tabla.to_html(f'{carpeta}/{nombre_archivo}.html', index=False)

# Exportar la tabla
guardar_tabla_como_html(tabla_comparativa, 'tabla_profesiones')

                               Profesiones Más Bajas  \
0                    Especialistas en Trabajo Social   
1  Especialistas en Archivonomía, Biblioteconomía...   
2                           Bailarines y Coreógrafos   
3                                            Actores   
4                        Veterinarios y Zootecnistas   
5                                          Agrónomos   
6  Ecólogos y Especialistas en Ciencias Atmosféricas   
7           Investigadores y Especialistas en Física   
8  Otros Operadores de Instalaciones y Maquinaria...   
9  Operadores de Máquinas e Instalaciones para la...   

                               Profesiones Más Altas  
0  Trabajadores de Apoyo en Actividades Silvícola...  
1  Directores y Gerentes en Servicios Funerarios ...  
2  Supervisores en la Preparación y Servicio de A...  
3  Operadores de Máquinas y Equipos de Hilar y Bo...  
4  Cuidadores de Niños, Personas con Discapacidad...  
5                   Jardineros en Casas Particulares 

In [8]:
import os
import pandas as pd

# Exportar tabla con estilos personalizados
def guardar_tabla_como_html(tabla, nombre_archivo, carpeta='assets/tablas'):
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)  # Crear la carpeta si no existe

    # Crear un estilo personalizado de tabla
    estilo_html = f"""
    <html>
    <head>
        <style>
            /* Estilo general para las tablas */
            table {{
                width: 100%; /* Ancho completo */
                border-collapse: collapse; /* Colapsar bordes */
                margin: 0; /* Margen superior e inferior */
                padding: 0; /*Eliminar padding
            }}
                /* Estilo para el contenedor de la tabla */

            .card-body {{

                padding: 0; /* Eliminar padding del contenedor */
                margin: 0; /* Eliminar margen del contenedor */

            }}

            /* Estilo para las celdas de encabezado */
            th {{
                background-color: #f2f2f2; /* Color de fondo claro */
                color: #333; /* Color de texto */
                padding: 10px; /* Espaciado interno */
                text-align: left; /* Alinear texto a la izquierda */
                border: 1px solid #ddd; /* Borde de las celdas */
            }}

            /* Estilo para las celdas del cuerpo */
            td {{
                padding: 10px; /* Espaciado interno */
                border: 1px solid #ddd; /* Borde de las celdas */
            }}

            /* Estilo para las filas alternas */
            tr:nth-child(even) {{
                background-color: #f9f9f9; /* Color de fondo alternativo */
            }}

            /* Estilo para las filas al pasar el mouse */
            tr:hover {{
                background-color: #f1f1f1; /* Color de fondo al pasar el mouse */
            }}

            /* Estilo para el texto en las celdas */
            td, th {{
                text-align: center; /* Centrar texto en celdas */
            }}
        </style>
    </head>
    <body>
        <div class="card">
            <div class="card-body">
                <div style="overflow-x:auto;">
                    {tabla.to_html(index=False, classes='table-responsive table-striped table-bordered', border=0)}
                </div>
            </div>
        </div>
    </body>
    </html>
    """
    
    # Guardar la tabla con el estilo HTML
    with open(f'{carpeta}/{nombre_archivo}.html', 'w', encoding='utf-8') as archivo_html:
        archivo_html.write(estilo_html)

# Ordenar y dividir DataFrame
profesiones_df_salarios_puebla_sorted = df_salarios_pachuca.sort_values(by='Salario_Variables')
corte = len(profesiones_df_salarios_puebla_sorted) // 2
profesiones_bajas = profesiones_df_salarios_puebla_sorted.iloc[:corte].head(10)
profesiones_altas = profesiones_df_salarios_puebla_sorted.iloc[corte:].head(10)
df_bajas = pd.DataFrame({'Más Bajas': profesiones_bajas['Occupation']})
df_altas = pd.DataFrame({'Más Altas': profesiones_altas['Occupation']})

# Tabla comparativa
tabla_comparativa = pd.concat([df_bajas.reset_index(drop=True), df_altas.reset_index(drop=True)], axis=1)

# Exportar la tabla como HTML con estilo personalizado
guardar_tabla_como_html(tabla_comparativa, 'tabla_profesiones_off')