# **Profesiones**

In [1]:
# Manejo de datos
import os # Directorios
import pandas as pd # Manipulación df
# Gráficas
import plotly.graph_objects as go #Para obtener librería usar: pip install plotly
from plotly.subplots import make_subplots
import plotly.io as pio # Exportar gráfica

# Obtener el directorio actual de trabajo
directorio_actual = os.getcwd()

# Directorio donde se encuentran los archivos JSON (ruta relativa)
directorio_json = os.path.join(directorio_actual, '../../db/datos_json')

# Obtener la lista de archivos JSON en el directorio
archivos_json = os.listdir(directorio_json)

# Cargar los archivos JSON y crear DataFrames
for archivo in archivos_json:
    nombre_tabla = archivo.replace('datos_', '').replace('.json', '')
    ruta_json = os.path.join(directorio_json, archivo)
    globals()[f"df_{nombre_tabla}"] = pd.read_json(ruta_json)

# Obtener todos los nombres de las variables globales
nombres_variables_globales = list(globals().keys())

# Filtrar los nombres que comienzan con "df_", contienen "alfa_q" y "pachuca"
nombres_df_filtrados = [
    nombre for nombre in nombres_variables_globales 
    if nombre.startswith("df_") and "queretaro" in nombre
]

# Imprimir la lista de DataFrames filtrados
print("Lista de DataFrames filtrados:")
nombres_df_filtrados

Lista de DataFrames filtrados:


['df_alfa_abril_2024_queretaro',
 'df_alfa_agosto_2024_queretaro',
 'df_alfa_marzo_2024_queretaro',
 'df_alfa_mayo_2024_queretaro',
 'df_financiamientos_2019_queretaro',
 'df_financiamientos_2020_queretaro',
 'df_financiamientos_2021_queretaro',
 'df_financiamientos_2022_queretaro',
 'df_financiamientos_2023_queretaro',
 'df_financiamientos_2024_queretaro',
 'df_junio_2023_queretaro',
 'df_poblacion_queretaro']

In [None]:
# Crear una lista de DataFrames seleccionados con las columnas específicas
dataframes_list = []
for nombre_df in nombres_df_filtrados:
    # Seleccionar las columnas 'id' y 'categoria'
    segment_df = globals()[nombre_df][['id_salarios', 'Occupation','Salario_Variable','Categoria']]
    # Añadir el DataFrame a la lista
    dataframes_list.append(segment_df)

In [2]:
#Por si no se tiene el json, desde csv:
#df = pd.read_csv('C:\\xampp\\htdocs/datalpine/resources/db/Scrapining/salarios/bases/QUERETARO_24.csv')

#Por si no se tiene el json, desde csv:
import os
directorio_actual = os.getcwd()  # Cambiado de __file__ a getcwd()
df = pd.read_csv(os.path.join(directorio_actual, '../../db/Scrapining/salarios/clean/QUERETARO_24.csv'))
df_salarios_pachuca = df.copy()

In [3]:
salarios = df['Salario_Variables'].unique()
salarios.sort()
salarios

array([    0.  ,   119.75,   533.72,   856.7 ,   892.52,   905.09,
         951.95,  1021.81,  1030.09,  1167.46,  1185.73,  1422.31,
        1425.96,  1492.54,  1555.63,  1605.35,  1731.24,  1736.41,
        1738.74,  1822.52,  1892.34,  1931.98,  2023.58,  2059.84,
        2075.47,  2164.56,  2201.77,  2266.66,  2379.03,  2488.83,
        2544.76,  2545.33,  2551.56,  2565.44,  2631.11,  2638.4 ,
        2658.3 ,  2673.06,  2748.74,  2827.59,  2845.49,  2851.49,
        2864.04,  2872.35,  2908.94,  2910.92,  2967.96,  2997.78,
        3000.  ,  3037.  ,  3055.22,  3107.73,  3121.87,  3139.05,
        3201.07,  3205.04,  3241.37,  3265.93,  3291.38,  3319.94,
        3398.14,  3424.56,  3433.03,  3448.15,  3460.06,  3469.44,
        3565.96,  3578.72,  3638.08,  3687.1 ,  3692.93,  3783.38,
        3813.25,  3833.14,  3914.66,  3925.11,  3931.43,  3980.27,
        4000.31,  4042.37,  4047.5 ,  4063.67,  4075.52,  4076.19,
        4089.25,  4102.9 ,  4110.19,  4151.04,  4254.15,  4294

In [4]:
df_neutro = df[df['Salario_Variables']==0]
df_neutro['Occupation'].unique()

array(['Directores y Gerentes en Servicios de Salud, Protección Civil y Medio Ambiente',
       'Directores y Gerentes en Desarrollo Social y Económico',
       'Directores y Gerentes en Producción Agropecuaria, Silvícola y Pesquera',
       'Directores y Gerentes en Producción Minera, Petrolera y Gas',
       'Directores y Gerentes en Informática',
       'Directores y Gerentes en Centros de Investigación y Desarrollo Tecnológico',
       'Coordinadores y Jefes de Área en Generación y Provisión de Energía Eléctrica y Agua',
       'Especialistas en Trabajo Social',
       'Especialistas en Archivonomía, Biblioteconomía y Museografía',
       'Bailarines y Coreógrafos', 'Actores',
       'Investigadores y Especialistas en Física',
       'Ecólogos y Especialistas en Ciencias Atmosféricas', 'Agrónomos',
       'Veterinarios y Zootecnistas',
       'Ingenieros en Minas, Metalurgia y Petróleo',
       'Administradores de Bases de Datos y Redes de Computadora',
       'Otros Profesores de 

In [5]:
df_limpio = df[df['Salario_Variables']!=0]
profesiones_df_salarios_puebla_sorted = df_limpio.sort_values(by='Salario_Variables')
profesiones_df_salarios_puebla_sorted[['Occupation','Salario_Variables']]

Unnamed: 0,Occupation,Salario_Variables
174,Trabajadores en el Alquiler de Bienes Muebles ...,119.75
54,Pintores,533.72
159,"Guías de Turismo en Museos, Casinos, Parques, ...",856.70
232,Tejedores de Fibras,892.52
8,Directores y Gerentes en Centros de Enseñanza ...,905.09
...,...,...
33,Coordinadores y Jefes de Área en Centros de In...,30000.00
30,Coordinadores y Jefes de Área en Informática,30000.00
40,Especialistas en Hotelería y Turismo,30100.00
84,Optometristas,32000.00


In [6]:
# Ordenar el DataFrame por el valor del salario en orden ascendente
profesiones_df_salarios_puebla_sorted = df_limpio.sort_values(by='Salario_Variables')

# Obtener las 10 profesiones con el salario más bajo
profesiones_bajas = profesiones_df_salarios_puebla_sorted.head(10)

# Obtener las 10 profesiones con el salario más alto
profesiones_altas = profesiones_df_salarios_puebla_sorted.tail(10)

df_bajas = pd.DataFrame({'Profesiones Más Bajas': profesiones_bajas['Occupation']})
df_altas = pd.DataFrame({'Profesiones Más Altas': profesiones_altas['Occupation']})

# Unir los dos DataFrames en una sola tabla
tabla_comparativa = pd.concat([df_bajas.reset_index(drop=True), df_altas.reset_index(drop=True)], axis=1)
print(tabla_comparativa)

# Exportar tabla como archivo HTML
def guardar_tabla_como_html(tabla, nombre_archivo, carpeta='assets/tablas'):
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)  # Crear la carpeta si no existe
    
    # Tabla como archivo HTML en la carpeta especificada
    tabla.to_html(f'{carpeta}/{nombre_archivo}.html', index=False)

# Exportar la tabla
guardar_tabla_como_html(tabla_comparativa, 'tabla_profesiones')

                               Profesiones Más Bajas  \
0  Trabajadores en el Alquiler de Bienes Muebles ...   
1                                           Pintores   
2  Guías de Turismo en Museos, Casinos, Parques, ...   
3                                Tejedores de Fibras   
4  Directores y Gerentes en Centros de Enseñanza ...   
5  Operadores de Máquinas en la Elaboración de Ce...   
6  Supervisores de Conductores de Transporte y de...   
7                                Dibujantes Técnicos   
8                          Bordadores y Deshiladores   
9  Técnicos en Instalación y Reparación de Equipo...   

                               Profesiones Más Altas  
0  Auxiliares y Técnicos de Equipos de Grabación ...  
1  Supervisores de Artesanos y Trabajadores en la...  
2                                           Químicos  
3                                        Nutriólogos  
4  Coordinadores y Jefes de Área en Servicios Leg...  
5  Coordinadores y Jefes de Área en Centros de In... 

In [7]:
# Ordenar el DataFrame por el valor del salario en orden ascendente
profesiones_df_salarios_puebla_sorted = df_limpio.sort_values(by='Salario_Variables')

# Obtener las 10 profesiones con el salario más bajo
profesiones_bajas = profesiones_df_salarios_puebla_sorted.head(10)

# Obtener las 10 profesiones con el salario más alto
profesiones_altas = profesiones_df_salarios_puebla_sorted.tail(10)

df_bajas = pd.DataFrame({'Profesiones Más Bajas': profesiones_bajas['Occupation']})
df_altas = pd.DataFrame({'Profesiones Más Altas': profesiones_altas['Occupation']})

# Unir los dos DataFrames en una sola tabla
tabla_comparativa = pd.concat([df_bajas.reset_index(drop=True), df_altas.reset_index(drop=True)], axis=1)
print(tabla_comparativa)

# Exportar tabla como archivo HTML
def guardar_tabla_como_html(tabla, nombre_archivo, carpeta='assets/tablas'):
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)  # Crear la carpeta si no existe
    
    # Tabla como archivo HTML en la carpeta especificada
    tabla.to_html(f'{carpeta}/{nombre_archivo}.html', index=False)

# Exportar la tabla
guardar_tabla_como_html(tabla_comparativa, 'tabla_profesiones')

                               Profesiones Más Bajas  \
0  Trabajadores en el Alquiler de Bienes Muebles ...   
1                                           Pintores   
2  Guías de Turismo en Museos, Casinos, Parques, ...   
3                                Tejedores de Fibras   
4  Directores y Gerentes en Centros de Enseñanza ...   
5  Operadores de Máquinas en la Elaboración de Ce...   
6  Supervisores de Conductores de Transporte y de...   
7                                Dibujantes Técnicos   
8                          Bordadores y Deshiladores   
9  Técnicos en Instalación y Reparación de Equipo...   

                               Profesiones Más Altas  
0  Auxiliares y Técnicos de Equipos de Grabación ...  
1  Supervisores de Artesanos y Trabajadores en la...  
2                                           Químicos  
3                                        Nutriólogos  
4  Coordinadores y Jefes de Área en Servicios Leg...  
5  Coordinadores y Jefes de Área en Centros de In... 

In [8]:
import os
import pandas as pd

# Exportar tabla con estilos personalizados
def guardar_tabla_como_html(tabla, nombre_archivo, carpeta='assets/tablas'):
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)  # Crear la carpeta si no existe

    # Crear un estilo personalizado de tabla
    estilo_html = f"""
    <html>
    <head>
        <style>
            /* Estilo general para las tablas */
            table {{
                width: 100%; /* Ancho completo */
                border-collapse: collapse; /* Colapsar bordes */
                margin: 0; /* Margen superior e inferior */
                padding: 0; /*Eliminar padding
            }}
                /* Estilo para el contenedor de la tabla */

            .card-body {{

                padding: 0; /* Eliminar padding del contenedor */
                margin: 0; /* Eliminar margen del contenedor */

            }}

            /* Estilo para las celdas de encabezado */
            th {{
                background-color: #f2f2f2; /* Color de fondo claro */
                color: #333; /* Color de texto */
                padding: 10px; /* Espaciado interno */
                text-align: left; /* Alinear texto a la izquierda */
                border: 1px solid #ddd; /* Borde de las celdas */
            }}

            /* Estilo para las celdas del cuerpo */
            td {{
                padding: 10px; /* Espaciado interno */
                border: 1px solid #ddd; /* Borde de las celdas */
            }}

            /* Estilo para las filas alternas */
            tr:nth-child(even) {{
                background-color: #f9f9f9; /* Color de fondo alternativo */
            }}

            /* Estilo para las filas al pasar el mouse */
            tr:hover {{
                background-color: #f1f1f1; /* Color de fondo al pasar el mouse */
            }}

            /* Estilo para el texto en las celdas */
            td, th {{
                text-align: center; /* Centrar texto en celdas */
            }}
        </style>
    </head>
    <body>
        <div class="card">
            <div class="card-body">
                <div style="overflow-x:auto;">
                    {tabla.to_html(index=False, classes='table-responsive table-striped table-bordered', border=0)}
                </div>
            </div>
        </div>
    </body>
    </html>
    """
    
    # Guardar la tabla con el estilo HTML
    with open(f'{carpeta}/{nombre_archivo}.html', 'w', encoding='utf-8') as archivo_html:
        archivo_html.write(estilo_html)

# Ordenar el DataFrame por el valor del salario en orden ascendente
profesiones_df_salarios_puebla_sorted = df_limpio.sort_values(by='Salario_Variables')
# Obtener las 10 profesiones con el salario más bajo
profesiones_bajas = profesiones_df_salarios_puebla_sorted.head(10)
# Obtener las 10 profesiones con el salario más alto
profesiones_altas = profesiones_df_salarios_puebla_sorted.tail(10)

df_bajas = pd.DataFrame({'Más Bajas': profesiones_bajas['Occupation']})
df_altas = pd.DataFrame({'Más Altas': profesiones_altas['Occupation']})

# Tabla comparativa
tabla_comparativa = pd.concat([df_bajas.reset_index(drop=True), df_altas.reset_index(drop=True)], axis=1)

# Exportar la tabla como HTML con estilo personalizado
guardar_tabla_como_html(tabla_comparativa, 'tabla_profesiones_off')