# **Profesiones**

In [1]:
# Manejo de datos
import os # Directorios
import pandas as pd # Manipulación df
# Gráficas
import plotly.graph_objects as go #Para obtener librería usar: pip install plotly
from plotly.subplots import make_subplots
import plotly.io as pio # Exportar gráfica

# Obtener el directorio actual de trabajo
directorio_actual = os.getcwd()

# Directorio donde se encuentran los archivos JSON (ruta relativa)
directorio_json = os.path.join(directorio_actual, '../../db/datos_json')

# Obtener la lista de archivos JSON en el directorio
archivos_json = os.listdir(directorio_json)

# Cargar los archivos JSON y crear DataFrames
for archivo in archivos_json:
    nombre_tabla = archivo.replace('datos_', '').replace('.json', '')
    ruta_json = os.path.join(directorio_json, archivo)
    globals()[f"df_{nombre_tabla}"] = pd.read_json(ruta_json)

# Obtener todos los nombres de las variables globales
nombres_variables_globales = list(globals().keys())

# Filtrar los nombres que comienzan con "df_", contienen "alfa_q" y "pachuca"
nombres_df_filtrados = [
    nombre for nombre in nombres_variables_globales 
    if nombre.startswith("df_") and "salarios" in nombre and "puebla" in nombre
]

# Imprimir la lista de DataFrames filtrados
print("Lista de DataFrames filtrados:")
nombres_df_filtrados

Lista de DataFrames filtrados:


['df_salarios_puebla']

In [12]:
# Crear una lista de DataFrames seleccionados con las columnas específicas
dataframes_list = []
for nombre_df in nombres_df_filtrados:
    # Seleccionar las columnas 'id' y 'categoria'
    segment_df = globals()[nombre_df][['id_salarios', 'Occupation','Salario_Variable','Categoria']]
    # Añadir el DataFrame a la lista
    dataframes_list.append(segment_df)

In [6]:
#Por si no se tiene el json, desde csv:
#df = pd.read_csv('C:\\xampp\\htdocs/datalpine/resources/db/Scrapining/salarios/bases/QUERETARO_24.csv')

#Por si no se tiene el json, desde csv:
import os
directorio_actual = os.getcwd()  # Cambiado de __file__ a getcwd()
df = pd.read_csv(os.path.join(directorio_actual, '../../db/Scrapining/salarios/clean/PUEBLA_24.csv'))

In [7]:
salarios = df['Salario_Variables'].unique()
salarios.sort()
salarios

array([     0.  ,    580.65,    650.15,   1134.35,   1236.25,   1333.97,
         1486.5 ,   1536.9 ,   1829.57,   1902.83,   1993.6 ,   1996.63,
         2013.84,   2057.75,   2167.83,   2207.55,   2245.47,   2313.64,
         2365.  ,   2540.67,   2566.55,   2829.12,   2838.62,   2848.88,
         2927.43,   2967.34,   2989.94,   3000.  ,   3067.41,   3079.5 ,
         3151.81,   3212.8 ,   3235.65,   3340.41,   3362.95,   3544.16,
         3604.11,   3694.08,   3742.71,   3772.68,   3786.37,   3838.07,
         3847.21,   3855.12,   3857.99,   3860.16,   3876.23,   3890.35,
         3891.39,   3997.82,   4000.19,   4218.15,   4225.63,   4226.34,
         4254.78,   4258.18,   4296.33,   4300.  ,   4327.22,   4332.07,
         4339.67,   4356.3 ,   4370.75,   4444.44,   4445.52,   4463.55,
         4475.33,   4530.28,   4536.46,   4584.91,   4587.16,   4664.52,
         4759.99,   4797.13,   4804.07,   4857.83,   4874.26,   4905.7 ,
         4915.26,   4953.92,   4962.68,   4975.44, 

In [8]:
df_neutro = df[df['Salario_Variables']==0]
df_neutro['Occupation'].unique()

array(['Presidentes y Autoridades Municipales',
       'Presidentes y Directores Generales en Instituciones Públicas',
       'Directores y Gerentes en Informática',
       'Coordinadores y Jefes de Área en Generación y Provisión de Energía Eléctrica y Agua',
       'Coordinadores y Jefes de Área de Ventas, Comercialización y Alquiler',
       'Especialistas en Hotelería y Turismo',
       'Investigadores y Especialistas en Física',
       'Ingenieros Eléctricos',
       'Ingenieros en Comunicaciones y Telecomunicaciones',
       'Alfabetizadores',
       'Inspectores en Seguridad Social, de Precios y otros Inspectores Públicos',
       'Diseñadores Industriales',
       'Auxiliares y Técnicos Topógrafos, en Hidrología y Geología',
       'Instructores en Estudios y Capacitación Comercial y Administrativa',
       'Despachadores de Transporte',
       'Trabajadores en Servicios Funerarios', 'Bomberos',
       'Pilotos de Aviación',
       'Otros Operadores de Maquinaria Industrial, Ens

In [9]:
df_limpio = df[df['Salario_Variables']!=0]

In [10]:
profesiones_df_salarios_puebla_sorted = df_limpio.sort_values(by='Salario_Variables')
profesiones_df_salarios_puebla_sorted[['Occupation','Salario_Variables']]

Unnamed: 0,Occupation,Salario_Variables
192,"Cuidadores de Niños, Personas con Discapacidad...",580.65
285,Operadores de Máquinas en la Elaboración de Be...,650.15
305,Trabajadores de Apoyo en Plomería e Instalació...,1134.35
197,Entrenadores de Animales y Ocupaciones Relacio...,1236.25
205,Trabajadores en el Cultivo de Maíz Y/O Frijol,1333.97
...,...,...
33,Coordinadores y Jefes de Área en Comunicación ...,36000.00
15,Directores y Gerentes en Servicios de Transporte,37814.37
72,Administradores de Bases de Datos y Redes de C...,39205.70
35,Coordinadores y Jefes de Área en Centros de In...,49757.04


In [11]:
# Ordenar el DataFrame por el valor del salario en orden ascendente
profesiones_df_salarios_puebla_sorted = df_limpio.sort_values(by='Salario_Variables')

# Obtener las 10 profesiones con el salario más bajo
profesiones_bajas = profesiones_df_salarios_puebla_sorted.head(10)

# Obtener las 10 profesiones con el salario más alto
profesiones_altas = profesiones_df_salarios_puebla_sorted.tail(10)

df_bajas = pd.DataFrame({'Profesiones Más Bajas': profesiones_bajas['Occupation']})
df_altas = pd.DataFrame({'Profesiones Más Altas': profesiones_altas['Occupation']})

# Unir los dos DataFrames en una sola tabla
tabla_comparativa = pd.concat([df_bajas.reset_index(drop=True), df_altas.reset_index(drop=True)], axis=1)
print(tabla_comparativa)

# Exportar tabla como archivo HTML
def guardar_tabla_como_html(tabla, nombre_archivo, carpeta='assets/tablas'):
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)  # Crear la carpeta si no existe
    
    # Tabla como archivo HTML en la carpeta especificada
    tabla.to_html(f'{carpeta}/{nombre_archivo}.html', index=False)

# Exportar la tabla
guardar_tabla_como_html(tabla_comparativa, 'tabla_profesiones')

                               Profesiones Más Bajas  \
0  Cuidadores de Niños, Personas con Discapacidad...   
1  Operadores de Máquinas en la Elaboración de Be...   
2  Trabajadores de Apoyo en Plomería e Instalació...   
3  Entrenadores de Animales y Ocupaciones Relacio...   
4      Trabajadores en el Cultivo de Maíz Y/O Frijol   
5  Trabajadores de Apoyo que Realizan Actividades...   
6        Vigilantes y Porteros en Casas Particulares   
7   Joyeros, Orfebres, Plateros y Pulidores de Metal   
8       Trabajadores en la Cría de Caprinos y Ovinos   
9             Trabajadores en el Cultivo de Frutales   

                               Profesiones Más Altas  
0                                      Optometristas  
1         Trabajadores en Actividades de Acuacultura  
2                                       Farmacólogos  
3  Supervisores de Conductores de Transporte y de...  
4  Biólogos y Especialistas en Ciencias del Mar y...  
5  Coordinadores y Jefes de Área en Comunicación ... 

## Sacar los estilos deseados

In [12]:
import os
import pandas as pd

# Exportar tabla con estilos personalizados
def guardar_tabla_como_html(tabla, nombre_archivo, carpeta='assets/tablas'):
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)  # Crear la carpeta si no existe

    # Crear un estilo personalizado de tabla
    estilo_html = f"""
    <html>
    <head>
        <style>
            /* Estilo general para las tablas */
            table {{
                width: 100%; /* Ancho completo */
                border-collapse: collapse; /* Colapsar bordes */
                margin: 0; /* Margen superior e inferior */
                padding: 0; /*Eliminar padding
            }}
                /* Estilo para el contenedor de la tabla */

            .card-body {{

                padding: 0; /* Eliminar padding del contenedor */
                margin: 0; /* Eliminar margen del contenedor */

            }}

            /* Estilo para las celdas de encabezado */
            th {{
                background-color: #f2f2f2; /* Color de fondo claro */
                color: #333; /* Color de texto */
                padding: 10px; /* Espaciado interno */
                text-align: left; /* Alinear texto a la izquierda */
                border: 1px solid #ddd; /* Borde de las celdas */
            }}

            /* Estilo para las celdas del cuerpo */
            td {{
                padding: 10px; /* Espaciado interno */
                border: 1px solid #ddd; /* Borde de las celdas */
            }}

            /* Estilo para las filas alternas */
            tr:nth-child(even) {{
                background-color: #f9f9f9; /* Color de fondo alternativo */
            }}

            /* Estilo para las filas al pasar el mouse */
            tr:hover {{
                background-color: #f1f1f1; /* Color de fondo al pasar el mouse */
            }}

            /* Estilo para el texto en las celdas */
            td, th {{
                text-align: center; /* Centrar texto en celdas */
            }}
        </style>
    </head>
    <body>
        <div class="card">
            <div class="card-body">
                <div style="overflow-x:auto;">
                    {tabla.to_html(index=False, classes='table-responsive table-striped table-bordered', border=0)}
                </div>
            </div>
        </div>
    </body>
    </html>
    """
    
    # Guardar la tabla con el estilo HTML
    with open(f'{carpeta}/{nombre_archivo}.html', 'w', encoding='utf-8') as archivo_html:
        archivo_html.write(estilo_html)

# Ordenar el DataFrame por el valor del salario en orden ascendente
profesiones_df_salarios_puebla_sorted = df_limpio.sort_values(by='Salario_Variables')
# Obtener las 10 profesiones con el salario más bajo
profesiones_bajas = profesiones_df_salarios_puebla_sorted.head(10)
# Obtener las 10 profesiones con el salario más alto
profesiones_altas = profesiones_df_salarios_puebla_sorted.tail(10)

df_bajas = pd.DataFrame({'Más Bajas': profesiones_bajas['Occupation']})
df_altas = pd.DataFrame({'Más Altas': profesiones_altas['Occupation']})

# Tabla comparativa
tabla_comparativa = pd.concat([df_bajas.reset_index(drop=True), df_altas.reset_index(drop=True)], axis=1)

# Exportar la tabla como HTML con estilo personalizado
guardar_tabla_como_html(tabla_comparativa, 'tabla_profesiones_off')