
# **Distribución de Géneros en Cargos Jerárquicos del Poder Judicial del Chaco**
-----
## **Resumen**
<div style="text-align:justify">

Este análisis se enfoca en la representación de género dentro de los cargos de liderazgo en el Poder Judicial de la Provincia del Chaco. Utilizando técnicas de scraping web, se extrajo información de la página oficial del Poder Judicial de la Provincia del Chaco. Posteriormente, se determinó el género de cada agente basándose en una comparación de sus nombres con una base de datos de 46 mil nombres distintos. Es importante mencionar que el análisis se centra únicamente en una perspectiva binaria de género, sin considerar identidades de género diversas. Los hallazgos sugieren que hay un equilibrio de géneros en cargos como Juez de primera instancia y Jueces de Cámara. Sin embargo, en roles como secretarios de primera instancia y en Asesorías de Niños, Niñas y Adolescentes, hay una prevalencia notable del género femenino. El análisis se llevó a cabo utilizando Python, y se emplearon herramientas como Selenium para el scraping,Pandas para el procesamiento de datos, Matplotlib y Seaborn para graficar los datos.
</div>


## **1. Extracción y limpieza de los datos**
### **1.1 Proceso de extracción**
<div style="text-align:justify">

El proceso comenzó con la extracción y posterior limpieza de los datos. Utilizamos Python, junto con la biblioteca Selenium, para conectarnos a la página oficial del Poder Judicial de la provincia del Chaco. Dicha página dispone de una nómina de agentes que incluye información relevante como: nombre del agente, título, cargo, dependencia y localidad. Para obtener esta información, recurrimos a una técnica llamada "scraping web", la cual consiste en navegar de manera automatizada por una página web y extraer de ella la información deseada, simulando la interacción que tendría un usuario humano. Esta técnica es especialmente útil cuando los datos no se encuentran disponibles en formatos fácilmente descargables o accesibles. Una vez obtenida esta información, procedimos con su limpieza y adecuación para el análisis subsiguiente. Para más detalles, se puede consultar el enlace oficial de la Página del Poder Judicial (https://www.justiciachaco.gov.ar/index.php?action=stj_nomina_agentes).
</div>


In [1]:
# Importamos las librerías necesarias 

from selenium import webdriver # Importamos Selenium para navegación web automatizada
import pandas as pd            # Importamos Pandas para el procesamiento y análisis de datos
import json                    # Para manejar formatos JSON
import re                      # Librería de expresiones regulares para buscar patrones en cadenas

# Guardamos la URL al sitio web del Poder Judicial del Chaco en una variable
URL = 'https://www.justiciachaco.gov.ar/views/modules/stj/db_nominaagentes.php'

# Iniciamos el navegador con selenium
driver = webdriver.Chrome()

# Accedemos al sitio web del Poder Judicial del Chaco para obtener la nómina de agentes
driver.get(URL)

# Extraemos el código fuente de la página
data_source = driver.page_source

# Cerramos el navegador ya que no es necesario mantenerlo abierto después de obtener el código fuente
driver.quit()


# Intentamos extraer el JSON que contiene la información de los agentes usando una expresión regular

match = re.search(r'\[.*?\]', data_source)
if match:
    # Convertimos la cadena extraída en un objeto JSON (lista de diccionarios en este caso)
    data_json = match.group(0)
    agentes_info = json.loads(data_json)
    
    # Filtramos la lista para excluir aquellos registros que solo tienen puntos (.)
    agentes_info = [agente for agente in agentes_info if agente["value"] != "."]
    
    # Convierte la lista en un DataFrame de Pandas y guardamos en una variable
    df_agentes = pd.DataFrame(agentes_info)
    
    # Muestra el DataFrame
    #print(df_agentes.head())  # Mostramos solo las primeras filas para verificar

else:
    print("No se encontró el JSON en la página.")

### **1.2 Proceso de Limpieza y transformación de los datos**

<div style="text-align:justify; line-height: 1.6;">
Una vez que extrajimos los datos, podemos corroborar varios aspectos, como ser: El nombre y apellido de lxs agentes se encuentran en la misma columna, hay agentes con doble apellidos, también, podemos notar que las dependencias no están separadas por circunscripciones. Por lo cual, se deberá separar los nombres y los apellidos, para poder inferir el género a partir del nombre, también, determinar la circunscripción judicial en base a la localidad de la dependencia.  

* ***División del nombre completo:*** La primera tarea fue dividir un nombre completo en apellido y nombres. Para ello, se diseñó una función ***split_nombre()***, la cual, dada una cadena que representa un nombre completo, la divide en apellido y nombre. Se asume que la primera palabra del nombre completo es el apellido y el resto son los nombres. Esta función se aplicó a la columna que tenía los nombres completos en el dataframe df_agentes y resultó en dos nuevas columnas: 'apellido' y 'nombre'.  
* ***Determinación de Circunscripciones:*** Dado que el dataset cuenta con una columna de localidades, es necesario determinar a qué circunscripción pertenece cada localidad. Para ello, se creó un diccionario circunscripciones que mapea cada circunscripción con sus respectivas localidades. Luego, se implementó la función ***determinar_circunscripcion()*** para, dada una localidad, determinar a qué circunscripción pertenece. Esta función fue aplicada a la columna 'LocalidadDependencia' del dataframe df_agentes para generar una nueva columna llamada 'Circunscripción'.  
* ***Inferencia de Género a partir de Nombres:*** Una tarea más compleja fue determinar el género de los agentes a partir de su nombre. Para ello:

    1. Se creó una función ***clean_text()*** para limpiar y transformar una cadena de texto. Esta función elimina caracteres no alfabéticos, convierte todo a minúsculas y divide el texto en palabras.

    2. Luego, se implementó ***df_to_dict()***, una función que convierte dos columnas de un DataFrame en un diccionario. Esta función es útil para realizar consultas rápidas.

    3. La función principal ***get_gender2()*** determina el género basándose en el nombre proporcionado. Esta función toma el nombre, lo limpia y lo divide en palabras. Luego, utiliza un diccionario que mapea nombres con géneros (obtenido de un archivo CSV externo) para inferir el género. Se usa una lógica de ponderación y conteo para maximizar la precisión de la inferencia.

Finalmente, se aplicó la función ***get_gender2()*** a la columna 'nombre' del dataframe df_agentes para inferir y generar una nueva columna 'genero'.
</div>

In [2]:
# Creamos una función para que divida el nombre completo en apellido y nombres

def split_nombre(nombre):
    """
    Divide un nombre completo en apellido y nombre.
        
    La función toma un string que representa un nombre completo y lo 
    divide en apellido y nombre, considerando la primera palabra como 
    el apellido y el resto como el nombre.
    
    Argumentoss:
    - nombre (str): El nombre completo que se desea dividir.
    
    Returns:
    - tuple: Una tupla donde el primer elemento es el apellido y el segundo es el nombre.
    
    Ejemplo:
    >>> split_nombre("Gomez Juan Carlos")
    ("Gomez", "Juan Carlos")
    
    >>> split_nombre("Perez Ana")
    ("Perez", "Ana")
    """
    # Divide el nombre en palabras individuales
    partes_nombre = nombre.split()
    
    # La primera palabra se considera como el apellido
    apellido = partes_nombre[0]
    
    # Las palabras restantes se consideran como el nombre
    nombre = ' '.join(partes_nombre[1:])
    
    return apellido, nombre

# Aplicamos la función al dataframe para extraer el apellido y el nombre en columnas separadas
df_agentes['apellido'], df_agentes['nombre'] = zip(*df_agentes['value'].apply(split_nombre))

# Corroboramos que la función funcione y realice la separación de apellido y nombre:

#print(df_agentes)

In [19]:
# Creamos una función para determinar la circunscripción de cada dependencia
# Para ello cremaos un diccionario que contenga cada una de las 6  circunscripciones judiciales del Chaco, con sus localidades
# Diccionario que asocia circunscripciones con sus respectivas localidades.

circunscripciones = {
    "1era Circunscripción": ["RESISTENCIA", "PUERTO VILELAS", "BARRANQUERAS", "BASAIL", "CHARADAI", 
                            "COLONIA BENITEZ", "COTE LAI", "FONTANA", "GENERAL VEDIA", "ISLA DEL CERRITO",
                            "LA ESCONDIDA", "LA LEONESA", "LA VERDE", "LAGUNA BLANCA", "LAS PALMAS",
                            "MAKALLE", "MARGARITA BELEN", "PRESIDENCIA DE LA PLAZA", "PCIA.DE LA PLAZA", "PUERTO BERMEJO",
                            "PUERTO EVA PERON", "PUERTO TIROL", "GRAL.VEDIA"],
    "2da Circunscripción": ["PCIA. ROQUE SÁENZ PEÑA", "PCIA.ROQUE SAENZ PEÑA", "AVIA TERAI", "CAMPO LARGO", "CONCEPCIÓN DEL BERMEJO",
                            "EL PARAISAL", "EL TACURUZAL VILLA RURAL EL PALMAR", "LA CLOTILDE","CONCEP.DEL BERMEJO",
                            "LA TIGRA", "LOS FRENTONES", "MACHAGAI", "NAPENAY", "PAMPA DEL INFIERNO",
                            "QUITILIPI", "TACO POZO", "VILLA EL PALMAR"],
    "3ra Circunscripción": ["VILLA ANGELA", "CHOROTIS", "CORONEL DU GRATY", "ENRIQUE URIEN", "SAMUHU",
                            "SAN BERNARDO", "SANTA SYLVINA", "VILLA BERTHET"],
    "4ta Circunscripción": ["CHARATA", "CORZUELA", "GANCEDO", "GRAL.PINEDO", "HERMOSO CAMPO", "LAS BREÑAS"],
    "5ta Circunscripción": ["GENERAL SAN MARTÍN", "GRAL.SAN MARTIN", "GENERAL JOSE DE SAN MARTIN", "CIERVO PETISO", "COLONIAS UNIDAS",
                            "CAPITAN SOLARI", "LA EDUVIGIS", "LAGUNA LIMPIA", "LAS GARCITAS", "PAMPA ALMIRON", 
                            "PAMPA DEL INDIO", "PRESIDENCIA ROCA", "PCIA.ROCA", "COLONIA ELISA"],
    "6ta Circunscripción": ["JUAN JOSÉ CASTELLI", "JUAN J.CASTELLI", "EL ESPINILLO", "EL SAUZALITO", "FORTIN FRIAS", "FORTIN LAVALLE",
                            "FUERTE ESPERANZA", "MIRAFLORES", "TRES ISLETAS", "WICHÍ EL PINTADO", "EL PINTADO", "MISION NUEVA POMPEYA",
                            "VILLA RIO BERMEJITO"]
    }

categorias_dict = {
    'Juez 1ra Instancia': ['JUEZ 1RA. INSTANCIA', 'JUEZ DE GARANTIAS', 'JUEZ DE PAZ DE 3RA.', 'JUEZ DE PAZ DE 2DA.', 
                           'JUEZ DE PAZ LETRADO', 'JUEZ DEL TRABAJO', 'JUEZ DE FALTAS LETRADO', 'JUEZ EN LO CORRECCIONAL',
                           'JUEZ DE PAZ DE 1RA.', 'JUEZ PAZ 1RA. ESPECIAL', 'JUEZ DE EJECUCION PENAL', 'JUEZ PAZ SUPLENTE', 
                           'JUEZ PAZ SUPLENTE PROV.', 'JUEZ 1RA. INST. SUPLENTE'],
    
    'Juez de Cámara': ['JUEZ DE CAMARA'],
    
    'Defensxr oficial': ['DEFENSOR OFICIAL'],
    
    'Asesorx de NNA': ['ASESOR/A DE MENORES'],
    
    'Fiscalx': ['FISCAL DE INVESTIGACION', 'FISCAL EN LO PENAL ESPECIAL', 'FISCAL PENAL', 'FISCAL ADJ. EN LO PENAL ESPEC.'],
    
    'Fiscal Cámara': ['FISCAL DE CAMARA'],
    
    'Personal administrativo jerarquizado':[ 'JEFE DE DIVISION',
            'JEFE DE DEPARTAMENTO', 'JEFE DE DESPACHO'
        ],
    
    'Personal administrativo': [
            'AUXILIAR ADMINISTRATIVO', 'OFICIAL', 'OFICIAL PRINCIPAL', 'ESCRIBIENTE MAYOR',
            'ESCRIBIENTE', 'OFICIAL AUXILIAR', 'OFICIAL MAYOR', 
        ],
        'Personal de servicio': [
            'AYUDANTE', 'AUXILIAR AYUDANTE', 'AUXILIAR TECNICO', 'AUXILIAR MAYOR',
            'AUXILIAR SUPERIOR', 'CONTRATADO', 'AUXILIAR DE 1RA.', 'AUXILIAR DE 2DA.', 
            'AUX. PPAL.TECNICO', 'AUXILIAR AYUD. DE 1º'
        ],
    'Secretario 1ra Instancia': ['SECRETARIO PRIMERA INSTANCIA', 'SECRETARIO/A LETRADO/A',
                                 'SECRETARIO COORDINADOR DEL CEJ', 'SECRETARIO CENTRO DE MEDIACION',
                                 'SEC. JUZG. PAZ DE 3RA.', 'SEC. JUZG. PAZ DE 1RA.', 'SEC. JUZG. PAZ DE 2DA.',
                                 'SEC. JUZG. PAZ 1RA. ESP',  'SEC. JUZG. DE FALTAS', 'SEC. LET. ADJUNTO', 
                                 'SEC. DE PAZ LETRADOS', 'ACTUARIO FEDATARIO', 'INSPECTOR NOTARIAL', 'AGENTE FISCAL'
        ],
    
    'Secreatrio Cámara': ['SEC. LETRADO CAMARA', 'SECRETARIO TÉCNICO DEL STJ', 'SECRETARIO/A DE PROC.GRAL.', 'SECRETARIO EJECUTIVO', 
                          'SECRETARIO DE PROC.GRAL.ADJ.','SEC. LET. DEFENSORIA GRAL.','SEC. REL. SALA S.T.J.',
                          'SEC. LET. SALA S.T.J.', 'SEC. LET. PROCURACION GENERAL',  'SEC. LET. PROC. GENERAL',
                          'SEC.LET.ADJ.PROCURACION GRAL', 'SEC. LETRADO S.T.J.',
       ],
    'Máximas autoridades': ['DEFENSOR GENERAL ADJUNTO', 'PROCURADOR GENERAL', 
            'PROCURADOR GRAL. ADJUNTO', 'PRESIDENTE/A S.T.J.', 'SUB-INSPECTOR DE JUST. DE PAZ', 
                            'INSPECTOR JUST. PAZ', 'JUEZ S.T.J.', 'DEFENSOR GENERAL',
        ],
    'No Jurisdiccionales': ['DIRECTOR GENERAL','DIRECTOR', 'SUB-DIRECTOR',]
}


# Creamos una función para que realice la tarea

def determinar_circunscripcion(localidad):
    """
    Determina la circunscripción basada en la localidad proporcionada.
    
    Argumentos:
    localidad (str): La localidad para la cual determinar la circunscripción.
    
    Returns:
    str: El nombre de la circunscripción, o "No determinada" si la localidad no está en el diccionario.
    """
    for circ, localidades in circunscripciones.items():
        if localidad in localidades:
            return circ
    return "No determinada"




def clasificar_cargo(cargo):
    """Clasifica un cargo en una de las categorías especificadas.
    
    Args:
    - cargo (str): Descripción del cargo a clasificar.
    
    Returns:
    - str: Categoría del cargo.
    """
    categorias = {
        'Magistratura, Defensoras/es, Procuradoras/es y Fiscales': [
            'JUEZ PAZ SUPLENTE PROV.',  'JUEZ 1RA. INSTANCIA',
            'DEFENSOR OFICIAL', 'JUEZ DE PAZ DE 3RA.',
            'JUEZ DE EJECUCION PENAL', 'JUEZ DE PAZ LETRADO', 'JUEZ DE FALTAS LETRADO',
            'JUEZ DE GARANTIAS', 'JUEZ DE PAZ DE 1RA.', 'JUEZ PAZ SUPLENTE',
            'JUEZ DEL TRABAJO', 'JUEZ DE PAZ DE 2DA.', 'JUEZ DE CAMARA',
            'JUEZ EN LO CORRECCIONAL', 'FISCAL DE CAMARA',
            'FISCAL EN LO PENAL ESPECIAL', 'FISCAL PENAL', 'FISCAL DE INVESTIGACION', 'ASESOR/A DE MENORES',
            'JUEZ PAZ 1RA. ESPECIAL', 'JUEZ 1RA. INST. SUPLENTE', 'FISCAL ADJ. EN LO PENAL ESPEC.',
        ],
        'Funcionariado': [
            'SEC. LETRADO CAMARA', 'SECRETARIO PRIMERA INSTANCIA', 'SECRETARIO/A LETRADO/A',
            'SECRETARIO COORDINADOR DEL CEJ', 'SECRETARIO TÉCNICO DEL STJ', 'SECRETARIO CENTRO DE MEDIACION',
            'SECRETARIO/A DE PROC.GRAL.', 'SECRETARIO EJECUTIVO', 'SECRETARIO DE PROC.GRAL.ADJ.',
            'SEC. JUZG. PAZ DE 3RA.','SEC. LET. DEFENSORIA GRAL.', 'SEC. JUZG. PAZ DE 1RA.', 'SEC. JUZG. PAZ DE 2DA.', 
            'SEC. REL. SALA S.T.J.', 'SEC. JUZG. PAZ 1RA. ESP', 'SEC. LET. SALA S.T.J.', 'SEC. JUZG. DE FALTAS',
            'SEC. LET. ADJUNTO', 'SEC. DE PAZ LETRADOS', 'SEC. LET. PROCURACION GENERAL',  'SEC. LET. PROC. GENERAL',
            'ACTUARIO FEDATARIO', 'SEC.LET.ADJ.PROCURACION GRAL', 'SEC. LETRADO S.T.J.', 'INSPECTOR NOTARIAL',
            'AGENTE FISCAL'
        ],
        'Personal administrativo jerarquizado':[ 'JEFE DE DIVISION',
            'JEFE DE DEPARTAMENTO', 'JEFE DE DESPACHO'
        ],
        'Personal administrativo': [
            'AUXILIAR ADMINISTRATIVO', 'OFICIAL', 'OFICIAL PRINCIPAL', 'ESCRIBIENTE MAYOR',
            'ESCRIBIENTE', 'OFICIAL AUXILIAR', 'OFICIAL MAYOR', 
        ],
        'Personal de servicio': [
            'AYUDANTE', 'AUXILIAR AYUDANTE', 'AUXILIAR TECNICO', 'AUXILIAR MAYOR',
            'AUXILIAR SUPERIOR', 'CONTRATADO', 'AUXILIAR DE 1RA.', 'AUXILIAR DE 2DA.', 
            'AUX. PPAL.TECNICO', 'AUXILIAR AYUD. DE 1º'
        ],
        'Máximas autoridades': [
            'DIRECTOR GENERAL', 'DEFENSOR GENERAL ADJUNTO', 'PROCURADOR GENERAL', 
            'PROCURADOR GRAL. ADJUNTO', 'PRESIDENTE/A S.T.J.', 'DIRECTOR', 'SUB-DIRECTOR',
            'SUB-INSPECTOR DE JUST. DE PAZ', 'INSPECTOR JUST. PAZ', 'JUEZ S.T.J.', 'DEFENSOR GENERAL',
        ]
    }
    
    for categoria, cargos in categorias.items():
        if cargo in cargos:
            return categoria
    return 'No clasificado'




def map_to_categoria(cargo):
    for categoria, cargos_list in categorias_dict.items():
        if cargo in cargos_list:
            return categoria
    return 'Otros'




# Aplicamos las funciones al dataframe para obtener una nueva columna 'Circunscripción'
df_agentes = df_agentes.copy()
df_agentes['circunscripcion'] = df_agentes['LocalidadDependencia'].apply(determinar_circunscripcion)
df_agentes['categoria'] = df_agentes['cargo'].map(clasificar_cargo)
df_agentes['cargo_agrupado'] = df_agentes['cargo'].apply(map_to_categoria)

In [21]:
# Creamos función para determinar el género del o la agente a partir del nombre
import operator #
import re 

def clean_text(txt):
    """
    Limpia y transforma un texto: convierte todo a minúsculas, mantiene solo caracteres alfabéticos, 
    elimina espacios múltiples y divide en palabras.

    Argumentos:
    txt (str): Texto a limpiar.

    Returns:
    list: Lista de palabras del texto limpio.
    """
    txt = re.sub("[^a-záéíóúñüäë]", " ", txt.lower()) # Conservar solo letras y espacios, convertir a minúsculas.
    txt = re.sub(' +',' ', txt) # Eliminar espacios múltiples.
    return txt.strip().split() # Dividir en palabras y devolver.

def df_to_dict(df, key_column, val_column):
    """
    Convierte dos columnas de un DataFrame en un diccionario.

    Argsumentos:
    df (DataFrame): DataFrame de pandas.
    key_column (str): Nombre de la columna que se usará como clave.
    val_column (str): Nombre de la columna que se usará como valor.

    Returns:
    dict: Diccionario resultante.
    """
    xkey = df[key_column].tolist()
    xval = df[val_column].tolist()
    return dict(zip(xkey,xval))

def get_gender2(names):
    
    """
    Determina el género basado en el nombre proporcionado.

    Args:
    names (str): Nombre para el cual determinar el género.

    Returns:
    str: 'm' para masculino, 'f' para femenino o 'a' si no se puede determinar.
    """
    
    names = clean_text(names) # Limpieza y división del nombre.
    names = [x for x in names if gender_list.get(x,'a') != 'a'] # Conservar solo nombres que estén en gender_list.
    
    gender ={'m':0, 'f':0, 'a':0} # Inicializar contador de géneros.
    
    # Contar ocurrencias de géneros en los nombres.
    for i, name in enumerate(names):
        g = gender_list.get(name,'a') # Obtener género del nombre.
        gender[g] += 1 # Incrementar el contador correspondiente.
        gender[g] += 2 if len(names) > 1 and i == 0 and g != 'a' else 0 # Ponderación para el primer nombre.
        
    # Establecer género 'a' si no hay indicaciones claras de 'm' o 'f'.    
    gender['a'] = 0 if (gender['f']+gender['m']) > 0 else 1
    
    # Devolver género con el valor máximo.
    return max(gender.items(), key=operator.itemgetter(1))[0]

# Cargar el DataFrame con tu lista de nombres y géneros
path = 'https://www.dropbox.com/s/edm5383iffurv4x/nombres.csv?dl=1'
gender_df = pd.read_csv(path)

# Convertir el DataFrame en un diccionario para una consulta rápida de géneros.
gender_list = df_to_dict(gender_df, key_column='nombre', val_column='genero')


# Aplicar la función get_gender2() a la columna nombre y asignar los valores inferidos a la columna genero.
df_agentes['genero'] = df_agentes['nombre'].apply(get_gender2)

# Si quieres guardar los resultados en un nuevo archivo CSV, puedes hacerlo así:
# df.to_csv('ruta_para_guardar.csv', index=False)

### **1.3 Eliminación de datos vacíos**
Se procede a realizar un análisis para detectar y eliminar datos vacíos o que puedan dificultalr el análisis final

In [22]:
df_agentes.info()

# En principio no observamos valors nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4156 entries, 0 to 4155
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   value                 4156 non-null   object
 1   titulo                4156 non-null   object
 2   cargo                 4156 non-null   object
 3   dependencia_nombre    4156 non-null   object
 4   LocalidadDependencia  4156 non-null   object
 5   apellido              4156 non-null   object
 6   nombre                4156 non-null   object
 7   circunscripcion       4156 non-null   object
 8   categoria             4156 non-null   object
 9   cargo_agrupado        4156 non-null   object
 10  genero                4156 non-null   object
dtypes: object(11)
memory usage: 357.3+ KB


In [23]:
df_agentes['circunscripcion'].value_counts()

# Observamos que hay 11 valores que no se determinaron en ninguna circunscripción, corroboramos para que ver a que se debe



1era Circunscripción    2403
2da Circunscripción      540
3ra Circunscripción      351
6ta Circunscripción      326
4ta Circunscripción      311
5ta Circunscripción      206
No determinada            19
Name: circunscripcion, dtype: int64

In [24]:
df_agentes = df_agentes[df_agentes['circunscripcion'] != 'No determinada']
df_agentes = df_agentes[df_agentes['cargo'] != '.']

# Corroboramos que se haya eliminado
df_agentes

Unnamed: 0,value,titulo,cargo,dependencia_nombre,LocalidadDependencia,apellido,nombre,circunscripcion,categoria,cargo_agrupado,genero
0,ABRAAM JOSE ALEJANDRO,.,DIRECTOR GENERAL,DCION.ADMINISTRACION,RESISTENCIA,ABRAAM,JOSE ALEJANDRO,1era Circunscripción,Máximas autoridades,No Jurisdiccionales,m
1,ABRAHAM MARIA FERNANDA,.,FISCAL DE INVESTIGACION,EQUIPO FISCAL Nº9,RESISTENCIA,ABRAHAM,MARIA FERNANDA,1era Circunscripción,"Magistratura, Defensoras/es, Procuradoras/es y...",Fiscalx,f
2,ABRAMCZUK CLAUDIA ANDREA,Dra.,SEC. LETRADO CAMARA,CAM.2DA CRIMINAL,PCIA.ROQUE SAENZ PEÑA,ABRAMCZUK,CLAUDIA ANDREA,2da Circunscripción,Funcionariado,Secreatrio Cámara,f
3,ABRAMCZUK TANIA LORENA,.,SECRETARIO PRIMERA INSTANCIA,JUZGADO LABORAL Nº1,PCIA.ROQUE SAENZ PEÑA,ABRAMCZUK,TANIA LORENA,2da Circunscripción,Funcionariado,Secretario 1ra Instancia,f
4,ABREGU GOMEZ JOEL JOSE SAMUEL,.,JEFE DE DIVISION,EQUIPO DE AYUDANTES FISCALES,RESISTENCIA,ABREGU,GOMEZ JOEL JOSE SAMUEL,1era Circunscripción,Personal administrativo jerarquizado,Personal administrativo jerarquizado,m
...,...,...,...,...,...,...,...,...,...,...,...
4151,ZUCARELLI SCHMIDT LUCIANO,.,AUXILIAR ADMINISTRATIVO,CAM. APELACIONES CIVIL Y COMERCIAL,RESISTENCIA,ZUCARELLI,SCHMIDT LUCIANO,1era Circunscripción,Personal administrativo,Personal administrativo,m
4152,ZUIANI NOEMI AIDA,.,OFICIAL AUXILIAR,JUZGADO CIVIL Y COMERCIAL Nº 20,RESISTENCIA,ZUIANI,NOEMI AIDA,1era Circunscripción,Personal administrativo,Personal administrativo,f
4153,ZURANO MICAELA ANABEL,.,AUXILIAR ADMINISTRATIVO,JUZGADO CIVIL Y COMERCIAL Nº 19,RESISTENCIA,ZURANO,MICAELA ANABEL,1era Circunscripción,Personal administrativo,Personal administrativo,f
4154,ZURLO DAVID NICOLAS,.,ESCRIBIENTE,JUZGADO CIVIL Y COMERCIAL Nº 13,RESISTENCIA,ZURLO,DAVID NICOLAS,1era Circunscripción,Personal administrativo,Personal administrativo,m


In [25]:
# Ahora vamos a ver cuales son los valores de género 'a' que no se pudieron determinar

df_agentes[df_agentes['genero'] == 'a']


Unnamed: 0,value,titulo,cargo,dependencia_nombre,LocalidadDependencia,apellido,nombre,circunscripcion,categoria,cargo_agrupado,genero
131,ALEJANDRE LIHUEL,.,AYUDANTE,JUZGADO DE PAZ DE TERCERA CATEGORIA,ENRIQUE URIEN,ALEJANDRE,LIHUEL,3ra Circunscripción,Personal de servicio,Personal de servicio,a
282,ARIAS BIVIANA YUDIR,.,OFICIAL PRINCIPAL,JUZGADO DE PAZ DE SEGUNDA CATEGORIA,LOS FRENTONES,ARIAS,BIVIANA YUDIR,2da Circunscripción,Personal administrativo,Personal administrativo,a
1232,FARIAS AVEL OSBALDO,.,AUXILIAR MAYOR,EQUIPO FISCAL Nº1,RESISTENCIA,FARIAS,AVEL OSBALDO,1era Circunscripción,Personal de servicio,Personal de servicio,a
2617,NICOLICH YORYE,.,AYUDANTE,SERVICIO ORGANIZADO DE LIMPIEZA JUDICIAL,RESISTENCIA,NICOLICH,YORYE,1era Circunscripción,Personal de servicio,Personal de servicio,a


In [26]:
# Vamos a suponer que Biviana Yudir corresponde al nombre de una agente mujer y Avel Osbaldo un agente varón
# Los otros dos nombres vamos a eliminarlos para que no generar conflictos

# Eliminar las filas
df_agentes = df_agentes[~((df_agentes['apellido'] == 'ALEJANDRE') & (df_agentes['nombre'] == 'LIHUEL'))]
df_agentes = df_agentes[~((df_agentes['apellido'] == 'NICOLICH') & (df_agentes['nombre'] == 'YORYE'))]

# Asignar género
df_agentes.loc[(df_agentes['apellido'] == 'ARIAS') & (df_agentes['nombre'] == 'BIVIANA YUDIR'), 'genero'] = 'f'
df_agentes.loc[(df_agentes['apellido'] == 'FARIAS') & (df_agentes['nombre'] == 'AVEL OSBALDO'), 'genero'] = 'm'

df_agentes

Unnamed: 0,value,titulo,cargo,dependencia_nombre,LocalidadDependencia,apellido,nombre,circunscripcion,categoria,cargo_agrupado,genero
0,ABRAAM JOSE ALEJANDRO,.,DIRECTOR GENERAL,DCION.ADMINISTRACION,RESISTENCIA,ABRAAM,JOSE ALEJANDRO,1era Circunscripción,Máximas autoridades,No Jurisdiccionales,m
1,ABRAHAM MARIA FERNANDA,.,FISCAL DE INVESTIGACION,EQUIPO FISCAL Nº9,RESISTENCIA,ABRAHAM,MARIA FERNANDA,1era Circunscripción,"Magistratura, Defensoras/es, Procuradoras/es y...",Fiscalx,f
2,ABRAMCZUK CLAUDIA ANDREA,Dra.,SEC. LETRADO CAMARA,CAM.2DA CRIMINAL,PCIA.ROQUE SAENZ PEÑA,ABRAMCZUK,CLAUDIA ANDREA,2da Circunscripción,Funcionariado,Secreatrio Cámara,f
3,ABRAMCZUK TANIA LORENA,.,SECRETARIO PRIMERA INSTANCIA,JUZGADO LABORAL Nº1,PCIA.ROQUE SAENZ PEÑA,ABRAMCZUK,TANIA LORENA,2da Circunscripción,Funcionariado,Secretario 1ra Instancia,f
4,ABREGU GOMEZ JOEL JOSE SAMUEL,.,JEFE DE DIVISION,EQUIPO DE AYUDANTES FISCALES,RESISTENCIA,ABREGU,GOMEZ JOEL JOSE SAMUEL,1era Circunscripción,Personal administrativo jerarquizado,Personal administrativo jerarquizado,m
...,...,...,...,...,...,...,...,...,...,...,...
4151,ZUCARELLI SCHMIDT LUCIANO,.,AUXILIAR ADMINISTRATIVO,CAM. APELACIONES CIVIL Y COMERCIAL,RESISTENCIA,ZUCARELLI,SCHMIDT LUCIANO,1era Circunscripción,Personal administrativo,Personal administrativo,m
4152,ZUIANI NOEMI AIDA,.,OFICIAL AUXILIAR,JUZGADO CIVIL Y COMERCIAL Nº 20,RESISTENCIA,ZUIANI,NOEMI AIDA,1era Circunscripción,Personal administrativo,Personal administrativo,f
4153,ZURANO MICAELA ANABEL,.,AUXILIAR ADMINISTRATIVO,JUZGADO CIVIL Y COMERCIAL Nº 19,RESISTENCIA,ZURANO,MICAELA ANABEL,1era Circunscripción,Personal administrativo,Personal administrativo,f
4154,ZURLO DAVID NICOLAS,.,ESCRIBIENTE,JUZGADO CIVIL Y COMERCIAL Nº 13,RESISTENCIA,ZURLO,DAVID NICOLAS,1era Circunscripción,Personal administrativo,Personal administrativo,m


In [27]:
# Otra obervación que realizamos a los datos es que en la columna títutlo hay muchos resultados vacios con el valor "."
# Aquí debemos tomar una decisión, si eliminar la columna, o completar los espacios vacios con algún valor como "ninguno"
# Hay que pensar en que valor nos va a otorgar mantener la columna, como no estamos realizando un estudio o análisis sobre 
# el nivel académico de lxs agentes decidimos mejor eliminar la columna.
# También vamos a eliminar la columna de "value" que es la columna que contenía el nombre y apellido, ya que contamos con sus respectivas columnas

df_agentes = df_agentes.drop(columns=['value', 'titulo'])
df_agentes = df_agentes.reset_index(drop=True)
df_agentes

Unnamed: 0,cargo,dependencia_nombre,LocalidadDependencia,apellido,nombre,circunscripcion,categoria,cargo_agrupado,genero
0,DIRECTOR GENERAL,DCION.ADMINISTRACION,RESISTENCIA,ABRAAM,JOSE ALEJANDRO,1era Circunscripción,Máximas autoridades,No Jurisdiccionales,m
1,FISCAL DE INVESTIGACION,EQUIPO FISCAL Nº9,RESISTENCIA,ABRAHAM,MARIA FERNANDA,1era Circunscripción,"Magistratura, Defensoras/es, Procuradoras/es y...",Fiscalx,f
2,SEC. LETRADO CAMARA,CAM.2DA CRIMINAL,PCIA.ROQUE SAENZ PEÑA,ABRAMCZUK,CLAUDIA ANDREA,2da Circunscripción,Funcionariado,Secreatrio Cámara,f
3,SECRETARIO PRIMERA INSTANCIA,JUZGADO LABORAL Nº1,PCIA.ROQUE SAENZ PEÑA,ABRAMCZUK,TANIA LORENA,2da Circunscripción,Funcionariado,Secretario 1ra Instancia,f
4,JEFE DE DIVISION,EQUIPO DE AYUDANTES FISCALES,RESISTENCIA,ABREGU,GOMEZ JOEL JOSE SAMUEL,1era Circunscripción,Personal administrativo jerarquizado,Personal administrativo jerarquizado,m
...,...,...,...,...,...,...,...,...,...
4127,AUXILIAR ADMINISTRATIVO,CAM. APELACIONES CIVIL Y COMERCIAL,RESISTENCIA,ZUCARELLI,SCHMIDT LUCIANO,1era Circunscripción,Personal administrativo,Personal administrativo,m
4128,OFICIAL AUXILIAR,JUZGADO CIVIL Y COMERCIAL Nº 20,RESISTENCIA,ZUIANI,NOEMI AIDA,1era Circunscripción,Personal administrativo,Personal administrativo,f
4129,AUXILIAR ADMINISTRATIVO,JUZGADO CIVIL Y COMERCIAL Nº 19,RESISTENCIA,ZURANO,MICAELA ANABEL,1era Circunscripción,Personal administrativo,Personal administrativo,f
4130,ESCRIBIENTE,JUZGADO CIVIL Y COMERCIAL Nº 13,RESISTENCIA,ZURLO,DAVID NICOLAS,1era Circunscripción,Personal administrativo,Personal administrativo,m


## **1.4 Reordenamos y renombramos columnas.**
Renombramos las columnas para una mejor lectura, y también renombramos para dejar terminado nuestra limpieza y transformación de los datos.

In [28]:
# Reordenamos y renombramos las columnas

df_agentes = df_agentes[['apellido', 'nombre', 'cargo','cargo_agrupado', 'dependencia_nombre', 'LocalidadDependencia', 'circunscripcion', 'genero', 'categoria']]

df_agentes = df_agentes.rename(columns={
    'dependencia_nombre': 'dependencia',
    'LocalidadDependencia': 'localidad'
})

df_agentes

Unnamed: 0,apellido,nombre,cargo,cargo_agrupado,dependencia,localidad,circunscripcion,genero,categoria
0,ABRAAM,JOSE ALEJANDRO,DIRECTOR GENERAL,No Jurisdiccionales,DCION.ADMINISTRACION,RESISTENCIA,1era Circunscripción,m,Máximas autoridades
1,ABRAHAM,MARIA FERNANDA,FISCAL DE INVESTIGACION,Fiscalx,EQUIPO FISCAL Nº9,RESISTENCIA,1era Circunscripción,f,"Magistratura, Defensoras/es, Procuradoras/es y..."
2,ABRAMCZUK,CLAUDIA ANDREA,SEC. LETRADO CAMARA,Secreatrio Cámara,CAM.2DA CRIMINAL,PCIA.ROQUE SAENZ PEÑA,2da Circunscripción,f,Funcionariado
3,ABRAMCZUK,TANIA LORENA,SECRETARIO PRIMERA INSTANCIA,Secretario 1ra Instancia,JUZGADO LABORAL Nº1,PCIA.ROQUE SAENZ PEÑA,2da Circunscripción,f,Funcionariado
4,ABREGU,GOMEZ JOEL JOSE SAMUEL,JEFE DE DIVISION,Personal administrativo jerarquizado,EQUIPO DE AYUDANTES FISCALES,RESISTENCIA,1era Circunscripción,m,Personal administrativo jerarquizado
...,...,...,...,...,...,...,...,...,...
4127,ZUCARELLI,SCHMIDT LUCIANO,AUXILIAR ADMINISTRATIVO,Personal administrativo,CAM. APELACIONES CIVIL Y COMERCIAL,RESISTENCIA,1era Circunscripción,m,Personal administrativo
4128,ZUIANI,NOEMI AIDA,OFICIAL AUXILIAR,Personal administrativo,JUZGADO CIVIL Y COMERCIAL Nº 20,RESISTENCIA,1era Circunscripción,f,Personal administrativo
4129,ZURANO,MICAELA ANABEL,AUXILIAR ADMINISTRATIVO,Personal administrativo,JUZGADO CIVIL Y COMERCIAL Nº 19,RESISTENCIA,1era Circunscripción,f,Personal administrativo
4130,ZURLO,DAVID NICOLAS,ESCRIBIENTE,Personal administrativo,JUZGADO CIVIL Y COMERCIAL Nº 13,RESISTENCIA,1era Circunscripción,m,Personal administrativo


## **Guardamos Dataframe en un archivo .csv**

Terminado el proceso de extracción y limpieza de los datos, guardamos el dataframe en un archivo .csv

In [29]:
df_agentes.to_csv ('agentes_pj_chaco.csv')

## **2. Métodología**

### **2.1 Metodología de análisis**
La información presente en este análisis proviene de la nómina de agentes del Poder Judicial del Chaco, y fue obtenida mediante técnicas de scraping el día 03 de septiembre de 2023.
Esta nómina recopila datos directos de las jurisdicciones del sistema de justicia de la provincia de Chaco, desagregando la información, en la mayoría de casos, por cargo y dependencia. Aunque se realiza un esfuerzo para incluir identidades de género diversas, por limitaciones en las bases originales no es posible realizar un análisis completamente inclusivo en este aspecto.

### **2.2 Clasificacón de los cargos**

* <u>**Magistratura, Procuradoras/es y Fiscales. Defensoras/es y Asesores/a de NNA:**</u> Comprende a las personas que han accedido a estos roles a través de concursos públicos. Esto incluye a quienes ocupan el máximo rango en la justicia y aquellos que operan en la Justicia de Paz en jurisdicciones provinciales.

* <u>**Funcionariado:**</u> Toda la estructura de Secretarías, y Jefaturas de despacho y división.

* <u>**Personal Administrativo:**</u> Abarca todos los cargos que en cada jurisdicción son identificados bajo estos rangos en el escalafón judicial, incluyen: auxiliar administrativo, escribiente, escribiente mayor, oficial auxiliar, oficial, oficial mayor.

* <u>**Personal de Servicio:**</u> Esta categoría comprende roles como personal de maestranza, choferes, técnicos de talleres, ordenanzas, porteros, serenos y aquellos trabajadores en oficinas de correspondencia e informes. 

* <u>**Máximas autoridades:**</u> Esta categoría comprende a Jueces del S.T.J. Procurador General y adjunto, Defensoría General y Adjunta, Directores Generales, etc.


### **2.3 Comparativos:**

*   <u>**Por Institución:**</u> Se presentan los datos desagregados por Poderes Judiciales, Ministerios Públicos Fiscales y Ministerios Públicos de la Defensa provinciales, y la Justicia Nacional y Federal, representados tanto en números absolutos como en porcentajes gráficos.

*   <u>**Por Cargo:**</u> En esta sección, se comparan los porcentajes por género que ocupan cada rango(Magistratura, Funcionariado, Personal Administrativo, Personal de Servicio) en las distintas jurisdicciones. Es notable mencionar que, en la visualización interactiva, la categoría "Magistratura" también engloba a "Ministras/os" para las justicias provinciales y "Camaristas" para la Justicia Nacional y Federal.

* <u>**Por Jurisdicción:**</u>






## **3. Análisis Exploratorio y Descriptivo**

### **3.1 Totalidad del sistema de justicia chaqueño**
En esta sección se analizan las tendencias generales de la totalidad de la nómina de agentes de la provincia del Chaco, por lo cual, implica la sumatoria de la totalidad de la estructura del sistema de justicia, incluyendo Ministros del STJ, Ministerio Público Fiscal, Ministerio Público de la Defensa.
De los datos analisados se presenta que la totalidad fue de.......

In [30]:
totalidad_agentes = df_agentes.shape[0]

# Contar la cantidad de agentes por género
totalidad_agentes_genero = df_agentes['genero'].value_counts()


mujeres = totalidad_agentes_genero.get('f', 0)
varones = totalidad_agentes_genero.get('m', 0)

porcentaje_mujeres = mujeres * 100 / totalidad_agentes
porcentaje_varones = varones * 100 / totalidad_agentes

print(f'La totalidad de la estructura del Poder Judicial del Chaco es de {totalidad_agentes} agentes.')
print(f'La totalidad de agentes mujeres del Poder Judicial del Chaco es de {mujeres} agentes, y representan un {porcentaje_mujeres:.2f}% del total.')
print(f'La totalidad de agentes varones del Poder Judicial del Chaco es de {varones} agentes, y representan un {porcentaje_varones:.2f}% del total.')


La totalidad de la estructura del Poder Judicial del Chaco es de 4132 agentes.
La totalidad de agentes mujeres del Poder Judicial del Chaco es de 2218 agentes, y representan un 53.68% del total.
La totalidad de agentes varones del Poder Judicial del Chaco es de 1914 agentes, y representan un 46.32% del total.


In [32]:
import plotly.graph_objects as go
import plotly.io as pio
import plotly.offline as pyo


# Datos
labels = ['Mujeres', 'Varones']
values = [mujeres, varones]

# Crear el gráfico de torta
fig = go.Figure(data=[go.Pie(labels=labels, values=values, marker_colors=['#D3D3D3', '#A9A9A9'])])
fig.update_layout(title_text='Distribución de género en el Poder Judicial del Chaco')
fig.show()
pio.write_image(fig, '/home/pablo/web_scrap_genero_jusch/imagenes/Distribución_género_PJChaco_pie.jpeg', format='jpeg')
pio.write_image(fig, '/home/pablo/web_scrap_genero_jusch/imagenes/Distribución_género_PJChaco_pie.pdf', format='pdf')
fig.write_html('/home/pablo/web_scrap_genero_jusch/imagenes/Distribución_género_PJChaco_pie.html')

### **3.2 Distribución de cargos por género. Total del sistema de justicia de la provincia del Chaco.**
Aquí se presenta la distribución por cargos por género:

In [56]:

# Crear una tabla pivote para ver la distribución de género por cargo:
distribucion_genero_por_categoria = pd.crosstab(df_agentes['categoria'], df_agentes['genero'])

# Calcular porcentajes por categoría
distribucion_genero_por_categoria['total'] = distribucion_genero_por_categoria.sum(axis=1)
distribucion_genero_por_categoria['% mujeres por categoria'] = (distribucion_genero_por_categoria['f'] / distribucion_genero_por_categoria['total']) * 100
distribucion_genero_por_categoria['% varones por categoria'] = (distribucion_genero_por_categoria['m'] / distribucion_genero_por_categoria['total']) * 100

# Ordenar por el porcentaje de mujeres en orden descendente
distribucion_genero_por_categoria = distribucion_genero_por_categoria.sort_values(by='% mujeres por categoria', ascending=False)

# Añadir una fila con el total general en todas las columnas
total_general = distribucion_genero_por_categoria.sum()

# Calcular porcentajes del total general
total_mujeres = total_general['f']
total_varones = total_general['m']
total_personas = total_general['total']

total_general['% mujeres por categoria'] = (total_mujeres / total_personas) * 100
total_general['% varones por categoria'] = (total_varones / total_personas) * 100
total_general.name = 'TOTAL'

distribucion_genero_por_categoria = pd.concat([distribucion_genero_por_categoria, total_general.to_frame().T])

# Calcular porcentajes respecto al total de agentes del poder judicial
total_agentes = len(df_agentes)
distribucion_genero_por_categoria['% mujeres total'] = (distribucion_genero_por_categoria['f'] / total_agentes) * 100
distribucion_genero_por_categoria['% varones total'] = (distribucion_genero_por_categoria['m'] / total_agentes) * 100

# Convertir a enteros las columnas específicas
cols_to_int = ['f', 'm', 'total']
distribucion_genero_por_categoria[cols_to_int] = distribucion_genero_por_categoria[cols_to_int].astype(int)

# Redondear a 2 decimales las columnas de porcentaje
cols_to_round = ['% mujeres por categoria', '% varones por categoria', '% mujeres total', '% varones total']
distribucion_genero_por_categoria[cols_to_round] = distribucion_genero_por_categoria[cols_to_round].round(2)

distribucion_genero_por_categoria

genero,f,m,total,% mujeres por categoria,% varones por categoria,% mujeres total,% varones total
Funcionariado,406,148,554,73.29,26.71,9.83,3.58
Máximas autoridades,14,8,22,63.64,36.36,0.34,0.19
"Magistratura, Defensoras/es, Procuradoras/es y Fiscales",221,136,357,61.9,38.1,5.35,3.29
Personal administrativo jerarquizado,482,382,864,55.79,44.21,11.67,9.24
Personal administrativo,810,706,1516,53.43,46.57,19.6,17.09
Personal de servicio,285,534,819,34.8,65.2,6.9,12.92
TOTAL,2218,1914,4132,53.68,46.32,53.68,46.32


In [35]:
import plotly.graph_objects as go

# Suma total de varones y mujeres
total_mujeres = distribucion_genero_por_categoria['f'].sum()
total_varones = distribucion_genero_por_categoria['m'].sum()

# Porcentajes
total_personas = total_mujeres + total_varones
mujeres_pct = 100 * total_mujeres / total_personas
varones_pct = 100 * total_varones / total_personas

# Crear el gráfico de barras
fig = go.Figure()

# Agregar barras para Mujeres
fig.add_trace(go.Bar(
    x=['Mujeres'],
    y=[total_mujeres],
    name='Mujeres',
    marker_color='#D3D3D3',
    text=f"{total_mujeres} ({mujeres_pct:.1f}%)",  # Mostrar cantidad y porcentaje
    textposition='auto'
))

# Agregar barras para Varones
fig.add_trace(go.Bar(
    x=['Varones'],
    y=[total_varones],
    name='Varones',
    marker_color='#A9A9A9',
    text=f"{total_varones} ({varones_pct:.1f}%)",  # Mostrar cantidad y porcentaje
    textposition='auto'
))

# Configuración adicional
fig.update_layout(
    title_text='Distribución total de género en el Poder Judicial del Chaco',
    xaxis_title='Género',
    yaxis_title='Número Total de Agentes',
    barmode='group'  # Modo de barras agrupadas
)

# Mostrar el gráfico
fig.show()

# Guardar en diferentes formatos
base_ruta = "/home/pablo/web_scrap_genero_jusch/imagenes/Distribución_género_PJChaco_bar"
fig.write_image(base_ruta + ".jpeg")
fig.write_image(base_ruta + ".pdf")
fig.write_html(base_ruta + ".html")

In [48]:
import plotly.graph_objects as go

# Agrupar por circunscripcion y género
agrupado = df_agentes.groupby(['circunscripcion', 'genero']).size().unstack().fillna(0)

# Datos
circunscripciones = agrupado.index
mujeres_values = agrupado['f'].values
varones_values = agrupado['m'].values

# Porcentajes
total_values = mujeres_values + varones_values
mujeres_pct = 100 * mujeres_values / total_values
varones_pct = 100 * varones_values / total_values

# Crear el gráfico de barras agrupadas
fig = go.Figure()

# Agregar barras de Mujeres
fig.add_trace(go.Bar(
    x=circunscripciones,
    y=mujeres_values,
    name='Mujeres',
    marker_color='#D3D3D3',
    text=[f"{val:.1f}%" for val in mujeres_pct],  # Porcentajes a mostrar
    textposition='inside'
))

# Agregar barras de Varones
fig.add_trace(go.Bar(
    x=circunscripciones,
    y=varones_values,
    name='Varones',
    marker_color='#A9A9A9',
    text=[f"{val:.1f}%" for val in varones_pct],  # Porcentajes a mostrar
    textposition='inside'
))

# Configuración adicional
fig.update_layout(
    title_text='Distribución de género por circunscripción en el Poder Judicial del Chaco',
    xaxis_title='Circunscripción',
    yaxis_title='Número de Agentes',
    barmode='group'  # Modo de barras agrupadas
)

# Mostrar el gráfico
fig.show()

# Guardar en diferentes formatos
base_ruta = "/home/pablo/web_scrap_genero_jusch/imagenes/Distribución_género_circunscripción_PJChaco_bar"
fig.write_image(base_ruta + ".jpeg")
fig.write_image(base_ruta + ".pdf")
fig.write_html(base_ruta + ".html")

In [50]:
import plotly.graph_objects as go

# Agrupar por circunscripcion y género
agrupado = df_agentes.groupby(['circunscripcion', 'genero']).size().unstack().fillna(0)

# Datos
circunscripciones = agrupado.index
mujeres_values = agrupado['f'].values
varones_values = agrupado['m'].values

# Porcentajes
total_values = mujeres_values + varones_values
mujeres_pct = 100 * mujeres_values / total_values
varones_pct = 100 * varones_values / total_values

# Crear el gráfico de barras horizontales apiladas
fig = go.Figure()

# Agregar barras de Mujeres
fig.add_trace(go.Bar(
    y=circunscripciones,
    x=mujeres_pct,  # Aquí usamos los porcentajes directamente
    name='Mujeres',
    marker_color='#D3D3D3',
    text=[f"{val:.1f}%" for val in mujeres_pct],  # Porcentajes a mostrar
    textposition='auto',
    orientation='h'  # Barras horizontales
))

# Agregar barras de Varones
fig.add_trace(go.Bar(
    y=circunscripciones,
    x=varones_pct,  # Aquí usamos los porcentajes directamente
    name='Varones',
    marker_color='#A9A9A9',
    text=[f"{val:.1f}%" for val in varones_pct],  # Porcentajes a mostrar
    textposition='inside',
    orientation='h'  # Barras horizontales
))

# Configuración adicional
fig.update_layout(
    title_text='Distribución de género por circunscripción en el Poder Judicial del Chaco',
    yaxis_title='Circunscripción',
    xaxis_title='Porcentaje',
    barmode='stack'  # Modo de barras apiladas
)

# Mostrar el gráfico
fig.show()
# Guardar en diferentes formatos
base_ruta = "/home/pablo/web_scrap_genero_jusch/imagenes/Distribución_género_circunscripción_PJChaco_barh"
fig.write_image(base_ruta + ".jpeg")
fig.write_image(base_ruta + ".pdf")
fig.write_html(base_ruta + ".html")

In [52]:
def split_label(label, max_length = 15):
    """Divide una etiqueta en múltiples líneas si excede una longitud máxima"""
    words = label.split()
    lines = []
    current_line = words[0]
    for word in words[1:]:
        if len(current_line) + len(word) + 1 > max_length:
            lines.append(current_line)
            current_line = word
        else:
            current_line += ' ' + word
    lines.append(current_line)
    return '<br>'.join(lines)

# Ordenar las categorías según el total
ordered_cats = distribucion_genero_por_categoria['total'].sort_values(ascending=False).index

# Filtrar los datos según el orden de las categorías
distribucion_ordered = distribucion_genero_por_categoria.loc[ordered_cats]

# Datos
categorias = [split_label(cat) for cat in distribucion_ordered.index]
mujeres_values = distribucion_ordered['f'].values
varones_values = distribucion_ordered['m'].values

# Porcentajes
total_values = distribucion_ordered['total'].values
mujeres_pct = 100 * mujeres_values / total_values
varones_pct = 100 * varones_values / total_values

# Crear el gráfico de barras agrupadas
fig = go.Figure()

# Agregar barras de Mujeres
fig.add_trace(go.Bar(
    x=categorias,
    y=mujeres_values,
    name='Mujeres',
    marker_color='#D3D3D3',
    text=[f"{val:.1f}%" for val in mujeres_pct],  # Porcentajes a mostrar
    textposition='auto'
))

# Agregar barras de Varones
fig.add_trace(go.Bar(
    x=categorias,
    y=varones_values,
    name='Varones',
    marker_color='#A9A9A9',
    text=[f"{val:.1f}%" for val in varones_pct],  # Porcentajes a mostrar
    textposition='auto'
))

# Configuración adicional
fig.update_layout(
    title_text='Distribución de género por categoría en el Poder Judicial del Chaco',
    xaxis_title='Categoría',
    yaxis_title='Número de Agentes',
    barmode='group',  # Modo de barras agrupadas
    xaxis_tickangle=-45,  # Rotar etiquetas del eje x para mejor visualización
)

# Mostrar el gráfico
fig.show()
# Guardar en diferentes formatos
base_ruta = "/home/pablo/web_scrap_genero_jusch/imagenes/Distribución_género_categoría_PJChaco_bar"
fig.write_image(base_ruta + ".jpeg")
fig.write_image(base_ruta + ".pdf")
fig.write_html(base_ruta + ".html")

In [54]:
def split_label(label, max_length = 30):
    """Divide una etiqueta en múltiples líneas si excede una longitud máxima"""
    words = label.split()
    lines = []
    current_line = words[0]
    for word in words[1:]:
        if len(current_line) + len(word) + 1 > max_length:
            lines.append(current_line)
            current_line = word
        else:
            current_line += ' ' + word
    lines.append(current_line)
    return '<br>'.join(lines)

# Ordenar las categorías según el total
ordered_cats = distribucion_genero_por_categoria['total'].sort_values(ascending=False).index

# Filtrar los datos según el orden de las categorías
distribucion_ordered = distribucion_genero_por_categoria.loc[ordered_cats]

# Datos
categorias = [split_label(cat) for cat in distribucion_ordered.index]
mujeres_values = distribucion_ordered['f'].values
varones_values = distribucion_ordered['m'].values

# Porcentajes
total_values = distribucion_ordered['total'].values
mujeres_pct = 100 * mujeres_values / total_values
varones_pct = 100 * varones_values / total_values

# Crear el gráfico de barras horizontales apiladas
fig = go.Figure()

# Agregar barras de Mujeres
fig.add_trace(go.Bar(
    y=categorias,
    x=mujeres_pct,
    name='Mujeres',
    marker_color='#D3D3D3',
    text=[f"{val:.1f}%" for val in mujeres_pct],
    textposition='auto',
    orientation='h'
))

# Agregar barras de Varones
fig.add_trace(go.Bar(
    y=categorias,
    x=varones_pct,
    name='Varones',
    marker_color='#A9A9A9',
    text=[f"{val:.1f}%" for val in varones_pct],
    textposition='auto',
    orientation='h'
))

# Configuración adicional
fig.update_layout(
    title_text='Distribución de género por categoría en el Poder Judicial del Chaco',
    yaxis_title='Categoría',
    xaxis_title='Porcentaje',
    barmode='stack',
)

# Mostrar el gráfico
fig.show()
# Guardar en diferentes formatos
base_ruta = "/home/pablo/web_scrap_genero_jusch/imagenes/Distribución_género_categoria_PJChaco_barh"
fig.write_image(base_ruta + ".jpeg")
fig.write_image(base_ruta + ".pdf")
fig.write_html(base_ruta + ".html")


In [58]:
import pandas as pd

# Crear una tabla de contingencia triple para ver la distribución de género por cargo y circunscripción:
distribucion_genero_por_cargo_circ = pd.crosstab([df_agentes['categoria'], df_agentes['circunscripcion']], df_agentes['genero'])

# Calcular porcentajes por cargo y circunscripción
distribucion_genero_por_cargo_circ['total'] = distribucion_genero_por_cargo_circ.sum(axis=1)
distribucion_genero_por_cargo_circ['%f'] = (distribucion_genero_por_cargo_circ['f'] / distribucion_genero_por_cargo_circ['total']) * 100
distribucion_genero_por_cargo_circ['%m'] = (distribucion_genero_por_cargo_circ['m'] / distribucion_genero_por_cargo_circ['total']) * 100

# Añadir una fila con el total general en todas las columnas
total_general = distribucion_genero_por_cargo_circ.sum()

# Calcular porcentajes del total general
total_mujeres = total_general['f']
total_varones = total_general['m']
total_personas = total_general['total']

total_general['%f'] = (total_mujeres / total_personas) * 100
total_general['%m'] = (total_varones / total_personas) * 100
total_general.name = 'TOTAL', ''

distribucion_genero_por_cargo_circ = pd.concat([distribucion_genero_por_cargo_circ, total_general.to_frame().T])

# Calcular porcentajes respecto al total de agentes
total_agentes = len(df_agentes)
distribucion_genero_por_cargo_circ['%f total'] = (distribucion_genero_por_cargo_circ['f'] / total_agentes) * 100
distribucion_genero_por_cargo_circ['%m total'] = (distribucion_genero_por_cargo_circ['m'] / total_agentes) * 100

# Convertir a enteros las columnas específicas
cols_to_int = ['f', 'm', 'total']
distribucion_genero_por_cargo_circ[cols_to_int] = distribucion_genero_por_cargo_circ[cols_to_int].astype(int)

# Redondear a 2 decimales las columnas de porcentaje
cols_to_round = ['%f', '%m', '%f total', '%m total']
distribucion_genero_por_cargo_circ[cols_to_round] = distribucion_genero_por_cargo_circ[cols_to_round].round(2)

distribucion_genero_por_cargo_circ


Unnamed: 0_level_0,genero,f,m,total,%f,%m,%f total,%m total
categoria,circunscripcion,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Funcionariado,1era Circunscripción,232,86,318,72.96,27.04,5.61,2.08
Funcionariado,2da Circunscripción,59,15,74,79.73,20.27,1.43,0.36
Funcionariado,3ra Circunscripción,34,10,44,77.27,22.73,0.82,0.24
Funcionariado,4ta Circunscripción,33,11,44,75.0,25.0,0.8,0.27
Funcionariado,5ta Circunscripción,18,13,31,58.06,41.94,0.44,0.31
Funcionariado,6ta Circunscripción,30,13,43,69.77,30.23,0.73,0.31
"Magistratura, Defensoras/es, Procuradoras/es y Fiscales",1era Circunscripción,109,47,156,69.87,30.13,2.64,1.14
"Magistratura, Defensoras/es, Procuradoras/es y Fiscales",2da Circunscripción,35,28,63,55.56,44.44,0.85,0.68
"Magistratura, Defensoras/es, Procuradoras/es y Fiscales",3ra Circunscripción,18,18,36,50.0,50.0,0.44,0.44
"Magistratura, Defensoras/es, Procuradoras/es y Fiscales",4ta Circunscripción,19,13,32,59.38,40.62,0.46,0.31


In [65]:
import plotly.graph_objects as go

def split_label(label, max_length):
    """Divide una etiqueta en múltiples líneas si excede una longitud máxima"""
    words = label.split()
    lines = []
    current_line = words[0]
    for word in words[1:]:
        if len(current_line) + len(word) + 1 > max_length:
            lines.append(current_line)
            current_line = word
        else:
            current_line += ' ' + word
    lines.append(current_line)
    return '<br>'.join(lines)


# función guardar_figura
def guardar_figura(fig, circunscripcion, formatos=['jpeg','pdf']):
    # Ruta base para guardar las imágenes y el archivo HTML
    base_ruta = f"/home/pablo/web_scrap_genero_jusch/imagenes/Distribución_género_{circunscripcion}_bar"
    
    # Guardar en diferentes formatos
    for formato in formatos:
        fig.write_image(base_ruta + f".{formato}", scale=2)
    fig.write_html(base_ruta + ".html")



def graficar_distribucion_genero_circunscripcion_plotly(data, circunscripcion, max_label_length=20):
    # Filtra los datos de la circunscripción dada
    datos_circ = data.xs(key=circunscripcion, level='circunscripcion').reset_index()

    # Ordenar las categorías según el total
    datos_circ_ordered = datos_circ.sort_values(by='total', ascending=False)

    # Datos
    categorias = [split_label(label, max_label_length) for label in datos_circ_ordered['categoria']]
    mujeres_values = datos_circ_ordered['f'].values
    varones_values = datos_circ_ordered['m'].values
    
    # Porcentajes
    mujeres_pct = 100 * mujeres_values / datos_circ_ordered['total'].values
    varones_pct = 100 * varones_values / datos_circ_ordered['total'].values

    # Crear el gráfico de barras agrupadas
    fig = go.Figure()

    # Agregar barras de Mujeres
    fig.add_trace(go.Bar(
        x=categorias,
        y=mujeres_values,
        name='Mujeres',
        marker_color='#D3D3D3',
        text=[f"{val:.2f}%" for val in mujeres_pct],  # Porcentajes a mostrar
        textposition='auto'
    ))

    # Agregar barras de Varones
    fig.add_trace(go.Bar(
        x=categorias,
        y=varones_values,
        name='Varones',
        marker_color='#A9A9A9',
        text=[f"{val:.2f}%" for val in varones_pct],  # Porcentajes a mostrar
        textposition='auto'
    ))

    # Configuración adicional
    fig.update_layout(
        title_text=f'Distribución de género por categoría en {circunscripcion}',
        xaxis_title='Categoría',
        yaxis_title='Número de Agentes',
        barmode='group',  # Modo de barras agrupadas
        xaxis_tickangle=-45  # Rotar etiquetas del eje x para mejor visualización
    )

    # Mostrar el gráfico
    fig.show()
    
    # Guardar la figura en diferentes formatos
    guardar_figura(fig, circunscripcion.replace(' ', '_'))
    fig.write_html(circunscripcion.replace(' ', '_') + '_bar.html')

# Lista de circunscripciones en orden
circunscripciones_ordenadas = [
    '1era Circunscripción', 
    '2da Circunscripción', 
    '3ra Circunscripción', 
    '4ta Circunscripción', 
    '5ta Circunscripción', 
    '6ta Circunscripción'
]

# Graficar la distribución de género por categoría para cada circunscripción
for circ in circunscripciones_ordenadas:
    graficar_distribucion_genero_circunscripcion_plotly(distribucion_genero_por_cargo_circ, circ)


In [66]:
import plotly.graph_objects as go

def split_label(label, max_length):
    """Divide una etiqueta en múltiples líneas si excede una longitud máxima"""
    words = label.split()
    lines = []
    current_line = words[0]
    for word in words[1:]:
        if len(current_line) + len(word) + 1 > max_length:
            lines.append(current_line)
            current_line = word
        else:
            current_line += ' ' + word
    lines.append(current_line)
    return '<br>'.join(lines)


# función guardar_figura
def guardar_figura(fig, circunscripcion, formatos=['jpeg','pdf']):
    # Ruta base para guardar las imágenes y el archivo HTML
    base_ruta = f"/home/pablo/web_scrap_genero_jusch/imagenes/Distribución_género_{circunscripcion}_barh"
    
    # Guardar en diferentes formatos
    for formato in formatos:
        fig.write_image(base_ruta + f".{formato}", scale=2)
    fig.write_html(base_ruta + ".html")

        
        

def graficar_distribucion_genero_circunscripcion_plotly_barh(data, circunscripcion, max_label_length=20):
    # Filtra los datos de la circunscripción dada
    datos_circ = data.xs(key=circunscripcion, level='circunscripcion').reset_index()

    # Ordenar las categorías según el total
    datos_circ_ordered = datos_circ.sort_values(by='total', ascending=False)
    
    categorias = datos_circ_ordered['categoria'].apply(lambda x: split_label(x, max_label_length))
    mujeres_pct = datos_circ_ordered['%f']
    varones_pct = datos_circ_ordered['%m']

    # Crear el gráfico de barras horizontales apiladas
    fig = go.Figure()

    # Agregar barras de Mujeres
    fig.add_trace(go.Bar(
        y=categorias,
        x=mujeres_pct,
        name='Mujeres',
        marker_color='#D3D3D3',
        text=[f"{val:.2f}%" for val in mujeres_pct],
        textposition='auto',
        orientation='h'
    ))

    # Agregar barras de Varones
    fig.add_trace(go.Bar(
        y=categorias,
        x=varones_pct,
        name='Varones',
        marker_color='#A9A9A9',
        text=[f"{val:.2f}%" for val in varones_pct],
        textposition='auto',
        orientation='h'
    ))

    # Configuración adicional
    fig.update_layout(
        title_text=f'Distribución de género por categoría en {circunscripcion}',
        yaxis_title='Categoría',
        xaxis_title='Porcentaje',
        barmode='stack',
    )

    # Mostrar el gráfico
    fig.show()
    
    # Guardar la figura en diferentes formatos
    guardar_figura(fig, circunscripcion.replace(' ', '_'))
    

# Lista de circunscripciones en orden
circunscripciones_ordenadas = [
    '1era Circunscripción', 
    '2da Circunscripción', 
    '3ra Circunscripción', 
    '4ta Circunscripción', 
    '5ta Circunscripción', 
    '6ta Circunscripción'
]

# Graficar la distribución de género por categoría para cada circunscripción
for circ in circunscripciones_ordenadas:
    graficar_distribucion_genero_circunscripcion_plotly_barh(distribucion_genero_por_cargo_circ, circ)


## Distribución de género por cargo por circunscripción

### Agrupar cargos
Inclusive un evz distribuidos los cargos por categorías, dentro de cada categoría aún existen división notorias entre cargos, por lo tanto, vamos a separar entre Jueces de 1ra, incluyendo a los jueces de paz de distintas categorías y jueces penales, entre ellxs Juez de Garantías, Juez Correccional, Juez de Ejecución Penal, etc. Juez de 2da instancia, Defensor Oficial, Asesor/a, FIscal

In [210]:
primera_circ = df_agentes[df_agentes['circunscripcion'] == '1era Circunscripción']
segunda_circ = df_agentes[df_agentes['circunscripcion'] == '2da Circunscripción']
tercera_circ = df_agentes[df_agentes['circunscripcion'] == '3ra Circunscripción']
cuarta_circ = df_agentes[df_agentes['circunscripcion'] == '4ta Circunscripción']
quinta_circ = df_agentes[df_agentes['circunscripcion'] == '5ta Circunscripción']
sexta_circ = df_agentes[df_agentes['circunscripcion'] == '6ta Circunscripción']

In [76]:
magistratura = df_agentes[
    (df_agentes['categoria'] == 'Magistratura, Defensoras/es, Procuradoras/es y Fiscales') & 
    (~df_agentes['cargo'].isin(['INSPECTOR NOTARIAL', 'AGENTE FISCAL']))
]

magistratura


Unnamed: 0,apellido,nombre,cargo,cargo_agrupado,dependencia,localidad,circunscripcion,genero,categoria
1,ABRAHAM,MARIA FERNANDA,FISCAL DE INVESTIGACION,Fiscalx,EQUIPO FISCAL Nº9,RESISTENCIA,1era Circunscripción,f,"Magistratura, Defensoras/es, Procuradoras/es y..."
19,ACOSTA,CALVO MARIA DANIELA,DEFENSOR OFICIAL,Defensxr oficial,DEFENSORIA Nº 05,RESISTENCIA,1era Circunscripción,f,"Magistratura, Defensoras/es, Procuradoras/es y..."
36,ACUÑA,CARLOS ERNESTO,JUEZ PAZ SUPLENTE PROV.,Juez 1ra Instancia,JUZGADO DE PAZ DE PRIMERA CATEGORIA,PUERTO TIROL,1era Circunscripción,m,"Magistratura, Defensoras/es, Procuradoras/es y..."
70,AGUIRRE,HUGO ORLANDO,JUEZ 1RA. INSTANCIA,Juez 1ra Instancia,JUZGADO CIVIL Y COMERCIAL Nº 01,VILLA ANGELA,3ra Circunscripción,m,"Magistratura, Defensoras/es, Procuradoras/es y..."
113,ALCARAZ,FLAVIA GISELA,JUEZ DE PAZ DE 3RA.,Juez 1ra Instancia,JUZGADO DE PAZ DE TERCERA CATEGORIA,BASAIL,1era Circunscripción,f,"Magistratura, Defensoras/es, Procuradoras/es y..."
...,...,...,...,...,...,...,...,...,...
4084,ZAMATEO,FANNY ALICIA,JUEZ DE CAMARA,Juez de Cámara,CAM.2DA CRIMINAL,PCIA.ROQUE SAENZ PEÑA,2da Circunscripción,f,"Magistratura, Defensoras/es, Procuradoras/es y..."
4086,ZAMORA,GLADYS ESTHER,JUEZ DE CAMARA,Juez de Cámara,CAM. APELACIONES CIVIL Y COMERCIAL,RESISTENCIA,1era Circunscripción,f,"Magistratura, Defensoras/es, Procuradoras/es y..."
4091,ZAMUDIO,PATRICIA NOEMI,ASESOR/A DE MENORES,Asesorx de NNA,"ASESORÍA DE NIÑAS, NIÑOS Y ADOLESCENTES Nº 6",RESISTENCIA,1era Circunscripción,f,"Magistratura, Defensoras/es, Procuradoras/es y..."
4123,ZOVAK,MARIA LAURA PRAXEDIS,JUEZ 1RA. INSTANCIA,Juez 1ra Instancia,JUZGADO CIVIL Y COMERCIAL Nº 02,PCIA.ROQUE SAENZ PEÑA,2da Circunscripción,f,"Magistratura, Defensoras/es, Procuradoras/es y..."


In [78]:
# Crear una tabla pivote para ver la distribución de género por cargo_agrupado:
distribucion_genero_por_cargo_agrupado = pd.crosstab(magistratura['cargo_agrupado'], magistratura['genero'])

# Calcular porcentajes por cargo_agrupado
distribucion_genero_por_cargo_agrupado['total'] = distribucion_genero_por_cargo_agrupado.sum(axis=1)
distribucion_genero_por_cargo_agrupado['% mujeres por cargo'] = (distribucion_genero_por_cargo_agrupado['f'] / distribucion_genero_por_cargo_agrupado['total']) * 100
distribucion_genero_por_cargo_agrupado['% varones por cargo'] = (distribucion_genero_por_cargo_agrupado['m'] / distribucion_genero_por_cargo_agrupado['total']) * 100

# Ordenar por el porcentaje de mujeres en orden descendente
distribucion_genero_por_cargo_agrupado = distribucion_genero_por_cargo_agrupado.sort_values(by='% mujeres por cargo', ascending=False)

# Añadir una fila con el total general en todas las columnas
total_general_agrupado = distribucion_genero_por_cargo_agrupado.sum()

# Calcular porcentajes del total general
total_mujeres_agrupado = total_general_agrupado['f']
total_varones_agrupado = total_general_agrupado['m']
total_personas_agrupado = total_general_agrupado['total']

total_general_agrupado['% mujeres por cargo'] = (total_mujeres_agrupado / total_personas_agrupado) * 100
total_general_agrupado['% varones por cargo'] = (total_varones_agrupado / total_personas_agrupado) * 100
total_general_agrupado.name = 'TOTAL'

distribucion_genero_por_cargo_agrupado = pd.concat([distribucion_genero_por_cargo_agrupado, total_general_agrupado.to_frame().T])


# Convertir a enteros las columnas específicas
cols_to_int = ['f', 'm', 'total']
distribucion_genero_por_cargo_agrupado[cols_to_int] = distribucion_genero_por_cargo_agrupado[cols_to_int].astype(int)

# Redondear a 2 decimales las columnas de porcentaje
cols_to_round = ['% mujeres por cargo', '% varones por cargo']
distribucion_genero_por_cargo_agrupado[cols_to_round] = distribucion_genero_por_cargo_agrupado[cols_to_round].round(2)

distribucion_genero_por_cargo_agrupado


genero,f,m,total,% mujeres por cargo,% varones por cargo
Asesorx de NNA,15,1,16,93.75,6.25
Juez de Cámara,34,18,52,65.38,34.62
Defensxr oficial,20,11,31,64.52,35.48
Juez 1ra Instancia,130,89,219,59.36,40.64
Fiscalx,17,12,29,58.62,41.38
Fiscal Cámara,5,5,10,50.0,50.0
TOTAL,221,136,357,61.9,38.1


In [80]:
# Crear una tabla pivote para ver la distribución de género por categoría agrupada:
distribucion_genero = pd.crosstab(magistratura['cargo_agrupado'], magistratura['genero'])

# Calcular porcentajes por categoría agrupada
distribucion_genero['total'] = distribucion_genero.sum(axis=1)
distribucion_genero['% mujeres'] = (distribucion_genero['f'] / distribucion_genero['total']) * 100
distribucion_genero['% varones'] = (distribucion_genero['m'] / distribucion_genero['total']) * 100

# Mantener sólo columnas de porcentaje y total
cols_to_keep = ['total', '% mujeres', '% varones']
distribucion_genero = distribucion_genero[cols_to_keep]

# Ordenar por el porcentaje de mujeres en orden descendente
distribucion_genero = distribucion_genero.sort_values(by='% mujeres', ascending=False)

# Redondear a 2 decimales las columnas de porcentaje
cols_to_round = ['% mujeres', '% varones']
distribucion_genero[cols_to_round] = distribucion_genero[cols_to_round].round(2)

distribucion_genero


genero,total,% mujeres,% varones
cargo_agrupado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Asesorx de NNA,16,93.75,6.25
Juez de Cámara,52,65.38,34.62
Defensxr oficial,31,64.52,35.48
Juez 1ra Instancia,219,59.36,40.64
Fiscalx,29,58.62,41.38
Fiscal Cámara,10,50.0,50.0


In [82]:
# Crear una tabla pivote para ver la distribución de género por categoría agrupada y circunscripción:
distribucion_por_circunscripcion = pd.crosstab([magistratura['circunscripcion'], magistratura['cargo_agrupado']], magistratura['genero'])

# Calcular porcentajes por categoría agrupada y circunscripción
distribucion_por_circunscripcion['total'] = distribucion_por_circunscripcion.sum(axis=1)
distribucion_por_circunscripcion['% mujeres'] = (distribucion_por_circunscripcion['f'] / distribucion_por_circunscripcion['total']) * 100
distribucion_por_circunscripcion['% varones'] = (distribucion_por_circunscripcion['m'] / distribucion_por_circunscripcion['total']) * 100

# Mantener sólo columnas de porcentaje y total
cols_to_keep = ['total', '% mujeres', '% varones']
distribucion_por_circunscripcion = distribucion_por_circunscripcion[cols_to_keep]

# Redondear a 2 decimales las columnas de porcentaje
cols_to_round = ['% mujeres', '% varones']
distribucion_por_circunscripcion[cols_to_round] = distribucion_por_circunscripcion[cols_to_round].round(2)

distribucion_por_circunscripcion


Unnamed: 0_level_0,genero,total,% mujeres,% varones
circunscripcion,cargo_agrupado,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1era Circunscripción,Asesorx de NNA,6,100.0,0.0
1era Circunscripción,Defensxr oficial,17,82.35,17.65
1era Circunscripción,Fiscal Cámara,5,60.0,40.0
1era Circunscripción,Fiscalx,16,75.0,25.0
1era Circunscripción,Juez 1ra Instancia,86,61.63,38.37
1era Circunscripción,Juez de Cámara,26,80.77,19.23
2da Circunscripción,Asesorx de NNA,2,100.0,0.0
2da Circunscripción,Defensxr oficial,5,40.0,60.0
2da Circunscripción,Fiscal Cámara,2,50.0,50.0
2da Circunscripción,Fiscalx,4,50.0,50.0


In [86]:
import plotly.graph_objects as go

# Agrupar por cargo_agrupado y género
agrupado = magistratura.groupby(['cargo_agrupado', 'genero']).size().unstack().fillna(0)

# Datos
cargos = agrupado.index
mujeres_values = agrupado['f'].values
varones_values = agrupado['m'].values

# Porcentajes
total_values = mujeres_values + varones_values
mujeres_pct = 100 * mujeres_values / total_values
varones_pct = 100 * varones_values / total_values

# Crear el gráfico de barras horizontales apiladas
fig = go.Figure()

# Agregar barras de Mujeres
fig.add_trace(go.Bar(
    y=cargos,
    x=mujeres_pct,  # Aquí usamos los porcentajes directamente
    name='Mujeres',
    marker_color='#D3D3D3',
    text=[f"{val:.1f}%" for val in mujeres_pct],  # Porcentajes a mostrar
    textposition='auto',
    orientation='h'  # Barras horizontales
))

# Agregar barras de Varones
fig.add_trace(go.Bar(
    y=cargos,
    x=varones_pct,  # Aquí usamos los porcentajes directamente
    name='Varones',
    marker_color='#A9A9A9',
    text=[f"{val:.1f}%" for val in varones_pct],  # Porcentajes a mostrar
    textposition='inside',
    orientation='h'  # Barras horizontales
))

# Configuración adicional
fig.update_layout(
    title_text='Distribución de género por Cargo',
    yaxis_title='Cargo Agrupado',
    xaxis_title='Porcentaje',
    barmode='stack'  # Modo de barras apiladas
)

# Mostrar el gráfico
fig.show()

# Guardar en diferentes formatos
base_ruta = "/home/pablo/web_scrap_genero_jusch/imagenes/Distribución_género_cargo_barh"
fig.write_image(base_ruta + ".jpeg")
fig.write_image(base_ruta + ".pdf")
fig.write_html(base_ruta + ".html")


In [91]:
import plotly.graph_objects as go

# Agrupar por cargo_agrupado y género
agrupado = magistratura.groupby(['cargo_agrupado', 'genero']).size().unstack().fillna(0)

# Datos
cargos = agrupado.index
mujeres_values = agrupado['f'].values
varones_values = agrupado['m'].values

# Porcentajes
total_values = mujeres_values + varones_values
mujeres_pct = 100 * mujeres_values / total_values
varones_pct = 100 * varones_values / total_values

# Crear el gráfico de barras verticales
fig = go.Figure()

# Agregar barras de Mujeres
fig.add_trace(go.Bar(
    x=cargos,
    y=mujeres_pct,  # Aquí usamos los porcentajes directamente
    name='Mujeres',
    marker_color='#D3D3D3',
    text=[f"{val:.1f}%" for val in mujeres_pct],  # Porcentajes a mostrar
    textposition='inside'
))

# Agregar barras de Varones
fig.add_trace(go.Bar(
    x=cargos,
    y=varones_pct,  # Aquí usamos los porcentajes directamente
    name='Varones',
    marker_color='#A9A9A9',
    text=[f"{val:.1f}%" for val in varones_pct],  # Porcentajes a mostrar
    textposition='inside'
))

# Configuración adicional
fig.update_layout(
    title_text='Distribución de género por Cargo',
    xaxis_title='Cargo Agrupado',
    yaxis_title='Porcentaje',
    barmode='group'  # Modo de barras agrupadas
)

# Mostrar el gráfico
fig.show()

# Guardar en diferentes formatos
base_ruta = "/home/pablo/web_scrap_genero_jusch/imagenes/Distribución_género_cargo_barv"
fig.write_image(base_ruta + ".jpeg")
fig.write_image(base_ruta + ".pdf")
fig.write_html(base_ruta + ".html")

In [97]:
import plotly.graph_objects as go
import pandas as pd

def split_label(label, max_length):
    """Divide una etiqueta en múltiples líneas si excede una longitud máxima"""
    words = label.split()
    lines = []
    current_line = words[0]
    for word in words[1:]:
        if len(current_line) + len(word) + 1 > max_length:
            lines.append(current_line)
            current_line = word
        else:
            current_line += ' ' + word
    lines.append(current_line)
    return '<br>'.join(lines)


    

# función guardar_figura
def guardar_figura(fig, circunscripcion, formatos=['jpeg','pdf']):
    # Ruta base para guardar las imágenes y el archivo HTML
    base_ruta = f"/home/pablo/web_scrap_genero_jusch/imagenes/Distribución_género_{circunscripcion}_bar"
    
    # Guardar en diferentes formatos
    for formato in formatos:
        fig.write_image(base_ruta + f".{formato}", scale=2)
    fig.write_html(base_ruta + ".html")    


def graficar_distribucion_genero_circunscripcion_plotly(data, circunscripcion, max_label_length=20):
    # Filtra los datos de la circunscripción dada
    datos_circ = data.xs(key=circunscripcion, level='circunscripcion').reset_index()

    # Ordenar las categorías según el total
    datos_circ_ordered = datos_circ.sort_values(by='total', ascending=False)

    # Datos
    categorias = [split_label(label, max_label_length) for label in datos_circ_ordered['cargo_agrupado']]
    total_values = datos_circ_ordered['total'].values
    mujeres_values = (datos_circ_ordered['% mujeres'] * total_values / 100).round(0)
    varones_values = (datos_circ_ordered['% varones'] * total_values / 100).round(0)

    # Crear el gráfico de barras agrupadas
    fig = go.Figure()

    # Agregar barras de Mujeres
    fig.add_trace(go.Bar(
        x=categorias,
        y=mujeres_values,
        name='Mujeres',
        marker_color='#D3D3D3',
        text=datos_circ_ordered['% mujeres'],  # Mostrar porcentajes de mujeres
        textposition='auto'
    ))

    # Agregar barras de Varones
    fig.add_trace(go.Bar(
        x=categorias,
        y=varones_values,
        name='Varones',
        marker_color='#A9A9A9',
        text=datos_circ_ordered['% varones'],  # Mostrar porcentajes de varones
        textposition='auto'
    ))

    # Configuración adicional
    fig.update_layout(
        title_text=f'Distribución de género por cargo en la {circunscripcion}',
        xaxis_title='Cargo',
        yaxis_title='Número de Personas',
        barmode='group',  # Modo de barras agrupadas
        xaxis_tickangle=-45  # Rotar etiquetas del eje x para mejor visualización
    )

    # Mostrar el gráfico
    fig.show()

    # Guardar la figura en diferentes formatos
    guardar_figura(fig, circunscripcion.replace(' ', '_'))


# Lista de circunscripciones en orden
circunscripciones_ordenadas = [
    '1era Circunscripción', 
    '2da Circunscripción', 
    '3ra Circunscripción', 
    '4ta Circunscripción', 
    '5ta Circunscripción', 
    '6ta Circunscripción'
]

# Graficar la distribución de género por cargo agrupado para cada circunscripción
for circ in circunscripciones_ordenadas:
    graficar_distribucion_genero_circunscripcion_plotly(distribucion_por_circunscripcion, circ)

In [100]:
import plotly.graph_objects as go
import pandas as pd

def split_label(label, max_length):
    """Divide una etiqueta en múltiples líneas si excede una longitud máxima"""
    words = label.split()
    lines = []
    current_line = words[0]
    for word in words[1:]:
        if len(current_line) + len(word) + 1 > max_length:
            lines.append(current_line)
            current_line = word
        else:
            current_line += ' ' + word
    lines.append(current_line)
    return '<br>'.join(lines)


    

# función guardar_figura
def guardar_figura(fig, circunscripcion, formatos=['jpeg','pdf']):
    # Ruta base para guardar las imágenes y el archivo HTML
    base_ruta = f"/home/pablo/web_scrap_genero_jusch/imagenes/Distribución_género_{circunscripcion}_barh"
    
    # Guardar en diferentes formatos
    for formato in formatos:
        fig.write_image(base_ruta + f".{formato}", scale=2)
    fig.write_html(base_ruta + ".html")    


def graficar_distribucion_genero_circunscripcion_plotly(data, circunscripcion, max_label_length=20):
    # Filtra los datos de la circunscripción dada
    datos_circ = data.xs(key=circunscripcion, level='circunscripcion').reset_index()

    # Ordenar las categorías según el total
    datos_circ_ordered = datos_circ.sort_values(by='total', ascending=True)

    # Datos
    categorias = [split_label(label, max_label_length) for label in datos_circ_ordered['cargo_agrupado']]
    mujeres_pct = datos_circ_ordered['% mujeres'].values
    varones_pct = datos_circ_ordered['% varones'].values

    # Crear el gráfico de barras horizontales apiladas
    fig = go.Figure()

    # Agregar barras de Mujeres
    fig.add_trace(go.Bar(
        y=categorias,
        x=mujeres_pct,
        name='Mujeres',
        orientation='h',
        marker_color='#D3D3D3',
        text=mujeres_pct,  # Mostrar porcentajes de mujeres
        textposition='auto'
    ))

    # Agregar barras de Varones
    fig.add_trace(go.Bar(
        y=categorias,
        x=varones_pct,
        name='Varones',
        orientation='h',
        marker_color='#A9A9A9',
        text=varones_pct,  # Mostrar porcentajes de varones
        textposition='auto'
    ))

    # Configuración adicional
    fig.update_layout(
        title_text=f'Distribución de género por cargo en la {circunscripcion}',
        yaxis_title='Cargo',
        xaxis_title='Porcentaje (%)',
        xaxis_tickvals=list(range(0, 101, 10)),  # Definir valores para eje x
        barmode='stack'  # Modo de barras apiladas
    )

    # Mostrar el gráfico
    fig.show()

    # Guardar la figura en diferentes formatos
    guardar_figura(fig, circunscripcion.replace(' ', '_'))


# Lista de circunscripciones en orden
circunscripciones_ordenadas = [
    '1era Circunscripción', 
    '2da Circunscripción', 
    '3ra Circunscripción', 
    '4ta Circunscripción', 
    '5ta Circunscripción', 
    '6ta Circunscripción'
]

# Graficar la distribución de género por cargo agrupado para cada circunscripción
for circ in circunscripciones_ordenadas:
    graficar_distribucion_genero_circunscripcion_plotly(distribucion_por_circunscripcion, circ)