Preprocesamiento de datos

In [1]:
### importacion de librerias

import pandas as pd

import matplotlib.pyplot as plt

import itertools

from sklearn.preprocessing import OrdinalEncoder
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

In [2]:
# carga de datos

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('datasets/data.csv')

In [14]:
# Configura pandas para mostrar el contenido completo de las filas
pd.set_option('display.max_colwidth', None)

In [3]:
data = data.rename(columns={'jobTitle':'job_title',
                            'perfEval':'perf_eval',
                            'basePay':'base_pay'})

In [4]:
# creamos una columna nueva con el salario total

data['total_salary'] = data['base_pay'] + data['bonus']

In [5]:
# función que calcule la categoría de edad

def assing_age_range(age):
    if age < 0 or pd.isna(age):
        return 'NA'
    elif age < 20:
        return '0-19'
    elif age < 40:
        return '20-39'
    elif age < 60:
        return '40-59'
    elif age >= 60:
        return '60+'


In [6]:
# función que calcule la categoría de ingresos

def total_salary_range(salary):
    if salary < 40000 or pd.isna(salary):
        return '< 40,000'
    elif salary < 80001:
        return '40,000-80,000'
    elif salary < 120001:
        return '80,001-120,000'
    elif salary < 160001:
        return '120,001-160,000'
    elif salary >= 160001:
        return '> 160,000'

In [7]:
data['total_salary_range'] = data['total_salary'].apply(total_salary_range)
data['age_group'] = data['age'].apply(assing_age_range)


In [8]:
data.head()

Unnamed: 0,job_title,gender,age,perf_eval,edu,dept,seniority,base_pay,bonus,total_salary,total_salary_range,age_group
0,Graphic Designer,Female,18,5,College,Operations,2,42363,9938,52301,"40,000-80,000",0-19
1,Software Engineer,Male,21,5,College,Management,5,108476,11128,119604,"80,001-120,000",20-39
2,Warehouse Associate,Female,19,4,PhD,Administration,5,90208,9268,99476,"80,001-120,000",0-19
3,Software Engineer,Male,20,5,Masters,Sales,4,108080,10154,118234,"80,001-120,000",20-39
4,Graphic Designer,Male,26,5,Masters,Engineering,5,99464,9319,108783,"80,001-120,000",20-39


In [9]:
testisng_df = (
    data
    .drop(columns={'age','base_pay','bonus','total_salary'})
)

In [10]:
testisng_df.head()

Unnamed: 0,job_title,gender,perf_eval,edu,dept,seniority,total_salary_range,age_group
0,Graphic Designer,Female,5,College,Operations,2,"40,000-80,000",0-19
1,Software Engineer,Male,5,College,Management,5,"80,001-120,000",20-39
2,Warehouse Associate,Female,4,PhD,Administration,5,"80,001-120,000",0-19
3,Software Engineer,Male,5,Masters,Sales,4,"80,001-120,000",20-39
4,Graphic Designer,Male,5,Masters,Engineering,5,"80,001-120,000",20-39


In [15]:
#### creacion de sets de contraste 

import itertools
import pandas as pd

# Crea una lista de todas las combinaciones posibles de dos columnas
column_pairs = list(itertools.combinations(testisng_df.columns, 2))

# Crea una lista de conjuntos de contraste con pares de clave:valor
contrast_sets = []

for pair in column_pairs:
    values = zip(testisng_df[pair[0]], testisng_df[pair[1]])
    for value in values:
        contrast_set = dict(zip(pair, value))
        contrast_sets.append(contrast_set)

# Crea un DataFrame con los conjuntos de contraste
result_df = pd.DataFrame({'Set de contraste': contrast_sets})

# Imprime el DataFrame resultante
result_df


Unnamed: 0,Set de contraste
0,"{'job_title': 'Graphic Designer', 'gender': 'Female'}"
1,"{'job_title': 'Software Engineer', 'gender': 'Male'}"
2,"{'job_title': 'Warehouse Associate', 'gender': 'Female'}"
3,"{'job_title': 'Software Engineer', 'gender': 'Male'}"
4,"{'job_title': 'Graphic Designer', 'gender': 'Male'}"
...,...
27995,"{'total_salary_range': '40,000-80,000', 'age_group': '60+'}"
27996,"{'total_salary_range': '80,001-120,000', 'age_group': '40-59'}"
27997,"{'total_salary_range': '80,001-120,000', 'age_group': '40-59'}"
27998,"{'total_salary_range': '80,001-120,000', 'age_group': '60+'}"


In [12]:
################# calcular el sporte 

# Importar la librería pandas para el manejo de datos
import pandas as pd

# Crear un DataFrame de ejemplo
datos = pd.DataFrame({
    "grupo": ["hombres", "hombres", "mujeres", "mujeres"],
    "ingreso": ["bajo", "medio", "bajo", "alto"]
})

# Definir los conjuntos de contraste
conjunto_contraste = [("ingreso", "bajo")]

# Calcular el soporte para cada grupo
for grupo in ["hombres", "mujeres"]:
    total_grupo = len(datos[datos["grupo"] == grupo])
    total_conjunto = len(datos[(datos["grupo"] == grupo) & (datos["ingreso"] == "bajo")])
    soporte = total_conjunto / total_grupo
    print(f"Soporte para {grupo}: {soporte}")


Soporte para hombres: 0.5
Soporte para mujeres: 0.5


In [16]:
############### calcular la diferencia entre clases  ejemplo 

# Umbral de diferencia mínima
umbral_diferencia = 0.05

# Calcular el soporte para cada grupo
soporte = {}
for grupo in ["hombres", "mujeres"]:
    total_grupo = len(datos[datos["grupo"] == grupo])
    total_conjunto = len(datos[(datos["grupo"] == grupo) & (datos["ingreso"] == "bajo")])
    soporte[grupo] = total_conjunto / total_grupo

# Calcular la diferencia de soporte entre los grupos
soporte_hombres = soporte["hombres"]
soporte_mujeres = soporte["mujeres"]
diferencia = abs(soporte_hombres - soporte_mujeres)

# Verificar si la diferencia es significativa
if diferencia >= umbral_diferencia:
    print("Existe una diferencia significativa entre los grupos.")
else:
    print("No se encontró una diferencia significativa entre los grupos.")



No se encontró una diferencia significativa entre los grupos.


In [17]:
def prune(c):
    # Función de poda: implementa la lógica para decidir si se debe podar un candidato c
    # Retorna True si el candidato debe ser podado, False en caso contrario
    # Aquí puedes definir tus criterios de poda
    return False

def GenChildren(c, P):
    # Función para generar los hijos de un candidato c utilizando el Conjunto de Candidatos Podados (P)
    # Retorna los nuevos candidatos generados
    # Aquí puedes implementar la lógica para generar los nuevos candidatos
    return []

def signi_cant(c):
    # Función para verificar si un candidato c es significativo
    # Implementa la lógica para determinar la significancia del candidato
    return True

def large(c):
    # Función para verificar si un candidato c es grande
    # Implementa la lógica para determinar la grandeza del candidato
    return True

def FindSurprising(D):
    # Función para encontrar un subconjunto sorprendente de las Desviaciones (D)
    # Implementa la lógica para seleccionar los resultados más interesantes y significativos
    return D

def STUCCO(data):
    C = set()  # Conjunto de Candidatos
    D = set()  # Conjunto de Desviaciones
    P = set()  # Conjunto de Candidatos Podados

    while C:
        # Escaneo de los datos y conteo de soporte para cada candidato en C
        support_counts = {}
        for c in C:
            support_counts[c] = data.count(c)

        # Procesamiento de cada candidato en C
        for c in C:
            if signi_cant(c) and large(c):
                D.add(c)
            elif prune(c):
                P.add(c)
            else:
                Cnew = Cnew.union(GenChildren(c, P))

        C = Cnew

    Dsurprising = FindSurprising(D)
    return Dsurprising

# Ejemplo de uso
data = [
    ('A', 'B', 'C'),
    ('A', 'C'),
    ('B', 'C'),
    ('A', 'B'),
    ('A', 'C'),
    ('A', 'B', 'C'),
    ('A', 'B')
]

result = STUCCO(data)
print("Desviaciones sorprendentes encontradas:")
for deviation in result:
    print(deviation)


Desviaciones sorprendentes encontradas:
