# Sistemas de Recomendación

In [2]:
from ucimlrepo import fetch_ucirepo
import pandas as pd

adult = fetch_ucirepo(id=2)

df = adult.data.original
print(df)

       age         workclass  fnlwgt  education  education-num  \
0       39         State-gov   77516  Bachelors             13   
1       50  Self-emp-not-inc   83311  Bachelors             13   
2       38           Private  215646    HS-grad              9   
3       53           Private  234721       11th              7   
4       28           Private  338409  Bachelors             13   
...    ...               ...     ...        ...            ...   
48837   39           Private  215419  Bachelors             13   
48838   64               NaN  321403    HS-grad              9   
48839   38           Private  374983  Bachelors             13   
48840   44           Private   83891  Bachelors             13   
48841   35      Self-emp-inc  182148  Bachelors             13   

           marital-status         occupation    relationship  \
0           Never-married       Adm-clerical   Not-in-family   
1      Married-civ-spouse    Exec-managerial         Husband   
2              

In [None]:
display(df.head())

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [4]:
display(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             48842 non-null  int64 
 1   workclass       47879 non-null  object
 2   fnlwgt          48842 non-null  int64 
 3   education       48842 non-null  object
 4   education-num   48842 non-null  int64 
 5   marital-status  48842 non-null  object
 6   occupation      47876 non-null  object
 7   relationship    48842 non-null  object
 8   race            48842 non-null  object
 9   sex             48842 non-null  object
 10  capital-gain    48842 non-null  int64 
 11  capital-loss    48842 non-null  int64 
 12  hours-per-week  48842 non-null  int64 
 13  native-country  48568 non-null  object
 14  income          48842 non-null  object
dtypes: int64(6), object(9)
memory usage: 5.6+ MB


None

#### Valores nulos

In [5]:
print("Cantidad de valores nulos por columna antes:")
display(df.isnull().sum())

cols_with_missing = ["workclass", "occupation", "native-country"]

for col in cols_with_missing:
    
    moda_value = df[col].mode()[0]
    df[col] = df[col].fillna(moda_value)

print("\nCantidad de valores nulos por columna después:")
display(df.isnull().sum())

Cantidad de valores nulos por columna antes:


age                 0
workclass         963
fnlwgt              0
education           0
education-num       0
marital-status      0
occupation        966
relationship        0
race                0
sex                 0
capital-gain        0
capital-loss        0
hours-per-week      0
native-country    274
income              0
dtype: int64


Cantidad de valores nulos por columna después:


age               0
workclass         0
fnlwgt            0
education         0
education-num     0
marital-status    0
occupation        0
relationship      0
race              0
sex               0
capital-gain      0
capital-loss      0
hours-per-week    0
native-country    0
income            0
dtype: int64

### Transformación de las variables categóricas

In [6]:
categorical_cols = df.select_dtypes(include=["object"]).columns.tolist()

if "income" in categorical_cols:
    categorical_cols.remove("income")

print(f"Columnas categoricas a codificar: {categorical_cols}")

df_encoded = pd.get_dummies(df, columns=categorical_cols, drop_first=True)

print("\nPrimeras 5 filas del DataFrame después de One-Hot Encoding:")
display(df_encoded.head())

print("\nInformación del DataFrame después de One-Hot Encoding:")
display(df_encoded.info())

Columnas categoricas a codificar: ['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'native-country']

Primeras 5 filas del DataFrame después de One-Hot Encoding:


Unnamed: 0,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week,income,workclass_Federal-gov,workclass_Local-gov,workclass_Never-worked,...,native-country_Portugal,native-country_Puerto-Rico,native-country_Scotland,native-country_South,native-country_Taiwan,native-country_Thailand,native-country_Trinadad&Tobago,native-country_United-States,native-country_Vietnam,native-country_Yugoslavia
0,39,77516,13,2174,0,40,<=50K,False,False,False,...,False,False,False,False,False,False,False,True,False,False
1,50,83311,13,0,0,13,<=50K,False,False,False,...,False,False,False,False,False,False,False,True,False,False
2,38,215646,9,0,0,40,<=50K,False,False,False,...,False,False,False,False,False,False,False,True,False,False
3,53,234721,7,0,0,40,<=50K,False,False,False,...,False,False,False,False,False,False,False,True,False,False
4,28,338409,13,0,0,40,<=50K,False,False,False,...,False,False,False,False,False,False,False,False,False,False



Información del DataFrame después de One-Hot Encoding:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Columns: 101 entries, age to native-country_Yugoslavia
dtypes: bool(94), int64(6), object(1)
memory usage: 7.0+ MB


None

### Normalización de las variables numéricas

In [7]:
from sklearn.preprocessing import MinMaxScaler

numerical_cols = df_encoded.select_dtypes(include=["int64", "float64"]).columns.tolist()

print(f"Columnas numericas a normalizar: {numerical_cols}")

scaler = MinMaxScaler()

df_encoded[numerical_cols] = scaler.fit_transform(df_encoded[numerical_cols])

print("\nPrimeras 5 filas del DataFrame después de la normalización:")
display(df_encoded.head())

print("\nInformación del DataFrame después de la normalización:")
display(df_encoded.info())

Columnas numericas a normalizar: ['age', 'fnlwgt', 'education-num', 'capital-gain', 'capital-loss', 'hours-per-week']

Primeras 5 filas del DataFrame después de la normalización:


Unnamed: 0,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week,income,workclass_Federal-gov,workclass_Local-gov,workclass_Never-worked,...,native-country_Portugal,native-country_Puerto-Rico,native-country_Scotland,native-country_South,native-country_Taiwan,native-country_Thailand,native-country_Trinadad&Tobago,native-country_United-States,native-country_Vietnam,native-country_Yugoslavia
0,0.30137,0.044131,0.8,0.02174,0.0,0.397959,<=50K,False,False,False,...,False,False,False,False,False,False,False,True,False,False
1,0.452055,0.048052,0.8,0.0,0.0,0.122449,<=50K,False,False,False,...,False,False,False,False,False,False,False,True,False,False
2,0.287671,0.137581,0.533333,0.0,0.0,0.397959,<=50K,False,False,False,...,False,False,False,False,False,False,False,True,False,False
3,0.493151,0.150486,0.4,0.0,0.0,0.397959,<=50K,False,False,False,...,False,False,False,False,False,False,False,True,False,False
4,0.150685,0.220635,0.8,0.0,0.0,0.397959,<=50K,False,False,False,...,False,False,False,False,False,False,False,False,False,False



Información del DataFrame después de la normalización:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Columns: 101 entries, age to native-country_Yugoslavia
dtypes: bool(94), float64(6), object(1)
memory usage: 7.0+ MB


None

## Definición del Problema de Recomendación

¿Qué se quiere recomendar? Se quieren recomendar "trayectorias" o combinaciones de atributos (educación, ocupación, horas de trabajo) que están asociados con perfiles de altos ingresos.

¿Cuál será el "usuario" en este caso? Cada individuo en el dataset es un "usuario".

¿Qué variables definen el perfil de un usuario? El perfil de un usuario está definido por todas las variables de entrada preprocesadas (todas las columnas excepto "income").

Construcción del Sistema de Recomendacion (Filtrado Basado en Contenido)

### Separacion Datos por Nivel de Ingresos

In [8]:
df_high_income = df_encoded[df_encoded["income"] == ">50K"].copy()
df_low_income = df_encoded[df_encoded["income"] == "<=50K"].copy()

print(f"Número de individuos con ingresos >50K: {df_high_income.shape[0]}")
print(f"Número de individuos con ingresos <=50K: {df_low_income.shape[0]}")

Número de individuos con ingresos >50K: 7841
Número de individuos con ingresos <=50K: 24720


### Calcular el Perfil promedio de ingresos altos

In [9]:
high_income_profile = df_high_income.drop("income", axis=1).mean()

print("Perfil promedio del grupo con ingresos >50K:")
display(high_income_profile)

Perfil promedio del grupo con ingresos >50K:


age                               0.373285
fnlwgt                            0.118881
education-num                     0.707444
capital-gain                      0.040062
capital-loss                      0.044766
                                    ...   
native-country_Thailand           0.000383
native-country_Trinadad&Tobago    0.000255
native-country_United-States      0.914552
native-country_Vietnam            0.000638
native-country_Yugoslavia         0.000765
Length: 100, dtype: float64

A continuación vamos a analizar la relación entre la educación y la ocupación de altos ingresos, para recomendaciones refinadas:

In [10]:
high_income_indices = df_high_income.index

df_high_income_original = df.loc[high_income_indices, ["education", "occupation"]]


occupation_by_education = df_high_income_original.groupby("education")["occupation"].value_counts().unstack(fill_value=0)

print("Distribución de Ocupaciones por Nivel Educativo en el grupo >50K:")
display(occupation_by_education)

Distribución de Ocupaciones por Nivel Educativo en el grupo >50K:


occupation,?,Adm-clerical,Armed-Forces,Craft-repair,Exec-managerial,Farming-fishing,Handlers-cleaners,Machine-op-inspct,Other-service,Priv-house-serv,Prof-specialty,Protective-serv,Sales,Tech-support,Transport-moving
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
10th,2,0,0,19,6,1,2,6,1,0,3,0,4,1,17
11th,0,3,0,18,7,2,5,3,6,0,2,2,5,0,7
12th,2,1,0,9,2,0,2,1,1,0,2,0,5,1,7
1st-4th,0,0,0,2,2,1,0,1,0,0,0,0,0,0,0
5th-6th,2,0,0,3,1,0,2,3,0,0,0,0,3,0,2
7th-8th,2,1,0,8,6,5,0,6,1,0,0,0,4,0,7
9th,1,1,0,7,2,1,3,3,2,0,0,0,4,0,3
Assoc-acdm,6,30,0,32,66,3,2,9,6,0,37,12,39,20,3
Assoc-voc,13,18,0,81,64,9,2,14,9,0,59,17,27,37,11
Bachelors,45,119,0,88,779,21,11,18,29,1,579,56,382,78,15


#### Calculamos la similitud con el perfil de ingresos altos

In [11]:
from sklearn.metrics.pairwise import cosine_similarity

df_low_income_features = df_low_income.drop("income", axis=1)

high_income_profile_aligned = high_income_profile[df_low_income_features.columns]

similarities = cosine_similarity(df_low_income_features, high_income_profile_aligned.values.reshape(1, -1))

df_low_income["similarity_with_high_income"] = similarities

print("DataFrame de bajos ingresos con la columna de similitud añadida:")
display(df_low_income.head())

df_low_income_sorted = df_low_income.sort_values(by='similarity_with_high_income', ascending=False)

print("\nDataFrame de bajos ingresos ordenado por similitud (primeras 5 filas - más similares):")
display(df_low_income_sorted.head())

DataFrame de bajos ingresos con la columna de similitud añadida:


Unnamed: 0,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week,income,workclass_Federal-gov,workclass_Local-gov,workclass_Never-worked,...,native-country_Puerto-Rico,native-country_Scotland,native-country_South,native-country_Taiwan,native-country_Thailand,native-country_Trinadad&Tobago,native-country_United-States,native-country_Vietnam,native-country_Yugoslavia,similarity_with_high_income
0,0.30137,0.044131,0.8,0.02174,0.0,0.397959,<=50K,False,False,False,...,False,False,False,False,False,False,True,False,False,0.62994
1,0.452055,0.048052,0.8,0.0,0.0,0.122449,<=50K,False,False,False,...,False,False,False,False,False,False,True,False,False,0.808132
2,0.287671,0.137581,0.533333,0.0,0.0,0.397959,<=50K,False,False,False,...,False,False,False,False,False,False,True,False,False,0.720294
3,0.493151,0.150486,0.4,0.0,0.0,0.397959,<=50K,False,False,False,...,False,False,False,False,False,False,True,False,False,0.66252
4,0.150685,0.220635,0.8,0.0,0.0,0.397959,<=50K,False,False,False,...,False,False,False,False,False,False,False,False,False,0.487017



DataFrame de bajos ingresos ordenado por similitud (primeras 5 filas - más similares):


Unnamed: 0,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week,income,workclass_Federal-gov,workclass_Local-gov,workclass_Never-worked,...,native-country_Puerto-Rico,native-country_Scotland,native-country_South,native-country_Taiwan,native-country_Thailand,native-country_Trinadad&Tobago,native-country_United-States,native-country_Vietnam,native-country_Yugoslavia,similarity_with_high_income
27345,0.452055,0.174485,0.8,0.0,0.0,0.602041,<=50K,False,False,False,...,False,False,False,False,False,False,True,False,False,0.912881
22600,0.465753,0.132036,0.8,0.0,0.0,0.55102,<=50K,False,False,False,...,False,False,False,False,False,False,True,False,False,0.912486
31565,0.479452,0.165465,0.8,0.0,0.0,0.5,<=50K,False,False,False,...,False,False,False,False,False,False,True,False,False,0.911949
12601,0.424658,0.15951,0.8,0.050131,0.0,0.44898,<=50K,False,False,False,...,False,False,False,False,False,False,True,False,False,0.91062
6901,0.30137,0.174166,0.8,0.0,0.0,0.704082,<=50K,False,False,False,...,False,False,False,False,False,False,True,False,False,0.910205


#### Generamos una recomendación refinada

In [14]:
# Funcion para preprocesar un unico perfil simulado (imputacion, encoding, normalización)
def preprocess_simulated_profile(profile_data, df_original, scaler):
    
    profile_df = pd.DataFrame([profile_data])

    
    cols_to_impute = ["workclass", "occupation", "native-country"]
    for col in cols_to_impute:
         if col in profile_df.columns:
            moda_value = df_original[col].mode()[0]
            profile_df[col] = profile_df[col].fillna(moda_value)


    original_categorical_cols = df_original.select_dtypes(include=["object"]).columns.tolist()
    if "income" in original_categorical_cols:
        original_categorical_cols.remove("income")
    numerical_cols_original = df_original.select_dtypes(include=["int64", "float64"]).columns.tolist()

    profile_features = profile_df[original_categorical_cols + numerical_cols_original].copy()

   
    temp_df = pd.concat([df_original[original_categorical_cols + numerical_cols_original].head(), profile_features], ignore_index=True)


    temp_df_encoded = pd.get_dummies(temp_df, columns=original_categorical_cols, drop_first=True)


    profile_encoded = temp_df_encoded.tail(1).copy()

    reference_cols = high_income_profile.index
    profile_encoded = profile_encoded.reindex(columns=reference_cols, fill_value=False)


    cols_to_normalize_profile = [col for col in numerical_cols_original if col in profile_encoded.columns]

    profile_encoded[cols_to_normalize_profile] = scaler.transform(profile_encoded[cols_to_normalize_profile])

    return profile_encoded
# Funcion para calcular la similitud del coseno entre un perfil preprocesado y el perfil de altos ingresos
def calculate_similarity(preprocessed_profile, high_income_profile):
   
    similarity = cosine_similarity(preprocessed_profile, high_income_profile.values.reshape(1, -1))[0][0]

    return similarity

### Funcion para Generar Recomendaciones (Logica Refinada)

In [15]:
def generate_recommendations_for_one_profile(original_profile_data, preprocessed_profile_row, high_income_profile, df_original, df_high_income_original, occupation_by_education):
   

    recommendations = []


    original_education = original_profile_data.get("education") if isinstance(original_profile_data, dict) else original_profile_data["education"]

    education_recommendation = None
    high_income_education_counts = df_high_income_original["education"].value_counts(normalize=True)

    # Definimos un orden jerárquico para los niveles educativos
    education_order = ["Preschool", "1st-4th", "5th-6th", "7th-8th", "9th", "10th", "11th", "12th",
                       "HS-grad", "Some-college", "Assoc-voc", "Assoc-acdm", "Bachelors",
                       "Masters", "Prof-school", "Doctorate"]

    # Verificamos si el nivel educativo original está en nuestro orden definido
    if original_education and original_education in education_order:

        current_edu_index = education_order.index(original_education)

        # Buscamos niveles educativos superiores al actual en el grupo de altos ingresos que sean significativamente comunes (> 5%)
        for edu in education_order[current_edu_index + 1:]:
            if edu in high_income_education_counts.index and high_income_education_counts[edu] > 0.05:
                education_recommendation = f"Considerar alcanzar el nivel educativo '{edu}'"
                break # Recomendamos solo el primer nivel superior común encontrado para mantener una única recomendación

    if education_recommendation:
        recommendations.append(education_recommendation)



    # --- Lógica refinada para recomendaciones de Ocupación ---
    occupation_recommendation = None

    target_education_for_occupation = original_education

  
    if education_recommendation and "alcanzar el nivel educativo" in education_recommendation:

         recommended_edu_level = education_recommendation.split("'")[1]
         # Verificamos si el nivel educativo recomendado existe como índice en nuestra tabla de ocupación por educación
         if recommended_edu_level in occupation_by_education.index:
             target_education_for_occupation = recommended_edu_level


    original_occupation = original_profile_data.get("occupation") if isinstance(original_profile_data, dict) else original_profile_data["occupation"]
    if target_education_for_occupation and target_education_for_occupation in occupation_by_education.index:
        # Obtenemos las ocupaciones más comunes para el nivel educativo objetivo en el grupo >50K
        occupations_for_edu = occupation_by_education.loc[target_education_for_occupation].sort_values(ascending=False)

        
        for occ, count in occupations_for_edu.items():
            if occ != "?" and occ != original_occupation and count > 0:
                occupation_recommendation = f"Considerar una ocupación en el área de '{occ}' (común para el nivel educativo '{target_education_for_occupation}' en altos ingresos)"
                break 

    if occupation_recommendation:
         recommendations.append(occupation_recommendation)


    # --- Recomendaciones para Horas por Semana ---
    hours_col = "hours-per-week"
  
    high_income_avg_hours = high_income_profile[hours_col]

    individual_hours_normalized = preprocessed_profile_row.iloc[0][hours_col]

    # Un umbral para considerar una diferencia significativa en horas (ej. si trabaja menos del 80% del promedio alto)
    if individual_hours_normalized < high_income_avg_hours * 0.8:
        # Para la recomendación, desnormalizamos el promedio de horas del grupo alto ingreso para que sea más comprensible
        min_hours = df_original["hours-per-week"].min() 
        max_hours = df_original["hours-per-week"].max() 

        avg_hours_denormalized = high_income_avg_hours * (max_hours - min_hours) + min_hours
        recommendations.append(f"Considerar aumentar las horas de trabajo por semana (el promedio en altos ingresos es de aproximadamente {avg_hours_denormalized:.1f} horas)")

    return recommendations

#### Funcion Principal para Obtener Recomendaciones para un Perfil Especifico

In [16]:
def get_recommendations_for_profile(profile_data, high_income_profile, scaler, df_original, df_high_income_original, occupation_by_education):

    print("--- Procesando Perfil y Generando Recomendaciones ---")

    # 1. Preprocesar el perfil simulado
    preprocessed_profile = preprocess_simulated_profile(profile_data, df_original, scaler)

    # 2. Calcular la similitud
    similarity_score = calculate_similarity(preprocessed_profile, high_income_profile)

    # 3. Generar recomendaciones utilizando la lógica refinada
    # Pasamos el perfil original y el preprocesado a la función de recomendación
    recommendations = generate_recommendations_for_one_profile(
        profile_data,         # Datos originales del perfil
        preprocessed_profile, # Datos preprocesados del perfil (necesario para horas normalizadas)
        high_income_profile,
        df_original,
        df_high_income_original,
        occupation_by_education
    )

    print("\n--- Proceso Completado ---")

    return similarity_score, recommendations

#### Funcion para Procesar una Lista de Perfiles Simulados

In [17]:
def process_and_recommend_simulated_profiles(simulated_profiles_data_list, high_income_profile, scaler, df_original, df_high_income_original, occupation_by_education):

    print("--- Procesando Lista de Perfiles Simulados y Generando Recomendaciones ---")

    # Iterar sobre cada perfil en la lista
    for i, profile_data in enumerate(simulated_profiles_data_list):
        print(f"\n--- Perfil Simulado {i + 1} ---")

        # Llamar a la función principal para obtener recomendaciones para este perfil
        similarity, recommendations = get_recommendations_for_profile(
            profile_data,
            high_income_profile,
            scaler,
            df_original,
            df_high_income_original,
            occupation_by_education
        )

        # Mostrar los resultados para este perfil
        print(f"\nSimilitud con perfil de altos ingresos: {similarity:.4f}")
        if recommendations:
            print("Posibles recomendaciones basadas en el perfil de altos ingresos:")
            print("- " + "\n- ".join(recommendations))
        else:
            print("Este perfil simulado ya tiene muchas características similares al perfil de altos ingresos en estas áreas clave.")

    print("\n--- Proceso de Lista de Perfiles Simulados Completado ---")

### Demostracion: Recomendaciones para Individuos Menos Similares del Dataset

In [18]:
print("Perfil promedio del grupo con ingresos >50K (para referencia):")
display(high_income_profile)

# Seleccionamos los 5 individuos con bajos ingresos menos similares basándonos en la similitud calculada previamente
top_similar_low_income = df_low_income_sorted.tail(5)

print("\nRecomendaciones (Educación, Ocupación, Horas por Semana) para los 5 individuos con bajos ingresos menos similares:")

for index, row in top_similar_low_income.iterrows():
    print(f"\nIndividuo con índice original: {index}")
    print(f"Similitud con perfil de altos ingresos: {row['similarity_with_high_income']:.4f}")

    recommendations = generate_recommendations_for_one_profile( # Usamos la misma función refinada
        df.loc[index],         # Datos originales del individuo (como una Serie)
        pd.DataFrame([row]),   # Datos preprocesados del individuo (como un DataFrame de 1 fila)
        high_income_profile,
        df, # Pasamos el DataFrame original
        df_high_income_original,
        occupation_by_education
    )

    # Mostrar las recomendaciones generadas
    if recommendations:
        print("Posibles recomendaciones basadas en el perfil de altos ingresos:")
        print("- " + "\n- ".join(recommendations))
    else:
        print("Este individuo ya tiene muchas características similares al perfil de altos ingresos en estas áreas clave.")

Perfil promedio del grupo con ingresos >50K (para referencia):


age                               0.373285
fnlwgt                            0.118881
education-num                     0.707444
capital-gain                      0.040062
capital-loss                      0.044766
                                    ...   
native-country_Thailand           0.000383
native-country_Trinadad&Tobago    0.000255
native-country_United-States      0.914552
native-country_Vietnam            0.000638
native-country_Yugoslavia         0.000765
Length: 100, dtype: float64


Recomendaciones (Educación, Ocupación, Horas por Semana) para los 5 individuos con bajos ingresos menos similares:

Individuo con índice original: 2130
Similitud con perfil de altos ingresos: 0.1222
Posibles recomendaciones basadas en el perfil de altos ingresos:
- Considerar alcanzar el nivel educativo 'HS-grad'
- Considerar una ocupación en el área de 'Craft-repair' (común para el nivel educativo 'HS-grad' en altos ingresos)

Individuo con índice original: 9595
Similitud con perfil de altos ingresos: 0.1176
Posibles recomendaciones basadas en el perfil de altos ingresos:
- Considerar alcanzar el nivel educativo 'HS-grad'
- Considerar una ocupación en el área de 'Craft-repair' (común para el nivel educativo 'HS-grad' en altos ingresos)

Individuo con índice original: 9353
Similitud con perfil de altos ingresos: 0.1124
Posibles recomendaciones basadas en el perfil de altos ingresos:
- Considerar alcanzar el nivel educativo 'HS-grad'
- Considerar una ocupación en el área de 'Craft-repa

### Demostracion: Recomendaciones para Perfiles Simulados

In [20]:
# Ejemplo de lista de perfiles simulados que queremos probar
simulated_profiles_list_test = [
    {
        'age': 30, 'workclass': 'Private', 'fnlwgt': 150000, 'education': 'HS-grad', 'education-num': 9,
        'marital-status': 'Never-married', 'occupation': 'Other-service', 'relationship': 'Not-in-family',
        'race': 'White', 'sex': 'Female', 'capital-gain': 0, 'capital-loss': 0, 'hours-per-week': 40,
        'native-country': 'United-States'
    },
    {
        'age': 45, 'workclass': 'Self-emp-not-inc', 'fnlwgt': 200000, 'education': 'Bachelors', 'education-num': 13,
        'marital-status': 'Married-civ-spouse', 'occupation': 'Exec-managerial', 'relationship': 'Husband',
        'race': 'Black', 'sex': 'Male', 'capital-gain': 5000, 'capital-loss': 0, 'hours-per-week': 50,
        'native-country': 'Mexico'
    },
     {
        'age': 22, 'workclass': '?', 'fnlwgt': 100000, 'education': '11th', 'education-num': 7,
        'marital-status': 'Single', 'occupation': '?', 'relationship': 'Own-child',
        'race': 'Black', 'sex': 'Female', 'capital-gain': 0, 'capital-loss': 0, 'hours-per-week': 25,
        'native-country': 'Honduras'
    }
]

# Llamar a la función principal para procesar la lista de perfiles simulados y mostrar las recomendaciones
process_and_recommend_simulated_profiles(
    simulated_profiles_list_test, # Lista de perfiles a procesar
    high_income_profile,          # Perfil de altos ingresos (calculado previamente)
    scaler,                       # Scaler (fitado previamente)
    df,                           # DataFrame original (limpio)
    df_high_income_original,      # DataFrame original solo grupo alto ingreso (educacion/ocupacion)
    occupation_by_education       # Tabla de contingencia ocupacion por educacion (alto ingreso)

)

--- Procesando Lista de Perfiles Simulados y Generando Recomendaciones ---

--- Perfil Simulado 1 ---
--- Procesando Perfil y Generando Recomendaciones ---

--- Proceso Completado ---

Similitud con perfil de altos ingresos: 0.5145
Posibles recomendaciones basadas en el perfil de altos ingresos:
- Considerar alcanzar el nivel educativo 'Some-college'
- Considerar una ocupación en el área de 'Exec-managerial' (común para el nivel educativo 'Some-college' en altos ingresos)

--- Perfil Simulado 2 ---
--- Procesando Perfil y Generando Recomendaciones ---

--- Proceso Completado ---

Similitud con perfil de altos ingresos: 0.5667
Posibles recomendaciones basadas en el perfil de altos ingresos:
- Considerar alcanzar el nivel educativo 'Masters'
- Considerar una ocupación en el área de 'Prof-specialty' (común para el nivel educativo 'Masters' en altos ingresos)

--- Perfil Simulado 3 ---
--- Procesando Perfil y Generando Recomendaciones ---

--- Proceso Completado ---

Similitud con perfil d

Este sistema de recomendación basado en contenido es una herramienta útil para identificar áreas de desarrollo potencial para individuos con bajos ingresos, basándose en patrones observados en perfiles de altos ingresos. Las recomendaciones son sugerencias basadas en correlaciones en los datos y deben interpretarse como puntos de partida para la exploración de oportunidades.