# Regresión Logística Detección de Ingresos

Predecir si los ingresos anuales de una persona superan los $50K/año sobre la base de los datos del censo. También conocido como "Census Income" dataset.

## Enunciado del ejercicio

Se propone la construcción de un sistema de aprendizaje automático capaz de predecir si un correo determinado se corresponde con un SPAM o no, para ello se utilizará el siguiente DataSet:

### [Adulto UCI Machine Learning](https://archive.ics.uci.edu/dataset/2/adult)

- Casos

48842


In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score

In [2]:
# Cargar el dataset
url_train = "/home/jehiel/Documentos/Simulación/datasets/datasets/adult/adult.data"
url_test = "/home/jehiel/Documentos/Simulación/datasets/datasets/adult/adult.test"

In [3]:
column_names = [
    "age", "workclass", "fnlwgt", "education", "education-num", 
    "marital-status", "occupation", "relationship", "race", 
    "sex", "capital-gain", "capital-loss", "hours-per-week", 
    "native-country", "income"
]

In [4]:
# Cargar datos de entrenamiento y prueba
train_data = pd.read_csv(url_train, header=None, names=column_names, skipinitialspace=True)
test_data = pd.read_csv(url_test, header=None, names=column_names, skipinitialspace=True, skiprows=1)

In [5]:
# Concatenar los datos para preprocesarlos juntos
data = pd.concat([train_data, test_data])

In [6]:
# Reemplazar los valores faltantes ('?' -> NaN)
data.replace('?', pd.NA, inplace=True)

In [7]:
# Eliminar filas con valores faltantes
data.dropna(inplace=True)

In [8]:
# Convertir variables categóricas a numéricas
label_encoders = {}
for col in data.select_dtypes(include="object").columns:
    if col != "income":  # No transformar la columna objetivo aún
        le = LabelEncoder()
        data[col] = le.fit_transform(data[col])
        label_encoders[col] = le

In [9]:
# Transformar la columna objetivo (income) en binaria
data["income"] = data["income"].apply(lambda x: 1 if ">50K" in str(x) else 0)

In [10]:
# Separar características (X) y objetivo (y)
X = data.drop("income", axis=1)
y = data["income"]

In [11]:
# Dividir en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [12]:
# Asegurarse de que X_train y X_test sean 2D y de tipo float64
X_train = X_train.astype('float64')
X_test = X_test.astype('float64')

In [13]:
# Verificar si X_test tiene la forma correcta (2D)
if len(X_test.shape) == 1:
    X_test = X_test.reshape(1, -1)

In [14]:
# Entrenamiento y evaluación del modelo
model = LogisticRegression(random_state=42, max_iter=1000)  # max_iter=1000 para asegurar que converge
model.fit(X_train, y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [16]:
# Predicción y evaluación
y_pred = model.predict(X_test)

In [17]:
# Verificar que la predicción se ha hecho correctamente
if y_pred is not None:
    print("Accuracy:", accuracy_score(y_test, y_pred))
    print(classification_report(y_test, y_pred))
else:
    print("No se pudieron hacer predicciones. Verifica el modelo y los datos.")

Accuracy: 0.8028745163073522
              precision    recall  f1-score   support

           0       0.82      0.93      0.88      6745
           1       0.69      0.42      0.52      2300

    accuracy                           0.80      9045
   macro avg       0.75      0.68      0.70      9045
weighted avg       0.79      0.80      0.78      9045

