# Ejercicio 4
Se busca predecir si el tipo de fármaco que se debe administrar a un paciente afectado de rinitis alérgica es
el habitual o no. Se dispone de información correspondiente a las historias clínicas de pacientes atendidos
previamente. Las variables relevadas son las siguientes:

● Age: Edad

● Sex: Sexo

● BP (Blood Pressure): Presión sanguínea.

● Cholesterol: nivel de colesterol.

● Na: Nivel de sodio en la sangre

● K: Nivel de potasio en la sangre.

● Class: Fármaco suministrado. Cada paciente
ha sido medicado con un único fármaco de 5
posibles: DrugA, DrugB, DrugC, DrugX, Drug

### a) 
Utilice el archivo drug_train.csv para entrenar un perceptrón que sea capaz de predecir si el tipo de
fármaco que se debe administrar a un paciente afectado de rinitis alérgica es el habitual (suministro de
DrugY) o no. 

In [20]:
import pandas as pd
import numpy as np
from sklearn.linear_model import Perceptron
from sklearn.preprocessing import StandardScaler

# Configurar ruta de datos
DATOS_DIR = '../../Datos/'

# 1. Cargar datos
df = pd.read_csv(DATOS_DIR + 'drugs_train.csv', sep=',', encoding='utf-8-sig')
df.columns = df.columns.str.strip()

print("Datos originales:")
display(df.head())


mapeo = {
    'Sex': {'F': 1, 'M': 0},
    'BP': {'HIGH': 2, 'NORMAL': 1, 'LOW': 0},
    'Cholesterol': {'NORMAL': 0, 'HIGH': 1}
}

df.replace(mapeo, inplace=True)



X = df[['Age', 'Sex', 'BP', 'Cholesterol', 'Na', 'K']].values
T = (df['Drug'] == 'drugY').astype(int)


scaler = StandardScaler()
X_norm = scaler.fit_transform(X)


df_norm = pd.DataFrame(X_norm, columns=atributos)
    
    # Agregar la columna Drug para referencia
df_norm['Drug'] = df['Drug'].values
    
print("\n=== DATOS NORMALIZADOS (primeras 10 filas) ===")
display(df_norm.head(10))
    
# Mostrar estadísticas de normalización
print("\n=== ESTADÍSTICAS DE NORMALIZACIÓN ===")
stats_df = pd.DataFrame({
    'Atributo': atributos,
    'Media Original': scaler.mean_,
    'Desvío Original': np.sqrt(scaler.var_)
})
display(stats_df)



Datos originales:


Unnamed: 0,Age,Sex,BP,Cholesterol,Na,K,Drug
0,16,M,LOW,HIGH,0.743021,0.061886,drugC
1,42,F,HIGH,HIGH,0.533228,0.025348,drugY
2,33,F,LOW,HIGH,0.858387,0.025634,drugY
3,47,M,LOW,HIGH,0.697269,0.068944,drugC
4,56,F,HIGH,HIGH,0.750962,0.029571,drugY



=== DATOS NORMALIZADOS (primeras 10 filas) ===


  df.replace(mapeo, inplace=True)


Unnamed: 0,Age,Sex,BP,Cholesterol,Na,K,Drug
0,-1.697812,-0.987577,-1.271036,0.975305,0.367718,0.642032,drugC
1,-0.161397,1.012579,1.135659,0.975305,-1.432057,-1.476815,drugY
2,-0.693233,1.012579,-1.271036,0.975305,1.357422,-1.46023,drugY
3,0.134067,-0.987577,-1.271036,0.975305,-0.02478,1.051328,drugC
4,0.665903,1.012579,1.135659,0.975305,0.435842,-1.231922,drugY
5,-1.106883,1.012579,1.135659,-1.02532,0.701494,0.737658,drugA
6,1.315924,1.012579,-0.067688,0.975305,0.730001,-0.081106,drugY
7,-0.161397,-0.987577,-1.271036,0.975305,0.479895,-0.75588,drugY
8,0.488624,-0.987577,-1.271036,0.975305,-0.699641,-1.384553,drugY
9,1.197739,-0.987577,1.135659,-1.02532,-0.554247,0.303195,drugB



=== ESTADÍSTICAS DE NORMALIZACIÓN ===


Unnamed: 0,Atributo,Media Original,Desvío Original
0,Age,44.73125,16.922515
1,Sex,0.49375,0.499961
2,BP,1.05625,0.831015
3,Cholesterol,0.5125,0.499844
4,Na,0.700157,0.116566
5,K,0.050815,0.017244


In [21]:
ppn = Perceptron(alpha=0.01, max_iter=1000, random_state=42)
ppn.fit(X_norm, T)

Y_pred = ppn.predict(X_norm)
aciertos = sum(Y_pred == T)
print(f"\nPrecisión en entrenamiento: {100*aciertos/len(T):.2f}%")
print(f"Aciertos: {aciertos}/{len(T)}")

# Mostrar con nombres de atributos
atributos = ['Age', 'Sex', 'BP', 'Cholesterol', 'Na', 'K']
print(f"\n=== PESOS POR ATRIBUTO ===")
for i, atributo in enumerate(atributos):
    print(f"W({atributo:12s}) = {ppn.coef_[0][i]:8.4f}")
print(f"Bias (b)         = {ppn.intercept_[0]:8.4f}")


Precisión en entrenamiento: 100.00%
Aciertos: 160/160

=== PESOS POR ATRIBUTO ===
W(Age         ) =  -0.9772
W(Sex         ) =  -0.0250
W(BP          ) =   0.1354
W(Cholesterol ) =   0.0500
W(Na          ) =   6.2207
W(K           ) = -15.9307
Bias (b)         =  -2.0000


### b) 
Luego utilice el archivo drugs_test.csv para medir la calidad del modelo.

In [22]:
# EJERCICIO B - Evaluación con datos de test

# 1. Cargar datos de test
df_test = pd.read_csv(DATOS_DIR + 'drugs_test.csv', sep=',', encoding='utf-8-sig')
df_test.columns = df_test.columns.str.strip()

print("=== DATOS DE TEST ORIGINALES ===")
display(df_test.head())

# 2. Aplicar el mismo mapeo que en entrenamiento
df_test.replace(mapeo, inplace=True)

# 3. Preparar X_test y T_test
X_test = df_test[['Age', 'Sex', 'BP', 'Cholesterol', 'Na', 'K']].values
T_test = (df_test['Drug'] == 'drugY').astype(int)

# 4. Normalizar usando el mismo scaler de entrenamiento (importante!)
X_test_norm = scaler.transform(X_test)

# 5. Realizar predicciones
Y_test_pred = ppn.predict(X_test_norm)

# 6. Calcular métricas
aciertos_test = sum(Y_test_pred == T_test)
precision_test = 100 * aciertos_test / len(T_test)

print("\n" + "=" * 80)
print("RESULTADOS EN CONJUNTO DE TEST")
print("=" * 80)
print(f"Precisión: {precision_test:.2f}%")
print(f"Aciertos: {aciertos_test}/{len(T_test)}")

# 7. Mostrar matriz de confusión
print("\n=== MATRIZ DE CONFUSIÓN ===")
from sklearn.metrics import confusion_matrix

cm = confusion_matrix(T_test, Y_test_pred)
print(f"\n              Predicho")
print(f"              No DrugY | DrugY")
print(f"Real No DrugY    {cm[0,0]:4d}  |  {cm[0,1]:4d}")
print(f"     DrugY       {cm[1,0]:4d}  |  {cm[1,1]:4d}")

# 8. Mostrar algunos ejemplos de predicciones
print("\n=== EJEMPLOS DE PREDICCIONES (primeros 10) ===")
resultados_df = pd.DataFrame({
    'Edad': df_test['Age'][:10].values,
    'Drug Real': df_test['Drug'][:10].values,
    'Esperado': T_test[:10].values,
    'Predicho': Y_test_pred[:10],
    'Estado': ['✓' if Y_test_pred[i] == T_test.iloc[i] else '✗' for i in range(10)]
})
display(resultados_df)

# 9. Comparación Train vs Test
print("\n=== COMPARACIÓN TRAIN VS TEST ===")
print(f"Precisión Entrenamiento: {100*aciertos/len(T):.2f}%")
print(f"Precisión Test:          {precision_test:.2f}%")
print(f"Diferencia:              {abs(100*aciertos/len(T) - precision_test):.2f}%")

=== DATOS DE TEST ORIGINALES ===


Unnamed: 0,Age,Sex,BP,Cholesterol,Na,K,Drug
0,47,F,LOW,HIGH,0.539774,0.05362,drugC
1,49,M,LOW,NORMAL,0.625889,0.056828,drugX
2,50,M,HIGH,HIGH,0.518285,0.069193,drugA
3,32,F,NORMAL,HIGH,0.549375,0.073474,drugX
4,40,M,HIGH,HIGH,0.557133,0.020022,drugY



RESULTADOS EN CONJUNTO DE TEST
Precisión: 95.00%
Aciertos: 38/40

=== MATRIZ DE CONFUSIÓN ===

              Predicho
              No DrugY | DrugY
Real No DrugY      20  |     2
     DrugY          0  |    18

=== EJEMPLOS DE PREDICCIONES (primeros 10) ===


  df_test.replace(mapeo, inplace=True)


Unnamed: 0,Edad,Drug Real,Esperado,Predicho,Estado
0,47,drugC,0,0,✓
1,49,drugX,0,0,✓
2,50,drugA,0,0,✓
3,32,drugX,0,0,✓
4,40,drugY,1,1,✓
5,63,drugY,1,1,✓
6,46,drugY,1,1,✓
7,58,drugY,1,1,✓
8,31,drugY,1,1,✓
9,66,drugY,1,1,✓



=== COMPARACIÓN TRAIN VS TEST ===
Precisión Entrenamiento: 100.00%
Precisión Test:          95.00%
Diferencia:              5.00%
