# Predicción con los datos de test

### Leemos el DataSet de entrenamiento normalizado

In [1]:
import pandas as pd
import numpy as np
import json
import sys
sys.path.append('..')  # Añade el directorio padre (logistic_regression) al path
from src.ft_functions import predict

## Cargar datos de test normalizados

In [2]:
# Ahora solo necesitamos el Dataset de test
df_test = pd.read_csv('../datasets/normal_test.csv')

## Preparar los datos de test
Preparar X_test seleccionando solo las columnas usadas en entrenamiento y añadiendo el término de sesgo.

Necesitaremos preparar los datos en el formato correcto para hacer las predicciones:

In [3]:
# Preparar X_test (agregar columna de 1's para el término de sesgo)
X_test = df_test[['Best Hand', 'Age', 'Herbology', 'Defense Against the Dark Arts',
                  'Potions', 'Charms', 'Flying']]
X_test = np.c_[np.ones(len(X_test)), X_test]
X_test = np.array(X_test)

print("\nForma de X_test:", X_test.shape)


Forma de X_test: (400, 8)


## Recuperar los pesos óptimos
Ahora podemos usar la función predict que ya teníamos y los pesos óptimos (W_optimal) para hacer las predicciones.

In [4]:
# Cargar los pesos desde el archivo JSON
with open('../output/model_weights.json', 'r') as file:
    W_optimal = np.array(json.load(file))

print("Forma de la matriz de pesos:", W_optimal.shape)

Forma de la matriz de pesos: (8, 4)


## Predicciones usando los pesos óptimos
Ahora podemos usar la función predict que ya teníamos y los pesos óptimos (W_optimal) para hacer las predicciones.

In [5]:
# Hacer predicciones usando los pesos óptimos del entrenamiento
probabilities = predict(X_test, W_optimal)

# Obtener la clase predicha (la casa con mayor probabilidad)
predicted_houses = np.argmax(probabilities, axis=1)

# Convertir los índices a nombres de casas
house_names = ['Gryffindor', 'Hufflepuff', 'Ravenclaw', 'Slytherin']
predictions = [house_names[idx] for idx in predicted_houses]

# Mostrar algunas predicciones
print("\nPrimeras 5 predicciones:")
for i in range(5):
    print(f"Estudiante {i+1}:")
    print(f"Casa predicha: {predictions[i]}")
    print(f"Probabilidades: Gryffindor: {probabilities[i][0]:.3f}, Hufflepuff: {probabilities[i][1]:.3f}, "
          f"Ravenclaw: {probabilities[i][2]:.3f}, Slytherin: {probabilities[i][3]:.3f}\n")


Primeras 5 predicciones:
Estudiante 1:
Casa predicha: Hufflepuff
Probabilidades: Gryffindor: 0.007, Hufflepuff: 0.985, Ravenclaw: 0.007, Slytherin: 0.001

Estudiante 2:
Casa predicha: Ravenclaw
Probabilidades: Gryffindor: 0.012, Hufflepuff: 0.013, Ravenclaw: 0.938, Slytherin: 0.037

Estudiante 3:
Casa predicha: Gryffindor
Probabilidades: Gryffindor: 0.997, Hufflepuff: 0.001, Ravenclaw: 0.001, Slytherin: 0.002

Estudiante 4:
Casa predicha: Hufflepuff
Probabilidades: Gryffindor: 0.007, Hufflepuff: 0.966, Ravenclaw: 0.022, Slytherin: 0.005

Estudiante 5:
Casa predicha: Hufflepuff
Probabilidades: Gryffindor: 0.025, Hufflepuff: 0.931, Ravenclaw: 0.033, Slytherin: 0.010



## Crear archivo `houses.csv` con las predicciones

In [6]:
# Crear y guardar el archivo houses.csv
predictions_df = pd.DataFrame({
    'Index': range(len(predictions)),
    'Hogwarts House': predictions
})
predictions_df.to_csv('../output/houses.csv', index=False)

### Mostrar algunas predicciones

In [7]:
# Verificar algunas predicciones
print("\nPrimeras predicciones:\n")
print(predictions_df.head(6))

# Verificar el formato del archivo creado
print("\nPrimeras líneas del archivo houses.csv\n")
with open('../output/houses.csv', 'r') as file:
    for i, line in enumerate(file):
        if i < 7:
            print(line.strip())  # strip() elimina los saltos de línea extra


Primeras predicciones:

   Index Hogwarts House
0      0     Hufflepuff
1      1      Ravenclaw
2      2     Gryffindor
3      3     Hufflepuff
4      4     Hufflepuff
5      5      Slytherin

Primeras líneas del archivo houses.csv

Index,Hogwarts House
0,Hufflepuff
1,Ravenclaw
2,Gryffindor
3,Hufflepuff
4,Hufflepuff
5,Slytherin
