In [2]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
from sklearn.linear_model import LogisticRegression

# Datos proporcionados
data = [
  {
    "response": 200,
    "body": {
      "id": 1,
      "age": 18,
      "codes": ["a", "b"],
      "name": "Bob"
    }
  },
  {
    "response": 404,
    "body": {
      "id": 2,
      "age": 10,
      "codes": ["a", "b"],
      "name": "Bob2"
    }
  },
  {
    "response": 404,
    "body": {
      "id": 3,
      "age": 15,
      "codes": ["a", "b", "c"],
      "name": "Bob3"
    }
  },
  {
    "response": 404,
    "body": {
      "id": 4,
      "age": 8,
      "codes": ["a", "b"],
      "name": "Bob5"
    }
  },
  {
    "response": 200,
    "body": {
      "id": 5,
      "age": 25,
      "codes": ["a", "b"],
      "name": "Bob5"
    }
  },
]

# Extraer las características y etiquetas de los datos
X = [d["body"] for d in data]
y = [d["response"] == 200 for d in data]  # True si es 200, False si es 404

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Vectorizar las características utilizando DictVectorizer
vectorizer = DictVectorizer()
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

# Entrenar un modelo de clasificación (por ejemplo, Regresión Logística)
model = LogisticRegression()
model.fit(X_train_vec, y_train)

# Realizar predicciones para los datos de prueba
y_pred = model.predict(X_test_vec)

# Imprimir los resultados de las predicciones
for i, prediction in enumerate(y_pred):
    data_point = X_test[i]
    response = "200" if prediction else "404"
    print(f"Datos: {data_point}, Predicción de response: {response}")


Datos: {'id': 2, 'age': 10, 'codes': ['a', 'b'], 'name': 'Bob2'}, Predicción de response: 404


In [3]:
nuevo_dato = {
    "id": 3,
    "age": 5,
    "codes": ["a", "b"],
    "name": "Bob5"
}

# Vectorizar el nuevo dato
nuevo_X = [nuevo_dato]
nuevo_X_vec = vectorizer.transform(nuevo_X)

# Hacer la predicción en el nuevo dato
nueva_prediccion = model.predict(nuevo_X_vec)

# Obtener el resultado predicho
response_predicho = "200" if nueva_prediccion[0] else "404"

print(f"El nuevo dato tiene response: {response_predicho}")

El nuevo dato tiene response: 404


In [4]:
coeficientes = model.coef_
nombres_caracteristicas = vectorizer.get_feature_names_out()

# Imprimir los coeficientes y sus correspondientes características
for i, coef in enumerate(coeficientes[0]):
    print(f"Coeficiente para la característica '{nombres_caracteristicas[i]}': {coef}")

Coeficiente para la característica 'age': 0.6369128409625963
Coeficiente para la característica 'codes=a': 6.332746750872895e-06
Coeficiente para la característica 'codes=b': 6.332746750872895e-06
Coeficiente para la característica 'codes=c': -0.17947651420532512
Coeficiente para la característica 'id': -0.32562929608514346
Coeficiente para la característica 'name=Bob': 0.1718102816416867
Coeficiente para la característica 'name=Bob3': -0.17947651420532512
Coeficiente para la característica 'name=Bob5': 0.007672565310389262
