In [1]:
import pandas as pd

In [9]:
def pregunta_01():
    """
    En esta función se realiza la carga de datos.
    """
    # Lea el archivo `mushrooms.csv` y asignelo al DataFrame `df`
    df = pd.read_csv("mushrooms.csv")

    # Remueva la columna `veil-type` del DataFrame `df`.
    # Esta columna tiene un valor constante y no sirve para la detección de hongos.
    df = df.drop("veil_type", axis=1)

    # Asigne la columna `type` a la variable `y`.
    y = df["type"]

    # Asigne una copia del dataframe `df` a la variable `X`.
    X = df.copy()

    # Remueva la columna `type` del DataFrame `X`.
    X = X.drop("type", axis=1)

    # Retorne `X` y `y`
    return X, y

In [10]:
X, y = pregunta_01()

print(X.shape)
print(y.shape)
print(X.columns)

(8124, 21)
(8124,)
Index(['cap_shape', 'cap_surface', 'cap_color', 'bruises', 'odor',
       'gill_attachment', 'gill_spacing', 'gill_size', 'gill_color',
       'stalk_shape', 'stalk_root', 'stalk_surface_above_ring',
       'stalk_surface_below_ring', 'stalk_color_above_ring',
       'stalk_color_below_ring', 'veil_color', 'ring_number', 'ring_type',
       'spore_print_color', 'population', 'habitat'],
      dtype='object')


In [11]:

def pregunta_02():
    """
    Preparación del dataset.
    """

    # Importe train_test_split
    from sklearn.model_selection import train_test_split

    # Cargue los datos de ejemplo y asigne los resultados a `X` y `y`.
    X, y = pregunta_01()

    # Divida los datos de entrenamiento y prueba. La semilla del generador de números
    # aleatorios es 123. Use 50 patrones para la muestra de prueba.
    (X_train, X_test, y_train, y_test,) = train_test_split(
        X,
        y,
        test_size=50,
        random_state=123,
    )

    # Retorne `X_train`, `X_test`, `y_train` y `y_test`
    return X_train, X_test, y_train, y_test


In [12]:
X_train, X_test, y_train, y_test = pregunta_02()

print(y_train.value_counts().to_dict())
print(y_test.value_counts().to_dict())
print(X_train.iloc[:, 0].value_counts().to_dict())
print(X_train.iloc[:, 1].value_counts().to_dict())
print(X_test.iloc[:, 1].value_counts().to_dict())



{'e': 4179, 'p': 3895}
{'e': 29, 'p': 21}
{'x': 3628, 'f': 3139, 'k': 823, 'b': 448, 's': 32, 'c': 4}
{'y': 3219, 's': 2542, 'f': 2309, 'g': 4}
{'y': 25, 's': 14, 'f': 11}


In [14]:

def pregunta_03():
    """
    Especificación y entrenamiento del modelo. En sklearn, el modelo de regresión
    logística (a diferencia del modelo implementado normalmente en estadística) tiene
    un hiperparámetro de regularición llamado `Cs`. Consulte la documentación.

    Para encontrar el valor óptimo de Cs se puede usar LogisticRegressionCV.

    Ya que las variables explicativas son literales, resulta más conveniente usar un
    pipeline.
    """

    # Importe LogisticRegressionCV
    # Importe OneHotEncoder
    # Importe Pipeline
    from sklearn.linear_model import LogisticRegressionCV
    from sklearn.preprocessing import OneHotEncoder
    from sklearn.pipeline import Pipeline

    # Cargue las variables.
    X_train, _, y_train, _ = pregunta_02()

    # Cree un pipeline que contenga un estimador OneHotEncoder y un estimador
    # LogisticRegression con una regularización Cs=10
    pipeline = Pipeline(
        steps=[
            ("ohe", OneHotEncoder()),
            ("logistic", LogisticRegressionCV(Cs=10)),
        ],
    )

    # Entrene el pipeline con los datos de entrenamiento.
    pipeline.fit(X_train, y_train)

    # Retorne el pipeline entrenado
    return pipeline


In [15]:
X_train, X_test, y_train, y_test = pregunta_02()
pipeline = pregunta_03()

print(pipeline.score(X_train, y_train).round(6))
print(pipeline.score(X_test, y_test).round(6))

1.0
1.0


In [18]:

def pregunta_04():
    """
    Evalue el modelo obtenido.
    """

    # Importe confusion_matrix
    from sklearn.metrics import confusion_matrix

    # Obtenga el pipeline de la pregunta 3.
    pipeline = pregunta_03()

    # Cargue las variables.
    X_train, X_test, y_train, y_test = pregunta_02()

    # Evalúe el pipeline con los datos de entrenamiento usando la matriz de confusion.
    cfm_train = confusion_matrix(
        y_true=y_train,
        y_pred=pipeline.predict(X_train),
    )

    cfm_test = confusion_matrix(
        y_true=y_test,
        y_pred=pipeline.predict(X_test),
    )

    # Retorne la matriz de confusion de entrenamiento y prueba
    return cfm_train, cfm_test


In [19]:
cfm_train, cfm_test = pregunta_04()

print(cfm_train.tolist())
print(cfm_test.tolist())


[[4179, 0], [0, 3895]]
[[29, 0], [0, 21]]
