# Explore métodos de clasificación

## Instrucciones

En la [documentación de Scikit-learn](https://scikit-learn.org/stable/supervised_learning.html) encontrarás un gran lista de formas de clasificar los datos. Haz una pequeña búsqueda en estos documentos: tu meta es buscar los metódos de clasificación y hacer coincidir un conjunto de datos en este plan de estudios, una pregunta que puedes hacerle, y una técnica de clasificación. Crea una hoja de cálculo o tabla en un archivo .doc y explica cómo el conjunto de datos funcionaría con el algoritmo de clasificación.

Uno de los modelos más comunes es el clasificador de Bosques Aleatorios (Random Forest Classifier). Aquí tienes un ejemplo básico de cómo podrías hacerlo utilizando la biblioteca scikit-learn:

In [1]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder


In [2]:
# Leer el archivo CSV
df = pd.read_csv('../data/form.csv')

In [4]:
# Convierte todos los valores de la columna 'birth_month' a minúsculas
df['birth_month'] = df['birth_month'].str.lower()

In [6]:

# Remplaza los valores abreviados de los meses con sus nombres completos
month_mapping = {
    'jan': 'january',
    'sept': 'september',
    'nov': 'november',
    'dec': 'december'
}
df['birth_month'].replace(month_mapping, inplace=True)

In [7]:
# Rellena los valores faltantes en la columna 'state' con un valor predeterminado, por ejemplo, 'Unknown'
df['state'].fillna('Unknown', inplace=True)

# Imprime el DataFrame resultante
print(df)

  birth_month       state   pet
0     january     Unknown  Cats
1     january          CA  Cats
2   september      Hawaii   Dog
3     january          AK   Dog
4        july          RI  Cats
5   september  California  Cats
6       april          CA   Dog
7     january  California  Cats
8    november          FL   Dog
9    december     Florida  Cats


Estos pasos convierten todos los valores de la columna 'birth_month' a minúsculas y luego reemplazan los valores abreviados con sus nombres completos. Además, llenan los valores faltantes en la columna 'state' con 'Unknown'.

In [8]:
# Preprocesar los datos
le = LabelEncoder()
df['birth_month'] = df['birth_month'].str.lower().replace(month_mapping)
df['state'] = le.fit_transform(df['state'])
df['pet'] = le.fit_transform(df['pet'])

In [13]:
# Dividir los datos en conjuntos de entrenamiento y prueba
X = df[['birth_month', 'state']]
y = df['pet']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [None]:
# Crear y entrenar el modelo de Bosques Aleatorios
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)


In [None]:
# Hacer predicciones en el conjunto de prueba
predictions = clf.predict(X_test)

In [None]:
# Hacer una pregunta con nuevos datos
new_data = pd.DataFrame({'birth_month': ['july'], 'state': ['CA']})
new_data['birth_month'] = new_data['birth_month'].str.lower().replace(month_mapping)
new_data['state'] = le.transform(new_data['state'])
prediction = clf.predict(new_data)

# Imprimir la predicción
print(f"La predicción para la nueva entrada es: {le.inverse_transform(prediction)}")