# Explore métodos de clasificación

## Instrucciones

En la [documentación de Scikit-learn](https://scikit-learn.org/stable/supervised_learning.html) encontrarás un gran lista de formas de clasificar los datos. Haz una pequeña búsqueda en estos documentos: tu meta es buscar los metódos de clasificación y hacer coincidir un conjunto de datos en este plan de estudios, una pregunta que puedes hacerle, y una técnica de clasificación. Crea una hoja de cálculo o tabla en un archivo .doc y explica cómo el conjunto de datos funcionaría con el algoritmo de clasificación.

## Clasificando jugadores de la MLB
Para abordar el modelo de clasificación utilizando bibliotecas como scikit-learn. Supongamos que se desea predecir la "Role" (posición) de un jugador de la MLB en función de las otras características.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

In [21]:
# Leer el archivo CSV
df = pd.read_csv('../data/SOCR_MLB.tsv',sep='\t', header=None, names=['Name','Team','Role','Height','Weight','Age'])
df

Unnamed: 0,Name,Team,Role,Height,Weight,Age
0,Adam_Donachie,BAL,Catcher,74,180.0,22.99
1,Paul_Bako,BAL,Catcher,74,215.0,34.69
2,Ramon_Hernandez,BAL,Catcher,72,210.0,30.78
3,Kevin_Millar,BAL,First_Baseman,72,210.0,35.43
4,Chris_Gomez,BAL,First_Baseman,73,188.0,35.71
...,...,...,...,...,...,...
1029,Brad_Thompson,STL,Relief_Pitcher,73,190.0,25.08
1030,Tyler_Johnson,STL,Relief_Pitcher,74,180.0,25.73
1031,Chris_Narveson,STL,Relief_Pitcher,75,205.0,25.19
1032,Randy_Keisler,STL,Relief_Pitcher,75,190.0,31.01


In [4]:
# Verificar la existencia de valores nulos o datos faltantes
print(df.isnull().sum())

Name      0
Team      0
Role      0
Height    0
Weight    1
Age       0
dtype: int64


### Preprocesamiento de datos:

In [10]:
# Convertir datos categóricos a numéricos usando Label Encoding
le = LabelEncoder()
df['Team'] = le.fit_transform(df['Team'])
df['Role'] = le.fit_transform(df['Role'])

# Eliminar filas con valores nulos
df = df.dropna()

# Dividir el conjunto de datos en características (X) y etiquetas (y)
X = df[['Height', 'Weight', 'Age', 'Team']]
y = df['Role']

# Dividir el conjunto de datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### Entrenar un modelo de clasificación:

In [11]:
# Inicializar y entrenar el modelo (Random Forest en este caso)
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

### Hacer predicciones y evaluar el modelo:

In [13]:
# Hacer predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

# Ver informe de clasificación
print(classification_report(y_test, y_pred))

Accuracy: 0.28019323671497587
              precision    recall  f1-score   support

           0       0.25      0.11      0.15        19
           1       0.00      0.00      0.00         6
           2       0.00      0.00      0.00        11
           3       0.33      0.35      0.34        37
           4       0.32      0.49      0.39        59
           5       0.12      0.11      0.12         9
           6       0.12      0.11      0.12         9
           7       0.27      0.24      0.26        50
           8       0.00      0.00      0.00         7

    accuracy                           0.28       207
   macro avg       0.16      0.16      0.15       207
weighted avg       0.25      0.28      0.26       207



El uso de este modelo entrenado para hacer predicciones para nuevos datos o hacer preguntas específicas como la prediccion de posicion para nuevos jugadores. 

In [38]:
# Nuevo jugador con estas características
nuevo_jugador = pd.DataFrame({'Height': [72], 'Weight': [80], 'Age': [25], 'Team': ['STL']})

In [39]:
# Crear un nuevo LabelEncoder solo para la columna 'Team'
le_team = LabelEncoder()

# Ajustar el LabelEncoder al conjunto de entrenamiento original
le_team.fit(df['Team'])

# Codificar el equipo en el nuevo jugador
nuevo_jugador['Team'] = le_team.transform(nuevo_jugador['Team'])

# Hacer la predicción con el modelo entrenado
prediccion = model.predict(nuevo_jugador)

# Convertir el resultado a la etiqueta original utilizando el inverso del LabelEncoder
posicion_predicha = le.inverse_transform(prediccion)

# Mostrar la posición predicha
print(f'La posición predicha para el nuevo jugador es: {posicion_predicha[0]}')

La posición predicha para el nuevo jugador es: 7


In [40]:
roles = df['Role'].unique().tolist()

print("Lista de roles:")
print(roles)

Lista de roles:
['Catcher', 'First_Baseman', 'Second_Baseman', 'Shortstop', 'Third_Baseman', 'Outfielder', 'Designated_Hitter', 'Starting_Pitcher', 'Relief_Pitcher']


Por lo tanto la posición del nuevo jugador es **Designated_Hitter**

Este código dará la posición predicha para el nuevo jugador según las características proporcionadas y el modelo que ha sido entrenado.