In [2]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from scipy.sparse import hstack

file_path_1 = 'csvs_f1_limpios/f1_data_limpia_2019_2022.csv'
data = pd.read_csv(file_path_1)
print("---------- Data del 2019 al 2022 ----------")
print(data)
print("-------------------------------------------")

# Divido los datos en características (X) y etiquetas (y)
# Cuando se divide un conjunto de datos en características (X) y etiquetas (y), generalmente se hace para separar las variables 
# independientes (características) de la variable dependiente (etiquetas) que estás tratando de predecir. 
# En muchos casos, la última columna del conjunto de datos se asume como la columna de etiquetas.

# Muchos modelos de aprendizaje automático requieren datos numéricos como entrada. 
# Si estás trabajando con texto y deseas entrenar un modelo de aprendizaje automático, 
# generalmente necesitarás realizar un preprocesamiento para convertir el texto en una 
# representación numérica antes de utilizar fit.

# Convertir las columnas de texto a representación numérica
vectorizer = CountVectorizer()
X_text = data['Track'] + ' ' + data['Driver']  # Concatenar las columnas de texto
X_text_vectorized = vectorizer.fit_transform(X_text)

# Concatenar las columnas vectorizadas con las columnas numéricas
X_numeric = data[['Position']].values  # Convertir la columna 'position' a un array NumPy
X_combined = hstack([X_text_vectorized, X_numeric])

# Definir la variable objetivo (columna 'win')
y = data['Win']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_combined, y, test_size=0.2, random_state=42)

# Inicializar y entrenar un clasificador Naive Bayes
model = MultinomialNB()
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print(" ")
print("---------- Porcentaje de precición del modelo ----------")
print(f'Precisión del modelo: {accuracy * 100:.2f}%')
print("--------------------------------------------------------")

# Realizar predicciones
file_path_2 = 'dato_a_predecir.csv'
dataAPredecir = pd.read_csv(file_path_2)
print(" ")
print("---------- Data a predecir ----------")
print(dataAPredecir)
print("-------------------------------------")

# Convertir las columnas de texto a representación numérica (usando el mismo vectorizer del entrenamiento)
X_text_nuevos = dataAPredecir['Track'] + ' ' + dataAPredecir['Driver']
X_text_vectorized_nuevos = vectorizer.transform(X_text_nuevos)

# Concatenar las columnas vectorizadas con las columnas numéricas
X_numeric_nuevos = dataAPredecir[['Position']].values
X_combined_nuevos = hstack([X_text_vectorized_nuevos, X_numeric_nuevos])

# Realizar predicciones en los nuevos datos
predicciones_nuevos = model.predict(X_combined_nuevos)

# Imprimir las predicciones
print(" ")
print("Predicción para nuevo dato:", predicciones_nuevos)

if predicciones_nuevos == 1:
    print("El piloto ganará la carrera")
else:
    print("El piloto no ganará la carrera")


---------- Data del 2019 al 2022 ----------
          Track  Position            Driver  Win
0     Australia       1.0   Valtteri Bottas    1
1     Australia       2.0    Lewis Hamilton    0
2     Australia       3.0    Max Verstappen    0
3     Australia       4.0  Sebastian Vettel    0
4     Australia       5.0   Charles Leclerc    0
...         ...       ...               ...  ...
1420  Abu Dhabi      15.0   Valtteri Bottas    0
1421  Abu Dhabi      16.0   Mick Schumacher    0
1422  Abu Dhabi      17.0   Kevin Magnussen    0
1423  Abu Dhabi      18.0    Lewis Hamilton    0
1424  Abu Dhabi      19.0   Nicholas Latifi    0

[1425 rows x 4 columns]
-------------------------------------------
 
---------- Porcentaje de precición del modelo ----------
Precisión del modelo: 95.79%
--------------------------------------------------------
 
---------- Data a predecir ----------
    Track  Position        Driver
0  Monaco         1  Yuki Tsunoda
-------------------------------------
 
Predic