# Naive-Bayes Clasificador

## Noelia Otazo Rojo

### Importamos las librerías necesarias

In [5]:
# Comando para la instalación de las librerías necesarias
#!pip install matplotlib keras tensorflow scikit-learn seaborn pandas plotly numpy

import numpy as np
import pandas as pd
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn import datasets
from sklearn.metrics import classification_report

### Cargamos el dataset y transformamos los datos

In [6]:
# Cargar el dataset de emergencias del 112 en CYL
data = pd.read_csv(".\dataset\Accidentes.csv", encoding="cp1252", sep=";")

# Antes de nada borramos los valores nulos
data_clean=data.dropna()

# Visualizar los primeros registros
# data.head()

# Separamos los datos en entrenamiento y prueba.
data_train, data_test = train_test_split(data_clean, test_size=0.3, stratify=data_clean['Tipo Accidente'])

#Transforma los datos a numéricos
#Tipo Accidente
map_target_class = {'Atropello a peatón': 0, 'Colisión lateral y frontolateral': 1, 'Colisión por alcance y múltiple': 2, 'Otro tipo de accidente': 3, 'Salida de la vía': 4, 'Colisión frontal': 5, 'Colisión lateral': 6, 'Vuelco en la calzada': 7}
data_train['TipoAccidente_Numérico'] = data_train['Tipo Accidente'].map(map_target_class)
data_test['TipoAccidente_Numérico'] = data_test['Tipo Accidente'].map(map_target_class)

#Sexo
map_target_sexo = {'Mujer': 0, 'Hombre': 1}
data_train['Sexo_Numérico'] = data_train['Sexo'].map(map_target_sexo)
data_test['Sexo_Numérico'] = data_test['Sexo'].map(map_target_sexo)

#Accesorios de seguridad
map_target_accesorios = {'NINGUNO': 0, 'SE DESCONOCE': 1, 'UTILIZANDO CINTURÓN ': 3, 'SISTEMA DE RETENCIÓN': 4, 'UTILIZANDO CASCO': 5, 'CON REFLECTANTES': 6}
data_train['Accesorios_Numérico'] = data_train['Accesorios de seguridad'].map(map_target_accesorios)
data_test['Accesorios_Numérico'] = data_test['Accesorios de seguridad'].map(map_target_accesorios)

#Tipo de vehículo
map_target_tipo_vehiculo = {'Ambulancia': 0, 'Autobús': 1, 'Bicicleta o triciclo sin motor': 2, 'Camión MMA <= 3500 Kg': 3, 'Camión MMA > 3500 Kg': 4, 'Ciclomotor': 5, 'Desconocido': 6, 'Furgoneta': 7, 'Motocicleta': 8, 'Otros Vehículos': 9, 'Otros vehículos ligeros': 10, 'Turismo': 11, 'Vehículo articulado': 12}
data_train['Vehículo_Numérico'] = data_train['Tipo de vehículo'].map(map_target_tipo_vehiculo)
data_test['Vehículo_Numérico'] = data_test['Tipo de vehículo'].map(map_target_tipo_vehiculo)


# data_train.head(2)

data_train.dropna()
data_test.dropna()

X_train = data_train.drop(['Tipo Accidente', 'Sexo', 'Accesorios de seguridad', 'Tipo de vehículo', 'TipoAccidente_Numérico'], axis=1)
y_train = data_train['TipoAccidente_Numérico']
X_test  = data_test.drop(['Tipo Accidente', 'Sexo', 'Accesorios de seguridad', 'Tipo de vehículo', 'TipoAccidente_Numérico'], axis=1)
y_test  = data_test['TipoAccidente_Numérico']

# Aplica dropna() mientras X_train y X_test son todavía DataFrames de pandas
X_train = X_train.dropna()
X_test = X_test.dropna()

# Ahora, alinea y_train y y_test con los índices de X_train y X_test después de dropna()
y_train = data_train['TipoAccidente_Numérico'].loc[X_train.index]
y_test = data_test['TipoAccidente_Numérico'].loc[X_test.index]

print(X_train.shape[0] == y_train.shape[0])  # Debería ser True
print(X_test.shape[0] == y_test.shape[0])  # Debería ser True


True
True


### Generación y entrenamiento del modelo

In [7]:
gnb = GaussianNB()
gnb.fit(X_train,y_train)

### Predicción del modelo

In [8]:
y_pred = gnb.predict(X_test)

### Evaluación del modelo

In [10]:
print("Accuracy del modelo GNB: ", accuracy_score(y_test,y_pred))
print(classification_report(y_test, y_pred))

Accuracy del modelo GNB:  0.1447721179624665
              precision    recall  f1-score   support

           0       0.23      0.02      0.04       143
           1       0.30      0.04      0.07       193
           2       0.36      0.05      0.09       183
           3       0.24      0.09      0.13       172
           4       0.29      0.03      0.05       167
           5       0.29      0.04      0.08       136
           7       0.12      0.92      0.21       125

    accuracy                           0.14      1119
   macro avg       0.26      0.17      0.10      1119
weighted avg       0.27      0.14      0.09      1119



### Conclusión

Como podemos observar en la métrica anterior la puntuación del acierto de este modelo es de 0.14.  
Excepto para la clase 7, todas las clases tienen valores muy bajos de **precisión y recall**. Esto indica que el modelo tiene dificultades para identificar correctamente las instancias de la mayoría de las clases y, cuando lo hace, a menudo se equivoca.  
La clase 7 tiene un **recall** extremadamente alto del 92%, pero una precisión bastante baja del 12%. Demuestra un rendimiento desequilibrado y sugiere que el modelo está sesgado hacia la clasificación de instancias en la clase 7.