# SVM y SVM basada en costo
## PROBLEMA
Los accidentes de tráfico constituyen un problema en casi cualquier país del mundo y están impactando de manera significativa en la sociedad debido al costo relacionado con muertes y lesiones. Por ejemplo, en el año 2010 la Organización Mundial de la Salud (OMS) estimó que 1.25 millones de muertes estuvieron relacionadas con lesiones producto de accidentes de este tipo. En
el año 2017, las estadísticas europeas indicaron que, cada minuto, se registraron 50 muertes en la carretera. Y, en Colombia, el Ministerio de Transporte estimó un promedio de 15 fallecidos al día por este tipo de accidentes en lo que va de año, siendo la tercera causa de muerte en el país. Por esta razón, actualmente existen investigaciones que buscan determinar el efecto significativo de la gravedad de las lesiones de los conductores causadas por los accidentes de tráfico y tratar de comprender la relación entre los factores de influencia y los resultados del accidente. Una vía para
obtener conocimiento que ayude a entender este fenómeno es construir un modelo con técnicas de aprendizaje que permita pronosticar la severidad de los accidentes.
## OBJETIVO
Utilizar el algoritmo de máquinas de vectores de soporte para construir este modelo de predicción. Utilice dos esquemas: SVM y SVM basada en costo. Nota: seleccione las variables que considere convenientes del conjunto de datos que se anexa.
## CONJUNTO DE DATOS
se localizan en la carpeta local "/data" para fácil lectura en otros computadores.
 - Accidents.csv
 - Dict_Accidents.xlsx
 
## LIBRERIAS EXTERNAS
para facilidad se instalan las librerías externas "xlrd" y "imbalanced-learn" con el comando "pip install ***"

### Importar librerias para trabajar

In [3]:
# importando dependencias de trabajo
# facilitar el trabajo en Jupyter
# from IPython.core.interactiveshell import InteractiveShell
# InteractiveShell.ast_node_interactivity = "all"

# se importa OS, pandas y numpy para leer y preparar datos
import os
from collections import OrderedDict
from collections import Counter
import pandas as pd
from pandas import ExcelWriter
from pandas import ExcelFile
import pandas_profiling as profile
import numpy as np

# los modelos de aprendizaje son
from sklearn import svm

# sklearn para manejo de experimentos, pruebas, optimizacion y otros
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import make_scorer
from sklearn.model_selection import GridSearchCV
from imblearn.over_sampling import SMOTE

### Cargar Archivos

Basado en el archivo "Dict_Accidents.xlsx" se realiza el análisis con pandas_profiling, se carga y se prueba disponibilidad del archivo "Accidents.csv".

no olvidar comando "pip install xlrd" para leer fácilmente archivos Excel.

NOTA: el archivo Excel se le modifico los nombres de las paginas antes de cargarse en el programa para hacer más fácil el procesamiento y análisis de datos.

In [4]:
# se cargan por medio de un path abstracto
# definiendo los nombres del archivo de datos para entrenamiento
# archivo de entrenamiento
sourceFile = os.path.join("data", "Accidents.csv")
sourceData = pd.read_csv(os.path.join(os.getcwd(), sourceFile), sep = ',', engine = 'python')

# archivo de anotaciones para el analisis
labelFile = os.path.join("data", "Dict_Accidents.xlsx")
labelData = pd.read_excel(os.path.join(os.getcwd(), labelFile), sheet_name = None)
labelData = dict(labelData)

In [5]:
# probando que el archivo de entrenamiento carga
sourceData.head()

Unnamed: 0,Accident_Index,Police_Force,Accident_Severity,Number_of_Vehicles,Number_of_Casualties,Day_of_Week,Local_Authority_(District),Road_Type,Speed_limit,Junction_Detail,Light_Conditions,Weather_Conditions,Road_Surface_Conditions,Special_Conditions_at_Site,Carriageway_Hazards,Urban_or_Rural_Area,Did_Police_Officer_Attend_Scene_of_Accident
0,201143N077061,43,1,5,1,7,477,3,70,0,1,1,1,0,0,2,1
1,2.00913E+12,13,1,2,1,5,202,6,50,0,1,1,1,0,0,2,1
2,200697LB70507,97,1,1,1,2,913,6,60,0,1,1,1,0,0,2,1
3,200897UA70101,97,1,1,1,4,931,6,30,0,4,1,2,0,0,1,1
4,2.00522E+12,21,1,1,1,7,255,6,60,3,6,8,4,0,0,2,1


### Análisis Preliminar de Datos

Se hace un análisis con pandas profite, se preparan los nombres de las columnas del set de entrenamiento y se tienen a la mano las referencias de las anotaciones en Excel.

Se chequea si se necesita hacer alguna conversión porque el modelo SVM solo acepta valores numéricos.

Por último, se hace el análisis de datos con “pandas_profiling”

In [6]:
# nombres de las columans del archivo "Accidents.cvs"
sourceColumnNames = list(sourceData)
sourceData.dtypes

Accident_Index                                 object
Police_Force                                    int64
Accident_Severity                               int64
Number_of_Vehicles                              int64
Number_of_Casualties                            int64
Day_of_Week                                     int64
Local_Authority_(District)                      int64
Road_Type                                       int64
Speed_limit                                     int64
Junction_Detail                                 int64
Light_Conditions                                int64
Weather_Conditions                              int64
Road_Surface_Conditions                         int64
Special_Conditions_at_Site                      int64
Carriageway_Hazards                             int64
Urban_or_Rural_Area                             int64
Did_Police_Officer_Attend_Scene_of_Accident     int64
dtype: object

### Reporte de Datos en Pandas

In [5]:
profile.ProfileReport(sourceData)



### Modificaciones al Conjunto de Datos

Después del análisis de datos, se toman las siguientes decisiones:

- La columna "Accident_Index" se elimina para evitar problemas en el entrenamiento.
- Las columnas "Carriageway_Hazards", "Junction_Detail" y "Special_Conditions_at_Site" se mantienen provisionalmente porque los ceros (0) son representaciones de datos por defecto dentro del conjunto.
- En las columnas se debe tener cuidado con el valor -1 en el rango, pues este es una ausencia de datos dentro del conjunto, inicialmente no se modifican o remueven porque la población es muy reducida < al 0.1 % de todos los datos. Sin embargo, en la optimización podría ser interesante remover estos datos.
- La columna "Local_Authority_(District)" remplaza la columna "Police_Force" ya que está altamente correlacionada (ρ = 0.9828873105) y genera ruido en el entrenamiento.
- La columna "Accident_Severity" representa la respuesta que yo quiero encontrar con el modelo entrenado.

In [7]:
# sacando del conjunto de datos las columnas que estan muy correlacionadas o entorpecen el entrenamiento
rejectedColumns = [
    "Accident_Index", 
    "Police_Force",
#     "Local_Authority_(District)"
]

# nombres viejos de las columnas
oldColumnNames = [
    "Did_Police_Officer_Attend_Scene_of_Accident", 
    "Local_Authority_(District)"
]
# nombres nuevos de las columnas por facilidad
newColumnNames = [
    "Officer_Attend_Scene",
    "Local_Authority",    
]

In [8]:
# se asegura no intentar borrar o modificar una columna que ya se borro o se modifico en el XSLX y el CSV.
# se inicia con el archivo CSV
for column in rejectedColumns:
#     print(column)
    if column in sourceColumnNames:
        # se elimina la columna que todavia no se ha borrado
        sourceData = sourceData.drop(columns = column, axis = 1)     

sourceColumnNames = list(sourceData)
# diccionario para renombrar columnas en pandas
renameDictCol = dict()
     
# renombrar columnas en el CSV para facilidad
for old, new in zip(oldColumnNames, newColumnNames):
    if old in sourceColumnNames:
        renameDictCol[old] = new
    sourceData = sourceData.rename(columns = renameDictCol)
    sourceColumnNames = list(sourceData)

In [9]:
# chequeando como va el CSV   
sourceData.dtypes

Accident_Severity             int64
Number_of_Vehicles            int64
Number_of_Casualties          int64
Day_of_Week                   int64
Local_Authority               int64
Road_Type                     int64
Speed_limit                   int64
Junction_Detail               int64
Light_Conditions              int64
Weather_Conditions            int64
Road_Surface_Conditions       int64
Special_Conditions_at_Site    int64
Carriageway_Hazards           int64
Urban_or_Rural_Area           int64
Officer_Attend_Scene          int64
dtype: object

In [10]:
# nombres de las paginas de archivo "Dict_Accidents.xlsx"
labelSheetNames = list(labelData.keys())
newLabels = dict()
# renombrar las paginas del XLSX para coordinar con CSV y faciltiar actividades
for label in labelSheetNames:
    for old in oldColumnNames:  
#         print("old: " + old + " --- label:" + label)
#       cuando el substring que busco es menor que la lista de referencia
        if len(label) <= len(old):
            if (old.find(label) != -1):
                new = newColumnNames[oldColumnNames.index(old)]
#                 print("reference label: " + label)
#                 print("old name: " + old)
#                 print("new name: " + new)
                labelDataSheet = labelData[label]
                newLabels.update({str(new):labelDataSheet})
                if label not in rejectedColumns and label not in newColumnNames:
                    rejectedColumns.append(label)
                
#       cuando el substring que busco es mayor que la lista de referencia
        elif len(label) > len(old):
            if (label.find(old) != -1):
                new = newColumnNames[oldColumnNames.index(label)]
#                 print("reference label: " + label)
#                 print("old name: " + old)
#                 print("new name: " + new)
                labelDataSheet = labelData[old]
                newLabels.update({str(new):labelDataSheet})
                if old not in rejectedColumns and old not in newColumnNames:
                    rejectedColumns.append(old)

labelData.update(newLabels)
# for key in labelData.keys():
#     print(key)

In [11]:
# se asegura no intentar borrar o modificar una columna que ya se borro o se modifico en el XSLX y el CSV.
for label in rejectedColumns:
#     print(label)
    if label in labelSheetNames and label in labelData.keys():
        # se elimina la columna que todavia no se ha borrado
        labelData.pop(label)

In [12]:
print("Numero de dolumnas de Datos: " + str(len(sourceData.dtypes)))
print("Numero de espacios por categorias: " + str(len(labelData.keys())))
missingBinColumns = list(sorted(set(list(sourceData)) - set(list(labelData.keys()))))
print('Columnas sin categorias:', missingBinColumns)

Numero de dolumnas de Datos: 15
Numero de espacios por categorias: 12
Columnas sin categorias: ['Number_of_Casualties', 'Number_of_Vehicles', 'Speed_limit']


### Discretización de Rangos

Después de una preparación de datos se nota que 3 columnas del conjunto de datos son de variables continuas que necesitan arreglos para ser efectivamente utilizados por el modelo. Las columnas son "Number_of_Casualties", "Number_of_Vehicles" y "Speed_limit".

se decide lo siguiente:

- "Number_of_Casualties" se divide en 6 conjuntos después de ver el histograma y los valores más comunes que puede tomar la columna. Un accidente con más de 6 víctimas es poco común.
- "Number_of_Vehicles" se divide en 5 conjuntos después ver el histograma y los valores comunes de la columna. Un accidente con más de 5 automóviles involucrados es poco común.
- "Speed_limit" se divide inicialmente en 6 dado los datos, con un mínimo de 20 y un máximo de 70. Sin embargo, se puede duplicar la división a 12 refinando los subconjuntos, todo dependerá del entrenamiento base.

In [13]:
# definiciones de los cuantiles y labels para modificar la columnas faltantes
quantilesDef = [6, 5, 6]
labelsDef = [[1,2,3,4,5,6], [1,2,3,4,5], [20,30,40,50,60,70]]
sourceColumnNames = list(sourceData)

for binColumn, quantile, label in zip(missingBinColumns, quantilesDef, labelsDef):
    if binColumn in sourceColumnNames:
        print("Column: " + binColumn)
        print("Bin: " + str(quantile))
        print("Label: " + str(label))
        # se organiza por la culumna que uno desea para no perder el orden
        sourceData.sort_values(binColumn)
        # se crean las divisiones y se rankea los datos para crearlos correctamente
        quantileSourceData = pd.cut(sourceData[binColumn].rank(method="dense"), quantile, labels = label)
        # se editan los datos de la columna
        sourceData[binColumn] = quantileSourceData
        print(sourceData[binColumn].value_counts())

Column: Number_of_Casualties
Bin: 6
Label: [1, 2, 3, 4, 5, 6]
1    4142
2     301
3      45
4       7
5       3
6       2
Name: Number_of_Casualties, dtype: int64
Column: Number_of_Vehicles
Bin: 5
Label: [1, 2, 3, 4, 5]
1    4048
2     348
3      97
4       5
5       2
Name: Number_of_Vehicles, dtype: int64
Column: Speed_limit
Bin: 6
Label: [20, 30, 40, 50, 60, 70]
30    2715
60     788
40     397
70     380
50     169
20      51
Name: Speed_limit, dtype: int64


In [14]:
# nombres viejos y nuevos de las columnas
oldBinColNames = missingBinColumns

newBinColNames = [
    "Number_Casualties_Quantile",
    "Number_Vehicles_Quantile",
    "Speed_limit_Quantile"
]

In [15]:
# renombrar columnas del dataframe
renameDictCol = dict()

for old, new in zip(oldBinColNames, newBinColNames):
    if old in sourceColumnNames:
        renameDictCol[old] = new
    sourceData = sourceData.rename(columns = renameDictCol)
    sourceColumnNames = list(sourceData)

In [16]:
# chequeando los cambios en el conjunto de datos
sourceData.dtypes

Accident_Severity                int64
Number_Vehicles_Quantile      category
Number_Casualties_Quantile    category
Day_of_Week                      int64
Local_Authority                  int64
Road_Type                        int64
Speed_limit_Quantile          category
Junction_Detail                  int64
Light_Conditions                 int64
Weather_Conditions               int64
Road_Surface_Conditions          int64
Special_Conditions_at_Site       int64
Carriageway_Hazards              int64
Urban_or_Rural_Area              int64
Officer_Attend_Scene             int64
dtype: object

In [17]:
sourceData.head()

Unnamed: 0,Accident_Severity,Number_Vehicles_Quantile,Number_Casualties_Quantile,Day_of_Week,Local_Authority,Road_Type,Speed_limit_Quantile,Junction_Detail,Light_Conditions,Weather_Conditions,Road_Surface_Conditions,Special_Conditions_at_Site,Carriageway_Hazards,Urban_or_Rural_Area,Officer_Attend_Scene
0,1,3,1,7,477,3,70,0,1,1,1,0,0,2,1
1,1,1,1,5,202,6,50,0,1,1,1,0,0,2,1
2,1,1,1,2,913,6,60,0,1,1,1,0,0,2,1
3,1,1,1,4,931,6,30,0,4,1,2,0,0,1,1
4,1,1,1,7,255,6,60,3,6,8,4,0,0,2,1


### Creando Representación Alterna
En esta etapa represento alternativamente los datos para facilitar el entrenamiento del modelo y retiro los datos que están fuera del rango y no representan el fenómeno. Específicamente los valores -1 que se observan fácilmente al hacer la representación alterna.

In [18]:
# fijando las columnas que transformare en dummies
dummyColumnNames = sourceColumnNames
if "Accident_Severity" in dummyColumnNames:
    dummyColumnNames.pop(dummyColumnNames.index("Accident_Severity"))
dummyColumnNames

['Number_Vehicles_Quantile',
 'Number_Casualties_Quantile',
 'Day_of_Week',
 'Local_Authority',
 'Road_Type',
 'Speed_limit_Quantile',
 'Junction_Detail',
 'Light_Conditions',
 'Weather_Conditions',
 'Road_Surface_Conditions',
 'Special_Conditions_at_Site',
 'Carriageway_Hazards',
 'Urban_or_Rural_Area',
 'Officer_Attend_Scene']

In [19]:
# creando la matriz de datos con dummies
sourceDataDummies = pd.get_dummies(sourceData, columns = dummyColumnNames)
sourceDataDummies.dtypes

Accident_Severity             int64
Number_Vehicles_Quantile_1    uint8
Number_Vehicles_Quantile_2    uint8
Number_Vehicles_Quantile_3    uint8
Number_Vehicles_Quantile_4    uint8
                              ...  
Urban_or_Rural_Area_2         uint8
Urban_or_Rural_Area_3         uint8
Officer_Attend_Scene_1        uint8
Officer_Attend_Scene_2        uint8
Officer_Attend_Scene_3        uint8
Length: 489, dtype: object

In [20]:
#confirmando operaciones
sourceDataDummies.head()

Unnamed: 0,Accident_Severity,Number_Vehicles_Quantile_1,Number_Vehicles_Quantile_2,Number_Vehicles_Quantile_3,Number_Vehicles_Quantile_4,Number_Vehicles_Quantile_5,Number_Casualties_Quantile_1,Number_Casualties_Quantile_2,Number_Casualties_Quantile_3,Number_Casualties_Quantile_4,...,Carriageway_Hazards_2,Carriageway_Hazards_3,Carriageway_Hazards_6,Carriageway_Hazards_7,Urban_or_Rural_Area_1,Urban_or_Rural_Area_2,Urban_or_Rural_Area_3,Officer_Attend_Scene_1,Officer_Attend_Scene_2,Officer_Attend_Scene_3
0,1,0,0,1,0,0,1,0,0,0,...,0,0,0,0,0,1,0,1,0,0
1,1,1,0,0,0,0,1,0,0,0,...,0,0,0,0,0,1,0,1,0,0
2,1,1,0,0,0,0,1,0,0,0,...,0,0,0,0,0,1,0,1,0,0
3,1,1,0,0,0,0,1,0,0,0,...,0,0,0,0,1,0,0,1,0,0
4,1,1,0,0,0,0,1,0,0,0,...,0,0,0,0,0,1,0,1,0,0


In [21]:
# por ultimo, quito las columnas con -1 porque aqui es mas facil hacerlo que en los otros pasos
dummyColumnNames = list(sourceDataDummies)
rejectedDummyColumns = list()
outOfBound = "-1"

for dummy in dummyColumnNames:
    if dummy.find(outOfBound) != -1:
        rejectedDummyColumns.append(dummy)

print("Columnas Fuera de Rango: " + str(rejectedDummyColumns))

for column in rejectedDummyColumns:
    if column in dummyColumnNames:
        # se elimina la columna que todavia no se ha borrado
        sourceDataDummies = sourceDataDummies.drop(columns = column, axis = 1)    

Columnas Fuera de Rango: ['Weather_Conditions_-1', 'Road_Surface_Conditions_-1', 'Carriageway_Hazards_-1']


In [22]:
# chequeando resultado de la operacion
sourceDataDummies.head()

Unnamed: 0,Accident_Severity,Number_Vehicles_Quantile_1,Number_Vehicles_Quantile_2,Number_Vehicles_Quantile_3,Number_Vehicles_Quantile_4,Number_Vehicles_Quantile_5,Number_Casualties_Quantile_1,Number_Casualties_Quantile_2,Number_Casualties_Quantile_3,Number_Casualties_Quantile_4,...,Carriageway_Hazards_2,Carriageway_Hazards_3,Carriageway_Hazards_6,Carriageway_Hazards_7,Urban_or_Rural_Area_1,Urban_or_Rural_Area_2,Urban_or_Rural_Area_3,Officer_Attend_Scene_1,Officer_Attend_Scene_2,Officer_Attend_Scene_3
0,1,0,0,1,0,0,1,0,0,0,...,0,0,0,0,0,1,0,1,0,0
1,1,1,0,0,0,0,1,0,0,0,...,0,0,0,0,0,1,0,1,0,0
2,1,1,0,0,0,0,1,0,0,0,...,0,0,0,0,0,1,0,1,0,0
3,1,1,0,0,0,0,1,0,0,0,...,0,0,0,0,1,0,0,1,0,0
4,1,1,0,0,0,0,1,0,0,0,...,0,0,0,0,0,1,0,1,0,0


### Division de datos para el entrenamiento

están desbalanceadas se utilizan dos métodos diferentes para balancear el procedimiento. El primero se denomina SMOTE y es básicamente un sobre muestreo balanceado por las clases que se desea predecir. Y el segundo, es implementar una SVM con pesos que tenga en cuenta el desbalanceo de clases al momento de minimizar el error de entrenamiento.

En esta etapa NO se puede olvidar el comando "pip install imbalanced-learn" para utilizar SMOTE en el conjunto de datos.

In [23]:
# chequeando los tipos de severidad para ver si necesita balanceo
sourceDataDummies["Accident_Severity"].value_counts()

3    3000
2    1000
1     500
Name: Accident_Severity, dtype: int64

In [24]:
# conjunto de entrenamiento sin balancear
trainData = sourceDataDummies
trainDataBalance = pd.DataFrame()

In [25]:
# conjunto de entrenamiento entrenado
# las clases 1 y 2 necesitan un sobre muestreo del mismo orden de magnitud que la clase 3
# con SMOTE porque es cool y 42 la respuesta universal de HHGttG
smoteResampler = SMOTE(random_state = 42)
dummyColumnNames = list(sourceDataDummies.drop(columns = ["Accident_Severity"], axis = 1))
smX, smY = smoteResampler.fit_resample(sourceDataDummies.drop(columns = ["Accident_Severity"], axis = 1), sourceDataDummies["Accident_Severity"])

In [26]:
# se crea el nuevo conjunto de datos balanceado de entrenamiento
if "Accident_Severity" not in dummyColumnNames:
    trainDataBalance = pd.DataFrame(data = smX, columns = dummyColumnNames)
    
    # se agrega la columna a predecir "Accident_Severity" para no reescribir mas codigo posteriormente
    trainDataBalance["Accident_Severity"] = smY
    dummyColumnNames = list(sourceDataDummies)

In [27]:
trainDataBalance.dtypes

Number_Vehicles_Quantile_1    uint8
Number_Vehicles_Quantile_2    uint8
Number_Vehicles_Quantile_3    uint8
Number_Vehicles_Quantile_4    uint8
Number_Vehicles_Quantile_5    uint8
                              ...  
Urban_or_Rural_Area_3         uint8
Officer_Attend_Scene_1        uint8
Officer_Attend_Scene_2        uint8
Officer_Attend_Scene_3        uint8
Accident_Severity             int64
Length: 486, dtype: object

In [28]:
# se confirma si el balanceo de clases esta bien hecho
trainDataBalance["Accident_Severity"].value_counts()

3    3000
2    3000
1    3000
Name: Accident_Severity, dtype: int64

### Entrenamiento preliminar SVM y de SVMW

En esta etapa se crean 3 modelos para entrenar. El primero se denomina ingenuo porque no tiene en cuenta el desbalanceo de clase ni la optimización por peso del modelo. El segundo, se denomina balanceo por datos porque implementa el procedimiento SMOTE para el conjunto de datos. Y el tercero, se denomina balanceo por Modelo SVM porque se incluye un parámetro en la inicialización del modelo que considera en la minimización del error el desbalance de las clases para predecir.

Los modelos se denominan:
-	Modelo ingenuo.
-	Modelo SMOTE.
-	Modelo con SVM por Peso.

Estos modelos entrenados se toman como base para la optimización que posteriormente se realiza con los hiper-parámetros.

Específicamente las instrucciones para implementar estas variantes son:
- Balancear el conjunto de datos con la función smoteResampler.fit_resample().
- Entrenar el modelo SVM con el parámetro de balanceo activo class_weight = "balanced".

In [29]:
# se remueve la clase a predecir
X = trainData.drop(columns = ["Accident_Severity"], axis = 1)
XB = trainDataBalance.drop(columns = ["Accident_Severity"], axis = 1)

In [30]:
# clase a predecir
y = trainData["Accident_Severity"]
yB = trainDataBalance["Accident_Severity"]

In [31]:
# division de poblacion de entrenamiento y pruebas
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)
X_trainB, X_testB, y_trainB, y_testB = train_test_split(XB, yB, test_size = 0.3, random_state = 42)

In [63]:
# definir parametros de SVM para entrenar
K = "rbf"
G = "scale"
DFS = "ovo"
# verbose = True
modelSVN  = svm.SVC(kernel = K, gamma = G, decision_function_shape = DFS, cache_size = 400)
modelSVNBData  = svm.SVC(kernel = K, gamma = G, decision_function_shape = DFS, cache_size = 400)
modelSVNBModel  = svm.SVC(kernel = K, gamma = G, decision_function_shape = DFS, class_weight = "balanced", cache_size = 400)

In [64]:
# entrenamiento de los modelo SVN
# modelSVN = modelo SVN sin balanceo en datos o entrenamiento
modelSVN.fit(X_train, y_train)

SVC(C=1.0, cache_size=400, class_weight=None, coef0=0.0,
    decision_function_shape='ovo', degree=3, gamma='scale', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

In [65]:
# modelSVNBData = modelo SVN con balanceo por conjunto de datos
modelSVNBData.fit(X_trainB, y_trainB)

SVC(C=1.0, cache_size=400, class_weight=None, coef0=0.0,
    decision_function_shape='ovo', degree=3, gamma='scale', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

In [66]:
# modelSVNBModel = modelo SVN con balanceo por entrenamiento
modelSVNBModel.fit(X_train, y_train)

SVC(C=1.0, cache_size=400, class_weight='balanced', coef0=0.0,
    decision_function_shape='ovo', degree=3, gamma='scale', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

In [67]:
# pruebas preliminares del entrenamiento ingenuo
severityPrediction = modelSVN.predict(X_test)

In [68]:
# pruebas preliminares del entrenamiento con balanceo por datos
severityPredictionBData = modelSVNBData.predict(X_testB)

In [69]:
# pruebas preliminares del entrenamiento con balanceo porentrenamiento
severityPredictionBModel = modelSVNBModel.predict(X_test)

In [70]:
# validacion preliminar ingenua
score = cross_val_score(modelSVN, X_train, y_train, cv = 3)

In [71]:
# validacion preliminar con balanceo por SMOTE
scoreBData = cross_val_score(modelSVNBData, X_trainB, y_trainB, cv = 3)

In [72]:
# validacion preliminar con balanceo por SVM Balanceado
scoreBModel = cross_val_score(modelSVNBModel, X_train, y_train, cv = 3)

In [73]:
# Informe de los resultados para las pruebas ingenuas
print("----- Reporte de Pruebas Ingenuo -----")
print("--- Conteo ---\n" + str(Counter(severityPrediction)))
print("--- Matriz de Confusion ---\n" + str(confusion_matrix(y_test, severityPrediction)))
print("--- Reporte de Pruebas: ---")
print(classification_report(y_test, severityPrediction))
print("--- Puntaje ---\n" + str(score))
print("--- Puntaje Promedio ---\n" + str(score.mean()))
preScore = score.mean()

----- Reporte de Pruebas Ingenuo -----
--- Conteo ---
Counter({3: 1350})
--- Matriz de Confusion ---
[[  0   0 164]
 [  0   0 308]
 [  0   0 878]]
--- Reporte de Pruebas: ---
              precision    recall  f1-score   support

           1       0.00      0.00      0.00       164
           2       0.00      0.00      0.00       308
           3       0.65      1.00      0.79       878

    accuracy                           0.65      1350
   macro avg       0.22      0.33      0.26      1350
weighted avg       0.42      0.65      0.51      1350

--- Puntaje ---
[0.67364415 0.67333333 0.67397521]
--- Puntaje Promedio ---
0.6736508987511302


  'precision', 'predicted', average, warn_for)


In [74]:
# Informe de los resultados para las pruebas balanceadas por los datos con SMOTE
print("----- Reporte de Pruebas Balanceado con SMOTE -----")
print("--- Conteo ---\n" + str(Counter(severityPredictionBData)))
print("--- Matriz de Confusion ---\n" + str(confusion_matrix(y_testB, severityPredictionBData)))
print("--- Reporte de Pruebas: ---")
print(classification_report(y_testB, severityPredictionBData))
print("--- Puntaje ---\n" + str(scoreBData))
print("--- Puntaje Promedio ---\n" + str(scoreBData.mean()))
preScoreBData = scoreBData.mean()

----- Reporte de Pruebas Balanceado con SMOTE -----
--- Conteo ---
Counter({3: 1482, 1: 742, 2: 476})
--- Matriz de Confusion ---
[[554 139 223]
 [188 337 370]
 [  0   0 889]]
--- Reporte de Pruebas: ---
              precision    recall  f1-score   support

           1       0.75      0.60      0.67       916
           2       0.71      0.38      0.49       895
           3       0.60      1.00      0.75       889

    accuracy                           0.66      2700
   macro avg       0.68      0.66      0.64      2700
weighted avg       0.69      0.66      0.64      2700

--- Puntaje ---
[0.65349833 0.64778677 0.64299333]
--- Puntaje Promedio ---
0.648092809770099


In [75]:
# Informe de los resultados para las pruebas balanceadas en el Modelo SVM
print("----- Reporte de Pruebas Balanceado en el SVM -----")
print("--- Conteo ---\n" + str(Counter(severityPredictionBModel)))
print("--- Matriz de Confusion ---\n" + str(confusion_matrix(y_test, severityPredictionBModel)))
print("--- Reporte de Pruebas: ---")
print(classification_report(y_test, severityPredictionBModel))
print("--- Puntaje ---\n" + str(scoreBModel))
print("--- Puntaje Promedio ---\n" + str(scoreBModel.mean()))
preScoreBModel = scoreBModel.mean()

----- Reporte de Pruebas Balanceado en el SVM -----
--- Conteo ---
Counter({3: 564, 2: 468, 1: 318})
--- Matriz de Confusion ---
[[ 84  53  27]
 [ 86 124  98]
 [148 291 439]]
--- Reporte de Pruebas: ---
              precision    recall  f1-score   support

           1       0.26      0.51      0.35       164
           2       0.26      0.40      0.32       308
           3       0.78      0.50      0.61       878

    accuracy                           0.48      1350
   macro avg       0.44      0.47      0.43      1350
weighted avg       0.60      0.48      0.51      1350

--- Puntaje ---
[0.48525214 0.48857143 0.46520496]
--- Puntaje Promedio ---
0.4796761754972329


### Optimización de Hiper-parámetros
En esta sección se define un espacio de optimización del modelo por medio de sus hiper-parámetros (Kernel, Gamma, C, Degree). Además, se define un puntaje o método de evaluación para los modelos, aunque inicialmente había 2 alternativas del modelo de evaluación, después de experimentos preliminares se escoge el que promedia vía average = "weighted" porque no se observa un cambio en su comportamiento con el parametro average = "macro".

Importante para acelerar el proceso de optimización:

 - En GridSearchCV.fit() incluir el parametro n_jobs = -2, esto hace que el proceso utilice todos los Core de procesamiento excepto uno, lo cual reduce el tiempo
 - En GridSearchCV.fit() incluir el parametro verbose = 5, esto reduce la probabilidad de bloqueos de hilos de procesamiento al obligar a la función a enviar actualizaciones de estado a la consola.

In [77]:
# defino los hyperparametros y otras variables que necesito para encontrar el mejor modelo
# hyperparametros a optimizar 
kernels = ["linear", "rbf"]
kernels = ["linear", "rbf", "poly"]
# cs = [1, 10, 100] 
cs = np.logspace(-1, 10, 6)
degrees = [1, 2, 3]
# gammas = [0.01, 0.005]
gammas = np.logspace(-1, 3, 6)
# gammas = "scale"

# score sin tener en cuenta los pesos
pScoreMacro = make_scorer(precision_score, average = "macro")

#score teniendo en cuenta los pesos
pScoreWeight = make_scorer(precision_score, average = "weighted")

# criterios de evaluacion por los que se quiere optimizar el modelo
scores = [pScoreMacro, pScoreWeight]

# espacio de hyperparametros a optimizar
hyperParameters = {
    "kernel":kernels,
    "C":cs,
#     "degree":degrees,
    "gamma":gammas
}                                                     

In [78]:
# funcion que implementa el ajuste de los hyperparametros con el estimador que no tiene en cuenta el desbalanceo
searchGridResults = GridSearchCV(estimator = modelSVN,
                     scoring = scores[1],
                     cv = 3,
                     param_grid = hyperParameters, n_jobs = -2, verbose = 5)

#### OPTIMIZACION DE SVM INGENUO

In [79]:
# ajusta el modelo optimizando los hyperparametros
searchGridResults.fit(X_train, y_train)

Fitting 3 folds for each of 36 candidates, totalling 108 fits


[Parallel(n_jobs=-2)]: Using backend LokyBackend with 7 concurrent workers.
[Parallel(n_jobs=-2)]: Done   4 tasks      | elapsed:   14.7s
[Parallel(n_jobs=-2)]: Done  58 tasks      | elapsed:  2.2min
[Parallel(n_jobs=-2)]: Done 108 out of 108 | elapsed:  4.5min finished


GridSearchCV(cv=3, error_score='raise-deprecating',
             estimator=SVC(C=1.0, cache_size=400, class_weight=None, coef0=0.0,
                           decision_function_shape='ovo', degree=3,
                           gamma='scale', kernel='rbf', max_iter=-1,
                           probability=False, random_state=None, shrinking=True,
                           tol=0.001, verbose=False),
             iid='warn', n_jobs=-2,
             param_grid={'C': [1, 10, 100], 'degree': [1, 2, 3],
                         'gamma': [0.01, 0.005], 'kernel': ['linear', 'rbf']},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring=make_scorer(precision_score, average=weighted), verbose=5)

In [80]:
# mejor resultado segun presicion
bestScore = searchGridResults.best_score_
# mejores hyperpametros segun presicion
bestParameters = searchGridResults.best_params_

#### OPTIMIZACION DE SVM POR SMOTE

In [62]:
# funcion que implementa el ajuste de los hyperparametros con el estimador teniendo en cuenta peso
searchGridResultsBData = GridSearchCV(estimator = modelSVNBData,
                     scoring = scores[1],
                     cv = 3,
                     param_grid = hyperParameters, n_jobs = -2, verbose = 5)

In [None]:
# ajusta el modelo optimizando los hyperparametros
searchGridResultsBData.fit(X_trainB, y_trainB)

Fitting 3 folds for each of 18 candidates, totalling 54 fits


[Parallel(n_jobs=-2)]: Using backend LokyBackend with 7 concurrent workers.
[Parallel(n_jobs=-2)]: Done   4 tasks      | elapsed:  1.2min


In [None]:
# mejor resultado segun presicion
bestScoreBData = searchGridResultsBData.best_score_
# mejores hyperpametros segun presicion
bestParametersBData = searchGridResultsBData.best_params_

#### OPTIMIZACION DE SVM POR PESOS

In [63]:
# funcion que implementa el ajuste de los hyperparametros con el estimador teniendo en cuenta peso
searchGridResultsBModel = GridSearchCV(estimator = modelSVNBModel,
                     scoring = scores[1],
                     cv = 3,
                     param_grid = hyperParameters, n_jobs = -2, verbose = 5)

In [None]:
# ajusta el modelo optimizando los hyperparametros
searchGridResultsBModel.fit(X_train, y_train)

In [None]:
# mejor resultado segun presicion
bestScoreBModel = searchGridResultsBModel.best_score_
# mejores hyperpametros segun presicion
bestParametersBModel = searchGridResultsBModel.best_params_

### RESULTADOS EXPERIMENTALES
En esta sección se crea la matriz de confusión y el informe del resto de variables de rendimiento de los modelos probados par su futuro análisis.

In [81]:
# pruebas preliminares del entrenamiento ingenuo
severityPrediction = searchGridResults.predict(X_test)

In [None]:
# pruebas preliminares del entrenamiento con balanceo por datos
severityPredictionBData = searchGridResultsBData.predict(X_testB)

In [None]:
# pruebas preliminares del entrenamiento con balanceo porentrenamiento
severityPredictionBModel = searchGridResultsBModel.predict(X_test)

In [82]:
# Informe de los resultados para las pruebas ingenuas
print("----- Reporte de Pruebas Ingenuo -----")
print("Parametros Optimizados: " + str(bestParameters))
print("--- Conteo de Clasificaciones ---\n" + str(Counter(severityPrediction)))
print("--- Matriz de Confusion ---\n" + str(confusion_matrix(y_test, severityPrediction)))
print("--- Reporte de Pruebas: ---")
print(classification_report(y_test, severityPrediction))
print("--- Mejor Puntaje Promedio ---\n" + str(searchGridResults.best_score_))

----- Reporte de Pruebas Ingenuo -----
Parametros Optimizados: {'C': 100, 'degree': 1, 'gamma': 0.005, 'kernel': 'rbf'}
--- Conteo de Clasificaciones ---
Counter({3: 1228, 2: 76, 1: 46})
--- Matriz de Confusion ---
[[ 17  10 137]
 [ 14  21 273]
 [ 15  45 818]]
--- Reporte de Pruebas: ---
              precision    recall  f1-score   support

           1       0.37      0.10      0.16       164
           2       0.28      0.07      0.11       308
           3       0.67      0.93      0.78       878

    accuracy                           0.63      1350
   macro avg       0.44      0.37      0.35      1350
weighted avg       0.54      0.63      0.55      1350

--- Mejor Puntaje Promedio ---
0.5675203225029447


In [None]:
# Informe de los resultados para las pruebas balanceadas por los datos con SMOTE
print("----- Reporte de Pruebas Balanceado con SMOTE -----")
print("Parametros Optimizados: " + str(bestParametersBData))
print("--- Conteo de Clasificaciones ---\n" + str(Counter(severityPredictionBData)))
print("--- Matriz de Confusion ---\n" + str(confusion_matrix(y_testB, severityPredictionBData)))
print("--- Reporte de Pruebas: ---")
print(classification_report(y_testB, severityPredictionBData))
print("--- Mejor Puntaje Promedio ---\n" + str(searchGridResultsBData.best_score_))

In [None]:
# Informe de los resultados para las pruebas balanceadas en el Modelo SVM
print("----- Reporte de Pruebas Balanceado en el SVM -----")
print("Parametros Optimizados: " + str(bestParametersBModel))
print("--- Conteo de Clasificaciones ---\n" + str(Counter(severityPredictionBModel)))
print("--- Matriz de Confusion ---\n" + str(confusion_matrix(y_test, severityPredictionBModel)))
print("--- Reporte de Pruebas: ---")
print(classification_report(y_test, severityPredictionBModel))
print("--- Mejor Puntaje Promedio ---\n" + str(searchGridResultsBModel.best_score_))

### ANÁLISIS Y CONCLUSIONES
En la preparación de datos se encontró que la normalización de datos afecta negativamente el rendimiento del entrenamiento preliminar de los modelos. Por esta razón no se hizo una normalización de datos.

Por otro lado, cambiar las categorías por valores numéricos y divisiones discretas facilita el entrenamiento y el cambio a una representación alterna para entrenar.

Ya en el entrenamiento y pruebas del modelo, Utilizar el balanceo en la preparación de datos aumenta el tiempo de entrenamiento del modelo y aunque disminuye marginalmente el rendimiento del modelo (menos de 5%) permite que el modelo pueda clasificar correctamente las tres categorías.

Por otro lado, un entrenamiento ingenuo de la SVM solo permite que el modelo prediga correctamente una sola categoría, usualmente la que tiene mas muestras en el conjunto. Y aunque el rendimiento del modelo es mayor esto lo hace en decremento de no poder clasificare las otras categorías.

El entrenamiento del modelo SVM por Pesos permite que el mismo modelo balancee el aprendizaje, pero no por medio de un sobre muestro u otro manejo de datos, sino porque penaliza con mas fuerza un error dentro de una clasificación con pocas muestras en el conjunto de entrenamiento (en este caso la clase 1 – accidentes poco severos).

De nuevo, aunque el rendimiento del modelo SVM por Pesos es ligeramente menor que el SVM ingenuo, esto se sacrifica en favor de poder reconocer todas las categorías dentro del conjunto.

Por último, aunque el balanceo del SVM por Pesos y el balanceo por preparación de datos son viables dentro del proceso de aprendizaje, se observa que el procedimiento SMOTE tiene un mejor rendimiento para las tres categorías a predecir y es mucho más estable en su comportamiento. Esto lo hace más confiable que el balanceo del SVM por Pesos.
