In [None]:
#   Lmportamos la libreria pandas para la lectura de archivos
import pandas as pd

#   Librerias para graficar los datos
import pandas.plotting as lbPlotting

#   Libreria para crear figuras en python
import matplotlib.pyplot as plt

#
import seaborn as sns

#   abrimos el archivo con el DataSet, y especificamos que cada registro esta delimintado por ";"
df = pd.read_csv( "Laboratorio_dataset_car.csv", delimiter = ";" )

In [None]:
#   Muestro un resumen del numero de filas y columnas del archivo (Dimensionalidad de nuestro DataSet) 
print( df.shape )

In [None]:
#   Muestro las tres(3) primeras lineas del archivo
print( df.head(10) )

In [None]:
#   Muestro de manera aleatoria 25 registros con la finalidad de ver un estado general de los archivos
print( df.sample(25) )

In [None]:
#   Muestro el resumen estadistico de los datos
print( df.describe() )

In [None]:
#   Muestro la estructura del DataSet
print( df.info() )

In [None]:
#   Identificamos si existen valores nulos
df.isnull().sum()

In [None]:
#   Distribucion por clases
print( df.groupby('class').size() )

In [None]:
#   Al momento de determinar la distribucion de valores de la "clase" se identifica que los valores de los atributos 
#   no se encuentran bien distribuidos, como es el caso del atributo "Unacc", lo cual se evidencia de mejor manera 
#   mediante el siguiente grafico.

sns.countplot( x = df["class"], data = df )

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
for i in df.columns:
    df[i] = le.fit_transform( df[i] )

df.head()

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import StratifiedKFold
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier

In [None]:
X = df[df.columns[:-1]]
y = df['class']

#   Dividimos el dataset en 80% de los datos para entrenar y 20% para test   
X_train, X_validation, Y_train, Y_validation = train_test_split( X, y, test_size = 0.2, random_state = 1, shuffle = True )

In [None]:
#   Cargamos los algoritmos
models = []
models.append( ( 'LR', LogisticRegression( solver = 'liblinear', multi_class = 'ovr' ) ) )
models.append( ( 'CART', DecisionTreeClassifier() ) )

In [None]:
#   Evaluamos cada modelo por turno
results = []
names = []
for name, model in models:
    kfold = StratifiedKFold( n_splits = 10, shuffle = True, random_state = 1 )
    cv_results = cross_val_score( model, X_train, Y_train, cv = kfold, scoring = 'accuracy' )
    results.append( cv_results )
    names.append(name)
    print( '%s: %f (%f)' % ( name, cv_results.mean(), cv_results.std() ) )



In [None]:
from matplotlib import pyplot

pyplot.boxplot( results, labels = names )
pyplot.title( 'Comparación de algoritmos' )
pyplot.show()

In [22]:
#   Realizamos predicciones con el dataset validacion
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score

model = DecisionTreeClassifier()
model.fit( X_train, Y_train )
predictions = model.predict( X_validation )

In [23]:
#   Evaluaciones las predicciones, en primer lugar la precision obtenida
print( accuracy_score( Y_validation, predictions ) )

0.9714285714285714


In [24]:
#   Ahora la matriz de confusion
print( confusion_matrix( Y_validation, predictions ) )

[[ 71   4   2   0]
 [  1  17   0   0]
 [  2   1 242   0]
 [  0   0   0  10]]


In [25]:
#   Informe de clasificacion
print( classification_report( Y_validation, predictions ) )

              precision    recall  f1-score   support

           0       0.96      0.92      0.94        77
           1       0.77      0.94      0.85        18
           2       0.99      0.99      0.99       245
           3       1.00      1.00      1.00        10

    accuracy                           0.97       350
   macro avg       0.93      0.96      0.95       350
weighted avg       0.97      0.97      0.97       350

