#**Clasificación de hongos venenosos**

Sofía Ingigerth Cañas Urbina A01173828

#Librerías

Importamos la librería de pandas para poder manipular y analizar el data frame con la información. De la de sklearn obtenemos paquetes de algoritmos de entrenamiento y evaluación de estos algoritmos

In [None]:
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

from sklearn.metrics import classification_report, confusion_matrix

from sklearn import tree 
from sklearn import neighbors 
from sklearn.neighbors import KNeighborsClassifier
from sklearn import preprocessing

#Importación y exploración de datos

Importamos los datos y los guardamos en un data frame, imprimimos sus dimensiones y las primeras observaciones para familiarizarnos

In [None]:
mushroom = pd.read_csv('mushrooms.csv')

print(mushroom.shape)
mushroom.head()

(8124, 23)


Unnamed: 0,class,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,p,x,s,n,t,p,f,c,n,k,...,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g


Vemos que las variables son mayoritariamente de tipo categórico, no son numéricas

In [None]:
mushroom.dtypes

class                       object
cap-shape                   object
cap-surface                 object
cap-color                   object
bruises                     object
odor                        object
gill-attachment             object
gill-spacing                object
gill-size                   object
gill-color                  object
stalk-shape                 object
stalk-root                  object
stalk-surface-above-ring    object
stalk-surface-below-ring    object
stalk-color-above-ring      object
stalk-color-below-ring      object
veil-type                   object
veil-color                  object
ring-number                 object
ring-type                   object
spore-print-color           object
population                  object
habitat                     object
dtype: object

#Preprocesamiento de los datos

Dividimos en atributos o características y etiquetas o variable a predecir

In [None]:
X = mushroom.copy()
X = mushroom.drop('class', axis = 1)
Y = mushroom['class']

Las características son de tipo categórico, entonces una alternativa es usar "dummy variables" para poder usar el algoritmo de clasificación. No es necesario hacer esto para las etiquetas y de hecho nos brinda una ventaja para obtener predicciones en la notación orignal

In [None]:
X = pd.get_dummies(X) 

Dividimos los datos en training y testing set, en proporción 80:20

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.20)

#Support Vector Machine

**Entrenamiento**

Se probaron diferentes kernels para el SVM (poly, rbf, sigmoid) y en general mostraban muy buenos resultados con una alta precisión. También se experimento estandarizando y no estandarizando, al final sólo se muestra una alternativa, considerando alguna de las mejores

In [None]:
classifierSVC = make_pipeline(StandardScaler(), SVC(kernel = 'rbf')).fit(X_train, Y_train)

**Evaluación del algoritmo**

In [None]:
Y_pred = classifierSVC.predict(X_test)

print(confusion_matrix(Y_test, Y_pred))
print(classification_report(Y_test, Y_pred))

[[833   0]
 [  1 791]]
              precision    recall  f1-score   support

           e       1.00      1.00      1.00       833
           p       1.00      1.00      1.00       792

    accuracy                           1.00      1625
   macro avg       1.00      1.00      1.00      1625
weighted avg       1.00      1.00      1.00      1625



#Árbol de decisión

**Entrenamiento**

In [None]:
classifierTree = tree.DecisionTreeClassifier() 
classifierTree = classifierTree.fit(X_train, Y_train)

**Evaluación del algoritmo**

In [None]:
Y_pred = classifierTree.predict(X_test)

print(confusion_matrix(Y_test, Y_pred))
print(classification_report(Y_test, Y_pred))

[[833   0]
 [  0 792]]
              precision    recall  f1-score   support

           e       1.00      1.00      1.00       833
           p       1.00      1.00      1.00       792

    accuracy                           1.00      1625
   macro avg       1.00      1.00      1.00      1625
weighted avg       1.00      1.00      1.00      1625



#KNeighbors

**Entrenamiento**

In [None]:
classifierKN = neighbors.KNeighborsClassifier() 
classifierKN = classifierKN.fit(X_train, Y_train)

**Evaluación del algoritmo**

In [None]:
Y_pred = classifierKN.predict(X_test)

print(confusion_matrix(Y_test, Y_pred))
print(classification_report(Y_test, Y_pred))

[[833   0]
 [  0 792]]
              precision    recall  f1-score   support

           e       1.00      1.00      1.00       833
           p       1.00      1.00      1.00       792

    accuracy                           1.00      1625
   macro avg       1.00      1.00      1.00      1625
weighted avg       1.00      1.00      1.00      1625



#Predicciones

Dadas las características de los hongos podemos hacer predicciones usando classifier.predict(características). Estas pueden ser sobre el testing set, aunque el principal objetivo de esto es evaluar el algoritmo como se ha hecho antes. Ya teniendo una idea de la precisión del clasificador, muy buena en el caso de los clasificadores utilizados en esta actividad, podemos usar uno de ellos teniendo nuestras propias características de hongos si queremos saber si son venenosos (p) o comestibles (e). A continuación se muestra un ejemplo del código que se podría implementar para obtener un dataframe con nuestras propias n caracteríasticas y sus respectivas predicciones. Esto no se lleva a la práctica porque requiere inventar mínimo 22 características y si lo hacemos directamente en "dummy variables" serían muchas más, esto se puede evitar agregando un paso de conversión pero de todos modos no es práctico. Ya se ejemplificó la manera en la que se puede predecir dado un modelo en la evalución de los algoritmos.

In [None]:
#casosPredMR = [[características 1], [características 2], ..., [características n]]
#casosPredMR = pd.DataFrame(casosPredMR, index=range(1,n))
#casosPredMR.columns = X.columns
#Predicciones = classifierSVC.predict(casosPredMR)
#casosPredMR['Predicción'] = Predicciones
#casosPredMR

#Conclusiones

A lo largo de esta actividad pude realizar diferentes etapas para el análisis predictivo vistas a lo largo del bloque, desde la importación de los datos y su análisis inicial, su preprocesamiento y diferentes modelos de clasificación. 

Me parece desconcertante que la precisión de los tres algoritmos de clasificación utilizados: SVM, árboles y KN sea tan alta, prácticamente de 1. He trabajado antes con estos métodos de clasificación y para datasets tan grandes y variados no suele ser así. Esto puede deberse a alguna característica de los datos pero de todos modos valdría la pena revisarse.

Aprendí un método nuevo para tratar con características de tipo categórico, las dummy variables como alternativa a LabelEncoder. Al final los modelos de clasificación obtenidos tienen una aplicación práctica como un sistema que basado en cierto conocimiento previo puede responder nuevas preguntas.