# Introducción a la Minería de Datos
# Práctica 4: Clasificación avanzada
## Autor: Alejandro Fuerte Jurado

En esta práctica se realizarán distintos ejercicios con el objetivo de introducirse en conceptos de clasificación usando agrupaciones (ensembles) de clasificadores, todo ello usando el módulo scikit-learn de Python y cualquier otro que se considere necesario.

### 1. Seleccione tres algoritmos clasificación de los disponibles en scikit-learn.
Los tres algoritmos de clasificación escogidos son:
* Árboles de decisión.
* K vecinos más cercanos.
* Máquinas de vectores soporte (SVM).

Los conjuntos escogidos para esta práctica son:
* BreastTissue.csv
* contact-lens
* ecoli
* glass
* divorce
* iris
* PhishingData
* segment challenge
* wine
* zoo

Los cuales pueden obtenerse a través de los siguientes enlaces: 

https://storm.cis.fordham.edu/~gweiss/data-mining/datasets.html

https://archive.ics.uci.edu/ml/index.php

### 2. Para cada uno de estos tres métodos de clasificación realice los siguientes pasos usando validación cruzada de 10 particiones:
#### 2.1. Aplique el método base a cada uno de los conjuntos y anote los resultados obtenidos.
Vamos a utilizar el siguiente script para aplicar el método base.

In [16]:
from scipy.io import arff
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
from sklearn import metrics
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.preprocessing import MultiLabelBinarizer 
import matplotlib.pyplot as plt

datasets = ['BreastTissue.csv', 'contact-lens.csv', 'ecoli.csv', 'glass.csv', 'divorce.csv', 
            'iris.csv', 'PhishingData.csv', 'segment-challenge.csv', 'wine.csv', 'zoo.csv']

sol_arbol = list()
sol_vecinos = list()
sol_svm = list()

for i in datasets:
    df = pd.read_csv(i, header=None)
                            
    if i == 'wine.csv':
        X = df.iloc[:,1:].values
        Y = df.iloc[:,0].values
    else:
        X = df.iloc[:,:-1].values
        Y = df.iloc[:,-1].values
        
        print(Y)
        
    sol = cross_val_score(DecisionTreeClassifier(), X, Y, cv=10)
    sol_arbol.append(sol.mean())
    
    sol = cross_val_score(KNeighborsClassifier(10), X, Y, cv=10)
    sol_vecinos.append(sol.mean())
    
    sol = cross_val_score(SVC(C=1, kernel='linear', random_state=1), X, Y, cv=10)
    sol_svm.append(sol.mean())

['car' 'car' 'car' 'car' 'car' 'car' 'car' 'car' 'car' 'car' 'car' 'car'
 'car' 'car' 'car' 'car' 'car' 'car' 'car' 'car' 'car' 'fad' 'fad' 'fad'
 'fad' 'fad' 'fad' 'fad' 'fad' 'fad' 'fad' 'fad' 'fad' 'fad' 'fad' 'fad'
 'mas' 'mas' 'mas' 'mas' 'mas' 'mas' 'mas' 'mas' 'mas' 'mas' 'mas' 'mas'
 'mas' 'mas' 'mas' 'mas' 'mas' 'mas' 'gla' 'gla' 'gla' 'gla' 'gla' 'gla'
 'gla' 'gla' 'gla' 'gla' 'gla' 'gla' 'gla' 'gla' 'gla' 'gla' 'con' 'con'
 'con' 'con' 'con' 'con' 'con' 'con' 'con' 'con' 'con' 'con' 'con' 'con'
 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi'
 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi']
[2 0 2 1 2 0 2 1 2 0 2 1 2 0 2 2 2 2 2 1 2 0 2 2]
['cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp'
 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp'
 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp'
 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp'
 'cp' 'cp' 'cp' 'cp'



['build wind float' 'vehic wind float' 'build wind float' 'tableware'
 'build wind non-float' 'build wind non-float' 'vehic wind float'
 'build wind float' 'headlamps' 'build wind non-float'
 'build wind non-float' 'build wind non-float' 'build wind float'
 'vehic wind float' 'vehic wind float' 'build wind non-float' 'headlamps'
 'build wind non-float' 'containers' 'build wind non-float'
 'build wind float' 'build wind non-float' 'build wind non-float'
 'build wind float' 'containers' 'build wind non-float'
 'build wind non-float' 'headlamps' 'build wind non-float'
 'vehic wind float' 'build wind non-float' 'vehic wind float' 'tableware'
 'build wind non-float' 'build wind float' 'build wind float'
 'build wind float' 'build wind non-float' 'build wind non-float'
 'build wind non-float' 'build wind float' 'build wind non-float'
 'build wind non-float' 'build wind non-float' 'vehic wind float'
 'build wind float' 'containers' 'build wind float' 'build wind float'
 'build wind non-float'

[1 1 4 1 1 1 1 4 4 1 1 2 4 7 7 7 2 1 4 1 2 2 1 2 6 5 5 1 1 1 6 1 1 2 4 1 1
 2 4 6 6 2 6 2 1 1 7 1 1 1 1 6 5 7 1 1 2 2 2 2 4 4 3 1 1 1 1 1 1 1 1 2 7 4
 1 1 3 7 2 2 3 7 4 2 1 7 4 2 6 5 3 3 4 1 1 2 1 6 1 7 2]




In [17]:
print(f"Media árboles de decisión: {sum(sol_arbol) / len(sol_arbol)}")
print(f"Media k vecinos más cercanos: {sum(sol_vecinos) / len(sol_vecinos)}")
print(f"Media svm: {sum(sol_svm) / len(sol_svm)}")

Media árboles de decisión: 0.847272656963194
Media k vecinos más cercanos: 0.6334044633021614
Media svm: 0.8551630464827396


#### 2.2. Aplique el método de combinación de clasificadores Bagging a cada uno de los conjuntos y anote los resultados obtenidos.
Ahora vamos a modificar el script de forma que podamos aplicar el método Bagging a los tres clasificadores.

In [18]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import BaggingClassifier

sol_arbol_bagging = list()
sol_vecinos_bagging = list()
sol_svm_bagging = list()

for i in datasets:
    df = pd.read_csv(i, header=None)
                            
    if i == 'wine.csv':
        X = df.iloc[:,1:].values
        Y = df.iloc[:,0].values
    else:
        X = df.iloc[:,:-1].values
        Y = df.iloc[:,-1].values
        
        print(Y)
    
    arbol = BaggingClassifier(DecisionTreeClassifier(), n_estimators=5, random_state=1)
    sol = cross_val_score(arbol, X, Y, cv=10)
    sol_arbol_bagging.append(sol.mean())
    
    vecinos = BaggingClassifier(KNeighborsClassifier(10), n_estimators=5, random_state=1)
    sol = cross_val_score(vecinos, X, Y, cv=10)
    sol_vecinos_bagging.append(sol.mean())
    
    svm = BaggingClassifier(SVC(C=1, kernel='linear', random_state=1), n_estimators=5, random_state=1)
    sol = cross_val_score(svm, X, Y, cv=10)
    sol_svm_bagging.append(sol.mean())

['car' 'car' 'car' 'car' 'car' 'car' 'car' 'car' 'car' 'car' 'car' 'car'
 'car' 'car' 'car' 'car' 'car' 'car' 'car' 'car' 'car' 'fad' 'fad' 'fad'
 'fad' 'fad' 'fad' 'fad' 'fad' 'fad' 'fad' 'fad' 'fad' 'fad' 'fad' 'fad'
 'mas' 'mas' 'mas' 'mas' 'mas' 'mas' 'mas' 'mas' 'mas' 'mas' 'mas' 'mas'
 'mas' 'mas' 'mas' 'mas' 'mas' 'mas' 'gla' 'gla' 'gla' 'gla' 'gla' 'gla'
 'gla' 'gla' 'gla' 'gla' 'gla' 'gla' 'gla' 'gla' 'gla' 'gla' 'con' 'con'
 'con' 'con' 'con' 'con' 'con' 'con' 'con' 'con' 'con' 'con' 'con' 'con'
 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi'
 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi' 'adi']
[2 0 2 1 2 0 2 1 2 0 2 1 2 0 2 2 2 2 2 1 2 0 2 2]




['cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp'
 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp'
 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp'
 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp'
 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp'
 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp'
 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp'
 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp'
 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp'
 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp' 'cp'
 'cp' 'cp' 'cp' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im'
 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im'
 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im'
 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im' 'im'
 'im' 



['build wind float' 'vehic wind float' 'build wind float' 'tableware'
 'build wind non-float' 'build wind non-float' 'vehic wind float'
 'build wind float' 'headlamps' 'build wind non-float'
 'build wind non-float' 'build wind non-float' 'build wind float'
 'vehic wind float' 'vehic wind float' 'build wind non-float' 'headlamps'
 'build wind non-float' 'containers' 'build wind non-float'
 'build wind float' 'build wind non-float' 'build wind non-float'
 'build wind float' 'containers' 'build wind non-float'
 'build wind non-float' 'headlamps' 'build wind non-float'
 'vehic wind float' 'build wind non-float' 'vehic wind float' 'tableware'
 'build wind non-float' 'build wind float' 'build wind float'
 'build wind float' 'build wind non-float' 'build wind non-float'
 'build wind non-float' 'build wind float' 'build wind non-float'
 'build wind non-float' 'build wind non-float' 'vehic wind float'
 'build wind float' 'containers' 'build wind float' 'build wind float'
 'build wind non-float'



[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
['Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 



In [20]:
print(f"Media árboles de decisión begging: {sum(sol_arbol_bagging) / len(sol_arbol_bagging)}")
print(f"Media k vecinos más cercanos begging: {sum(sol_vecinos_bagging) / len(sol_vecinos_bagging)}")
print(f"Media svm begging: {sum(sol_svm_bagging) / len(sol_svm_bagging)}")

Media árboles de decisión begging: 0.853066180291244
Media k vecinos más cercanos begging: 0.6243106128502548
Media svm begging: 0.8347331444722748


Como se puede ver, las medias de los resultados obtenidas con el método bagging parecen ser ligeramente diferentes a los del método base. La media de árboles de decisión mejora, mientras que las otras dos empeoran ligeramente, siendo el caso de svm el cambio más significativo.

#### 2.3. Seleccione dos algoritmos de Boosting y aplique estos algoritmos a cada uno de los conjuntos y anote los resultados obtenidos.
Los dos algoritmos de Boosting escogidos son:
* AdaBoost
* Gradient Tree Boosting

In [54]:
# Adaboost
from sklearn.ensemble import AdaBoostClassifier, GradientBoostingClassifier

sol_ada = list()
sol_gradient = list()

for i in datasets:
    df = pd.read_csv(i, header=None)
                            
    if i == 'wine.csv':
        X = df.iloc[:,1:].values
        Y = df.iloc[:,0].values
    else:
        X = df.iloc[:,:-1].values
        Y = df.iloc[:,-1].values
            
    ada = AdaBoostClassifier()
    sol = cross_val_score(ada, X, Y, cv=10)
    sol_ada.append(sol.mean())
    
    gradient = GradientBoostingClassifier()
    sol = cross_val_score(gradient, X, Y, cv=10)
    sol_gradient.append(sol.mean())



In [55]:
print(f"Media adaboost: {sum(sol_ada) / len(sol_ada)}")
print(f"Media gradient tree boosting: {sum(sol_gradient) / len(sol_gradient)}")

Media adaboost: 0.7250475889555172
Media gradient tree boosting: 0.856222750726587


La media de los resultados de adaboost es de 0.73, la cuál es peor que las medias de bagging para árbol de decisión y svm. Sin embargo, mejora los resultados del bagging de k vecinos más cercanos.

Por otro lado, la media de los resultados para gradient tree boosting es bastante superior, llegando a ser la mejor media de todos los análisis realizados durante la práctica.

#### 2.4. Compare si hay diferencias significativas entre ellos usando el test de Iman-Davenport. Si es así, aplique el procedimiento de Wilcoxon para comparar cada método de agrupación con el clasificador base.
Vamos a comparar los resultados obtenidos en los tres métodos de combinación de Bagging y los dos algortimos de Boosting escogidos.

In [56]:
from scipy.stats import friedmanchisquare
from scipy.stats import f

T, p = friedmanchisquare(sol_arbol_bagging, sol_vecinos_bagging, sol_svm_bagging, sol_ada, sol_gradient)

print(f"Valor de T: {T}")
print(f"Valor de p: {p}")

davenport = ((10-1) * T) / (10 * (5-1) - T)

print(davenport)

if davenport > f.ppf(q=1-0.05, dfn=5-1, dfd=(5-1)*(10-1)):
    print("Existen diferencias.")
else:
    print("No existen diferencias significativas.")

Valor de T: 20.551020408163282
Valor de p: 0.00038863223656994465
9.509968520461715
Existen diferencias.


 El test de Iman-Davenport concluye que existen diferencias significativas entre los 5 métodos. Vamos a comparar cada método con los clasificadores base a través del procedimiento de Wilcoxon, para así encontrar las diferencias significativas.

In [57]:
from scipy.stats import wilcoxon

T, p = wilcoxon(sol_arbol, sol_arbol_bagging)

print(f"Valor de T: {T}")
print(f"Valor de p: {p}")
print("----------------")

T, p = wilcoxon(sol_vecinos, sol_vecinos_bagging)

print(f"Valor de T: {T}")
print(f"Valor de p: {p}")
print("----------------")

T, p = wilcoxon(sol_svm, sol_svm_bagging)

print(f"Valor de T: {T}")
print(f"Valor de p: {p}")
print("----------------")

T, p = wilcoxon(sol_arbol, sol_ada)

print(f"Valor de T: {T}")
print(f"Valor de p: {p}")
print("----------------")

T, p = wilcoxon(sol_vecinos, sol_ada)

print(f"Valor de T: {T}")
print(f"Valor de p: {p}")
print("----------------")

T, p = wilcoxon(sol_svm, sol_ada)

print(f"Valor de T: {T}")
print(f"Valor de p: {p}")
print("----------------")

T, p = wilcoxon(sol_arbol, sol_gradient)

print(f"Valor de T: {T}")
print(f"Valor de p: {p}")
print("----------------")

T, p = wilcoxon(sol_vecinos, sol_gradient)

print(f"Valor de T: {T}")
print(f"Valor de p: {p}")
print("----------------")

T, p = wilcoxon(sol_svm, sol_gradient)

print(f"Valor de T: {T}")
print(f"Valor de p: {p}")

Valor de T: 13.0
Valor de p: 0.4838398513935682
----------------
Valor de T: 12.0
Valor de p: 0.21352435403618242
----------------
Valor de T: 3.0
Valor de p: 0.03569190011680441
----------------
Valor de T: 3.0
Valor de p: 0.009765625
----------------
Valor de T: 18.0
Valor de p: 0.375
----------------
Valor de T: 5.0
Valor de p: 0.01953125
----------------
Valor de T: 11.0
Valor de p: 0.32698934959801507
----------------
Valor de T: 3.0
Valor de p: 0.009765625
----------------
Valor de T: 21.0
Valor de p: 0.556640625




### 3. Enuncie las conclusiones del estudio indicando la influencia del clasificador base en el rendimiento de las agrupaciones de clasificadores.
Los resultados del test de Wilcoxon nos muestra dónde se encuentran las diferencias significativas.

Por un lado los métodos begging de los árboles de decisión y k vecinos más cercanos se consideran iguales. Sin embargo, el método begging de máquina de vectores soporte se supone diferente con respecto a su método base. Esto coincide con las medias obtenidas con anterioridad, ya que la media de svm era la que más cambiaba de forma significativa entre un método y otro. Por tanto, podemos concluir que para estas bases de datos el método bagging no mejora los resultados de un svm con un kernel lineal.

Si comparamos el método adaboost con los métodos base de los tres clasificadores, podemos ver que se consideran iguales para el caso del clasificador k vecinos más cercano, mientras que se considera diferente en los otros dos clasificadores. Esto implica que, para estos datasets, el método adaboost proporciona resultados más cercanos a dicho clasificador.

Por último, si comparamos el método gradient tree boosting con los métodos base de los tres clasificadores, podemos ver que se consideran iguales para los casos de los clasificadores de árboles de decisión y svm, mientras que se considera diferente en el clasificador de k vecinos más cercanos. Es decir, nos encontramos con el caso contrario a los resultados de las comparaciones con el método adaboost.