# Técnicas de clasificación

Para valorar el rendimiento de cada técnica, se ha realizado un estudio con el dataset de Londres proporcionado por Kaggle

https://www.kaggle.com/c/data-science-london-scikit-learn

In [1]:
import numpy as np
import pandas as pd
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score, train_test_split

In [2]:
import os
os.getcwd()


'M:\\Users\\angui\\Desktop\\proyectos_personales\\Trabajos_Kaggle'

In [3]:
train = pd.read_csv('./LondonDataSet/train.csv', header = None)
trainLabels = pd.read_csv('./LondonDataSet/trainLabels.csv', header = None)
test = pd.read_csv('./LondonDataSet/test.csv', header = None)

# Preprocessing
En este caso, el preprocesamiento consiste en dividir en train y test debido a que no hay que hacer ninguna depuración de datos ni extracción de nuevos atributos.

In [4]:
x_train, x_test, y_train, y_test = train_test_split(train, trainLabels, test_size = 0.3, random_state = 40)

# 1. Gaussian Naive - Bayes

Conjunto de algoritmos supervisados basados en aplicar el teorema de bayes asumiendo "ingenuidad".

## Ventajas

- Fácil y rápido prediciendo la clase.

- Funciona bien en la predicción multiclase
    
- Si se asumen independencia, funciona mucho mejor que otros como la Regresión Logística.
    
- Funcionan mejor con variables de entrada categóricas que numéricas
    
## Inconvenientes
  
- Si aparece una categoría en el conjunto de datos que pueba que no estaba en el conjunto de entrenamiento, se asignara una probabilidad 0 y no se podrá hacer una predicción. Esto se conoce como frecuencia 0 y para resolverlo podemos usar la "técnica de aislamiento".

- Es muy difícil que en la vida real podamos asumir independencia completa.

## Ejemplos de uso:

- Para saber si un e-mail es o no spam.

- Para clasificar artículos en función de si es tecnológico, político o deportivo.
    
- Para saber si una parte de un texto expresa emociones positivas o negativas.
    
- Reconocimiento facial.




Para mas información consultar https://scikit-learn.org/stable/modules/naive_bayes.html

In [5]:
from sklearn.naive_bayes import GaussianNB

In [26]:
model = GaussianNB()
model.fit(x_train, y_train.values.ravel())
predicted = model.predict(x_test)
GaussNB = accuracy_score(y_test, predicted)
print('Naive Bayes : ', GaussNB)

Naive Bayes :  0.8033333333333333


# 2. KNN (K- nearest neighbor) (K- vecino más cercano)

El método del vecino más cercano consiste en buscar un número predefinido de muestras de entrenamiento lo suficientemente cerca con un nuevo punto, y predecir el atributo a partir de ahí.

## Ventajas

- No paramétrico

- Fácil de  explicar, comprender e interpretar

- Alta precisión (no competitiva en comparación con otros  modelos)

- Insensible a valores atípicos

## Inconvenientes

- No aprende como tal, sino que memoriza instancias que luego usa como conocimiento en la fase de predicción.

- Computacionalmente costoso debido a que almacena en memorio todo el dataset de entrenamiento.


## Ejemplos de uso:

- Prediccion de dígitos escritos a mano.
 
- Imágenes de satélites

- Se suele usar cuando las clasificaciones que hacemos son muy irregulares...



Para más información consultar https://scikit-learn.org/stable/modules/neighbors.html

In [27]:
from sklearn.neighbors import KNeighborsClassifier

In [28]:
model = KNeighborsClassifier()
model.fit(x_train, y_train.values.ravel())
predicted = model.predict(x_test)
knn = accuracy_score(y_test, predicted)
print('KNN : ', knn)

KNN :  0.8733333333333333


# 3. Random Forest

El Random Forest es una técnica de aprendizaje automático llamada árbol de decisiones debido a que se introduce una entreada en la parte superior, y a medida que atraviese el árbol, los datos se acumulan en conjuntos más pequeños.



## Ventajas

- Como  existen muy pocas suposiciones, la preparación de los datos es mínima.

- Puede manejar miles de variables de entreada e iddentificar las más significativas (reducción de dimensionalidad).

- Una de las salidas del modelos es la importancia de las vaairables

- Métodos efectivos para valores missing

- Es posible usarlo como "clustering"

- Es eficiente en grandes bases de datos

- Tiene métodos para error de equilibrio en la población de conjuntos de datos no balanceados.


## Incovenientes

- Pérdida de interpretación (muy dificil interpretar los cientos de arboles creados en el bosque)

- Bueno  para clasificación , no para regresión.

- Poco control de lo que hace el modelo (modelo de caja negra)

- No funciona con datasets pequeños

## Ejemplos de uso:

- Detección de fraude en medios de pago

- Emisiones de autobuses urbanos

- Análisis de mercados

http://randomforest2013.blogspot.com/2013/05/randomforest-definicion-random-forests.html

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html?highlight=random%20forest#

In [29]:
from sklearn.ensemble import RandomForestClassifier

In [30]:
model = RandomForestClassifier(n_estimators = 100, random_state = 99)
model.fit(x_train,y_train.values.ravel())
predicted = model.predict(x_test)
Rf = accuracy_score(y_test, predicted)
print('Random Forest : ',Rf)

Random Forest :  0.85


# 4. Regresión Logística

Sirve normalmente para moddelar la probabilidad de un evento como función de otros factores.


## Ventajas

- Eficaz y simple

- Resultados altamente interpretables

- El peso de las características determina la importancia en la decisión final.

- Funciona mejor cuando se usan atributos relacionados con el de salida.

- Es clave hacer las seleccion de características previas al entrenamiento, debido a que es importante eliminar las características con una gran multicolinealidad entre sí.

## Inconvenientes

- Imposibilidad de resolver problemas no lineales

- La variable objetivo debe ser linealmente separable (dos regiones de datos)

- No es una herramienta útil para identificar las características más adecuadas

- Existen otros algoritmos más potentes que éste

## Ejemplos de uso:

- Investigaación en endocrinología (en concreto en pacientes con diabetes)

- Predecir el riesgo de sufrir una enferrmedad coronária

- Asociacion de dependencia de personas mayores a 65 años

- Si el origen familiar influye en la inserción laboral



https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

In [31]:
from sklearn.linear_model import LogisticRegression

In [32]:
model = LogisticRegression(solver = 'saga')
model.fit(x_train,y_train.values.ravel())
predicted = model.predict(x_test)
Lr = accuracy_score(y_test, predicted)
print('Logistic Regression : ',Lr)

Logistic Regression :  0.81


# 5. Support Vector Machine (SVM) (Máquina de vector soporte)

Las máquinas de vector soport se basan en contruir un hiperplano (donde cada característica es una dimensión) que separe las clases lo máximo posible en función de los hiperparámetros.

## Ventajas

- Más rápido que Naive-Bayes

- Funciona bien con un espacio dimensional elevado

- Es efectivo cuando el número de  dimensiones es superior al número de registros

- Muy eficiente en cuanto a memoria


## Inconvenientes

- No funciona bien si el dataset tiene mucho ruido o cuando las clases se superponen

- Es sensible al tipo de núcleo usado

- No es adecuada para grandes conjuntos de datos

- No hay una explicación probabilística para la clasificación


## Ejemplos de uso:

- Reconocimiento facial

- Clasificación de imágenes

- RReconocimiento de escritura a mano

- Detección de homología (mismas características) entre proteínas


https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC

In [33]:
from sklearn.svm import SVC

In [34]:
model = SVC(gamma = 'auto')
model.fit(x_train,y_train.values.ravel())
predicted = model.predict(x_test)
Svm = accuracy_score(y_test, predicted)
print('SVM : ',Svm)

SVM :  0.89


# 6. Árbol de decisión

Como el propio nombre indica, es un arbol que se basa en predecir una variable mediante decisiones simples que va aprendiendo a lo largo del modelo.

## Ventajas
- Fácil de usar e interpretar. Se podría llamar un modelo de "caja blanca" porque todas las decisiones se explican.

- Predice tanto variables numéricas como categóricas

- No requiere mucho preprocesamiento

- Es un modelo no paramétrico (no asume ninguna dimension de los datos)

- Las características menos importantes no influencian en el resultado.

- Que exista multicolinealidad entre características no afecta a la calidad.

## Inconvenientes

- Tienden a hacer sobreentrenamiento.

- Un pequeño cambio en los datos puede hacer que cambie la estructura completa del árbol

- Los árboles suelen necesitar tiempos altos de entrenamiento.

- Son muy caros en cuanto a complejidad y tiempo.

- No se debe usar para aplicar regresión ni variables numéricas continuas.

## Ejemplos de uso

- Crear inteligencias para juegos de estrategia.

- Cualquier cosa cotidiana de decisión.

https://scikit-learn.org/stable/modules/tree.html 

In [35]:
from sklearn.tree import DecisionTreeClassifier

In [36]:
model = DecisionTreeClassifier()
model.fit(x_train,y_train.values.ravel())
predicted = model.predict(x_test)
d_tree = accuracy_score(y_test, predicted)
print('Arbol de decisión : ',d_tree)

Arbol de decisión :  0.7333333333333333


# 7. XGBoost
Librería que optimiza el método del descenso del gradiente combinado con el método boosting para ser más eficiente y flexible. 
Es una técnica tanto de clasificación como de regresión que produce un modelo predictivo usando varios árboles de decisión.

## Ventajas

- Funciona muy bien con todo tipo de datos menos con datos muy dispersos
- Tiene una naturaleza tipo "caja negra"
- Ventajas parecidas a los árboles de decisión debido a que trabajo con ellos.
- Funciona mejor que la mayoría de algoritmos de aprendizaje supervisado
- Funciona tanto para predecir variables numéricas, como categóricas

## Inconvenientes

- Inconvenientes parecidos a los árboles de decisión debido a que trabajo con ellos.
- No suele haber aplicaciones en el mundo real de datos estructurados

## Ejemplos de uso

- Analisis de supervivencia
- Clasificar productos en distintas categorías
- Prácticamente sirve para todo

https://xgboost.readthedocs.io/en/latest/get_started.html

In [37]:
from xgboost import XGBClassifier

In [38]:
model = XGBClassifier()
model.fit(x_train,y_train.values.ravel())
predicted = model.predict(x_test)
XGB = accuracy_score(y_test, predicted)
print('XGBoost : ', XGB)

XGBoost :  0.8666666666666667


# Resumen de la calidad de los 7 primeros modelos

In [39]:
print('-------------------------------')
print('Naive-Bayes : ', GaussNB)
print('-------------------------------')
print('KNN : ', knn)
print('-------------------------------')
print('Random Forest : ',Rf)
print('-------------------------------')
print('Logistic Regression : ',Lr)
print('-------------------------------')
print('SVM : ',Svm)
print('-------------------------------')
print('Arbol de decisión : ',d_tree)
print('-------------------------------')
print('XGBoost : ', XGB)
print('-------------------------------')

-------------------------------
Naive-Bayes :  0.8033333333333333
-------------------------------
KNN :  0.8733333333333333
-------------------------------
Random Forest :  0.85
-------------------------------
Logistic Regression :  0.81
-------------------------------
SVM :  0.89
-------------------------------
Arbol de decisión :  0.7333333333333333
-------------------------------
XGBoost :  0.8666666666666667
-------------------------------


# 8. Adaboost

Estimador que consiste en adecuar un clasificador al dataset original, y después adecuarlo a copias del clasificador en el mismo dataset pero con los pesos ajustados de las clases mal clasificadas.

## Ventajas
- Es menos necesario ajustar parámetros (ej: SVM)
- Teóricamente, el algoritmo AdaBoost no hace overfit (aunque no hay pruebas de ello)
- Fácil de programar
- Son muy versátiles tanto para datos numéricos como para datos de texto


## Inconvenientes

- Las técnicas de boosting tardan en entrenar
- Es muy sensible al ruido y a los outliers
- El algoritmo XGBoost es más rápido

## Ejemplos de uso

- Detección facial
- Reconocimiento de imágenes
- Admision o no de un estudiante a una escuela


https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html

In [2]:
from sklearn.ensemble import AdaBoostClassifier

In [7]:
model = AdaBoostClassifier(n_estimators = 40)
model.fit(x_train,y_train.values.ravel())
predicted = model.predict(x_test)
AdaB = accuracy_score(y_test, predicted)
print('AdaBoost : ', AdaB)

NameError: name 'x_train' is not defined

In [5]:
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from xgboost import XGBClassifier
from sklearn.ensemble import AdaBoostClassifier

In [6]:
funciones = ['1. Gaussian-Naive-Bayes','2. KNN (vecino más cercano)', '3. Random Forest', '4. Regresión Logística', 
             '5. Maquina de vector soporte', '6. Árbol de decisión', '7. XGBoost', '8. AdaBoost' ]
nombre_funciones = ['GaussianNB()', 'KNeighborsClassifier()','RandomForestClassifier()',
                    'LogisticRegression()','SVC()', 'DecisionTreeClassifier()','XGBClassifier()', 'AdaBoostClassifier()']

In [7]:
print(funciones)

['1. Gaussian-Naive-Bayes', '2. KNN (vecino más cercano)', '3. Random Forest', '4. Regresión Logística', '5. Maquina de vector soporte', '6. Árbol de decisión', '7. XGBoost', '8. AdaBoost']


In [10]:
def funcion_a_escoger_e_hiperparametros():
    print('Las siguientes funciones son las que están disponibles en este momento :')
    for funcion in funciones:
        print(funcion)
    
    respuesta = int(input('Escriba el número de la función que desea utilizar :'))
    print()
    
    try:
        nombre_algoritmo = nombre_funciones[respuesta-1]
        print('Has escogido el algoritmo ' + str(funciones[respuesta - 1]))
        print('El algoritmo se llama ' + str(nombre_algoritmo))
    except:
        print('--------ERROR : El número a escoger debe estar entre 1 y ' + str(len(funciones))+ '----------')
    
    modelo = eval(nombre_algoritmo)
    print('Este algoritmo tiene los siguientes parámetros: ')
    
    params = modelo.get_params()
    for key in params : 
        print('\t' +  key, ':' , params[key])
    
    diccionario = {}
    
    x = int(input('¿Quieres modificar algún parámetro?' + '\n' +  '0.No - 1.Si: '))
    
    while x == 1:
        respuesta2 = input('Elige el parámetro a modificar :' + '\n'
                       '(El nombre correspondiente al nombre del parámetro en la librería)')
    
        print('El parámetro : ' + str(respuesta2) + ' tiene ahora mismo el valor ' + str(params[respuesta2]))
        
        respuesta3 = input('¿Cuál quieres que sea su nuevo valor?: ')
        
        try:
            respuesta3  = eval(respuesta3)
        except:
            print('Warning : el tipo será string' )
        #print(type(a))
        diccionario[respuesta2] = respuesta3
        x = int(input('¿Quieres modificar algún parámetro más?' + '\n' +  '0.No - 1.Si: '))
        
    #try :
    for i in range(len(diccionario)):
        modelo.set_params(**diccionario)
    print(modelo)
    #except:
    #    print('Existe algún parámetro que no se ha escrito bien')

In [11]:
funcion_a_escoger_e_hiperparametros()

Las siguientes funciones son las que están disponibles en este momento :
1. Gaussian-Naive-Bayes
2. KNN (vecino más cercano)
3. Random Forest
4. Regresión Logística
5. Maquina de vector soporte
6. Árbol de decisión
7. XGBoost
8. AdaBoost
Escriba el número de la función que desea utilizar :2

Has escogido el algoritmo 2. KNN (vecino más cercano)
El algoritmo se llama KNeighborsClassifier()
Este algoritmo tiene los siguientes parámetros: 
	algorithm : auto
	leaf_size : 30
	metric : minkowski
	metric_params : None
	n_jobs : None
	n_neighbors : 5
	p : 2
	weights : uniform
¿Quieres modificar algún parámetro?
0.No - 1.Si: 0
KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                     weights='uniform')


In [71]:

var = model.get_params()
var['n_estimator'] = 'a'
print(var)
print(model.get_params())

{'algorithm': 'SAMME.R', 'base_estimator': None, 'learning_rate': 1.0, 'n_estimators': 50, 'random_state': None, 'n_estimator': 'a'}
{'algorithm': 'SAMME.R', 'base_estimator': None, 'learning_rate': 1.0, 'n_estimators': 50, 'random_state': None}


In [44]:
for key in var:
    print(key, ':' , var[key])

algorithm : SAMME.R
base_estimator : None
learning_rate : 1.0
n_estimators : 50
random_state : None


In [86]:
type(var['random_state'])

NoneType

In [66]:
model.set_params(someparam = 'n_estimators_150')

ValueError: Invalid parameter someparam for estimator AdaBoostClassifier(algorithm='SAMME.R', base_estimator=None, learning_rate=1.0,
                   n_estimators=50, random_state=None). Check the list of available parameters with `estimator.get_params().keys()`.

In [1]:
x= 0
while x == 0:
    a = input('elige un tipo')
    try:
        a  = eval(a)
    except:
        print('Warning : el tipo será string' )
    print(type(a))
    x = int(input('Seguimos? 0.Si - 1.No : '))

In [26]:
aux = 'AdaBoostClassifier()'
aux2 = eval(aux)

In [27]:
aux2.set_params(n_estimators = 60)

AdaBoostClassifier(algorithm='SAMME.R', base_estimator=None, learning_rate=1.0,
                   n_estimators=60, random_state=None)

In [67]:
dictp = {}
dictp['n_estimators'] = 50
dictp['learning_rate'] = 1.2
dictp

{'n_estimators': 50, 'learning_rate': 1.2}

In [69]:
aux2.set_params(**dictp)

AdaBoostClassifier(algorithm='SAMME.R', base_estimator=None, learning_rate=1.2,
                   n_estimators=50, random_state=None)