In [10]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import KFold, cross_val_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC

# Introducción

Spot-Checking es una forma de descubrir que algoritmos funcionan bien en nuestro problema de aprendizaje automático. No podemos saber aquellos algoritmos que son más adecuados a nuestro problema de antemano. Debemos probar un número de métodos y centrarnos en aquellos que den mejores resultados.

# Algorithm Spot-Checking

No podemos conocer de antemano que algoritmo funcionará mejor a la hora de resolver nuestro problema. Debemos hacer uso del método prueba y error para detectar una pequeña lista de algoritmos que funcionan bien y a partir de esta lista podemos afinar.

Cuando queremos empezar a utilizar algoritmos la pregunta que nos debemos hacer es: ¿qué conjunto de algoritmos se adaptan mejor a nuestro problema? en lugar de cometer el error de preguntarnos: ¿qué algoritmo se adapta mejor a nuestro problema?. Lo mejor es probar un conjunto de algoritmos y ver cuál es que mejor resultados proporciona.

# Algoritmos de aprendizaje automático lineales

## Regresión Logística

La regresión logística asume distribuciones gaussianas para las variables de entrada numéricas, puede ser usado para modelar problemas de clasificación binarios. Podemos construir un modelo de regresión logística haciendo uso de la clase **LogisticRegression** de la librería sklearn.

In [4]:
#Cargamos los datos 
filename = 'pima-indians-diabetes.data.csv'
names = ['preg' , 'plas' , 'pres' , 'skin' , 'test' , 'mass' , 'pedi' , 'age' , 'class']
df = pd.read_csv(filename, names=names)

#Separamos entre variable a predecir y variables predictoras
X = df.values[:, 0:8]
Y = df.values[:,8]

#Fijamos el kFold y lanzamos nuestro modelo
kfold = KFold(n_splits=10, random_state=7)
model = LogisticRegression()
results = cross_val_score(model, X, Y, cv = kfold)
print(results.mean())

0.7695146958304853


## Linear Discriminant Analysis (LDA)

Técnica estadística para clasificación binaria y multiclase. Asume distribuciones gaussianas para las variables numéricas de entrada.

In [6]:
#Cargamos los datos 
filename = 'pima-indians-diabetes.data.csv'
names = ['preg' , 'plas' , 'pres' , 'skin' , 'test' , 'mass' , 'pedi' , 'age' , 'class']
df = pd.read_csv(filename, names=names)

#Separamos entre variable a predecir y variables predictoras
X = df.values[:, 0:8]
Y = df.values[:,8]

#FIjamos el kfold y lanzamos el modelo
kfold = KFold(n_splits=10, random_state=7)
model = LinearDiscriminantAnalysis()
results = cross_val_score(model, X, Y, cv = kfold)
print(results.mean())

0.773462064251538


# Algoritmos no lineales de aprendizaje automático

## K vecinos más cercanos (KNN)

El algoritmo de k vecinos más cercanos (KNN) usa como métrica la distancia para encontrar las k instancias más similares en el conjunto de entrenamiento y a la hora de evaluar una nueva instancia toma el resultado promedio de los vecinos como predicción. Podemos hacer uso de este algoritmo mediante la clase **KNeighborsClassifier**.

In [3]:
#Carga de datos
filename = 'pima-indians-diabetes.data.csv'
names = ['preg' , 'plas' , 'pres' , 'skin' , 'test' , 'mass' , 'pedi' , 'age' , 'class']
dataframe = pd.read_csv(filename, names=names)

#Separamos entre predictores y variable a predecir
X = dataframe.values[:, 0:8]
Y = dataframe.values[:,8]

#Preparamos un kfold y lanzamos algoritmo
kfold = KFold(n_splits=10, random_state=7)
model = KNeighborsClassifier()
results = cross_val_score(model, X, Y, cv = kfold)
print(results.mean())

0.7265550239234451


## Naive Bayes

Naive Bayes calcula la probabilidad de cada clase y la probabilidad condicionada de cada clase dado un valor de entrada. Estas probabilidades son estimadas para una nueva observación y multiplicadas conjuntamente, asumiendo que todas son independientes. Cuando trabajamos con datos reales, se asume una distribución Gaussianna para estimar facilmente las probabilidades para las variables de entrada a partir de la PDF Gaussianna. Podemos hacer uso de este algoritmo mediante la clase **GaussianNB**.

In [5]:
#Carga de datos
filename = 'pima-indians-diabetes.data.csv'
names = ['preg' , 'plas' , 'pres' , 'skin' , 'test' , 'mass' , 'pedi' , 'age' , 'class']
dataframe = pd.read_csv(filename, names=names)

#Separamos entre los predictores y la variable a predecir
X = dataframe.values[:,0:8]
Y = dataframe.values[:,8]

#Preparamos nuestro kfold y lanzamos algoritmo 
kfold = KFold(n_splits=10, random_state=7)
model = GaussianNB()
results = cross_val_score(model, X, Y, cv = kfold)
print(results.mean())

0.7551777170198223


## Árboles de decisión (regresión y clasificación)

Los árboles de regresíon y clasificación (CART) construyen un árbol binario a partir del conjunto de entrenamiento. Los puntos de corte son seleccionados evaluando cada valor de cada atributo con el objetivo de minimizar una determinada función de coste (por ejemplo, el índice de Gini). Podemos hacer uso de este modelo mediante la clase **DecisionTreeClassifier **.

In [9]:
#Carga de datos
filename = 'pima-indians-diabetes.data.csv'
names = ['preg' , 'plas' , 'pres' , 'skin' , 'test' , 'mass' , 'pedi' , 'age' , 'class']
dataframe = pd.read_csv(filename, names=names)

#Separamos entre los predictores y la variable a predecir
X = dataframe.values[:, 0:8]
Y = dataframe.values[:,8]

#Preparamos kfold y lanzamos algoritmo 
kfold = KFold(n_splits=10, random_state=7)
model = DecisionTreeClassifier()
results= cross_val_score(model, X, Y, cv = kfold)
print(results.mean())

0.7017088174982911


## Support Vector Machines

Support Vector Machines (SVM) busca la línea que mejor separa las dos clases. Las instancias que están más cerca de la línea que mejor separa las clases se denominan vectores de soporte y son los que influyen en la ubicación de la línea. SVM ha si expandido a múltiples clases. De particular importancia es el uso de múltiplos kernels a partir del argumento **kernel**. Podemos hacer uso de este algoritmo median la clase de sklearn **SVC**.

In [11]:
#Carga de datos
filename = 'pima-indians-diabetes.data.csv'
names = ['preg' , 'plas' , 'pres' , 'skin' , 'test' , 'mass' , 'pedi' , 'age' , 'class']
dataframe = pd.read_csv(filename, names=names)

#Separamos en predictores y variable a predecir
X = dataframe.values[:,0:8]
Y = dataframe.values[:,8]

#Preparamos kfold y lanzamos algoritmo
kfold = KFold(n_splits=10, random_state=7)
model = SVC()
results = cross_val_score(model, X, Y, cv = kfold)
print(results.mean())

0.6510252904989747
