### Algoritmos de classificação de verificação pontual

A verificação pontual é uma maneira de descobrir quais algoritmos funcionam bem em seu aprendizado de máquina problema. Você não pode saber quais algoritmos são mais adequados para o seu problema de antemão. Você deve experimentar uma série de métodos e focar a atenção naqueles que provam ser os mais promissor. Neste capítulo, você descobrirá seis algoritmos de aprendizado de máquina que você pode usar ao verificar seu problema de classificação em Python com o scikit-learn. 

1. Como verificar algoritmos de aprendizado de máquina em um problema de classificação.
2. Como verificar dois algoritmos de classificação linear.
3. Como verificar quatro algoritmos de classificação não linear.

#### Verificação imediata do algoritmo

Você não pode saber qual algoritmo funcionará melhor em seu conjunto de dados de antemão. Você deve usar tentativa e erro para descobrir uma lista de algoritmos que funcionam bem em seu problema que você pode em seguida, dobre e sintonize ainda mais. Eu chamo esse processo de verificação pontual.

A questão não é: qual algoritmo devo usar em meu conjunto de dados? Em vez disso, é: O que algoritmos devo verificar no meu conjunto de dados? Você pode adivinhar o que os algoritmos podem fazer bem em seu conjunto de dados, e isso pode ser um bom ponto de partida. Eu recomendo tentar uma mistura de algoritmos e veja o que é bom para escolher a estrutura em seus dados. Abaixo estão alguns sugestões ao verificar algoritmos no seu conjunto de dados:

* Tente uma mistura de representações de algoritmos (por exemplo, instâncias e árvores).
* Tente uma mistura de algoritmos de aprendizado (por exemplo, algoritmos diferentes para aprender o mesmo tipo de representação). Tente uma mistura de tipos de modelagem (por exemplo, funções lineares e não lineares ou funções paramétricas e não paramétrico).
* Vamos ser específicos. Na próxima seção, veremos algoritmos que você pode usar para verificar seu próximo projeto de aprendizado de máquina de classificação em Python.

#### Visão geral dos algoritmos

Vamos dar uma olhada em seis algoritmos de classificação que você pode verificar no seu conjunto de dados. Começando com dois algoritmos de aprendizado de máquina linear:

* Regressão Logística.
* Análise Discriminante Linear.

Em seguida, analisando quatro algoritmos de aprendizado de máquina não lineares:

* k-vizinhos mais próximos.
* Naive Bayes.
* Árvores de classificação e regressão.
* Máquinas de vetores de suporte.

Cada receita é demonstrada no conjunto de dados de diabetes dos índios Pima. Um arnês de teste usando validação cruzada de 10 vezes é usado para demonstrar como verificar cada aprendizado de máquina algoritmo e medidas de precisão média são usadas para indicar o desempenho do algoritmo. as receitas suponha que você conheça cada algoritmo de aprendizado de máquina e como usá-los. Vamos não entrar na API ou parametrização de cada algoritmo.

#### Algoritmos de aprendizado de máquina linear

Esta seção demonstra receitas mínimas de como usar dois algoritmos lineares de aprendizado de máquina: regressão logística e análise discriminante linear.

##### Regressão Logística

A regressão logística assume uma distribuição gaussiana para as variáveis de entrada numérica e pode modelar problemas de classificação binária. Você pode construir um modelo de regressão logística usando o Classe de regressão logística1.

In [None]:
# Logistic Regression Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
num_folds = 10
kfold = KFold(n_splits=10, random_state=7)
model = LogisticRegression()
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

##### Análise Discriminante Linear

Análise Discriminante Linear ou LDA é uma técnica estatística para binário e multiclasse classi cação. Ele também assume uma distribuição gaussiana para as variáveis de entrada numérica. Você pode construa um modelo LDA usando a classe LinearDiscriminantAnalysis2.

In [None]:
# LDA Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
num_folds = 10
kfold = KFold(n_splits=10, random_state=7)
model = LinearDiscriminantAnalysis()
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

#### Algoritmos de aprendizado de máquina não linear

Esta seção demonstra receitas mínimas de como usar 4 algoritmos de aprendizado de máquina não linear.

##### k-vizinhos mais próximos

O algoritmo k-Nearest Neighbors (ou KNN) usa uma métrica de distância para encontrar os k mais semelhantes instâncias nos dados de treinamento para uma nova instância e leva o resultado médio dos vizinhos como a previsão. Você pode construir um modelo KNN usando o KNeighborsClassifier class. 

In [None]:
# KNN Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
num_folds = 10
kfold = KFold(n_splits=10, random_state=7)
model = KNeighborsClassifier()
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

##### Naive Bayes

Naive Bayes calcula a probabilidade de cada classe e a probabilidade condicional de cada classe dado cada valor de entrada. Essas probabilidades são estimadas para novos dados e multiplicadas, assumindo que eles são todos independentes (uma suposição simples ou ingênua). Ao trabalhar com dados de valor real, assume-se que uma distribuição gaussiana estima facilmente as probabilidades de variáveis de entrada usando a Função de Densidade de Probabilidade Gaussiana. Você pode construir um ingênuo Modelo de Bayes usando o GaussianNB class4.

In [None]:
# Gaussian Naive Bayes Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.naive_bayes import GaussianNB
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
kfold = KFold(n_splits=10, random_state=7)
model = GaussianNB()
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

##### Árvores de classificação e regressão

Árvores de classificação e regressão (CART ou apenas árvores de decisão) constroem uma árvore binária a partir os dados de treinamento. Os pontos de divisão são escolhidos avidamente avaliando cada atributo e cada valor de cada atributo nos dados de treinamento para minimizar uma função de custo (como o índice de Gini). Você pode construir um modelo CART usando a classe DecisionTreeClassifier.

In [None]:
# CART Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
kfold = KFold(n_splits=10, random_state=7)
model = DecisionTreeClassifier()
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

##### Máquinas de vetores de suporte

Support Vector Machines (ou SVM) buscam uma linha que melhor separe duas classes. Esses dados instâncias que estão mais próximas da linha que melhor separa as classes são chamadas de vetores de suporte e em uência onde a linha é colocada. O SVM foi estendido para oferecer suporte a várias classes. De particular importância é o uso de diferentes funções do kernel por meio do parâmetro do kernel. Uma poderosa função de base radial é usada por padrão. Você pode construir um modelo SVM usando o Classe SVC.

In [None]:
# SVM Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.svm import SVC
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
kfold = KFold(n_splits=10, random_state=7)
model = SVC()
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

In [None]:
%reload_ext watermark
%watermark -a "Caique Miranda" -gu "caiquemiranda" -iv

### End.