# Introdução a Aprendizagem de Máquina com Python

## Outros recursos:
### Software:
- Scikit-Learn: [documentação](http://scikit-learn.org/stable/documentation.html)
- Outras bibliotecas: [numpy]{https://www.numpy.org/}, [statsmodel](http://www.statsmodels.org/stable/index.html), [NLTK]{https://www.nltk.org/}, [TensorFlow]{https://www.tensorflow.org/}

### Datasets:
- [UCI Machine Learning Repository]{https://archive.ics.uci.edu/ml/index.php}
- [Kaggle]{http://kaggle.com/}

# Dados
Neste primeiro exemplo, utilizaremos o dataset *wine*. Ele consiste em uma análise química de vinhos da região de uma mesma região da Itália, e o objetivo nesse caso é identificar qual é o produtor de cada um dos vinhos.

In [None]:
from sklearn import datasets
wine = datasets.load_wine()

## Visualizar descrição

In [None]:
print(wine.DESCR)

In [None]:
print(wine.feature_names)

In [None]:
print(wine.data[0:3])

In [None]:
print(wine.target[0:3])

In [None]:
print(wine.target_names[0:3])

## Converter para pandas

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame(data   = np.c_[wine.data, wine.target],
                  columns= list(wine.feature_names) + ['target'])

features = wine.feature_names
print(features)

df.head()

## Análise exploratória

In [None]:
df.describe()

In [None]:
%matplotlib inline

fig = df.loc[:,features].hist(bins=50, figsize=(15, 15))

In [None]:
from pandas.plotting import scatter_matrix
fig = scatter_matrix(df.loc[:,features], alpha=0.2, figsize=(15, 15), diagonal='kde')

# Separar conjuntos de treinamento e teste

In [None]:
from sklearn.model_selection import train_test_split

df_train, df_test = train_test_split(df, test_size=0.3)
print('Número de exemplos de treinamento:', len(df_train))
print('Número de exemplos de teste:', len(df_test))

## Conferir distribuições das classes 

In [None]:
df_train.target.value_counts()

In [None]:
df_test.target.value_counts()

## Algoritmo: kNN


In [None]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=3)
model.fit(df_train.loc[:,features], df_train['target'])

In [None]:
from sklearn.metrics import accuracy_score

predicoes = model.predict(df_test.loc[:,features])
print('Taxa de acerto: ', accuracy_score(df_test['target'], predicoes))

## Variando k

In [None]:
kvals = [1, 3, 5, 10, 15, 20]
accs = []

for k in kvals:
    model = KNeighborsClassifier(n_neighbors=k)
    model.fit(df_train.loc[:,features], df_train['target'])
    predicoes = model.predict(df_test.loc[:,features])
    acc = accuracy_score(df_test['target'], predicoes)
    accs.append(acc)
    print('k={} - Taxa de acerto: {}'.format(k,acc))

In [None]:
from matplotlib import pyplot as plt
plt.plot(kvals, accs)

In [None]:
# ajustando a escala
plt.plot(kvals, accs)
plt.ylim([0,1])

## Outros algoritmos?
## Árvore de Decisão
Árvore de Decisão é um algoritmo do tipo "caixa branca", diferentemente de métodos como Redes Neurais ("caixa preta"). Ele compartilha a lógica interna de tomada de decisão, e fornece meios para "explicar" as suas decisões.

![alt text](https://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1545934190/1_r5ikdb.png)

É bastante rápido, tanto na fase de treinamento quanto de classificação, sendo bastante robusto para dados de alta dimensionalidade com atributos categóricos ou numéricos. Além disso, árvores de decisão compõem a base para construção de algoritmos do tipo "ensemble" (que combinam diversos classificadores) como o Random Forests e o XGBoost.

In [None]:
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()
model.fit(df_train.loc[:,features], df_train['target'])

predicoes = model.predict(df_test.loc[:,features])
acc = accuracy_score(df_test['target'], predicoes)
print(model)
print('Taxa de acerto: ', accuracy_score(df_test['target'], predicoes))

## Random Forests
Random forest é um classificador da categoria *ensemble*, ou seja, ele é composto por diversos outros classificadores (mais simples), no caso, árvores de decisão.
Uma árvore é construída para diversas sub-amostras do conjunto de dados, e uma média é utilizada para realizar as predições. Isto aumenta a acurácia e reduz a sensibilidade a desbalanceamento de classes, ruídos e overfitting.

In [None]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators=100)
model.fit(df_train.loc[:,features], df_train['target'])

predicoes = model.predict(df_test.loc[:,features])
acc = accuracy_score(df_test['target'], predicoes)
print(model)
print('Taxa de acerto: ', accuracy_score(df_test['target'], predicoes))