### Curso de Python do Maurão
#### Aula 1 - Análise de dados com Python


## IMPORTANTE: Quem estiver interessado em uma versão "turbo" dessa aula pode ir no [git do chicolucio e pegar](https://github.com/chicolucio-forks/curso_data_science_pro/blob/master/explore/01_exploring_iris.ipynb).

#####  **Objetivos:** 

 - Usar os recursos de análise de covariância em uma base de dados conhecida
 - Explorar as funcionalidades de gráficos de diferentes 
 - Análise de correlação


#### Descrição dos dados utilizados

Essa base de dados (chamada Iris) foi coletada em 1936 e publicada num paper descrevendo-a, bem como a um modelo linear que foi elaborado para descrevê-la.

Mais informações: https://en.wikipedia.org/wiki/Iris_flower_data_set

O dado consiste de 150 observações, um terço de cada espécie, e serão feitas várias análises abaixo.

Referências:

https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Machine+Learning+R/iris-machinelearning.png
https://machinelearningmastery.com/

https://www.kaggle.com/benhamner


1) Carregando as bibliotecas a serem usadas (instaladas pelo Anaconda)

In [10]:
import pandas

from pandas.plotting import scatter_matrix
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import model_selection
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
import numpy as np

2) Configurações do ambiente

In [2]:
%matplotlib inline
sns.set(style="white", color_codes=True)

3) Obtendo os dados a serem analisados

In [7]:
diretorio = r"..\data\iris.csv"
iris = pandas.read_csv(diretorio)

4) Espiando ...

In [None]:
iris.head()

In [None]:
iris.tail()

In [None]:
iris.head(20)

4) Usando groupby para analisar as classes

In [None]:
iris.groupby('species').size()

5) Boxplots

In [None]:
iris.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False)
plt.show()

6) Histogramas

In [None]:
iris.hist()
plt.show()

7) Matrix scatter

In [None]:
scatter_matrix(iris)
plt.show()

In [None]:
scatter_matrix(iris, diagonal='kde')
plt.show()

8) Analisando mais de perto uma das correlações

In [None]:
iris.plot(kind="scatter", x="sepal-length", y="sepal-width")

9) Usando a seaborn, outra lib de gráficos

In [None]:
sns.jointplot(x="sepal-length", y="sepal-width", data=iris, height=6)

10) Colorindo os grupos, adicionando legenda...

In [None]:
sns.FacetGrid(iris, hue="species", size=6) \
   .map(plt.scatter, "sepal-length", "sepal-width") \
   .add_legend()

11) Comparando-se os boxplots, dá pra chegar a uma conclusão interessante...

In [None]:
sns.boxplot(x="species", y="petal-length", data=iris)

12) Adicionando os pontos ao gráfico. Como são poucos pontos, isso faz sentido.O parâmetro "jitter" tira os pontos da mesma linha, melhorando a visualização.

In [None]:
ax = sns.boxplot(x="species", y="petal-length", data=iris)
ax = sns.stripplot(x="species", y="petal-length", data=iris, jitter=True)

13) E elas estão de volta!!!

In [None]:
sns.violinplot(x="species", y="petal-length", data=iris, size=6)

13) Pode-se usar a estimativa de densidade de núcleo (kde) para analisar os dados. A mesma conclusão do item 11 pode ser evidenciada aqui.

In [None]:
sns.FacetGrid(iris, hue="species", size=6) \
   .map(sns.kdeplot, "petal-length") \
   .add_legend()

14) Esse é o pairplot, que mostra a relação de bivariância entre cada par de variaveis do dataset.

In [None]:
sns.pairplot(iris, hue="species", size=3)

15) Pode-se adicionar uma regressão linear aos plots

In [None]:
sns.pairplot(iris, kind="reg")

In [None]:
sns.pairplot(iris, hue="species", kind="reg")

### Machine learning

De agora em diante, vamos explorar recursos de machine learning para tentar entender as relações entre as variáveis a classe das espécies.

16) Salvando os valores a serem processados nas analises. A biblioteca scikit-learn usa numpy arrays.

In [None]:
array = iris.values
print(type(array))

In [None]:
print(array.shape)
print(array)

16) Isolando Iris-setosa

In [None]:
raw_target = array[:,4]
print(raw_target)
y = np.where(raw_target == 'Iris-setosa', 1, 0)
print(y)

In [None]:
X = array[:,0:4]
X.shape

17) Algoritmos de machine learning normalmente exigem que se tenha um conjunto de dados para "treinar" o modelo e outro para testar. Isso será feito abaixo. O parâmetro "Seed" indica o ponto de partida da "aleatoridade" da escolha. Ao fixá-lo garantimos que a escolha será sempre a mesma.

In [None]:
test_size = 0.20
seed = 7
X_train, X_test, y_train, y_test = \
    model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)
    
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)
print(X_train[:10])
print(X_test[:10])
print(y_train[:10])
print(y_test[:30])

18) Criando o modelo, validando o resultado

In [None]:
model = LogisticRegression()
model.fit(X_train,y_train)
y_pred = model.predict(X_test)
cm = confusion_matrix(y_pred,y_test)
print(cm)

19) Iris-virinica e Iris-versicolor se sobrepõem parcialmente. Vamos tentar modelar a Iris-virginica.

In [None]:
raw_target = array[:,4]
y = np.where(raw_target == 'Iris-virginica', 1, 0)
print(raw_target)
print(y)

In [None]:
X = array[:,0:4]
test_size = 0.20
seed = 7
X_train, X_test, y_train, y_test = \
    model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)
model = LogisticRegression()
model.fit(X_train,y_train)
y_pred = model.predict(X_test)
cm = confusion_matrix(y_pred,y_test)
print(cm)

20) E agora a Iris-versicolor

In [None]:
raw_target = array[:,4]
y = np.where(raw_target == 'Iris-versicolor', 1, 0)
print (y)
X = array[:,0:4]
test_size = 0.20
seed = 7
X_train, X_test, y_train, y_test = \
    model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)
model = LogisticRegression()
model.fit(X_train,y_train)
y_pred = model.predict(X_test)
cm = confusion_matrix(y_pred,y_test)
print(cm)

Talvez a previsão ruim das últimas tentativas deva-se ao fato do modelo tentar separar os grupos através de uma linha reta, o que funcionaria para Iris-setosa mas não para as outras espécies.

21) Vamos tentar um outro modelo:

In [None]:
X = array[:,0:4]
raw_target = array[:,4]
y = np.where(raw_target == 'Iris-versicolor', 1, 0)
test_size = 0.20
seed = 7
X_train, X_test, y_train, y_test = \
    model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)
model = KNeighborsClassifier(n_neighbors=15, weights='distance')
model.fit(X_train,y_train)
y_pred = model.predict(X_test)
cm = confusion_matrix(y_pred,y_test)
print(cm)

Muito melhor, né? 

22) Talvez o modelo logístico tenha falhado porque a classe Iris-setosa tenha "empurrado" as outras classes uma em direção à outra. Vamos remover a Iris-setosa e tentar criar um novo modelo logístico.

In [None]:
small_array = array[array[:,4]!='Iris-setosa']
print('Shape of small_array: ', small_array.shape)
print(small_array)

23) Aplicando novamente o modelo linear, agora com uma amostra de treinamento maior, porque são menos dados.

In [None]:
X = small_array[:,0:4]
raw_target = small_array[:,4]
y = np.where(raw_target == 'Iris-versicolor', 1, 0)

test_size = 0.30

seed = 7
X_train, X_test, y_train, y_test = \
    model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)
model = LogisticRegression()
model.fit(X_train,y_train)
y_pred = model.predict(X_test)
cm = confusion_matrix(y_pred,y_test)
print(cm)

24) Tentando um outro modelo não linear

In [None]:
from sklearn.svm import SVC

raw_target = array[:,4]
y = np.where(raw_target == 'Iris-versicolor', 1, 0)
print(y)
X = array[:,0:4]
test_size = 0.20
seed = 7
X_train, X_test, y_train, y_test = \
    model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)
model = SVC()
model.fit(X_train,y_train)
y_pred = model.predict(X_test)
cm = confusion_matrix(y_pred,y_test)
print(cm)