# Aula 02 - Análise Exploratória de Dados

---


## Pandas e Arquivos

In [None]:
import numpy as np
import pandas as pd

from sklearn import datasets
df_dataset = pd.read_csv('iris.csv', sep=',', index_col=None) 

In [None]:
df_dataset.shape

In [None]:
df_dataset.head(n=5)

In [None]:
df_dataset.describe()

In [None]:
classe = df_dataset["classe"]
classe.describe()

In [None]:
classe.unique()

In [None]:
df_amostrasSetosa = df_dataset[ df_dataset["classe"] == "Iris-setosa"]
df_amostrasSetosa.shape

In [None]:
display(df_dataset.describe())
display(df_amostrasSetosa.describe())

In [None]:
# encontra as classes do conjunto
classes = df_dataset['classe'].unique()
print('\nClasses do problema: ', classes)

# conta a quantidade de dados em cada classe
for classe in classes:
    df_classe = df_dataset[ df_dataset['classe'] == classe]
    
    print('Qtd. de dados da classe %s: %d' %(classe, df_classe.count().values[0]))

In [None]:
df_dataset.boxplot(figsize=(15,7))
# mais informacoes sobre boxplot: https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd51

## Seaborn

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# matriz de gráficos scatter 
sns.pairplot(df_dataset, hue='classe', height=3.5); # size -> height

# mostra o gráfico usando a função show() da matplotlib
plt.show()

In [None]:
#scatter plot
sns.lmplot(x='comprimento_sepala', y='largura_petala', data=df_dataset, 
           fit_reg=False,
           hue='classe')

# cria um título para o gráfico
plt.title('Comprimento vs largura da sépala.')

# mostra o gráfico
plt.show()

In [None]:
# define a dimensão do gráfico
plt.figure(figsize=(10,7))

# cria o boxplot
sns.boxplot(x="classe", y="comprimento_sepala", data=df_dataset, whis=1.5)

#mostra o gráfico
plt.show()

In [None]:
# cria um gráfico de barras com a frequência de cada classe
sns.countplot(x="classe", data=df_dataset)

# mostra o gráfico
plt.show()

In [None]:
mean = df_dataset.mean()

std = df_dataset.std()

# criando um gráfico de barras vertical
plt.figure(figsize=(10,5))
mean.plot(kind="bar", rot=0, color="red", fontsize=13, yerr=std);
plt.show()

# criando um gráfico de barras horizontal
plt.figure(figsize=(10,5))
mean.plot(kind="barh", rot=0, color="red", fontsize=13, xerr=std);
plt.show()

In [None]:
# cria o histograma
n, bins, patches = plt.hist(df_dataset['comprimento_petala'].values,bins=10, color='red', edgecolor='black', linewidth=0.9)

#mostra o gráfico
plt.show()

In [None]:
# criando o gráfico de densidade 
densityplot = df_dataset.plot(kind='density')

# mostra o gráfico
plt.show()

# criando o gráfico de densidade apenas do atributo comprimento_petala
densityplot = df_dataset['comprimento_petala'].plot(kind='density')

# mostra o gráfico
plt.show()

## Correlação

In [None]:
# criando uma matriz X com os valores do data frame
X = df_dataset.iloc[:,:-1].values # exceto a coluna da classe (a última = -1)

# com pandas
# matriz de correlação
df_correlation = df_dataset.corr()

print('\n\nMatriz de correlação: ')
display(df_correlation)

# cria um mapa de cores dos valoes da correlação
sns.heatmap(df_correlation, annot=True,
        xticklabels=df_correlation.columns,
        yticklabels=df_correlation.columns)

plt.title('Correlação')
plt.show()

## n-Vizinhos Próximos (ou k-Nearest Neighbours)

In [None]:
from sklearn.model_selection import train_test_split

X = df_dataset.iloc[:,:-1].values
y = df_dataset["classe"]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.9, random_state=2019) # 70% treino e 30% teste

display("X_train shape:")
display(X_train.shape)

display("X_test shape:")
display(X_test.shape)

display("y_train shape:")
display(y_train.shape)

display("y_test shape:")
display(y_test.shape)

In [None]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

In [None]:
y_pred = knn.predict(X_test)
display(y_pred)

In [None]:
from sklearn import metrics
print("Acurácia:", metrics.accuracy_score(y_test, y_pred))

## Exercício

A base de dados é muito importante para o algoritmo dos vizinhos próximos, mas inviabiliza que esse algoritmo seja utilizada em ambientes com poucos recursos de memória, por exemplo.
**Implemente os algoritmos de inserção e remoção incremental, minimizando o número de amostras necessárias para manter o resultado alto.**