# 02 - Análise Exploratória de Dados

---


In [None]:
import numpy as np
import pandas as pd

df_dataset = pd.read_csv('iris.csv', sep=',', index_col=None) 

---

Retomando a aula anterior, esse material aborda como fazer a exploração dos dados e conhecer características que podem distinguir uma classe de outra.

In [None]:
df_dataset.shape

In [None]:
df_dataset.head(n=5)

---

A função describe() de um DataFrame auxilia a entender algumas medidas estatísticas que descrevem os dados. Serve para entender se uma distribuição é muito diferente de outra e se existe ou não a presença de pontos incomuns.

In [None]:
df_dataset.describe()

In [None]:
classe = df_dataset["classe"]
classe.describe()

In [None]:
df_amostrasSetosa = df_dataset[ df_dataset["classe"] == "Iris-setosa"]
df_amostrasSetosa.shape

---

Em um determinado momento, pode ser interessante a análise para verificar se uma classe específica difere muito da descrição do conjunto de dados como um todo.

In [None]:
display(df_dataset.describe())
display(df_amostrasSetosa.describe())

In [None]:
# encontra as classes do conjunto
from collections import Counter

print('Classes e quantidade:', Counter(df_dataset['classe']))

In [None]:
df_dataset.boxplot(figsize=(15,7))
# mais informacoes sobre boxplot: https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd51

## Seaborn

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# matriz de gráficos scatter 
sns.pairplot(df_dataset, hue='classe', height=3.5); # size -> height

# mostra o gráfico usando a função show() da matplotlib
plt.show()

In [None]:
#scatter plot
sns.lmplot(x='comprimento_sepala', y='largura_petala', data=df_dataset, 
           fit_reg=False,
           hue='classe')

# cria um título para o gráfico
plt.title('Comprimento vs largura da sépala.')

# mostra o gráfico
plt.show()

In [None]:
# define a dimensão do gráfico
plt.figure(figsize=(10,7))

# cria o boxplot
sns.boxplot(x="classe", y="comprimento_sepala", data=df_dataset, whis=1.5)

#mostra o gráfico
plt.show()

In [None]:
# cria um gráfico de barras com a frequência de cada classe
sns.countplot(x="classe", data=df_dataset)

# mostra o gráfico
plt.show()

In [None]:
mean = df_dataset.mean()

std = df_dataset.std()

# criando um gráfico de barras vertical
plt.figure(figsize=(10,5))
mean.plot(kind="bar", rot=0, color="red", fontsize=13, yerr=std);
plt.show()

# criando um gráfico de barras horizontal
plt.figure(figsize=(10,5))
mean.plot(kind="barh", rot=0, color="red", fontsize=13, xerr=std);
plt.show()

In [None]:
# cria o histograma
n, bins, patches = plt.hist(df_dataset['comprimento_petala'].values, bins=20, color='red', edgecolor='black', linewidth=0.9)

#mostra o gráfico
plt.show()

## Correlação

In [None]:
# criando uma matriz X com os valores do data frame
X = df_dataset.iloc[:,:-1].values # exceto a coluna da classe (a última = -1)

# com pandas
# matriz de correlação
df_correlation = df_dataset.corr()

print('\n\nMatriz de correlação: ')
display(df_correlation)

# cria um mapa de cores dos valoes da correlação
sns.heatmap(df_correlation, annot=True,
        xticklabels=df_correlation.columns,
        yticklabels=df_correlation.columns)

plt.title('Correlação')
plt.show()