**[Voltar para a Página Inicial do Curso](https://www.kaggle.com/c/ml-python-me)**

# **Análise Exploratória e Visualização de Dados**
Nesta aula vamos aprender a realizar a análise exploratória dos dados e a visualizar os dados para conhecer melhor sua estrutura e distribuição.

#### Conteúdo:
1. Como visualizar a estrutura dos dados
2. Como explorar e visualizar o sumário dos dados
3. Principais Bibliotecas Python
4. Como gerar gráficos 
5. Exercícios Complementares (Opcional)

#### Materiais adicionais de Python
* https://www.datascienceacademy.com.br/course?courseid=python-fundamentos
* https://developers.google.com/edu/python/
* https://panda.ime.usp.br/aulasPython/static/aulasPython/index.html

In [None]:
# Importar os dados novamente...
import pandas as pd
item = pd.read_csv('../input/itemLicitacao.csv')
item.head()

# 1. Como visualizar a estrutura dos dados
* df.shape: (quantidade de linhas, quantidade de colunas)
* df.index: descreve os indices
* df.columns: descreve as colunas
* df.info(): descreve o dataframe
* df.count(): conta o número de linhas que não tem valores NA

In [None]:
# Mostra (quantidade de linhas, quantidade de colunas)
item.shape

In [None]:
# Descreve os indices
item.index

In [None]:
# Descreve as colunas
item.columns

In [None]:
# Descreve o DataFrame
item.info()

In [None]:
# Mostra a qtd de linhas
item.count()

### 1. Exercício
Visualize a estrutura dos dados de licitacoes. Para isso, importe o dataset de licitacao e mostre a estrutura de dados do dataset de licitacoes. Ou seja, mostre sua quantidade de linhas e colunas, seus índices, descreva suas colunas, descreva o dataframe e mostre a quantidade de linhas.

In [None]:
# 1. importe o dataset de licitacao

# mostre a quantidade de linhas e colunas, índices, descreva suas colunas, descreva o dataframe


# 2. Como Explorar e Visualizar o Sumário dos dados
* df.sum(): mostra a soma de valores
* df.cumsum(): mostra a soma acumulada dos valores
* df.min(): mostra o mínimo valor
* df.max(): mostra o valor máximo
* df.mean(): mostra a média
* df.median(): mostra a mediana
* df.describe(): mostra um sumário estatístico com a quantidade, média, desvio padrão (std), mínimo, primeiro quartil (25%), segundo quartil (50%), terceiro quartil (75%), valor máximo.

### 2. Exercício
Para o dataset de itens de licitacoes, gere seus sumários e responda às seguintes perguntas:
1. Qual a soma de valores de quantidade de itens? 
2. Qual a diferença entre o resultado de sum() e cumsum() ?
3. Qual o valor mínimo de quantidade de itens?
4. Qual a maior quantidade de itens?
5. Qual a média da quantidade de itens?
6. Qual a mediana da quantidade de itens?
7. Qual o desvio padrão da quantidade de itens?

**Dica:** para gerar o sumário de uma coluna, utilize `dataframe.coluna.funcao()`. Exemplo: `licit.ano.min()`

In [None]:
# 1. Qual a soma de valores de quantidade de itens? 
# 2. Qual a diferença entre o resultado de sum() e cumsum() ?
# 3. Qual o valor mínimo de quantidade de itens?
# 4. Qual a maior quantidade de itens?
# 5. Qual a média da quantidade de itens?
# 6. Qual a mediana da quantidade de itens?
# 7. Qual o desvio padrão da quantidade de itens?

In [None]:
# Extra: Como desabilitar Notacao Científica
pd.set_option('display.float_format', '{:.2f}'.format)

# Descreve os Dados
item.describe()

## Material Complementar
Para quem não se lembra de média, mediana, variancia, e desvio padrão...

In [None]:
# Exemplo Simplificado: Vamos calcular o sumário deste dataset com 5 valores.
a = pd.DataFrame({'a':[10,15,20,30,60]})
a.head()

In [None]:
# Diferença entre mediana e média
a.median() # mediana (o valor central) = 20
a.sum() # 135
a.mean() # media = soma dos valores / quantidade = 135 / 5 = 27

# Variancia 
# (mede o quanto cada valor está distante da média) = abs(x1 - media)**2 + abs(x2 - media)**2 .. / n - 1
# (abs(10-27)**2 + abs(15 - 27)**2 + abs(20 - 27)**2 + abs(30 - 27)**2 + abs(60 - 27)**2) / (5 - 1) = 395
a.var() 

# STD - Standard Deviation ou Desvio Padrão
# Mede o grau de dispersão dos dados. Indica o quanto um conjunto de dados é uniforme.
# Qto mais proximo de 0, mais homogeneo. Por exemplo, o desvio padrão de [1,1,1] = 0
import math
math.sqrt(395)

# Sumário
a.describe()

In [None]:
# Boxplot: Para visualizar os quartis, a mediana e os extremos (outliers)
a.boxplot()

# 3. Principais Bibliotecas Python
Bibliotecas python possuem uma série de funções já criadas. As principais bibliotecas Python usadas em ciência de dados e machine learning são:
1. Numpy: manipulação de Dados
2. Scipy: manipulação de Dados e estatística
3. Pandas: manipulação de Dados
4. Matplotlib: para Visualização de Dados
5. Seaborn: para Visualização de Dados
6. Scikit-learn: para Machine Learning
7. TensorFlow: para Deep Learning
8. NLTK: para Linguagem Natural
9. StatsModel: estatística
10. Scrapy: webscraping, raspagem de sites

Não se preocupe em entender todas agora. Neste primeiro momento, você precisa aprender apenas como importar uma biblioteca, através do `import`. As bibliotecas são do tipo `module` ou módulos que apenas representam uma coleção de variáveis já definidas.

In [None]:
# Importar uma biblioteca
import pandas as pd
print("Pandas tem o tipo {}".format(type(pd)))

### Sobreposição de Bibliotecas
Outra forma de importar bibliotecas é chamando apenas funções específicas. Esta é uma prática que evita a sobreposição de funções de bibliotecas. Por exemplo, tanto a `math` quanto a `numpy` possuem módulos chamados `log`, porém cada um com semântica diferente. Se importarmos `numpy` por último, ele irá sobrescrever a `math`. Nestes casos, é recomendável importar os módulos específicos de cada biblioteca, o que pode ser feito utilizando `from`, da seguinte forma:

In [None]:
# Importando módulos específicos das bibliotecas
from math import log, pi
from numpy import asarray

In [None]:
# Lembre que você pode sempre chamar um help() para ver a documentação, inclusive de bibliotecas
help(pd)

In [None]:
# E pode querer relembrar qual o tipo 
type(pd)

### 3. Exercício
Importe a biblioteca matplotlib e veja sua documentação.

In [None]:
# Importe a biblioteca matplotlib e veja sua documentação.


# 4. Como gerar Gráficos
Antes de começarmos a fazer os gráficos, vamos entender os principais tipos de gráficos, que são:

![](https://previews.123rf.com/images/microone/microone1711/microone171100097/89138295-color-finance-data-chart-vector-icons-statistics-colorful-presentation-graphics-and-diagrams-chart-a.jpg)


### Como escolher o melhor gráfico?
![](https://associationanalytics.com/wp-content/uploads/2017/06/2017-06-24-09_26_24-visuals-reference-may2017-A3.pdf-Adobe-Acrobat-Reader-DC.png)

### A quantidade de variáveis e categorias pode influenciar...
![](https://oss.adm.ntu.edu.sg/bkuah001/wp-content/uploads/sites/985/2018/03/what-to-show-chart1.jpg)

In [None]:
# Importa dados de licitacoes
import pandas as pd
licit = pd.read_csv('../input/licitacao.csv')

In [None]:
# Licitacoes por Modalidade
licit.modalidade.value_counts()

In [None]:
# Gráfico de Licitações por Modalidade
import seaborn as sns
sns.countplot(y='modalidade', data=licit)

### 4. Exercícios

1. Crie um gráfico de barras para mostrar a quantidade de licitacoes por situacao

2. Quais tipos de Gráficos podem ser gerados com as informações do dataset de licitacoes (licit)? Liste pelo menos 3 numa célula de markdown, explicando quais variáveis você usaria, qual seria o tipo do gráfico e o qual tipo de pergunta este gráfico responderia?

***
# Respostas dos Exercícios

In [None]:
# 1. RESPOSTA  Mostre a estrutura de dados do dataset de licitacoes
import pandas as pd
licit = pd.read_csv('../input/licitacao.csv')
licit.shape
licit.index
licit.columns
licit.info()
licit.count()

In [None]:
# 2. Para o dataset de item, gere os sumários da quantidade de itens
item.qtdItem.sum()
item.qtdItem.cumsum()
item.qtdItem.min()
item.qtdItem.min()
item.qtdItem.max()
item.qtdItem.describe()

In [None]:
# 3. RESPOSTA
# Importe a biblioteca matplotlib e veja sua documentação.
import matplotlib
help(matplotlib)

In [None]:
# 4. Crie um gráfico para mostrar a quantidade de licitacoes por situacao
sns.countplot(y='situacao', data=licit)

***
# 5. Exercícios Complementares (opcional)
1. [Exercícios Complementares de Seleção de Dados](https://www.kaggle.com/kernels/fork/587910)
2. [Exercícios Complementares de Sumarização de Dados](https://www.kaggle.com/kernels/fork/595524)
3. [Exercícios sobre Bibliotecas](https://www.kaggle.com/kernels/fork/1275190)
4. [Exercícios sobre Criação de Gráficos](https://www.kaggle.com/kernels/fork/3303713)

***

### Próxima Aula
[4. Raspagem de Sites](https://www.kaggle.com/deborareis/4-raspagem-de-sites/)