# Pandas e Visualização de Dados

Uma importante ferramenta no processo exploratório de dados é a visualização. Vamos analisar o dataset pokemon, tratar os dados, realizar algumas operações e, depois, vamos obter insights a partir da visualização de dados. 

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# Faça a leitura do arquivo e armazene o DataFrame numa variável chamada poke
poke = pd.read_csv('bases/Pokemon.csv')
poke.head()

In [None]:
# imprime a quantidade de linhas e colunas presentes no DataFrame
print(poke.shape)
print('------------------------------------------\n')

# verifica e imprima as colunas que contêm valores faltantes
print(poke.isna().sum())
print('------------------------------------------\n')

# retorna as principais estatísticas das colunas numéricas
poke.describe()

In [None]:
poke.info()

Percebemos que a coluna Type 2 possui alguns valores faltantes. Não temos informações sobre como preencher essa coluna da maneira correta. Assim, em todo linha que houver um valor faltando na colune Type 2, esse valor será preenchido com o valor correspondente da coluna Type 1. 

Documentação da função: [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html)

Exemplo de uso: [link](https://stackoverflow.com/questions/13295735/how-can-i-replace-all-the-nan-values-with-zeros-in-a-column-of-a-pandas-datafram)

In [None]:
poke['Type 2'].fillna(poke['Type 1'],inplace=True)
poke.head()

Para selecionarmos colunas específicas de um DataFrame podemos fazer df[df['coluna1','coluna2']]. Exemplo: criar um novo DataFrame a partir de poke que contenha apenas os pokemons que são lendários

In [None]:
lendarios = poke[poke['Legendary'] == True]
lendarios.head()

apply() é um poderoso método de vetorização, ou seja, permite a aplicação de uma função nos elementos de uma colunas de um DataFrame sem a necessidade de escrever laços de repetição. 

Veja alguns exemplos:

In [None]:
df = pd.DataFrame([[4, 9]] * 3, columns=['A', 'B'])
df

In [None]:
import numpy as np
# tirando a raiz quadrada de todos os elementos de df
df.apply(np.sqrt)

In [None]:
# somando os elementos a partir das colunas
df.apply(np.sum, axis=0)

In [None]:
# somando os elementos a partir das linhas
df.apply(np.sum, axis=1)

Podemos escrever uma função que passe para minúscula todos os elementos da coluna Name

In [None]:
format_str = lambda x: x.lower()
poke['Name'] = poke['Name'].apply(format_str)
poke.head()

Agrupamento é uma ferramenta muito útil para fazer descobertas em nosso DataFrame. Preciso saber a representatividade de cada tipo (coluna Type 1) de pokemon e essa informação precisa ser retornada em ordem decrescente

Você vai precisar dos seguintes métodos:
> groupby [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html)

> size [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.size.html)

> sort_values [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html)

In [None]:
poke_ordered = poke.groupby(by = 'Type 1').size().sort_values(ascending = False)
poke_ordered

# Visualização de Dados

Para visualização de dados, vamos utilizar a biblioteca matplotlib, que tem sua documentação no link: [matplotlib](https://matplotlib.org/)

O matplotlib cria objetos do tipo Figure que irão armazenar as visualizações que iremos construir. Observe:

In [None]:
import matplotlib.pyplot as plt
fig = plt.figure()
ax1 = fig.add_subplot(2, 2, 1)
ax2 = fig.add_subplot(2, 2, 2)
ax3 = fig.add_subplot(2, 2, 3)

Agora, podemos preencher esses objetos com dados, gerando, assim, gráficos:

In [None]:
import numpy as np
from numpy.random import randn
ax1.plot(randn(50).cumsum(), 'k--') #gráfico de linha
ax2.hist(randn(100), bins=20, color='k', alpha=0.3)
ax3.scatter(np.arange(30), np.arange(30) + 3 * randn(30))
fig

Nem sempre, entretando, precisamos criar o objeto primeiro para depois preencher com dados. Podemos armazenar os dados em variáveis e, então, a partir delas, construir nossos gráficos:

In [None]:
x = np.linspace(0, 2, 100)
fig = plt.figure(); ax = fig.add_subplot(1, 1, 1)
ax.plot(x, x, label='linear')
ax.plot(x, x**2, label='quadratic')
ax.plot(x, x**3, label='cubic')


ax.legend()
fig.savefig('simple_plot.png')

Existem várias opções de ajustes visuais para os gráficos construídos com matplotlib. Observe os três gráficos a seguir:

Documentação: [link](https://matplotlib.org/3.2.1/api/_as_gen/matplotlib.pyplot.plot.html?highlight=plot#matplotlib.pyplot.plot)

In [None]:
# cor, estilo da linha e marcadores
plt.plot(randn(30).cumsum(), color='r', linestyle='dashed', marker='.')

In [None]:
# título, rótulo dos eixos, ticks e seus rótulos
fig = plt.figure(); ax = fig.add_subplot(1, 1, 1)
ax.plot(randn(1000).cumsum())
ticks = ax.set_xticks([0, 250, 500, 750, 1000])
labels = ax.set_xticklabels(['one', 'two', 'three', 'four', 'five'],
                           rotation=30, fontsize='small')
ax.set_title('My matplotlib plot')
ax.set_xlabel('Stages')
ax.set_ylabel('Eixo y')

In [None]:
# adicionando legenda
fig = plt.figure(); ax = fig.add_subplot(1, 1, 1)
ax.plot(randn(100).cumsum(), 'k', label='one')
ax.plot(randn(100).cumsum(), 'b--', label='two')
ax.plot(randn(100).cumsum(), 'g.', label='three')
ax.legend(loc='best')

### Tipos de Gráficos

Além do gráfico de linha estamos trabalhando, há alguns outros que são interessantes conhecer. 

Na documentação oficial, há uma galeria de exemplos que mostra como se cria os mais diversos tipos de gráficos: [link](https://matplotlib.org/3.2.1/gallery/index.html)

In [None]:
# Gráfico de Barras
from matplotlib.ticker import FuncFormatter
x = np.arange(4)
money = [1.5e5, 2.5e6, 5.5e6, 2.0e7]
def millions(x, pos):
    'valor e posição'
    return '$%1.1fM' % (x * 1e-6)
formatter = FuncFormatter(millions)

fig, ax = plt.subplots()
ax.yaxis.set_major_formatter(formatter)
plt.bar(x, money)
plt.xticks(x, ('Bill', 'Fred', 'Mary', 'Sue'))
plt.show()

In [None]:
# Como enganar pessoas usando visualização
mentions = [500, 505]
years = [2013, 2014]
plt.bar([2012.6, 2013.6], mentions, 0.8)
plt.xticks(years)
plt.ylabel("# of times I heard someone say 'data science'")

# misleading y-axis only shows the part above 500
plt.axis([2012.5,2014.5,499,506])
plt.title("Look at the 'Huge' Increase!")
plt.show()

In [None]:
mentions = [500, 505]
years = [2013, 2014]
plt.bar([2012.6, 2013.6], mentions, 0.8)
plt.xticks(years)
plt.ylabel("# of times I heard someone say 'data science'")

# misleading y-axis only shows the part above 500
plt.axis([2012.5,2014.5,0,550])
plt.title("Not so Huge Anymore")
plt.show()

In [None]:
# Histograma
np.random.seed(19680801)

mu, sigma = 100, 15
x = mu + sigma * np.random.randn(10000)

plt.hist(x, density=True, facecolor='g', alpha=0.75)


plt.xlabel('Smarts')
plt.ylabel('Probability')
plt.title('Histogram of IQ')
plt.text(60, .025, r'$\mu=' + str(mu) + ',\ \sigma=15$')
plt.axis([40, 160, 0, 0.03])
plt.grid(True)
plt.show()

In [None]:
# Scatter-plot
pontos_f = [89, 90, 70, 89, 100, 80, 90, 100, 80, 34]
pontos_m = [30, 29, 49, 48, 100, 48, 38, 45, 20, 30]
range_pontos = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
feminino = plt.scatter(range_pontos, pontos_f, color='r')
masculino = plt.scatter(range_pontos, pontos_m, color='g')
plt.xlabel('Range de Pontos')
plt.ylabel('Pontos')
plt.legend((feminino, masculino),('feminino','masculino'),loc='best')
plt.show()

# TODO

Agora que entendemos como os gráficos são construídos, vamos praticar. A ideia é ter insights visuais a respeito do dataset que estamos trabalhando.

### 1) crie uma função que receba o dataset e o atributo e retorne um histograma que mostre a distribuição do valor dos atributos “attack”, “defense”,”Sp.Atk”, “Sp.Def” e “Speed”. Insira uma linha indicando o valor médio do atributo.

In [None]:
# Resposta

### 2) crie um scatter plot comparando ataque (eixo x) e defesa (eixo y) de pokemons dos tipos Fire e Water.

In [None]:
# Resposta

###  3) crie um gráfico de linha para comparar a quantidade de pokemons de cada tipo ao longo das gerações

In [None]:
# Resposta