# Plotando no Pandas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy

%matplotlib notebook

#### 1 - Estilos predefinidos do matplotlib

In [None]:
plt.style.available

In [None]:
plt.style.use('seaborn-colorblind')

#### 2 - Criando um dataframe

In [None]:
np.random.seed(123)

df = pd.DataFrame({'A': np.random.randn(365).cumsum(0), 
                   'B': np.random.randn(365).cumsum(0) + 20,
                   'C': np.random.randn(365).cumsum(0) - 20}, 
                  index=pd.date_range('1/1/2017', periods=365))
df.head()

#### 3 - Plot direto no dataframe

In [None]:
df.plot()

#### 4 - Tipo de plotagem

In [None]:
df.plot('A', 'B', kind='scatter')

Você também pode escolher o tipo de plotagem usando os métodos `DataFrame.plot.kind` em vez de fornecer o argumento da palavra-chave` kind`.

`kind` :
- `'line'` : line plot (default)
- `'bar'` : vertical bar plot
- `'barh'` : horizontal bar plot
- `'hist'` : histogram
- `'box'` : boxplot
- `'kde'` : Kernel Density Estimation plot
- `'density'` : same as 'kde'
- `'area'` : area plot
- `'pie'` : pie plot
- `'scatter'` : scatter plot
- `'hexbin'` : hexbin plot

#### 5 - A contra C, com tamanho e cor conforme os valores de B

In [None]:
df.plot.scatter?
df.plot.scatter('A', 'C', c='B', s=df['B'], colormap='viridis')

#### 6 - Mudar aspecto do objeto "eixos"

In [None]:
ax = df.plot.scatter('A', 'C', c='B', s=df['B'], colormap='viridis')

# Define o aspecto da escala do eixo, ou seja...
# a proporção da unidade y para a unidade x.
# 'equal' significa mesma escala de dados em ambos os eixos

ax.set_aspect('equal')

#### 7 - Plot em caixa do dataframe

In [None]:
df.plot.box()

#### 8 - Histograma do dataframe

In [None]:
df.plot.hist(alpha=0.3)

#### 9 - Gráficos de estimativa de densidade do kernel (KDE)

In [None]:
df.plot.kde();

#### 10 - Para produzir um gráfico de área não empilhado

In [None]:
df.plot.area(stacked=False);

#### 11 - Carregando a base de dados Íris

In [None]:
iris = pd.read_csv('./CSV/iris.csv')
iris.head()

#### 12 - Matriz de gráficos de dispersão automática

In [None]:
pd.plotting.scatter_matrix(iris);

#### 13 - Plotagem de coordenadas paralelas

In [None]:
pd.plotting?

# Seaborn

#### 14 - Importar Seaborn e criar séries pandas

In [None]:
import seaborn as sns

np.random.seed(1234)

v1 = pd.Series(np.random.normal(0,10,1000), name='v1')
v2 = pd.Series(2*v1 + np.random.normal(60,15,1000), name='v2')

#### 15 - Plotando histogramas

In [None]:
plt.figure()
plt.hist(v1, alpha=0.7, bins=np.arange(-50,150,5), label='v1');
plt.hist(v2, alpha=0.7, bins=np.arange(-50,150,5), label='v2');
plt.legend();
v1.describe()

#### 16 - Função distplot()

In [None]:
v3 = np.concatenate((v1,v2))
plt.figure()
sns.distplot(v3, hist_kws={'color':'Teal'}, kde_kws={'color':'Navy'});

#### 17 - Plotagem conjunta

In [None]:
sns.jointplot(v1, v2, alpha=0.4);

#### 18 - Estilo de bins hexagonal

In [None]:
sns.jointplot(v1,v2,kind='hex')

#### 19 - Estimativas de densidade do kernel com mudança de estilo seaborn

In [None]:
sns.set_style('white')

sns.jointplot(v1,v2, kind='kde', space=0);

#### 20 - Matriz de dispersão do seaborn

In [None]:
sns.pairplot(iris, diag_kind='kde')

#### 21 - Plotagem swarm e de violino

In [None]:
plt.figure()
plt.subplot(121)
sns.swarmplot('Name', 'PetalLength', data=iris);
plt.subplot(122)
sns.violinplot('Name', 'PetalLength', data=iris);

# Exercícios de consultas no Pandas

#### 22 - Carregando dataframe de medalhas nas olimpíadas

In [None]:
import pandas as pd

df = pd.read_csv('./CSV/olympics.csv', index_col=0, skiprows=1)

for col in df.columns:
    if col[:2]=='01':
        df.rename(columns={col:'Gold'+col[4:]}, inplace=True)
    if col[:2]=='02':
        df.rename(columns={col:'Silver'+col[4:]}, inplace=True)
    if col[:2]=='03':
        df.rename(columns={col:'Bronze'+col[4:]}, inplace=True)
    if col[:1]=='№':
        df.rename(columns={col:'#'+col[1:]}, inplace=True)

names_ids = df.index.str.split('\s\(') # split the index by '('

df.index = names_ids.str[0] # the [0] element is the country name (new index) 
df['ID'] = names_ids.str[1].str[:3] # the [1] element is the abbreviation or ID (take first 3 characters from that)

df = df.drop('Totals')
df

#### 23 - Escreva uma função que crie uma série chamada "Points", ela deve conter o valor ponderado onde cada medalha de ouro conta 3 pontos, medalhas de prata conta 2 pontos e medalhas de bronze conta 1 ponto. A função deve retornar apenas um objeto Série, com os nomes dos países como índices. Esta função deve retornar uma série de comprimento 146.

In [None]:
def points():
    
    return (3*df['Gold.2'] + 2*df['Silver.2'] + df['Bronze.2']).sort_values(ascending=False)

points().loc['Brazil']

#### 24 - Carregando dataframe do censo dos EUA

In [None]:
census_df = pd.read_csv('./CSV/census.csv')
census_df

#### 25 - Podemos verificar que os Estados Unidos são divididos em quatro regiões. Criar uma consulta que encontre os municípios pertencentes às regiões 1 ou 2, cujo nome começa com 'Washington' e cujo população estimada foi maior em 2015 que em 2014. Essa função deve retornar um DataFrame 5x2 com as colunas = ['STNAME', 'CTYNAME'] e o mesmo índice que o dataframe original (classificado em ordem crescente por índice).

In [None]:
def function():
    return census_df.loc[(census_df['SUMLEV'] == 50) & (census_df['REGION'] <= 2) & (census_df['CTYNAME'].str.startswith('Washington')) & (census_df['POPESTIMATE2015'] > census_df['POPESTIMATE2014']), ('STNAME', 'CTYNAME')]

function()

#### 26 - Qual estado tem mais municípios (condados)?

In [None]:
def max_counties():
    return census_df['STNAME'].value_counts().idxmax()
    #return census_df[census_df['SUMLEV'] == 50].groupby(['STNAME']).size().idxmax()
max_counties()