# Lista Aula 3

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Exercício 1: Café da Manhã

#### 1. Importanto os dados e criando um campo para contagem de registros (Qtd = 1)

In [None]:
dfCafe = pd.read_csv('CAFE_DA_MANHA.csv')
dfCafe['Qtd'] = 1

In [None]:
# NOSSO DF FICARÁ COM ESSE SHAPE
dfCafe.head()

#### 2. Pivotando os dados usando o método pivot_table()

In [None]:
# INCLUÍMOS QTD COMO VALOR, TRANSACTION COMM INDEX (LINHA) E ITEM COMO COLUNA
# IMPORTANTE INCLUIR O PARÂMETRO fill_value=0 PARA PREENCHER COM ZERO OS VALORES AUSENTES
dfCafePivot = dfCafe.pivot_table(values = 'Qtd', 
                         index = 'Transaction', 
                         columns = 'Item',
                         fill_value=0)
dfCafePivot.head(50)

#### 3. Criando as correlações de Pearson entre os itens, através do método corr()

In [None]:
corrCafe = dfCafePivot.corr()
corrCafe.head()

#### 4.	Plote um gráfico de calor sobre a matriz de correlação.

In [None]:
# GRAFICAMENTE PODE SER MAIS FÁCIL
# ALGUMAS POUCAS CORRELAÕES CHAMAM ATENÇÃO, COMO EXEMPLO, CAMISETA E CARTÃO POSTAL
plt.figure(figsize=[22,18])
sns.heatmap(corrCafe, cmap='magma', linecolor='w', linewidths=1)

#### 5.	Encontrou alguma correlação interessante entre os produtos? Quais?

- Camiseta e cartão postal
- Outras correlações não tão importantes como salada e salame

# Exercício 2: NBA

# Pré-processamento

### 1. Obtendo dados

In [None]:
# FONTE: https://www.kaggle.com/drgilermo/nba-players-stats
jogadores = pd.read_excel('JOGADORES_NBA.xlsx')
metricas = pd.read_excel('METRICAS_NBA.xlsx')

In [None]:
jogadores.head()

In [None]:
metricas.head()

### 2. Junção dos dados

In [None]:
# JUNÇÃO DOS DADOS
df = pd.merge(metricas, jogadores, how = 'left', on = 'Player')
df.head()

In [None]:
# AGORA TEMOS TODOS ATRIBUTOS EM UM SÓ ARQUIVO
df.columns

### 3. Tratamento de valores extremos (outliers)
##### Primeiro vamos dar uma olhada nos dados para ter uma ideia da quantidade de valores extremos.

In [None]:
df[['height', 'weight', 'TS%', 'FTr']]

In [None]:
# METRICAS ANTES DO TRATAMENTO DE OUTLIERS
df[['height', 'weight', 'TS%', 'FTr']].mean()

In [None]:
jogadores.sort_values(by=['height'], ascending=True)['height'].head()

In [None]:
jogadores.sort_values(by=['height'], ascending=False)['height'].head()

In [None]:
jogadores.sort_values(by=['weight'], ascending=False)['weight'].head()

In [None]:
jogadores.sort_values(by=['weight'], ascending=True)['weight'].head()

In [None]:
metricas.sort_values(by=['TS%'], ascending=False)['TS%'].head()

In [None]:
metricas.sort_values(by=['TS%'], ascending=True)['TS%'].head()

In [None]:
metricas.sort_values(by=['FTr'], ascending=False)['FTr'].head()

In [None]:
metricas.sort_values(by=['FTr'], ascending=True)['FTr'].head()

##### Aparentemente, o volume de ouliers é bem pequeno.
##### Vamos tratar apenas 0,02% das extremidades, isso será sufciente para corrigir/suavisar o efeito de ouliers.

In [None]:
# SUBSTITUINDO EXTREMIDADE SUPERIOR DE height
df['height'] = np.where(df['height'] >= df['height'].quantile(0.998),
                               
                                  df[(df['height'] > df['height'].quantile(0.002)) & 
                                                (df['height'] < df['height'].quantile(0.998))]['height'].mean(),
                              
                                  df['height'])

# SUBSTITUINDO EXTREMIDADE INFERIOR DE height
df['height'] = np.where(df['height'] <= df['height'].quantile(0.002),
                               
                                  df[(df['height'] > df['height'].quantile(0.002)) & 
                                                (df['height'] < df['height'].quantile(0.998))]['height'].mean(),
                              
                                  df['height'])

# SUBSTITUINDO EXTREMIDADE SUPERIOR DE weight
df['weight'] = np.where(df['weight'] >= df['weight'].quantile(0.998),
                               
                                  df[(df['weight'] > df['weight'].quantile(0.002)) & 
                                                (df['weight'] < df['weight'].quantile(0.998))]['weight'].mean(),
                              
                                  df['weight'])

# SUBSTITUINDO EXTREMIDADE INFERIOR DE weight
df['weight'] = np.where(df['weight'] <= df['weight'].quantile(0.002),
                               
                                  df[(df['weight'] > df['weight'].quantile(0.002)) & 
                                                (df['weight'] < df['weight'].quantile(0.998))]['weight'].mean(),
                              
                                  df['weight'])

# SUBSTITUINDO EXTREMIDADE SUPERIOR DE TS%
df['TS%'] = np.where(df['TS%'] >= df['TS%'].quantile(0.998),
                               
                                  df[(df['TS%'] > df['TS%'].quantile(0.002)) & 
                                                (df['TS%'] < df['TS%'].quantile(0.998))]['TS%'].mean(),
                              
                                  df['TS%'])

# SUBSTITUINDO EXTREMIDADE INFERIOR DE TS%
df['TS%'] = np.where(df['TS%'] <= df['TS%'].quantile(0.002),
                               
                                  df[(df['TS%'] > df['TS%'].quantile(0.002)) & 
                                                (df['TS%'] < df['TS%'].quantile(0.998))]['TS%'].mean(),
                              
                                  df['TS%'])

# SUBSTITUINDO EXTREMIDADE SUPERIOR DE FTr
df['FTr'] = np.where(df['FTr'] >= df['FTr'].quantile(0.998),
                               
                                  df[(df['FTr'] > df['FTr'].quantile(0.002)) & 
                                                (df['FTr'] < df['FTr'].quantile(0.998))]['FTr'].mean(),
                              
                                  df['FTr'])

# SUBSTITUINDO EXTREMIDADE INFERIOR DE FTr
df['FTr'] = np.where(df['FTr'] <= df['FTr'].quantile(0.002),
                               
                                  df[(df['FTr'] > df['FTr'].quantile(0.002)) & 
                                                (df['FTr'] < df['FTr'].quantile(0.998))]['FTr'].mean(),
                              
                                  df['FTr'])


In [None]:
# METRICAS APÓS DO TRATAMENTO DE OUTLIERS
df[['height', 'weight', 'TS%', 'FTr']].mean()

### 4. Tratamento de valores ausentes
##### Tratando os dados numéricos

In [None]:
# TRATAMENTO DOS NUMÉRICOS
# COMO JÁ TRATAMOS OS OULIERS, O TRATAMENTO DOS AUSENTES FICA MAIS FÁCIL...
df['height'] = df['height'].fillna(value = df['height'].mean())
df['weight'] = df['weight'].fillna(value = df['weight'].mean())
df['TS%'] = df['TS%'].fillna(value = df['TS%'].mean())
df['FTr'] = df['FTr'].fillna(value = df['FTr'].mean())

##### Tratando os dados categóricos

In [None]:
# TRATAMENTO DOS CATEGÓRICOS
df['birth_city'] = df['birth_city'].fillna(value = 'Nao identificado')
df['birth_state'] = df['birth_state'].fillna(value = 'Nao identificado')
df['collage'] = df['collage'].fillna(value = 'Nao identificado')
df[['birth_city', 'birth_state', 'collage']].head()

### 5. Discretização
##### Discretizando a idade em três categorias

In [None]:
# DEFININDO UMA FUNÇÃO PARA DISCRETIZAR A IDADE
def discrIdade(x):
    if x < df['Age'].quantile(0.33):
        return 'JUNIOR'
    elif x < df['Age'].quantile(0.66):
        return 'MEDIO'
    else:
        return 'SENIOR'

In [None]:
# APLICANDO A FUNÇÃO PARA OBTER AS DESCRIÇÕES
df['DescIdade'] = df['Age'].apply(discrIdade)

In [None]:
df[['Age', 'DescIdade']].head()

# Análise de dados

##### 1. Qual a média de idade/peso dos jogadores?

In [None]:
df[['height', 'weight']].mean()

##### 2. Qual a média de idade/peso dos jogadores na década de 50? Compare com a década de 90.

In [None]:
print('Anos 50')
print(df[(df['Year'] >= 1950) & (df['Year'] < 1960)][['height', 'weight']].mean())
print('Anos 90')
print(df[(df['Year'] >= 1990) & (df['Year'] < 2000)][['height', 'weight']].mean())

##### 3. Qual o jogador que mais marcou pontos na série histórica (desconsiderando ano/time);

In [None]:
df.groupby('Player')['PTS'].sum().sort_values(ascending = False).head(1)

##### 4. Qual foi o jogador que mais marcou pontos em uma única temporada? Em que ano isso acontecei?

In [None]:
df.groupby(['Player', 'Year'])['PTS'].sum().sort_values(ascending = False).head(1)

##### 5. Qual jogador que jogou por mais tempo na NBA?

In [None]:
df.groupby(['Player'])['Year'].count().sort_values(ascending = False).head(1)

##### 6. Qual jogador permaneceu mais tempo em um time? Qual é este time? Por quanto tempo ele ficou neste time?    

In [None]:
df.groupby(['Player', 'Tm'])['Year'].count().sort_values(ascending = False).head(1)

7. Quais são os cinco atletas mais altos e mais baixos que já jogaram na NBA?

In [None]:
print("Mais altos:")
df.groupby('Player')[['height']].max().sort_values(by = 'height', ascending = False).head(5)

In [None]:
print("Mais baixos:")
df.groupby('Player')[['height']].max().sort_values(by = 'height', ascending = True).head(5)

8. Quais são os cinco atletas mais pesados e mais leves que já jogaram na NBA?

In [None]:
print("Mais pesados:")
df.groupby('Player')[['weight']].max().sort_values(by = 'weight', ascending = False).head(5)

In [None]:
print("Mais leves:")
df.groupby('Player')[['weight']].max().sort_values(by = 'weight', ascending = True).head(5)

# Exercício 3: Ramen Rating

# Análise de Dados

In [None]:
# https://www.kaggle.com/residentmario/ramen-ratings
ramen = pd.read_excel('RAMEN_RATINGS.xlsx')
ramen.head()

### 1. Qual o país tem a melhor avaliação média? E mediana? Os diferentes resultados sugerem erro nos dados?

In [None]:
ramen.groupby('Country')['Stars'].mean().sort_values(ascending=False).head(5)

In [None]:
ramen.groupby('Country')['Stars'].median().sort_values(ascending=False).head(5)

### Os valores médios extremamente altos sugerem que há outliers.

### 2. A marca “Nissin” é melhor avaliada em qual país? Use a mediana.

In [None]:
ramen[ramen['Brand'] == 'Nissin'].groupby('Country')['Stars'].median().sort_values(ascending=False).head(5)

### 3. No geral, qual tipo de embalagem é melhor avaliada? Use a mediana aqui também.

In [None]:
ramen.groupby('Style')['Stars'].median().sort_values(ascending=True).head(10)

# Pré-processamento de dados

### 1. Remova as variáveis “Review #” e “Variety”.

In [None]:
ramen.drop(['Review #','Variety'], axis=1, inplace=True)

### 2. Aplique codificação one-hot sobre as demais variáveis (exceto “Stars”).

In [None]:
def one_hot_encode(df, feature_to_one_hot):
    dummies = pd.get_dummies(df[[feature_to_one_hot]])
    new_df = pd.concat([df, dummies], axis=1)
    return(new_df.drop([feature_to_one_hot], axis=1))

In [None]:
feature_to_one_hot = ['Brand','Style','Country']

for feature in feature_to_one_hot:
    ramen = one_hot_encode(ramen, feature)

In [None]:
ramen.head()

In [None]:
list(ramen)

## Fechamento:
### Essa lista de exercícios nos ajudou a fixar técnicas de pré-processamento muito comuns no dia-a-dia do cientista de dados:
##### Tratamento de Valores Ausentes
##### Tratamento Outliers
##### Discretização
##### Binarização
##### Pivotagem
##### Codificação One-hot