## Dicas de Jupyter Notebook

Este programa que estamos usando no navegador se chama Jupyter Notebook e é um interpretador de Python interativo. Podemos digitar um comando de Python, apertar _Shift + Enter_ e esse comando é executado, tendo seu resultado impresso na tela.

Existem alguns atalhos bastante úteis para trabalhar com Jupyter Notebook:
    0. 'Esc' - Saí do modo edição da célula atual (modo navegação)
    1. 'Enter' - Edita a célula selecionada (modo navegação)
    2. 'Shift + Enter' - Executa a célula selecionada (modo edição)
    3. 'A' - Adiciona uma nova célula acima da célula atual (modo navegação)
    4. 'B' - Adiciona uma nova célula abaixo da célula atual (modo navegação)
    5. 'X' - Recorta a célula selecionada (modo navegação)
    6. 'Z' - Desfaz a deleção de uma célula (modo navegação)
    7. 'Ctrl + Z' - Desfaz as últimas edições (modo edição)
    8. 'Ctrl + Shift + Z' - Refaz o último comando de desfazer (modo edição)
    9. 'H' - Abre um arquivo de ajuda com todos os atalhos (modo navegação)
    10. 'Tab' - Faz sugestões para completar o código (modo edição)
    11. 'Shift + Tab' - Faz sugestões de assinatura de um método ou função (modo edição)
    12. '?função' - Mostra a documentação de uma dada função (modo edição)
    


# Revisão de Python

## Strings

Abaixo segue uma breve revisão sobre `strings`:

In [None]:
texto = 'machine learning python UnB'

In [None]:
texto.lower()

In [None]:
texto = texto.upper()

In [None]:
texto

In [None]:
texto[:4]

In [None]:
texto[10:14]

In [None]:
texto[::-1]

O split gera uma lista de strings, separando a nossa string original em todos os lugares que existem espaços.

In [None]:
texto.split()

In [None]:
texto_dividido = texto.split()

In [None]:
texto_dividido

In [None]:
texto_dividido[-1]

In [None]:
texto_dividido[-1]

O método `.join()` junta strings que estão em uma lista em uma única string.

oijoaoh

In [None]:
' machine learning '

In [None]:
' Azul '.join(texto_dividido)

O método `.replace()` serve para trocar uma parte do texto por outro texto.

In [None]:
texto

In [None]:
texto.replace('machine', 'deep')

In [None]:
texto

In [None]:
texto1 = texto.replace('machine', 'deep' )

In [None]:
texto

A função `len()` serve para nos dizer qual o tamanho do texto, isto é, quantos caracteres ele tem.

In [None]:
len(texto)

**Exercício 1:**

O DNA é composto por 4 bases: Guanine ('G'), Cytosine ('C'), Adenine ('A'), e Thymine ('T').
O RNA é composto por 4 bases, mas em vez de Thymine ('T'), tem Uracil ('U').

Vamos pegar um texto na forma `GCATATAC` e retornar a conversão para RNA, que seria `GCAUAUAC`.

Link para site com vários exercícios de programação: https://www.codewars.com

## Listas e For

In [None]:
lista = [1, 3, 5, 7]


In [None]:
lista[-1]

In [None]:
lista_quadrado = []
for x in lista:
    lista_quadrado.append(x ** 2)

In [None]:
lista_quadrado

In [None]:
lista_quadrado[:2]

In [None]:
lista_quadrado[-2:]

In [None]:
lista_quadrado[::-1]

In [None]:
len(lista_quadrado)

## Listcomp

Uma outra forma de executar um `for` e criar uma lista ao mesmo tempo é fazendo um listcomp, que é mais rápido e mais enxuto. É uma prática muito boa em Python.

In [None]:
lista_quadrado = [numero ** 2 for numero in lista]

In [None]:
lista_quadrado

## Funções

In [None]:
def eleva_quadrado(lista):
    return [numero ** 2 for numero in lista]

In [None]:
eleva_quadrado(lista)

## Comparações e Booleanos

`False` é representado como `0`, e `True` é representado como `1`:

In [None]:
0 == False

In [None]:
1 == True

In [None]:
lista[False]

In [None]:
lista[True]

## If e Else

In [None]:
lista = []
lista_par = []
for i in range(8):
    if i % 2:
        lista.append(i)
    else:
        lista_par.append(i)

Observação: O Módulo da Divisão, ou então, Operação Módulo, é o operador que extraí o resto da divisão. É possível obter o resto da divisão de várias maneiras, porém, a linguagem Python, bem como, a maioria das linguagens de programação, disponibilizam um operador para este fim.

O sinal de porcentagem % é o operador módulo. Ainda que não faça muito sentido, esse pode ser considerado quase que um padrão entre as linguagens de programação.

Ao lado esquerdo, devemos colocar o número a ser dividido, e ao lado direito, o divisor.

In [None]:
lista

In [None]:
lista_par

**Exercício 2**:

Criar uma função que recebe uma lista de números e retorna a soma dos números não negativos:

    Exemplo: [1,-4,7,12] => 1 + 7 + 12 = 20

Obs: se não houver nada para somar, retorne 0.

In [None]:
a = [1,2,3,4,5]

In [None]:
a[::-1]

## Dicionários

O dicionário mapeia uma chave a um valor.

In [None]:
alfabeto = {'A': 1, 'B': 2, 'C' : 3}

In [None]:
alfabeto

In [None]:
alfabeto['A']

In [None]:
lista = [1,2,3]

In [None]:
a,b,c = lista

In [None]:
a

In [None]:
for k in alfabeto:
    print(k)

In [None]:
for v in alfabeto.values():
    print(v)

In [None]:
for k, v in alfabeto.items():
    print(k, v)

In [None]:
len(alfabeto)

**Exercício**

Crie uma função que transforme uma lista de listas (a lista interna sempre com 2 elementos) em um dicionário:

    animals = [["cat", "dog"], ["duck", "cow"]] --> {"cat" : "dog", "duck" : "cow"}


## Base de dados
Nesse notebook usaremos os dados disponibilizados na plataforma Kaggle sobre os sistemas de emprétimo de bicicletas, que hoje existem em diversas cidades.

Na maioria desses sistemas, as pessoas podem alugar as bicicletas em um ponto da cidade e devolvê-las em outro, usando estações de coleta específicas. Os dados gerados por esses sistemas são interessantes para análise e trabalhos de Machine Learning uma vez que as informações sobre a duração da viagem, os pontos de partida e chegada, e o tempo gasto na viagem normalmente são registrados.

No caso específico, são disponibilizados dados sobre o sistema de empréstimo de bicicletas da cidade de Washington, D.C., agregados com dados de clima. Os dados correspondem a empréstimos realizados durante 2 anos, separados por hora. Os dados de treino correspondem aos primeiros 19 dias de cada mês, enquanto os dados de teste vão do dia 20 até o final do mês.

Nosso objetivo é usar Machine Learning para prever o total de bicicletas que serão alugadas a cada hora, usando como base os dados anteriores de aluguel.

Mais detalhes sobre a base de dados -> [Bike Sharing Demand](https://www.kaggle.com/c/bike-sharing-demand)

## Primeira Etapa: Análise Exploratória dos Dados

## Importando Bibliotecas

Para trabalharmos com dados tabulares, iremos utilizar a biblioteca `pandas`

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('../input/train.csv')

In [None]:
df.shape

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.sample(5)

In [None]:
df.sample(5).T

In [None]:
df.info()

In [None]:
df.describe()

## Seleções de linhas:

Existem algumas formas diferentes de selecionar colunas, sendo que `.loc` e `.iloc` são mais recomendadas por terem o comportamento mais previsível.

In [None]:
df[20:30]

In [None]:
df.iloc[20:30]

In [None]:
df.loc[20:30]

## Seleções de Colunas:

Existem algumas formas de selecionar colunas. Indicamos usar `df['humidity']` porque funciona com nomes de colunas com espaço e é enxuto.

In [None]:
df['humidity']

In [None]:
df.humidity

In [None]:
df.loc[:,'humidity']

In [None]:
df.iloc[:, 7]

## Series e DataFrame

A nossa variável `df` é um `DataFrame`:

In [None]:
type(df)

Quando selecionamos uma coluna temos um objeto do tipo `Series`.

In [None]:
type(df['temp'])

## Explorando uma Series

In [None]:
df['temp'].describe()

In [None]:
df['temp'].value_counts()

**Exercício 3:**
1. Faça um `.describe()` na coluna `atemp`
2. Faça um `.value_counts()` na coluna `atemp`
3. Faça um `.mode()` na coluna `atemp`

## Selecionando  Várias Colunas:

In [None]:
df[['workingday','humidity']]

**Exercício 4:**
1. Faça um `.describe` em uma seleção composta pelas colunas `temp` e `atemp`.

## Como selecionar linhas e colunas com `.loc` e `.iloc`?

In [None]:
df.loc[20:30, 'workingday':'humidity']

**Exercício 5:**

Selecione o equivalente de `df.loc[20:30, 'workingday':'humidity']` usando o comando `.iloc`:

## Como selecionar células com `.at` e `.iat`?

In [None]:
df.at[20, 'humidity']

**Exercício 6:**

Selecione o equivalente ao comando `df.at[20, 'humidity']` usando o comando `.iat`:

## Trabalhando com Datas

In [None]:
df.dtypes

In [None]:
df['datetime'] = pd.to_datetime(df['datetime'])

In [None]:
df.dtypes

Alternativamente, poderíamos ter feito:

In [None]:
df = pd.read_csv('../input/train.csv', parse_dates=[0])

## Atributos de `.dt`:

Ao transformarmos a coluna `datetime` no tipo `datetime64[ns]` temos uma série de funcionalidades quee podemos acessar por meio do atributo `.dt`:

In [None]:
df['datetime'].dt.month

## Criando novas colunas:

In [None]:
df['month'] = df['datetime'].dt.month

**Exercício 7:**

Crie novas colunas usando os atributos de `df['datetime'].dt` assim como fizemos no comando acima:
    
    year
    day
    dayofweek
    hour

## Filtros

In [None]:
df['month'] == 1

Quando jogamos uma sequência de `True` e `False` dentro de um `DataFrame` ou `Series`, ela retorna apenas os valores que cumpram esse critério.

In [None]:
df[df['month'] == 1]

In [None]:
df[(df['month'] == 1) & (df['temp'] < 14)]

In [None]:
df[(df['month'] == 1) | (df['temp'] < 14)]

In [None]:
df[(df['month'] == 1) & (df['temp'] < 14)].shape, df[(df['month'] == 1) | (df['temp'] < 14)].shape 

**Exercício 8:**

Selecione os valores maiores do que a mediana para a coluna `temp` e maiores do que os maiores 25% da coluna `count`.

# Avaliando Número de Valores Diferentes por Coluna

In [None]:
df.nunique()

**Exercício 9:**
1. Faça um `.value_counts()` na coluna `season` e compare com os valores da célula acima.


## Histogramas e Boxplot

Para avaliarmos a distribuição dos valores podemos usar os gráficos abaixo:

In [None]:
df['temp'].hist()

In [None]:
df['temp'].plot.box()

**Exercício 10:**
    
1. Faça um histograma da coluna `humidity`
2. Faça um boxplot da coluna `humidity`

## Usando o Seaborn

O `seaborn` tem uma documentação bem legal, vale a pena conferir:

https://seaborn.pydata.org/tutorial/distributions.html

In [None]:
import seaborn as sns

In [None]:
sns.distplot(df['temp'], bins=10)

In [None]:
sns.boxplot(y='temp', data=df)

Podemos usar dados categóricos na coluna `x` para fazermos gráficos como o abaixo:

In [None]:
sns.boxplot(y='temp', x='season', data=df)

Outro plot bem legal é o gráfico de violino, que mostra um `boxplot` e a distribuição dos valores:

In [None]:
sns.violinplot(y='temp', data=df)

In [None]:
sns.violinplot(y='temp', x='season', data=df)

In [None]:
sns.violinplot(y='temp', x='season', data=df, hue='weather')

**Exercício 11:**

1. Faça um boxplot usando as variáveis `humidity` e `weather`.
2. Faça um violinplot usando as variáveis `humidity` e `weather`.

## Group By

O pandas tem um `.groupby` similar ao do `SQL`:

In [None]:
df.groupby('workingday')['count'].mean()

In [None]:
df.groupby('workingday')['count'].mean().plot.bar()

**Exercício 12:**
1. Agrupe as visitas por `month` e tire a mediana da coluna `count`.

(Dica: Existe um método chamado `.median()` que segue o mesmo funcionamento do `.mean()`


## Plotando Gráficos Similares no Seaborn

O `barplot` do `seaborn` faz algo muito parecido ao que fizemos acima com o `.groupby()`:

In [None]:
sns.barplot(y='count', x='workingday', data=df)

In [None]:
sns.barplot(y='count', x='season', data=df)

Temos a opção de adicionar o parâmetro `hue='workingday'` para avaliarmos uma terceira variável no mesmo gráfico:

In [None]:
sns.barplot(y='count', x='season', hue='workingday', data=df)

**Exercício 13:**

1. Plote um gráfico de barras usando as variáveis `casual` e `weather`

## Fazendo Análise Exploratória de Grupos

Uma forma bem legal de avaliar os grupos é fazendo um `.describe()` após um `.groupby()`:

In [None]:
df.groupby('month')['count'].describe()

In [None]:
df.groupby('month')['count'].describe()['mean'].sort_index(ascending=False).plot()

In [None]:
df.groupby('month')['count'].describe()['50%'].sort_index(ascending=False).plot()

**Exercício 14:**

1. Plote um gráfico de linha com os valores máximos por mês
2. Plote um gráfico de linha com os valores mínimos por mês

## Variáveis Contínuas

Um gráfico interessante para variáveis contínuas é o `pairplot`:

In [None]:
sns.pairplot(x_vars='temp', y_vars='count', data=df, size=7)

Podemos criar um código de cores de acordo com a coluna `season`:

In [None]:
sns.pairplot(x_vars='temp', y_vars='count', data=df, hue='season', size=7)

Podemos traçar regressões lineares com o parâmetro `kind=reg`:

In [None]:
sns.pairplot(x_vars='humidity', y_vars='count', data=df, hue='season', size=7, kind='reg')

**Exercício 15:**

1. Faça um `pairplot` entre `temp` e `casual`, usando `hue='holiday'`.
2. Adicione o parâmetro `kind='reg'`

## Correlação

Podemos calcular a correlação passando o método `.corr()` para um `DataFrame`:

In [None]:
df[['humidity', 'count']].corr()

Podemos inclusive fazer isso após um `.groupby()`:

In [None]:
df.groupby('season')[['humidity', 'count']].corr()

**Exercício 16:**
    
1. Calcule a correlação entre `temp` e `casual`.
2. Calcule a correlação entre `temp` e `casual` agrupando por `holiday`

## Sort

Podemos ordenar o índice:

In [None]:
df.sort_index()

In [None]:
df.sort_index(inplace=True)

Ou uma coluna:

In [None]:
df.sort_values(by='count', ascending=False)

Ou um conjunto de colunas:

In [None]:
df.sort_values(['count', 'registered'])

**Exercício 17:**
1. Retorne um DataFrame ordenado por `humidity` e `weather`

## Shift

O `.shift()` serve para deslocar uma coluna para cima ou para baixo em relação a uma referência horizontal.

In [None]:
df['count'].shift(1)

In [None]:
df['last_count_1'] = df['count'].shift(1)

In [None]:
df

In [None]:
for i in range(1, 6):
    df['last_count_'+str(i)] = df['count'].shift(i)

In [None]:
df

**Exercício 17:**
1. Crie um `for` para criar as colunas `last_registered_1` a `last_registered_5` a partir da coluna `registered`

## Lidando com NaNs

Agora temos valores em branco no nosso `DataFrame`:

In [None]:
df.info()

Podemos remover eles:

In [None]:
df.dropna()

Ou podemos preenche-los:

In [None]:
df.fillna(-1)

**Exercício 18:**
1. Use o `.fillna(-1)` com o parâmetro `inplace=True`

## Categorias

O tipo de dados `Category` é muito útil para reduzir a utilização de espaço em disco e ao mesmo tempo facilitar a visualização e compreensão dos dados.

Ele pega textos / objetos e guarda isso na memória em forma de número e cria um mapa desses números com os textos / objetos correspondentes.

Ao mostrarmos um gráfico dos meses agrupados, não temos os nomes dos meses no eixo y. 

In [None]:
df.groupby('month')['count'].mean().plot.barh()

Podemos resolver isso transformando em uma coluna categórica.

In [None]:
df['month'] = df['month'].astype('category')

Temos dois atributos importantes, `.categories` que é o mapa dos códigos:

In [None]:
df['month'].cat.categories

E temos o `.codes` que é o código que está sendo usado para a representação interna:

In [None]:
df['month'].cat.codes

Podemos acessar direto o `.cat.categories` e salvar os meses por cima para mudar o mapa:

In [None]:
df['month'].cat.categories = ['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 'Julho', 'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro']

In [None]:
df.groupby('month')['count'].mean().plot.barh()

Se quisermos ordernar os mapas, temos que usar o `.cat.as_ordered(True)` para dizer ao `pandas` que essa categoria é ordenável na ordem que está:

In [None]:
df['month'].cat.as_ordered(True)

In [None]:
df.groupby('month')['count'].mean().sort_index(ascending=False).plot.barh()

**Exercício 19:**
    
1) Faça com a coluna `season` o mesmo que foi feito com a coluna `month`, isto é, transforme ela em uma coluna com tipo de dados categórico.

Lembre-se que os códigos correspondem a:
    1. Primavera
    2. Verão
    3. Outono
    4. Inverno
    
2) Plote um gráfico de barras com a temperatura média por `season`.

## Resample

Vamos mudar o índice do nosso `DataFrame` para podermos usar o `.resample()`:

In [None]:
df.set_index('datetime', inplace=True)

Vamos olhar como está o nosso `DataFrame`:

In [None]:
df.head()

Alguns dos comportamentos do `.resample()` funcionam de forma muito parecida com um `.groupby()` para datas:

In [None]:
df.resample('M')['count'].mean()

In [None]:
df.resample('M')['count'].mean().plot.barh(figsize=(20,10))

In [None]:
df.resample('2M')['count'].mean().plot.barh()

In [None]:
df.resample('Q')['count'].mean().plot.barh()

In [None]:
df.resample('Y')['count'].mean().plot.barh()

**Exercício 20:**

1. Crie um resample semestral.
2. Plote um gráfico de barras do resultado do passo anterior.

## Transform

O `.transform()` serve para juntar resultados de uma agregação a tabela original:

In [None]:
df.groupby(['month'])['count'].transform('mean')

In [None]:
df['media_mensal'] = df.groupby(['month'])['count'].transform('mean')

**Exercício 21:**

1. Crie uma coluna com o desvio padrão da coluna `temp` agrupado pela coluna `month`.

(Dica: o desvio padrão se chama 'std' no `pandas`)
