# 4º Simpósio de Tecnologias Aplicadas - UNISO

<h2>
<a id="sumario">Sumário</a><br>
<a href="#jupyter">1. Jupyter Notebook</a><br>
<a href="#python">2. Python - sintaxe básica</a><br>
<a href="#dados">3. Lendo os dados</a><br>
<a href="#wrag">4. Manipulando os dados</a><br>
<a href="#prep">5. Preparando os dados</a><br>
<a href="#train">6. Treino e avaliação</a></h2><br>

## <a id="jupyter" href="#sumario">1. Jupyter Notebook</a>

Uma das ferramentas mais populares do Python é o Jupyter Notebook, nele você pode misturar textos (Markdwon) e código.
Muito útil para escrever relatórios que incluem saídas de códigos, gráficos, equações.
Para instanciar um Notebook localmente, siga os seguintes passos:

1. Garanta que o Python instalado (sugiro 3.6+):
    * https://www.python.org/downloads/
2. (Opcional) se tiver o Anaconda instalado você pode criar um ambiente virtual para evitar possíveis conflitos de pacotes. Em seu terminal digite:
```
conda create -n iv_simposio
conda activate iv_simposio
```
ps: no Linux talvez você tenha que adicionar conda ao .bash. No Windows é melhor usar o prompt do Anaconda.
3. Garanta que o jupyter esta instalado (terminal):
```
pip install jupyter
```
4. Instancie um servidor local jupyter:
```
jupyter notebook
```

### Dica Jupyter

Nos blocos de codigo, você pode rodar comandos no terminal começando suas linhas com `!`. E.g., `!pip install pandas` instala a biblioteca pandas.

## <a id="python" href="#sumario">2. Python - sintaxe básica</a>

Não é preciso declarar o tipo da variável. Basta entrar com `<nome_da_variavel> = <valor_da_variavel>` para criar uma nova variável ou modificar uma existente. 

In [None]:
x = 2
y = 3.0
uma_string = "aspas simples ou duplas marcam strings"
print("x vale:", x)
print("x é um", type(x))
print("y vale:", y)
print("y é um", type(y))
print("uma_string vale:", uma_string)
print("uma_string é uma", type(uma_string))

Os símbolos de soma (+), subtração (-), multiplicação (\*) e divisão (/) fazem o que você espera que eles façam. Hashtags (\#) marcam comentários nos códigos e não serão executados.

In [None]:
x = y/x # x agora y divido por ele mesmo
# dividir um inteiro por float resulta em um inteiro
print("O novo valor de x é:", x, ". Seu tipo agora é", type(x))
# somar duas strings concatena ambas
nova_string = "+ concatena " + "strings"
print(nova_string)

Comparar valores com < (menor), <= (menor igual), >= (maior igual) ou > (maior) resulta em variáveis boolenas (True ou False).

In [None]:
"R" > "Python"

Listas são declaradas usando \[ \].

In [None]:
uma_lista = [1, 2, 3, 4, 5]
print("Os elementos da lista são:", uma_lista)

Para selecionar um elemento da sua lista use a sintaxe `<lista>[indice do elemento]`. Os indíces começam em zero. Você pode fatiar uma lista com a sintaxe `<lista>[indice_inicial : indice_final (nao incluso)]`. Se emitir o indice inicial ele começa do primeiro e omitindo o indíce final ele vai até o último.

In [None]:
print("O primeiro elemento é o:", uma_lista[0])
print("Os elementos de índice 1 até 3 são:", uma_lista[1:4])

Listam ainda podem misturar elementos de diversos tipos. Loops básicos seguem o formato:
```
for <i> in <iterador>:
    \\ operacoes
```

In [None]:
# trocando o primeiro elemento da lista
uma_lista[0] = "Zero"
# uma lista pode servir como iterador
contador = 0                     # iniciando um contador
for elemento in uma_lista:       # para cada elemento da lista
    print(contador, elemento)    # imprime o contado e o valor do elemento
    contador += 1                # adiciona mais 1 ao contador 
                                 #(<var>+=<valor> é o mesmo <var> = <var> + <valor>)

Um loop usando while...

In [None]:
contador = 0            # Iniciamos o contador em zero
while contador < 15:    # enquanto o contador for menor do que 15, repete o loop
    print(contador)     # imprime o valor do contador
    if 5%2 == 0:        # o operador % retorna a sobra de uma divisao, entao com <numero>%2 == 0 queremos saber se é 
        contador += 1   # se par, soma um
    else:               # se impar
        contador += 3   # soma 3
# o ultimo valor do contador foi:
print("Contador final:", contador)

Para definir novas funoes basta seguir a sintaxe:

```
def <nome_da_funcao>(argumentos):
    \\ operacoes da funcao
    return <valor_a_ser_retornado>
```

Por exemplo:

In [None]:
def soma(a, b):
    return a + b
soma(1,2)

## <a id="dados" href="#sumario">3. Lendo os dados</a>

Uma biblioteca ou módulo é um conjunto de funções prontas para serem usadas - não é preciso reinventar a roda. Para instalar um novo pacote (se disponível no repositório oficial), basta digitar `pip install <nome_do_modulo>` no terminal. Pacotes devem ser importados no seu programa: `import <nome_do_modulo>`. Você pode dar um apelido para o pacote em seu programa usando `import <nome_do_modulo> as <apelido>`.

Os pacotes que vamos usar são:
* os - de Operational System, vamos ver quais os arquivos disponíveis;
* pandas - um dos mais populares, usado para leitura e manipulaçao de dados;
* sklearn - Scikit Learn e um dos frameworks mais populares para treinar modelos.

Usuários de Python costumam carregar todas as bibliotecas necessárias no topo do código.

In [None]:
import os           # operações do sistema operacional
import pandas as pd # leitura e manipulacao de dados
from sklearn.ensemble import RandomForestRegressor # modelos de ML
import random       # processos pseudo-aleatorios
import numpy as np  # algebra linear

Em que pasta nos estamos?

In [None]:
os.getcwd()

Quais são os arquivos disponíveis?

In [None]:
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

A função read_csv do pandas permite a leitura de CSVs. Os argumentos que ela recebe são:

* filepath_or_buffer = caminho ate o arquivo (obrigatório) str
* sep = separador de colunas (opcional, padrão ",") str
* encoding = encoding do arquivo (opcional, padrão "utf-8") str - se der errado tente latin1 ou latin3 (mais comuns no BR)
* outros argumentos https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

A função `pandas.read_csv()` retorna uma variável do tipo DataFrame, com seus próprios métodos. É muito comum depois de ler um CSV, chamar por `.head()` e `.tail()` para ler as primeiras e ultimas linhas respectivamente.

In [None]:
df_train = pd.read_csv(filepath_or_buffer="/kaggle/input/ashrae-energy-prediction/train.csv", 
                       sep=",", 
                       encoding="utf-8")

df_train.head()

Lendo os documentos disponibilizados eu sei que:
* `building_id` corresponde a um ID único do edifício;
* `meter` é o tipo de medidor (0 para eletricidade, 1 para água fria, 2 para vapor e 3 para água quente);
* `timestamp` data de quando a medida foi tirada;
* `meter_reading` é o TARGET, o gasto de energia que queremos prever.

In [None]:
df_train.tail()

Me chamou a atenção a quantidade de zeros que encontramos neste exame rápido. Qual a porcentagem de zeros no target do dataset de treino?

In [None]:
(df_train["meter_reading"] == 0).mean()

Em `df_train["meter_reading"] == 0` estamos criando uma espécie de lista (pandas Series para ser mais exato) e para cada valor da lista retornamos um booleano com True se o target for igual a 0 ou False caso contrário. Em seguida chamamos o método `mean()` para toda essa série. Ele vai retornar a média para tal, interpretando True como 1 e False como 0, logo, o resultado é a porcentagem de valores iguais a zero, que foi cerca de 9,27%.

Repare que para selecionar apenas uma coluna do nosso dataset chamamos ele mesmo e em seguida o nome da coluna entre colchetes. Os dois principais métodos para "fatiar" datasets são `.loc[]` e `.iloc[]`.

Além do `head()` e `tail()`, outro método muito útil é o `describe()`, que traz algumas estatísticas descritivas sobre o dataset.

In [None]:
df_train.describe()

Uma pergunta muito importante é "temos dados suficientes?". Para responder essa pergunta usamos o método `shape` que devolve uma lista em que o primeiro elemento é o número de linhas e o segundo é o número de colunas.

In [None]:
df_train.shape

Vamos dar uma olhada no dataset de testes:

In [None]:
df_test = pd.read_csv(filepath_or_buffer="/kaggle/input/ashrae-energy-prediction/test.csv", 
                      sep=",", 
                      encoding="utf-8")
df_test.head()

No mundo real isso serviria como entrada para os nossos modelos depois de treinamos. É o que gostariamos de prever! Note que a coluna `meter_reading` não está disponível.

## <a id="wrang" href="#sumario">4. Manipulando os dados</a>

Mas vamos prever o consumo sem melhorias só com o ID do prédio, tipo de medidor? Não! A competição também disponibilizou dados de clima e informações do prédio. Para simplificar vamos ficar só com as informações do prédio.

In [None]:
df_building = pd.read_csv(filepath_or_buffer="/kaggle/input/ashrae-energy-prediction/building_metadata.csv", 
                       sep=",", 
                       encoding="utf-8")
df_building.head()

In [None]:
print("Número de linhas:", df_building.shape[0])
print("Número de colunas:", df_building.shape[1])

In [None]:
print("Numero de IDs únicos de prédio no dataset de treino:",df_train["building_id"].nunique())

In [None]:
print("Numero de IDs únicos de prédio no dataset de teste:",df_test["building_id"].nunique())

Parece tudo certo, mas o seguro morreu de velho. Vamos conferir se tudo que está nos treino/teste está incluído neste dataset.

In [None]:
porcentagem_do_treino = df_train["building_id"].isin(df_building["building_id"]).mean() * 100
porcentagem_do_teste = df_test["building_id"].isin(df_building["building_id"]).mean() * 100

print("Treino:", porcentagem_do_treino, "%")
print("Teste:", porcentagem_do_teste, "%")

Duas coisas chamaram minha atenção nos metadados dos edifícios: duas colunas que podem ser utilizadas como variáveis categóricas (`primary_use` e `site_id`) e varios NaNs (Not a Number), que correspondem valores vazios no nosso dataset.

In [None]:
df_building.isnull().sum()

Interessante! Tanto o ano de construção do prédio (`year_built`) quanto o número de andares (`floor_count`) tem uma grande quantidade de não preenchidos (informações faltando). Vamos tentar usar isso ao nosso favor. Agora vamos adicionar essas informações ao dataset de treino usando a chave `building_id`.

Antes de fazer essa união, precisamos garantir que essa coluna está preenchida com o mesmo tipo de variável nos diferentes datasets:

In [None]:
print("Tipo em df_building:", df_building["building_id"].dtype)
print("Tipo em df_train:", df_train["building_id"].dtype)
print("Tipo em df_test:", df_test["building_id"].dtype)

Tudo certo! Podemos seguir em frente.

In [None]:
df_train_new = df_train.merge(df_building,            # poderia usar on_left on_right
                              on=["building_id"],     # coluna chave, tambem pode ser uma lista com mais de uma coluna 
                              how="left",             # left, right, outer, inner
                              validate="many_to_one") # opicional <many ou one>_to_<many ou one>
df_train_new.head()

O argumento `validate` é muito útil para garantir que linhas adicionais não serão criadas. Devemos adicionar as mesmas linhas ao dataset de teste.

In [None]:
df_test_new = df_test.merge(df_building, on="building_id", how="left", validate="many_to_one")
df_test_new.head()

Vou liberar memória deletando os antigos dataframes que não serão mais utilizados.

In [None]:
del df_test, df_train, df_building

## <a id="prep" href="#sumario">5. Preparando os Dados</a>

Nesta etapa nós vamos dividir o dataset de treinamento em três partes:
* A) Ajustar o modelo
* B) Encontrar os melhores hiperparâmetros
* C) Estimar o desempenho dos modelos (para os mesmos edifícios)

Como temos disponível uma coluna de tempo, vou fazer o split cronológico, pra isso é útil converter a coluna de tempo no formato datetime. 

In [None]:
df_train_new["timestamp"] = pd.to_datetime(df_train_new["timestamp"])
df_test_new["timestamp"] = pd.to_datetime(df_test_new["timestamp"])

print("df_train_new começa em", df_train_new["timestamp"].min(), "e termina em", df_train_new["timestamp"].max())

Não temos mais de um ano de dados, essa é uma notícia ruim. Idealmente teriamos mais de um ano para A e pelo menos um ano para B e C, assim controlariamos o fator sazonalidade. Dadas as circunstâncias optei por não preservar a ordem cronológicae sortear aleatoriamente as observações utilizadas. Vamos usar cerca de 70% das observações para A, 15% para B e outros 15% para C.

In [None]:
todos_indices = df_train_new.index.tolist()
print("15% das obs. de df_train_new são cerca de",len(todos_indices)*.15)

Vamos separar os índices de A, B e C.

In [None]:
random.seed(2020)
# selecionando os indices de b
indices_b = random.choices(todos_indices, k = 3032415)
# separando os indices disponiveis
indices_disponiveis = list( set(todos_indices) - set(indices_b))
# sorteando os indices de c
indices_c = random.choices(indices_disponiveis, k = 3032415)
# separando os indices de a
indices_a = list( set(indices_disponiveis) - set(indices_c))

Agora vamos montar um encoder! Para o modelo que vou usar de baseline (Florestas Aleatórias), o chamado mean encoder é bastante indicado. Para mais sobre mean encoder consulte:
https://towardsdatascience.com/why-you-should-try-mean-encoding-17057262cd0

Para quais variáveis vamos utilizar o mean encoder?

R: Categoricas (building_id, site_id, primary_use)

In [None]:
colunas_categoricas = ["building_id", "site_id", "primary_use"]

for coluna_categorica in colunas_categoricas:
    # separando os valores para o encoder
    # para criar o enconder vamos restringir as dados
    # da amostra a usando "df_train_new.loc[indices_a]"
    mean_encoder = df_train_new.loc[indices_a].groupby(coluna_categorica)["meter_reading"].mean()
    # mapeando para os valores da coluna categorica
    df_train_new[coluna_categorica] = df_train_new[coluna_categorica].map(mean_encoder)
    # repetimos o mesmo processo para df_test_new
    df_test_new[coluna_categorica] = df_test_new[coluna_categorica].map(mean_encoder)    

Pronto, agora que mapeamos as categoricas cardinais em categoricas ordinais (isso é importante para as florestas aleatórias), podemos prosseguir. Vamos escolher um valor arbitrário para os não preenchidos, mas pra isso vamos ver quais são os valores mínimos observados em cada coluna de ambos datasets.

In [None]:
df_train_new.min()

In [None]:
df_test_new.min()

Nenhum número negativo. Vou preencher os vazios com -10.

In [None]:
# Pequeno truque para reduzir a memoria
df_train_new["year_built"] = df_train_new["year_built"] - 1900
df_test_new["year_built"] = df_test_new["year_built"] - 1900
# Prencheendo vazios
df_train_new = df_train_new.fillna(-10)
df_test_new = df_test_new.fillna(-10)

Para reduzir a memoria ...

Kibado de https://www.kaggle.com/caesarlupum/ashrae-start-here-a-gentle-introduction#5.-Reducing-Memory-Size

In [None]:
## Function to reduce the DF size
def reduce_mem_usage(df, verbose=True):
    numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
    start_mem = df.memory_usage().sum() / 1024**2    
    for col in df.columns:
        col_type = df[col].dtypes
        if col_type in numerics:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)  
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)    
    end_mem = df.memory_usage().sum() / 1024**2
    if verbose: print('Mem. usage decreased to {:5.2f} Mb ({:.1f}% reduction)'.format(end_mem, 100 * (start_mem - end_mem) / start_mem))
    return df

df_train_new = reduce_mem_usage(df_train_new)
df_test_new = reduce_mem_usage(df_test_new)

Pra salvar mais memória vou remover os timestamp e deixar só uma variável que denota mês como inteiro:

In [None]:
df_train_new["month"] = df_train_new["timestamp"].dt.month.astype("uint8")
df_train_new = df_train_new.drop("timestamp", 1)
df_test_new["month"] = df_test_new["timestamp"].dt.month.astype("uint8")
df_test_new = df_test_new.drop("timestamp", 1)

Tudo pronto para o treino e avaliação!

## <a id="train" href="#sumario">6. Treino e avaliação</a>



In [None]:
features = [
    "building_id",
    "meter",
    "site_id",
    "primary_use",
    "square_feet",
    "year_built",
    "floor_count",
]

target = "meter_reading"

modelo = RandomForestRegressor(n_estimators=10, max_depth=10, random_state=2020)
modelo.fit(df_train_new.loc[indices_a, features], df_train_new.loc[indices_a, target])
forecast = modelo.predict(df_train_new.loc[indices_b, features])

In [None]:
modelo = RandomForestRegressor(n_estimators=15, max_depth=10, random_state=2020)
modelo.fit(df_train_new.loc[indices_a, features], df_train_new.loc[indices_a, target])
forecast = modelo.predict(df_train_new.loc[indices_b, features])