# Data Preprocessing - Preprocessamento dos Dados

Para lidar com os dados geralmente utiliza-se bastante a bibliteca *pandas*. 

[pandas' tutorial](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html)

Esse resumo visa explicar bem superficialmente um pouco sobre a biblioteca *pandas*.

## Lendo os Dados:

Arquivos CSV (Comma-separated Values) são bem comuns para armazenar os dados. Em cada linha de um arquivo .csv temos o registro de um exemplo, que pode seguir a seguinte estrutura:

>id_do_exemplo;parametro1;parametro2;parametro3;...

E assim por diante. O código abaixo exemplifica isso:

In [47]:
import os 

os.makedirs(os.path.join('..', 'data'), exist_ok = True)
# Fazendo o diretório para o arquivo. 
# Observe a pasta data que foi criada;

data_file = os.path.join('..', 'data', 'casas.csv')
# Criando o arquivo.

with open(data_file, 'w') as f:
    f.write('''NumRooms,RoofType,Price
    NA,NA,127500
    2.0,NA,106000
    4.0,Slate,178100
    NA,NA,140000''')
# Escrevendo dentro do arquivo.

Criamos um diretório com o nome de 'data' e nele foi criado o arquivo casa.csv onde iremos escrever algumas informações e aprender a lê-lo com a biblioteca panda. 

*Sobre a biblioteca 'os' utilizada - Ela permite uma interação com o sistema operacional, facilitando assim a manipulação de arquivos, que é o que estamos fazendo nesse exemplo.*

Abaixo, vamos ver como usar a biblioteca pandas:

In [48]:
import pandas as pd
# Perceba que data_file já contém o path para o caminho onde está
# o arquivo.

data = pd.read_csv(data_file)
print(data)

  NumRooms RoofType   Price
0       NA      NaN  127500
1      2.0      NaN  106000
2      4.0    Slate  178100
3       NA      NaN  140000


## Data Preparation - Preparação dos Dados

Para aprendizamos supervisionados, os rótulos são importantes, então é importante separar as colunas do que será passado como entrada e o que será saída. 

É possível obter um dataset com dados faltando, buracos. Nesse caso, como podemos ver acima, a biblioteca pandas preeche-os com NaN (Not a Number). Para lidar com isso é possível:
- Colocar valores nesses buracos;
    - Esses valores serão estimados de alguma forma;
- Excluir as colunas inteiras com esses buracos;

#### Categorias

Para uma questão de categorias, como é o caso do exemplo dado, para o RoofType temos Slate e NaN, assim, podemos substituir por uma valoração binária:
- 1 para Slate;
- 0 para NaN;

Para selecionarmos as colunas podemos usar o nome delas ou pela indexação delas (0, 1, 2...). Os códigos não deram muito certo, mas a ideia é, no caso de categorias, simplesmente criar uma categoria para a falta de categoria é uma possibilidade. 

Para colunas numéricas, dependendo claramente do que está sendo trabalhado, os valores vazios podem ser preenchidos com a média do que não estão faltando. 

## Conversão para o formato de Tensor

Para fazer a coversão, é bem simples. Qualquer dúvida de linguagem, basta verificar no Google as documentações.

In [49]:
import torch

coluna = data['Price']
X = torch.tensor(coluna)
print(X)

tensor([127500, 106000, 178100, 140000])
