# <font color='blue'>Pré-processamento dos dados para regressão</font>

## Montando DRIVE

Corrigir, pelo professor, a próxima célula para o destino correto do Drive

In [None]:
from google.colab import drive
drive.mount('/content/drive')

drive_dados = '/content/drive/MyDrive/UFSB/Componentes_curriculares/RNA/_02_Regressao/' # Colocar uma barra no final do endereço

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## 1) Importando bibliotecas e definindo colunas do dataset

Importar as bibliotecas e o arquivo que serão utilizadas durante as análises. 

In [None]:
# Imports bilbliotecas básica
# ===========================
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline 
import pandas as pd
pd.set_option('display.max_columns', None)  
pd.set_option('display.expand_frame_repr', False)
pd.set_option('max_colwidth', None)

# Imports bilbliotecas com funções importantes
# ============================================
import seaborn as sns
from sklearn.preprocessing import LabelEncoder

## Colunas do dataset
negrito
Fonte dos dados

https://archive.ics.uci.edu/ml/datasets/Concrete+Compressive+Strength

####  Attribute Information:

The dataset contains eight attributes (or features, denoted by X1...X8) and one response (or outcome, denoted by y1). The aim is to use the eight features to predict the response.

Specifically:</p>
=============</p>
X1 Cement</p>
X2 Blast Furnace Slag</p>
X3 Fly Ash</p>
X4 Water</p>
X5 Superplasticizer</p>
X6 Coarse Aggregate</p>
X7 Fine Aggregate</p>
X8 Age</p>
y1 Concrete compressive strength</p>
    

In [None]:
# Definindo das colunas do dataset
names_columns = ["Cimento (X1)",
                 "Escoria de alto-forno (X2)",
                 "Cinzas (X3)",
                 "Agua (X4)", 
                 "Superplastificante (X5)", 
                 "Agregado grosso (X6)", 
                 "Agregado fino (X7)",
                 "Idade (X8)",
                 "Forca de compressao do Concreto (Y1)",
                 ] 

## 2) Exemplo de extração dos dados de um ou mais 
## <font color='blue'>arquivos excel

### 2.1) Lendo um arquivo excel

In [None]:
arquivo = drive_dados + "Concrete_Data.xls"
# link para o arquivo de dados:
# https://docs.google.com/spreadsheets/d/1B9uv8eYEkG5rOEicGV0tKq1VZ8I2Ab0i/edit?usp=sharing&ouid=102913998158971928461&rtpof=true&sd=true

# Carregando o dataset
dataset = pd.read_excel(arquivo, names = names_columns, dtype = str)
# Verificando as primeiras linhas do dataset
dataset

Unnamed: 0,Cimento (X1),Escoria de alto-forno (X2),Cinzas (X3),Agua (X4),Superplastificante (X5),Agregado grosso (X6),Agregado fino (X7),Idade (X8),Forca de compressao do Concreto (Y1)
0,540,0,0,162,2.5,1040,676,28,79.98611076
1,540,0,0,162,2.5,1055,676,28,61.887365759999994
2,332.5,142.5,0,228,0,932,594,270,40.269535256000005
3,332.5,142.5,0,228,0,932,594,365,41.052779992
4,198.6,132.4,0,192,0,978.4,825.5,360,44.296075096
...,...,...,...,...,...,...,...,...,...
1025,276.4,116,90.3,179.6,8.9,870.1,768.3,28,44.284354003999994
1026,322.2,0,115.6,196,10.4,817.9,813.4,28,31.178794196000002
1027,148.5,139.4,108.6,192.7,6.1,892.4,780,28,23.696600644
1028,159.1,186.7,0,175.6,11.3,989.6,788.9,28,32.768036376000005


## 3) Como preparar um dataset: 
### Passo a passo

Ciência de dados na prática: entendendo processos essenciais para limpar e preparar um banco de dados.
A ideia é que consigamos montar um checklist do que é necessário fazer para preparar um dataset antes de começar a analisá-lo de fato

In [None]:
# Verificando a quantidade de linhas e colunas
print(dataset.shape)

(1030, 9)


### 3.1) Verificando o tipo de dados

In [None]:
# Tipos de Dados
dataset.dtypes

Cimento (X1)                            object
Escória de alto-forno (X2)              object
Cinzas (X3)                             object
Água (X4)                               object
Superplastificante (X5)                 object
Agregado grosso (X6)                    object
Agregado fino (X7)                      object
Idade (X8)                              object
Força de compressão do Concreto (Y1)    object
dtype: object

#### 3.1.1) Mudando o tipo de um atributo

In [None]:
# Mudando o tipo de um atributo
dataset[:] = dataset[:].astype(np.float64)

### 3.2) Verificando duplicatas de dados

Valores duplicados são encontrados com frequência e dependendo da análise que será feita, esses valores podem alterar o resultado final.
É importante realizar esse procedimento para garantir que os dados sejam únicos nas análises.

O método duplicated() devolve uma Series booleana informando se possui algum valor duplicado.
Referente a isso, entramos com o drop_duplicates(), que remove todos os valores repetidos.

In [None]:
# Verificando duplicatas das linhas
duplicatas = dataset[dataset.duplicated()]
print(duplicatas.shape)
duplicatas.head()

(25, 9)


Unnamed: 0,Cimento (X1),Escória de alto-forno (X2),Cinzas (X3),Água (X4),Superplastificante (X5),Agregado grosso (X6),Agregado fino (X7),Idade (X8),Força de compressão do Concreto (Y1)
77,425.0,106.3,0.0,153.5,16.5,852.1,887.1,3.0,33.398217
80,425.0,106.3,0.0,153.5,16.5,852.1,887.1,3.0,33.398217
86,362.6,189.0,0.0,164.9,11.6,944.7,755.8,3.0,35.301171
88,362.6,189.0,0.0,164.9,11.6,944.7,755.8,3.0,35.301171
91,362.6,189.0,0.0,164.9,11.6,944.7,755.8,3.0,35.301171


In [None]:
# Removendo as duplicatas e verificando a quantidade de linhas e colunas
# A modificação não será gravada no dataset a menos que façamos a atribuição com inplace=True
dataset.drop_duplicates(inplace=True)
dataset.shape

(1005, 9)

### 3.3) Verificando valores nulos (missing)

Verificamos se existem valores nulos. 
Se a base apresenta muitos valores nulos, será necessário tratá-las.

Todavia, antes de sair substituindo os valores, é preciso entender o que cada coluna representa, bem como criar colunas novas para marcar aqueles valores que foram incluídos manualmente na base.

São algumas das ações que podemos tomar:
<ol>
<li>Dropar a coluna que contenha dados nulos;</li>
<li>Dropar apenas as linhas com dados nulos;</li>
<li>Substituir pela média da coluna;</li>
<li>Substituir por um valor fixo.</li>
</ol>




In [None]:
# Verificando se existem valores nulos
dataset.isnull().values.any()

False

In [None]:
# Verificação da quantidade de valores nulos dentro do DataFrame
print(dataset.isna().sum())
print(f'\nTotal de valores missing: {dataset.isna().sum().sum()}')

Cimento (X1)                            0
Escória de alto-forno (X2)              0
Cinzas (X3)                             0
Água (X4)                               0
Superplastificante (X5)                 0
Agregado grosso (X6)                    0
Agregado fino (X7)                      0
Idade (X8)                              0
Força de compressão do Concreto (Y1)    0
dtype: int64

Total de valores missing: 0


### 4) Salvando o banco de dados após pre-processamento

In [None]:
dataset.to_csv(drive_dados + 'Dados_pre_processados.csv', index = True)
dataset

Unnamed: 0,Cimento (X1),Escoria de alto-forno (X2),Cinzas (X3),Agua (X4),Superplastificante (X5),Agregado grosso (X6),Agregado fino (X7),Idade (X8),Forca de compressao do Concreto (Y1)
0,540.0,0.0,0.0,162.0,2.5,1040.0,676.0,28.0,79.986111
1,540.0,0.0,0.0,162.0,2.5,1055.0,676.0,28.0,61.887366
2,332.5,142.5,0.0,228.0,0.0,932.0,594.0,270.0,40.269535
3,332.5,142.5,0.0,228.0,0.0,932.0,594.0,365.0,41.052780
4,198.6,132.4,0.0,192.0,0.0,978.4,825.5,360.0,44.296075
...,...,...,...,...,...,...,...,...,...
1025,276.4,116.0,90.3,179.6,8.9,870.1,768.3,28.0,44.284354
1026,322.2,0.0,115.6,196.0,10.4,817.9,813.4,28.0,31.178794
1027,148.5,139.4,108.6,192.7,6.1,892.4,780.0,28.0,23.696601
1028,159.1,186.7,0.0,175.6,11.3,989.6,788.9,28.0,32.768036
