## Predict cost of civil construction São Paulo/Brazil

Data - https://sindusconsp.com.br/sdm_downloads/cub-serie-historica/

From 2007 to 2021

Type of construction R8-N SINDUSCON-SP

Reference: Predict cost of civil construction - [ARCH_DATA](https://github.com/anabeatrizfig) por [Ana Beatriz de Figueiredo Oliveira](https://www.linkedin.com/in/anabeatrizfig/)

## NumPy

NumPy é uma biblioteca para manipulação de vetores e matrizes, possuindo várias funções para lidar com esses dados. A biblioteca é muito eficiente e é usada como base para diversar outras bibliotecas de ciência de dados em Python. Iremos ver o material básico importante de NumPy, mas é muito recomendado conferir a documentação oficial em https://numpy.org/doc/, lá é possível encontrar exemplos de uso para todas as funcionalidades da biblioteca.

In [1]:
# importando a biblioteca NumPy

import numpy as np

## Pandas

Pandas é uma biblioteca para manipulação de dados tabelados. Possuindo várias funções para manipular arquivos .csv, .xls, .json, entre outros. Pandas tem uma integração natural com NumPy, além de possuir um funcionamento análogo em vários sentidos. Assim como NumPy a biblioteca também é bem completa, então iremos passar pelos conceitos básicos e é muito recomendado conferir a documentação oficial em https://pandas.pydata.org/docs/

In [2]:
# importando a blibioteca Pandas

import pandas as pd

## Leitura de arquivos

Dados podem vir em arquivos com diferentes formatos, e para a maioria deles o Pandas fornece alternativas para sua leitura. Vamos trabalhar com arquivos .csv no decorrer do curso, pois é o tipo mais comum de arquivo.

In [3]:
# Assim que fazemos a leitura de arquivos csv

df = pd.read_csv('CUB.csv')

In [4]:
# Vamos ver o tipo desse dado que acabamos de ler

type(df)

pandas.core.frame.DataFrame

## DataFrame

Um DataFrame é o principal elemento do Pandas. Ele é basicamente a representação de uma planilha/tabela, porém com muitas funções que permitem inspeção e manipulação.

In [5]:
# Analisando as primeiras linhas do DataFrame com .head()

df.head()

Unnamed: 0,ano,mes,Global,MO,Material,Adm
0,2007,1,,,,
1,2007,2,695.02,349.82,326.76,18.44
2,2007,3,696.04,350.89,326.37,18.77
3,2007,4,700.99,354.21,328.02,18.77
4,2007,5,709.49,361.58,328.13,19.78


In [6]:
# analisando as últimas linhas do DataFrame com .tail()

df.tail()

Unnamed: 0,ano,mes,Global,MO,Material,Adm
165,2020,10,1517.65,898.69,573.66,45.3
166,2020,11,1531.08,898.69,587.09,45.3
167,2020,12,1538.49,898.69,594.5,45.3
168,2021,1,1554.54,898.69,610.55,45.3
169,2021,2,1575.15,899.31,630.54,45.3


In [7]:
# DataFrames possuem shape, assim como arrays

df.shape # informa o formato do shape -> linhas x colunas

(170, 6)

In [8]:
# Podemos acessar as colunas do DataFrame

df.columns

Index(['ano', 'mes', 'Global', 'MO', 'Material', 'Adm'], dtype='object')

Entendo cada série (ou seja, coluna):

- 'ano' - ano da série histórica;
- 'mês' - mês de cada ano da série histórica;
- 'Global' - valor global;
- 'MO' - valor da mão-de-obra;
- 'Material' - valor do material;
- 'Adm' - valor da administração.

In [9]:
# conferindo o tipo de dado de cada série (coluna)

df.dtypes

ano           int64
mes           int64
Global       object
MO          float64
Material    float64
Adm         float64
dtype: object

In [12]:
# Podemos ver estatísticas descritivas do conjunto de dados

df.describe()

Unnamed: 0,ano,mes,MO,Material,Adm
count,170.0,170.0,169.0,169.0,169.0
mean,2013.588235,6.441176,637.609645,437.912189,32.967515
std,4.100207,3.484464,176.856151,57.426033,8.967747
min,2007.0,1.0,349.82,326.37,18.44
25%,2010.0,3.0,479.04,398.89,24.37
50%,2014.0,6.0,635.69,434.35,32.61
75%,2017.0,9.0,815.35,461.7,42.75
max,2021.0,12.0,899.31,630.54,45.3


Acima já começamos perceber algumas características do banco de dados. Por exemplo, 'count' nos informa os números de valores não nulos. Nota-se que das 170 linhas, 169 delas possuem o campo 'MO', 'Material' e 'Adm' preenchidos.

## Funções de agregação

Assim como no NumPy podemos aplicar diversas funções de agregação aos dados. Essas funções são por padrão aplicadas a cada coluna

In [13]:
# A difenreça entre média e mediana

num = [1, 2, 2, 4, 6, 7, 9, 10]
print(np.mean(num))
print(np.median(num))

5.125
5.0


In [15]:
# Explicando a importância desta análise.
#  A mediana tem uma robustei maior em casos de dados discrepantes. Por exemplo, um valor digitado errado
# Vejamos no exemplo abaixo a discrepância entre mediana e média

num2 = [1, 2, 2, 4, 6, 7, 9, 10100] # note o valor discrepante -> 10100
print(np.mean(num2))
print(np.median(num2))

1266.375
5.0


In [16]:
# Soma
df.sum()

ano         342310.00
mes           1095.00
MO          107756.03
Material     74007.16
Adm           5571.51
dtype: float64

In [17]:
# Média
df.mean()

ano         2013.588235
mes            6.441176
MO           637.609645
Material     437.912189
Adm           32.967515
dtype: float64

## Conferindo o número de valores nulos

Valores nulos são entradas da tabela que estão vazias (pense em uma celula do Excel sem nenhum valor dentro). O fato de um campo não estar preenchido pode ter motivos diferentes, cabe ao ciêntista de dados saber com cada caso.

É importante saber que a maioria dos algoritmos de aprendizado de máquina não trabalham com valores nulos, então é importante tratá-los na preparação dos dados.

In [18]:
# Podemos usar a função .isna() para descobrir as células vazias

df.isna()                                    #False para as céluas preenchidas e True para as células vazias

Unnamed: 0,ano,mes,Global,MO,Material,Adm
0,False,False,True,True,True,True
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
...,...,...,...,...,...,...
165,False,False,False,False,False,False
166,False,False,False,False,False,False
167,False,False,False,False,False,False
168,False,False,False,False,False,False


In [10]:
# Podemos usar a função .isna() e somar para ver o numero de nulos em cada coluna

df.isna().sum()

ano         0
mes         0
Global      1
MO          1
Material    1
Adm         1
dtype: int64

Podemos perceber que existe um número nulo por série (excluindo ano e mês). Se chamarmos a função **.head()** novamente veremos que a primeira linha (2007/1) não contém valores. Dessa forma, precisamos excluir está linha.

## Observando estatísticas do DataFrame
Podemos observar as estatísticas de cada coluna do DataFrame utilizando o método .describe()

In [19]:
df.describe()

Unnamed: 0,ano,mes,MO,Material,Adm
count,170.0,170.0,169.0,169.0,169.0
mean,2013.588235,6.441176,637.609645,437.912189,32.967515
std,4.100207,3.484464,176.856151,57.426033,8.967747
min,2007.0,1.0,349.82,326.37,18.44
25%,2010.0,3.0,479.04,398.89,24.37
50%,2014.0,6.0,635.69,434.35,32.61
75%,2017.0,9.0,815.35,461.7,42.75
max,2021.0,12.0,899.31,630.54,45.3


## Operações em DataFrames

Certo, agora podemos começar a manipular os dados que temos para fazer descobertas ou para prepará-los para um modelo de aprendizado de máquina.

In [11]:
df.head()

Unnamed: 0,ano,mes,Global,MO,Material,Adm
0,2007,1,,,,
1,2007,2,695.02,349.82,326.76,18.44
2,2007,3,696.04,350.89,326.37,18.77
3,2007,4,700.99,354.21,328.02,18.77
4,2007,5,709.49,361.58,328.13,19.78


## Adicionando/Removendo colunas e linhas

- Adicionar coluna

A recomendação do Pandas é que sempre que se for alterar valores do DataFrame devemos usar os comandos .loc e .iloc. Isso se dá ao fato de nem sempre o que é retornado de uma indexação é uma view para o valor original, em algumas situações pode ser uma cópia. Leia mais na documentação: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

A operação de remoção (e várias operações em DataFrames) não realizam a alteração no DataFrame original, elas retornam um novo DataFrame com as alterações feitas. Podemos salvar esse retorno numa variável (até mesmo na mesma variavel que o DataFrame original) ou passar um parâmetro especial para o DataFrame dizendo para ele realizar as mudanças no próprio DataFrame.

- Remover linha

No caso de precisar remover linha, a lógica abaixo deverá ser seguida

```python
# Removendo uma linha (identificamos a linha pela label)
df.drop(0) # Removendo a linha
df.head() # Vendo o resultado
```

In [12]:
# Salvando na variavel
df_clean = df.drop(0)

# Ou podemos indicar com o padrametro in_place
# df.drop(0, inplace=True)

In [13]:
# Vendo o resultado desta operação

df_clean.head() 

Unnamed: 0,ano,mes,Global,MO,Material,Adm
1,2007,2,695.02,349.82,326.76,18.44
2,2007,3,696.04,350.89,326.37,18.77
3,2007,4,700.99,354.21,328.02,18.77
4,2007,5,709.49,361.58,328.13,19.78
5,2007,6,719.64,368.33,331.03,20.28


Podemos observação que a linha com dados nulos já foi removido do DataFrame

Tratando valores nulos

A forma acima é uma das maneiras de tratamento de valores nulos. Temos basicamente três opções de como lidar com esses dados faltantes:

- Podemos remover as linhas que possuirem dados faltantes
- Podemos remover as colunas que possuirem dados faltantes
- Podemos substituir dados faltantes por algum valor (a média, por exemplo)

Vamos analisar nosso DataFrame e ver se ainda há algum dado faltante

In [14]:
# Vamos ver quantos valores nulos temos em cada coluna
df_clean.isna().sum()

ano         0
mes         0
Global      0
MO          0
Material    0
Adm         0
dtype: int64

Não há valores nulos em nosso DataFrame

## Scikit-Learn

Scikit-Learn é uma biblioteca para aprendizado de máquina, contendo vários algoritmos assim como métodos de pré-processamento e avaliação. A biblioteca possui integração total com NumPy e Pandas para todas suas tarefas. Assim como nas outras bibliotecas iremos cobrir o material mais básico, então é recomendado conferir a documentação oficial em https://scikit-learn.org/stable/.