# Árvore de regressão(RT)

Um nome bonito para árvore de desição aplicada a problemas de classificação.

Objetivo:

*   Criar e treinar um modelo de RT.
*   Avaliar o performance do modelo .

## Bibliotecas/pacotes

In [2]:
import pandas as pd 
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split


## Informação sobre o dados:

Imagine que você é um cientista de dados que trabalha para uma imobiliária que planeja investir em imóveis em Boston. Você coletou informações sobre várias áreas de Boston e tem a tarefa de **criar um modelo que pode prever o preço médio das casas** naquela área para que possa ser usado para fazer ofertas.

O conjunto de dados têm informações sobre $\textcolor{yellow}{áreas/cidades}$ e não casas individuais, os recursos são :

*    **CRIM**: Crime por capital

*    **ZN**: Proporção de zonas de terreno residencial para lotes acima de 25.000 pés quadrados.

*    **INDUS**: Proporção de hectares de negócios não varejistas por cidade

*    **CHAS**: Variável fictícia Charles River (= 1 se o trecho limita o rio; 0 caso contrário)

*    **NOX**: concentração de óxidos nítricos (partes por 10 milhões)

*    **RM**: Número médio de quartos por habitantes.

*    **IDADE**: Proporção de unidades ocupadas pelo proprietário construídas antes de 1940

*    **DIS**: distâncias ponderadas para os cinco centros de emprego de Boston

*    **RAD**: Índice de acessibilidade às rodovias radiais

*    **IMPOSTO**: taxa de imposto de propriedade de valor total por $ 10.000

*    **PTRAIO**: Relação aluno-professor por município

*    **LSTAT**: Porcentagem de status mais baixo da população

*    **MEDV**: Valor médio de residências ocupadas pelo proprietário em US$ 1.000

## Lendos os dados 

In [3]:
dt = pd.read_csv("https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-ML0101EN-SkillsNetwork/labs/Module%203/data/real_estate_data.csv")
dt

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,LSTAT,MEDV
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.0900,1,296,15.3,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2,242,17.8,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2,242,17.8,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3,222,18.7,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3,222,18.7,,36.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...
501,0.06263,0.0,11.93,0.0,0.573,6.593,69.1,2.4786,1,273,21.0,,22.4
502,0.04527,0.0,11.93,0.0,0.573,6.120,76.7,2.2875,1,273,21.0,9.08,20.6
503,0.06076,0.0,11.93,0.0,0.573,6.976,91.0,2.1675,1,273,21.0,5.64,23.9
504,0.10959,0.0,11.93,0.0,0.573,6.794,89.3,2.3889,1,273,21.0,6.48,22.0


In [4]:
dt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 13 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     486 non-null    float64
 1   ZN       486 non-null    float64
 2   INDUS    486 non-null    float64
 3   CHAS     486 non-null    float64
 4   NOX      506 non-null    float64
 5   RM       506 non-null    float64
 6   AGE      486 non-null    float64
 7   DIS      506 non-null    float64
 8   RAD      506 non-null    int64  
 9   TAX      506 non-null    int64  
 10  PTRATIO  506 non-null    float64
 11  LSTAT    486 non-null    float64
 12  MEDV     506 non-null    float64
dtypes: float64(11), int64(2)
memory usage: 51.5 KB


Sabemos aparte das informaçãoes acima que temos 506 linhas(entries) em cada colunas.

Mas algumas delas tem menos, devemos verificar se é o NaN(olhando rapidamente no supiter anterior podemos ver que é isso mesmo), pois pode prejudicar nosso dados.

O tipos de dados são float ou int, então está OK!

In [5]:
# Apenas para ser mais formal vamos verificar.
dt.isna().head(20)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,LSTAT,MEDV
0,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,True,False
5,False,False,False,False,False,False,False,False,False,False,False,False,False
6,False,False,False,True,False,False,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False,False,False,False,False,False,False
9,False,False,False,True,False,False,False,False,False,False,False,False,False


Observamos que algumas celulas deram **True**(Verdadeiro), mas fica difícil de verifcar em todo o dataset logo podemos pedir para ele somar todos os NaN.

In [6]:
dt.isnull().sum()

CRIM       20
ZN         20
INDUS      20
CHAS       20
NOX         0
RM          0
AGE        20
DIS         0
RAD         0
TAX         0
PTRATIO     0
LSTAT      20
MEDV        0
dtype: int64

## Pre-processamento dos dados

Observando so dados verificamos que tem alguns Not-a-Number(NaN).

Umas das etapas do pre=processamento dos dados é retirar/alter esses valores.

Nesse casos temo no total $\textcolor{yellow}{505}$ linhas (rows) e apenas $\textcolor{yellow}{20}$ em cada coluna tem NaN, que  equivale a  ~$\textcolor{yellow}{0.04}$%. Podemos assim, retirar essa proporção sem medo de perda muita informação.

In [7]:
dt.dropna(inplace=True) 
# A função acima esta dizendo dentro do dados "dt" retire "drop o que tiver NaN "na".  
# Colocamos "inplace = True" para dizer que queremos alterar o dataset original.

In [8]:
dt.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 394 entries, 0 to 504
Data columns (total 13 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     394 non-null    float64
 1   ZN       394 non-null    float64
 2   INDUS    394 non-null    float64
 3   CHAS     394 non-null    float64
 4   NOX      394 non-null    float64
 5   RM       394 non-null    float64
 6   AGE      394 non-null    float64
 7   DIS      394 non-null    float64
 8   RAD      394 non-null    int64  
 9   TAX      394 non-null    int64  
 10  PTRATIO  394 non-null    float64
 11  LSTAT    394 non-null    float64
 12  MEDV     394 non-null    float64
dtypes: float64(11), int64(2)
memory usage: 43.1 KB


**Perfect!**

Agora vamos serpar nossa variavel de predição, também chamado de "*target*"=alvo ou variavel dependente.

Que iremos representar por $ \textcolor{yellow}{Y} $. A variável dependente usaremos $ \textcolor{green}{X} $.

In [16]:
Y = dt['MEDV']                # Lembrando MEDV = Os valores médio da casa ocupadas.
X = dt.drop(columns=['MEDV']) # Todo o resto  sem o MEDV.
X.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1,296,15.3,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2,242,17.8,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2,242,17.8,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3,222,18.7,2.94
5,0.02985,0.0,2.18,0.0,0.458,6.43,58.7,6.0622,3,222,18.7,5.21


In [17]:
Y.head()

0    24.0
1    21.6
2    34.7
3    33.4
5    28.7
Name: MEDV, dtype: float64

Agora vamos separar os dados de treino e teste.

In [18]:
x_train,x_test,y_train,y_test = train_test_split(X,Y,test_size=0.15,random_state=1)

Fim!

## Modelo.

Árvore de decisão são implementadas usando `DecisionTreeRegressor` do `sklearn.tree`

Um parâmetro importante da `DecisionTreeRegressor` são :
    
    `criterion`: {"mse", "friedman_mse", "mae", "poisson"} - A função usadas para medir erros.

    `max_depth` - O maxímo da profundidade da árvore.

    `min_samples_split` - O número minímo de conjuntos necessário para dividir os nó()node da árvore.

    `min_samples_leaf` - O número minímo que cada folha deve conter. 
    
    The minimum number of samples that a leaf can containa

    `max_features`: {"auto", "sqrt", "log2"} - The number of feature we examine looking for the best one, used to speed up training


### Usando MSE

Primeiro vamo criar um objeto de ávore de descisão, escolhendo como parametro de criterio "criterion" = mse (Mean Square Error).

In [19]:
RT = DecisionTreeRegressor(criterion = "mse")

**Treinando**

Para treinar o modelo devemos usar as variáveis de treino ->> X_train , Y_train e jogar denotro do objeto criado acima (RT).

In [20]:
RT.fit(x_train,y_train)



**Avaliando o treinamento**

Para avaliar o treino usaremos os dados de teste e verificar o "score" o quantoa acertamos.

Nesse caso o metodo que usaremos é o valor de  R^2

![RR.jpg](RR.jpg)

In [21]:
RT.score(x_test,y_test)

0.7462418005678475

Podemos também calular o erro médio do dados de test.

In [26]:
predição = RT.predict(x_test)
EM = abs(predição - y_test).mean()
print("R$",round(EM*1000,4))

R$ 3580.0


### Usando MAE (Mean Absolute Error)

In [36]:
RT = DecisionTreeRegressor(criterion = "mae")
RT.fit(x_train,y_train)
print("Score com R^2 =",RT.score(x_test,y_test))
predição = RT.predict(x_test)
print("R$",round(abs(predição - y_test).mean()*1000,4))

Score com R^2 = 0.8802285969201804
R$ 2690.0




Podemos observar a arvore de decisão com os comando abaixo , mas o model é muito complexo para plotar.

    import matplotlib.pyplot as plt
    import sklearn.tree as tree
    fig = plt.figure(figsize=(100,100))
    tree.plot_tree(RT,feature_names=dt.columns)
    plt.show()

In [34]:
import sklearn.tree as tree
print(tree.export_text(RT))

|--- feature_5 <= 6.84
|   |--- feature_11 <= 15.00
|   |   |--- feature_11 <= 7.76
|   |   |   |--- feature_11 <= 4.52
|   |   |   |   |--- feature_0 <= 0.12
|   |   |   |   |   |--- feature_9 <= 260.50
|   |   |   |   |   |   |--- feature_10 <= 16.05
|   |   |   |   |   |   |   |--- value: [31.60]
|   |   |   |   |   |   |--- feature_10 >  16.05
|   |   |   |   |   |   |   |--- feature_4 <= 0.42
|   |   |   |   |   |   |   |   |--- value: [30.10]
|   |   |   |   |   |   |   |--- feature_4 >  0.42
|   |   |   |   |   |   |   |   |--- value: [30.80]
|   |   |   |   |   |--- feature_9 >  260.50
|   |   |   |   |   |   |--- value: [29.10]
|   |   |   |   |--- feature_0 >  0.12
|   |   |   |   |   |--- value: [24.80]
|   |   |   |--- feature_11 >  4.52
|   |   |   |   |--- feature_5 <= 6.80
|   |   |   |   |   |--- feature_5 <= 6.38
|   |   |   |   |   |   |--- feature_9 <= 380.50
|   |   |   |   |   |   |   |--- feature_11 <= 7.61
|   |   |   |   |   |   |   |   |--- feature_6 <= 12.20
|