

# <center> Preparação e Seleção de Variáveis e Classificação Supervisionada da Base de Cobertura da Terra </center>

<br/>

<div style="text-align: center;font-size: 90%;">
    Bruno Dias dos Santos<sup><a href="https://orcid.org/0000-0001-6181-2158"><i class="fab fa-lg fa-orcid" style="color: #a6ce39"></i></a></sup><sup><a href="https://orcid.org/0000-0002-0082-9498"><i class="fab fa-lg fa-orcid" style="color: #a6ce39"></i></a></sup><i class="fab fa-lg fa-orcid" style="color: #a6ce39"></i></a></sup>
    <br/><br/>
    Programa de Pós-Graduação em Computação Aplicada, Instituto Nacional de Pesquisas Espaciais (INPE)
    <br/>
    Avenida dos Astronautas, 1758, Jardim da Granja, São José dos Campos, SP 12227-010, Brasil
    <br/><br/>
    Contato: <div><a href="mailto:bruno.santos@inpe.br">bruno.santos@inpe.br</a></div>
    <br/><br/>
    Última atualização: 01 de junho de 2022
</div>
<br/>

<div style="text-align: justify;  margin-left: 25%; margin-right: 25%;">
<b>Resumo.</b> Este Notebook apresenta uma metodologia para tratar e selecionar variáveis e posterior classificação supervisionada de uma base cobertura da terra pelo algoritmo <i> Random Forest</i>. Dado uma tabela de arquivo shapefile (.shp) contendo uma variável com as classes amostrais, os atributos serão tratados a partir da remoção de valores faltantes, normalizados e ordenados em relação ao seu poder explicativo a partir do cálculo do R² da ANOVA. Posteriormente, os atributos serão comparados dois a dois e caso a correlação (de Pearson) ultrapasse um valor máximo adotado, será realizada a remoção da variável com menor poder explicativo. Posteriormente, será testado o melhor modelo possível gerado pelo <i>Random Forest </i>, dado um conjunto de hiperparametros. Os hiperparâmetros são escolhidos utilizando a técnica <i>RandomizedSearch</i>, adotando um <i>K-Fold</i> com 5 grupos e medindo o desempenho de cada combinação com o <i> F1-Score </i>.     

</div>    

<br/>

### 1º Etapa: Tratamento e seleção de variáveis

Importação das bibliotecas:

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import math
import folium
import mapclassify
import geopandas as gpd
import shapely
from sklearn.model_selection import RandomizedSearchCV, train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score, accuracy_score,ConfusionMatrixDisplay,classification_report,confusion_matrix

Leitura do shapefile e criação de um GeoDataFrame:

In [None]:
obj = gpd.read_file("E:\\00_INPE\\PDI\\TRABALHO-FINAL\\cameta\\FINAIS\\classificado\\nivel1_cameta.shp")

In [None]:
obj

Definicação da variável identificadora de cada feição:

In [None]:
indice = 'DN'

Definicação da variável com as classes amostrais. Esta variável dever ser categórica (com o nome das classes amostradas) ou discreta:

In [None]:
TARGET = 'TARGET'

target = []
cont = 0

for classe in obj[TARGET].unique():
    if not pd.isnull(classe):
        target.append(classe)

target

Criando uma base de dados que será utilizada na saída, copiando as informações do 'indice' e o 'TARGET' da base original:

In [None]:
geom = obj[[indice,'geometry']]

In [None]:
geom

Extraindo as variáveis categóricas e numéricas para tratamento dos dados:

In [None]:
var_num = pd.DataFrame(obj.select_dtypes(include=['float64','int64','int','float']))
var_cat = pd.DataFrame(obj.select_dtypes(include=['string','object']))

In [None]:
var_cat

In [None]:
var_num

Removendo a coluna com as amostras para o tratamento dos dados:

In [None]:
try: 
    var_cat = var_cat.drop(columns = TARGET)
except:
    var_num = var_num.drop(columns = TARGET)

Removendo outliers dos campos numéricos:

In [None]:
#Função para remoção de outliers considerando como outlier valores superiores a 2.698 σ (desvio padrão) da curva normal de distribuição: 

def rmv_outliers(DataFrame, col_name):
    intervalo = 2.698 * DataFrame[col_name].std()
    media = DataFrame[col_name].mean()
    DataFrame.loc[DataFrame[col_name] < (media - intervalo), col_name] = np.nan
    DataFrame.loc[DataFrame[col_name] > (media + intervalo), col_name] = np.nan

for coluna in var_num.columns:
    rmv_outliers(var_num, coluna)

Normalizando e preenchendo possíveis valores vazios nos campos numéricos:

In [None]:
#dummy = var_num.iloc[:,1:].mean() #Nesse caso, possíveis valores ausentes serão preenchidos com a média do campo pertencente 
dummy = 0

var_num.iloc[:,1:] = var_num.iloc[:,1:].fillna(dummy)

var_num.iloc[:,1:] =(var_num.iloc[:,1:] - var_num.iloc[:,1:].min())/(var_num.iloc[:,1:].max() - var_num.iloc[:,1:].min())
var_num

Aplicando OneHotEncoder nas variáveis de natureza categórica e criando um DataFrame dos dados:

In [None]:
aux = obj[[indice, TARGET]]

try:
    var_cat = pd.get_dummies(var_cat[:-1], drop_first=True)
    obj = (aux.merge(var_num, left_on=indice, right_on=indice)).merge(var_cat, left_index=True, right_index=True)
    
except:
    obj = (aux.merge(var_num, left_on=indice, right_on=indice))
    print("Não há variáveis categóricas para aplicar OneHotEncode")

obj

Visualizando estatísticas descritivas da base de dados já tratada:

In [None]:
obj.describe()

Criando uma cópia do DataFrame já tratado:

In [None]:
saida =  obj
saida

Selecionando apenas as feições que possuem amostras coletadas para extrair a estatística:

In [None]:
obj = obj[obj[TARGET].isin(target)]
obj

Calculo do R² da Anova de cada coluna do Dataframe em relação à coluna Target:

In [None]:
iv = {}

for coluna in obj.columns:  
    if coluna != TARGET:
        counts = obj.groupby(TARGET, sort=True)[coluna].count() #Contagem de elementos de cada classe amostral
        medias = obj.groupby(TARGET, sort=True)[coluna].mean() #Média de cada caluna por classe amostral 
        aux = 0        
        for i in range(len(counts)):
            try:
                aux = aux + counts.iloc[i]*((medias.iloc[i] - obj[coluna].mean())**2)
            except:
                aux = 0
        
        if (sum(counts))*((obj[coluna].std())**2) == 0:
            iv[coluna] = aux/0.00001
        else:                
            iv[coluna] = aux/((sum(counts))*((obj[coluna].std())**2))
        
        print("Rodou: ", coluna)

iv = sorted(iv.items(), key=lambda x: x[1], reverse=True)

In [None]:
iv

Grafico bloxpot da variável com o melhor poder explicativo em relação às classes amostrais:

In [None]:
plt.figure(figsize=(15,5))
sns.boxplot(x=TARGET , y= obj[iv[0][0]], order= obj[TARGET].sort_values().unique(), data = obj)

Grafico bloxpot da variável com o pior poder explicativo em relação às classes amostrais:

In [None]:
plt.figure(figsize=(15,5))
sns.boxplot(x=TARGET , y= obj[iv[-1][0]], order= obj[TARGET].sort_values().unique(), data = obj)

Removendo variáveis pouco explicativas, a partir de um limite inferior e variáveis com possíveis valores 'NaN':

In [None]:
lim_min = 0.1 #Alterar limite inferior para remoção das variáveis
aux = []

print(f'Total de variáveis antes da remoção: {len(iv)}')

for i in range(len(iv)):
    if math.isnan(iv[i][1]):
        aux.append(iv[i])
    elif iv[i][0] != indice:
        if iv[i][1] < lim_min:
            aux.append(iv[i])

for i in aux:
    iv.remove(i)

print(f'Total de variáveis depois da remoção: {len(iv)}')

Visualização das informações das variáveis mais explicativas:

In [None]:
iv

Definição do fator de correlação a ser considerado.

Dado duas variáveis [<i>i</i>,<i>j</i>], será calculado a correlação entre <i>i</i> e <i>j</i>. Caso a correlação entre as duas variáveis seja maior do que o <b>fator máximo de correlação</b>, faremos a exclusão daquela com menor poder explicativo a partir do seu R²:

In [None]:
fator = 0.70

Remoção de variáveis de alta correlação _(Pearson)_:

In [None]:
colunas = []
aux = []

for i, j in iv:
    colunas.append(i)
    aux.append(i)

for i in range(len(colunas)):
    for j in range(len(colunas)):
        if j > i and abs(saida[colunas[i]].corr(saida[colunas[j]])) > fator:
            if (colunas[j] in aux) and (colunas[j] != indice):
                aux.remove(colunas[j])

Quantidade de variáveis do Dataframe que será gerado para a saída:

In [None]:
len(aux)

Visualização das colunas que estarão no Dataframe de saída:

In [None]:
aux

Célula de conferência que mostra que as variáveis que sobraram não possuem uma correlação acima do <b>fator máximo de correlação</b> inserido - exceto para a variável de identificação:

In [None]:
corr_df = saida[aux].corr()

corr_df.style.background_gradient(cmap='Spectral')

In [None]:
corr_df = saida[aux].corr(method='pearson')

plt.figure(figsize=(10, 10))
sns.heatmap(corr_df, annot=False)
plt.show()

In [None]:
aux.append(TARGET)

Salvando um shapefile com os dados tratados:

In [None]:
geom = geom.merge(saida[aux], left_on=indice, right_on=indice)
geom

In [None]:
geom.to_file("E:\\00_INPE\\0_DISSERTACAO\\VALIDACAO\\COBERTURA\\segmentos_cobertura_tratados.shp")

### 2º Etapa: Classificação Supervisionada da Base de Cobertura

Selecionando apenas a base de dados com amostras para construir o modelo de classificação supervisionado:

In [None]:
amostras = geom.replace(to_replace='None', value=np.nan).dropna()
amostras

Separandos os dados de treinamento e validação:

In [None]:
X = pd.DataFrame(amostras.iloc[:,2:-1])
Y = pd.DataFrame(amostras[TARGET]).to_numpy()

In [None]:
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size = 0.3, stratify = Y, random_state=42)

In [None]:
x_train.shape

In [None]:
y_train.shape

In [None]:
x_test.shape

In [None]:
y_test.shape

Visualizando as classes amostrais:

In [None]:
amostras[TARGET].unique()

In [None]:
amostras.groupby(TARGET)[indice].nunique()

Seleção os hiperparametros e dos valores que serão testados no método RandomizedSearchCV:

In [None]:
parametros = {'n_estimators':[1,20,50,100,150,200,250,300,350,400,450,500,550,600,700,800,900,1000,1500,2000],
              'criterion':['gini','entropy'],
              'max_depth':[5,10,20, None],
              'min_samples_split':[2,5,10],
              'min_samples_leaf': [1, 2, 4],
              'bootstrap': [True, False]}

Definindo o RandomizedSearchCV:

In [None]:
modelo = RandomizedSearchCV(estimator = RandomForestClassifier(), n_iter = 100, verbose=2, random_state=42, param_distributions = parametros, scoring='f1_macro', n_jobs=-1, cv=5)

Construindo o modelo de classificação Random Forest:

In [None]:
modelo.fit(x_train, y_train)

Visualizando a melhor combinação de hiperparâmetros:

In [None]:
modelo.best_params_

In [None]:
modelo.best_score_

In [None]:
modelo.best_estimator_

Utilizando o modelo treinado para prever a base de dados de validação:

In [None]:
y_pred = modelo.predict(x_test)

Visualizando as variáveis mais utilizadas no modelo Random Forest:

In [None]:
plt.barh(x_test.columns, modelo.best_estimator_.feature_importances_ )

Visualizando métricas de desempenho do modelo de classificação na base de teste:

In [None]:
macro = f1_score(y_test, y_pred, average = 'macro')
wei = f1_score(y_test, y_pred, average = 'weighted')
accuracy = accuracy_score(y_test, y_pred)

results = {'F1_Score_Macro': macro,
             'F1_Score_Weighted': wei,
             'Global Acuraccy': accuracy 
            }

pd.DataFrame.from_dict(results, orient='index', dtype=None, columns=['Métricas'])

Matriz de confusão aplicado sobre a base de teste:

In [None]:
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

In [None]:
data = {'Reference': y_test.flatten(), 'Predicted': y_pred}
df = pd.DataFrame(data, columns = ['Reference','Predicted'])
mc = pd.crosstab(df['Reference'], df['Predicted'], rownames=['Reference'], colnames=['Predicted'])

In [None]:
plt.figure(figsize=(10,10))
sns.heatmap(mc, annot=True,fmt='g',  cmap = 'YlGnBu',linewidths=.5)
plt.title('Matriz de Confusão', fontweight='bold', fontsize=14)
plt.xlabel('Classificação', fontsize=12)
plt.ylabel('Referência',fontsize=12)
plt.show()

In [None]:
classe = []
Accuracy = []
Precision = []
Recall = []
F1_Score = []

for i in range(mc.shape[0]):
    TP = mc.iloc[i,i]
    FP = mc.iloc[i,:].sum() - TP
    FN = mc.iloc[:,i].sum() - TP
    TN = mc.sum().sum()-TP-FP-FN
    
    classe.append(mc.index[i]) 
    Accuracy.append((TP+TN)/mc.sum().sum())
    Precision.append(TP/(TP+FP))
    Recall.append(TP/(TP+FN))
    F1_Score.append(((2*Precision[i]*Recall[i])/(Precision[i] + Recall[i])))
    

avaliacao = {'classe': classe,
            'Precision': Precision,
             'Recall': Recall,
             'F1_Score':F1_Score,
             'Acuraccy':Accuracy
            }
       
pd.DataFrame(avaliacao)

Inserindo a classificação no shapefile da base de dados:

In [None]:
geom['CLASSIFICACAO'] = modelo.predict(geom.iloc[:,2:-1])

In [None]:
geom.plot(column ='CLASSIFICACAO', legend=True, cmap = 'tab20', categorical=True, legend_kwds={'loc': 'center left', 'bbox_to_anchor':(1,0.5)})

In [None]:
geom.explore(column="CLASSIFICACAO", tooltip="CLASSIFICACAO",tiles="CartoDB positron",
             categorical = True, cmap='Set2', style_kwds=dict(color="grey", weight=0.01))

Salvando o shapefile com a classificação final:

In [None]:
geom.to_file("E:\\00_INPE\\0_DISSERTACAO\\VALIDACAO\\COBERTURA\\cobertura_cameta_classificado.shp")