## Avaliação - Classificação Automática de Segmentos de Imagens 

Nesta prática você irá avaliar um dataset de 1.500 segmentos de imagens. Nesse projeto, cada instancia representa um segmento de 3x3 pixels de uma imagem de algum dos seguintes elementos:

<img src="segments.png" alt="Imagens que foram seguementadas">

Assim, esta tarefa consiste em classificar tais segmentos de 3x3 pixels em um dos tipos de imagens externas (cimento, janela, grama, etc.). Cada instancia é representada da seguinte forma: 

<ol>
    <li>region-centroid-col:  média do valor dos pixels (coluna) </li>
    <li>region-centroid-row:  média do valor dos pixels (linha) </li>
    <li>region-pixel-count:  o número de pixels em uma região(3x3 = 9 neste caso) </li>
    <li>short-line-density-5: resultados de uma linha extraída no algoritmo que conta quantas linhas de comprimento 5 (qualquer orientação) com baixo contraste, menor ou igual a 5, passam pela região. </li>
    <li>short-line-density-2:  igual a densidade de linha curta-5, mas conta linhas de alto contraste, maiores que 2 </li>
    <li>vedge-mean: mede o contraste de pixels adjacentes horizontalmente na região. Existem 6, a média e o desvio padrão são dados. Este atributo é usado como um detector de borda vertical.</li>
    <li>vegde-sd: desvio padrão do contraste de pixels adjacentes horizontalmente </li>
    <li>hedge-mean: mede o contraste de pixels adjacentes verticalmente. Usado para detecção de linha horizontal. </li>
    <li>hedge-sd: desvio padrão do contraste de pixels adjacentes verticalmente.</li>
    <li>intensity-mean:  a média na região de (R + G + B) / 3 </li>
    <li>rawred-mean: a média sobre a região do valor R (cor vermelha) </li>
    <li>rawblue-mean: a média sobre a região do valor B (cor azul) </li>
    <li>rawgreen-mean: a média sobre a região do valor G (cor verde) </li>
    <li>exred-mean: mede o excesso de vermelho: (2R - (G + B)) </li>
    <li>exblue-mean: mede o excesso de azul: (2B - (G + R)) </li>
    <li>exgreen-mean: mede o excesso de verde:  (2G - (R + B)) </li>
    <li>value-mean: transformação não-linear 3-d de RGB </li>
    <li>saturatoin-mean: média de saturação do RGB</li>
    <li>hue-mean: média de tonalidade do RGB </li>
    <b><li style="color: red">y-i: classe a ser inferida (ver figura acima)</li></b>
</ol>

<a href="https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/segment-challenge.arff">**Referência**</a>

**Atividade 7 - Leitura do Dataset e criação dos folds:** Leia o dataset [`segment.csv`](segment.csv). Faça a validação cruzada de 5 partições.

In [9]:
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier

from metodo import ScikitLearnAprendizadoDeMaquina
from resultado import Fold

# using tests.py as a baseline
k_part = 5
num_repeticoes = 5

df = pd.read_csv('segment.csv')
folds = Fold.gerar_k_folds(df,col_classe="y-i",k_part=k,num_repeticoes=1)

min_samples_split = 0.1 
dtree = ScikitLearnAprendizadoDeMaquina(DecisionTreeClassifier(min_samples_split=min_samples_split,random_state=1))

fold_validation = Fold(df)

for i,f in enumerate(folds_por_repeticao):
    df_treino = f.df_treino
    df_validacao = f.df_data_to_predict
    ret_validacao = dtree.eval(df_treino=df_treino, df_data_to_predict=df_validacao, col_classe="y-i")

for i in range(num_repeticoes):
        folds_it = folds[i*k:i*k+k]

        # para cada fold (4 treinos + 1 teste)
        macro_f1_por_repeticao = 0
        for i,f in enumerate(folds_por_repeticao):
            fold_com_validacao = Fold(f.df_treino, f.df_data_to_predict, col_classe=col_classe, num_folds_validacao=4, num_repeticoes_validacao=1)

            # para cada fold (3 treinos + 1 validação)
            macro_f1_por_fold = 0
            for j,fv in enumerate(fold_com_validacao.arr_folds_validacao):
                df_treino = fv.df_treino
                df_validacao = fv.df_data_to_predict

                res_validacao = dtree.eval(df_treino=df_treino, df_data_to_predict=df_validacao, col_classe=col_classe)
                macro_f1_por_fold += res_validacao.macro_f1
            
            macro_f1_por_fold /= len(fold_com_validacao.arr_folds_validacao)
            macro_f1_por_repeticao += macro_f1_por_fold

            

**Atividade 8 - Variação de parametros e exibição e analise de resultados:** Aplique, pelo menos, os métodos RandomForest e Árvore de Decisão no problema variando os parametros (no mínimo, da mesma forma que foi variado na Parte 2). Apresente os resultados faça uma analise e responda, pelo menos: quais são as classes mais dificieis/fácieis de prever? Quais se confundem mais? Qual é o melhor método de classificação? Quais são os melhores parametros para cada método de aprendizado de máquina?

Para fazer a análise por classe, use as predições de todos os folds (apenas uma repetição) e gere a matriz de confusão. Qualquer dúvida, veja a aula sobre avaliação de métodos de aprendizado de máquina. A classe Resultado implementa essa matriz. 




























Decision tree
Best - macro_f1 = 0.9489458787079201 ;
params: {'min_samples_split': 0.001511443892880747}

Random Forest
Best - macro_f1 = 0.9581050183364561 ;
params: {'min_samples_split': 0.02066930887367909, 'max_features': 0.3588811145543274, 'num_arvores': 4}

Decision tree confusion matrix - total of predictions=1500.0
       0      1      2      3      4      5      6
0  201.0    0.0    2.0    1.0    1.0    0.0    0.0
1    0.0  220.0    0.0    0.0    0.0    0.0    0.0
2    3.0    1.0  182.0    2.0   20.0    0.0    0.0
3    5.0    0.0    4.0  191.0   16.0    4.0    0.0
4    7.0    0.0   15.0    9.0  173.0    0.0    0.0
5    0.0    0.0    2.0    1.0    0.0  233.0    0.0
6    0.0    0.0    1.0    0.0    0.0    0.0  206.0

Random forest confusion matrix - total of predictions=1500.0
       0      1      2      3      4      5      6
0  200.0    0.0    0.0    1.0    4.0    0.0    0.0
1    0.0  220.0    0.0    0.0    0.0    0.0    0.0
2    2.0    1.0  182.0   13.0   10.0    0.0    0.0

