## Avaliação - Classificação Automática de Segmentos de Imagens 

Nesta prática você irá avaliar um dataset de 1.500 segmentos de imagens. Nesse projeto, cada instancia representa um segmento de 3x3 pixels de uma imagem de algum dos seguintes elementos:

<img src="segments.png" alt="Imagens que foram seguementadas">

Assim, esta tarefa consiste em classificar tais segmentos de 3x3 pixels em um dos tipos de imagens externas (cimento, janela, grama, etc.). Cada instancia é representada da seguinte forma: 

<ol>
    <li>region-centroid-col:  média do valor dos pixels (coluna) </li>
    <li>region-centroid-row:  média do valor dos pixels (linha) </li>
    <li>region-pixel-count:  o número de pixels em uma região(3x3 = 9 neste caso) </li>
    <li>short-line-density-5: resultados de uma linha extraída no algoritmo que conta quantas linhas de comprimento 5 (qualquer orientação) com baixo contraste, menor ou igual a 5, passam pela região. </li>
    <li>short-line-density-2:  igual a densidade de linha curta-5, mas conta linhas de alto contraste, maiores que 2 </li>
    <li>vedge-mean: mede o contraste de pixels adjacentes horizontalmente na região. Existem 6, a média e o desvio padrão são dados. Este atributo é usado como um detector de borda vertical.</li>
    <li>vegde-sd: desvio padrão do contraste de pixels adjacentes horizontalmente </li>
    <li>hedge-mean: mede o contraste de pixels adjacentes verticalmente. Usado para detecção de linha horizontal. </li>
    <li>hedge-sd: desvio padrão do contraste de pixels adjacentes verticalmente.</li>
    <li>intensity-mean:  a média na região de (R + G + B) / 3 </li>
    <li>rawred-mean: a média sobre a região do valor R (cor vermelha) </li>
    <li>rawblue-mean: a média sobre a região do valor B (cor azul) </li>
    <li>rawgreen-mean: a média sobre a região do valor G (cor verde) </li>
    <li>exred-mean: mede o excesso de vermelho: (2R - (G + B)) </li>
    <li>exblue-mean: mede o excesso de azul: (2B - (G + R)) </li>
    <li>exgreen-mean: mede o excesso de verde:  (2G - (R + B)) </li>
    <li>value-mean: transformação não-linear 3-d de RGB </li>
    <li>saturatoin-mean: média de saturação do RGB</li>
    <li>hue-mean: média de tonalidade do RGB </li>
    <b><li style="color: red">y-i: classe a ser inferida (ver figura acima)</li></b>
</ol>

<a href="https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/segment-challenge.arff">**Referência**</a>

**Atividade 7 - Leitura do Dataset e criação dos folds:** Leia o dataset [`segment.csv`](segment.csv). Faça a validação cruzada de 5 partições.

In [1]:
import pandas as pd

from resultado import Fold

# Carregando o dataset
df = pd.read_csv('segment.csv')

# Dados para validacao
num_folds = 5

# Criando folds
folds = Fold.gerar_k_folds(df, 5, 'y-i', num_folds_validacao=num_folds)

[Treino: 
      region-centroid-col  region-centroid-row  region-pixel-count  \
73                    226                  141                   9   
701                    27                   50                   9   
1307                   63                   13                   9   
556                    58                  109                   9   
785                   229                  124                   9   
...                   ...                  ...                 ...   
715                    92                   56                   9   
905                    81                   67                   9   
1096                  104                  137                   9   
235                    36                  207                   9   
1061                   87                  196                   9   

      short-line-density-5  short-line-density-2  vedge-mean  vegde-sd  \
73                0.000000                   0.0    0.500000  0.433333   
7

**Atividade 8 - Variação de parametros e exibição e analise de resultados:** Aplique, pelo menos, os métodos RandomForest e Árvore de Decisão no problema variando os parametros (no mínimo, da mesma forma que foi variado na Parte 2). Apresente os resultados faça uma analise e responda, pelo menos: quais são as classes mais dificieis/fácieis de prever? Quais se confundem mais? Qual é o melhor método de classificação? Quais são os melhores parametros para cada método de aprendizado de máquina?

Para fazer a análise por classe, use as predições de todos os folds (apenas uma repetição) e gere a matriz de confusão. Qualquer dúvida, veja a aula sobre avaliação de métodos de aprendizado de máquina. A classe Resultado implementa essa matriz. 