## Antes de começar...

<a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html">**Método drop**</a>

Serve para remover colunas ou linhas do dataframe ao especificar a classe desejada. Utilize inplace=True para a modificação ocorrer no dataframe que está sendo modificado.

In [1]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(20).reshape(5, 4),columns=['ana', 'bruna', 'carol', 'daniel'])
print(df)
print("\n\n depois de remover... \n\n")
print(df.drop(['carol', 'daniel'], axis=1))

   ana  bruna  carol  daniel
0    0      1      2       3
1    4      5      6       7
2    8      9     10      11
3   12     13     14      15
4   16     17     18      19


 depois de remover... 


   ana  bruna
0    0      1
1    4      5
2    8      9
3   12     13
4   16     17


<a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html">**Método sample**</a>

Serve para extrair uma amostra aleatória do dataframe. Utilize random_state = "número inteiro" para inicializar com a mesma sequência de números. Além disso, você pode remover a amostra selecionada da amostra original por meio dos índices (precisam ser únicos).

In [2]:
df_sample = df.sample(frac=0.6, random_state=1)
print(df_sample)

   ana  bruna  carol  daniel
2    8      9     10      11
1    4      5      6       7
4   16     17     18      19


In [3]:
print(df.drop(df_sample.index))

   ana  bruna  carol  daniel
0    0      1      2       3
3   12     13     14      15


<a href="https://pythonbasics.org/multiple-return/">**Retorno Múltiplo em funções**</a>

In [4]:
def getPerson():
    name = "Leona"
    age = 35
    country = "UK"
    return name,age,country

name,age,country = getPerson()
print(name)
print(age)
print(country)

Leona
35
UK


<a href="https://www.datacamp.com/community/tutorials/property-getters-setters">**@Property**</a>

@property é usado para obter o valor de um atributo privado sem usar nenhum método getter, uma forma de encapsulamento. Temos que colocar uma linha @property na frente do método onde retornamos a variável privada.

Acesse os [slides da disciplina de programação web](https://daniel-hasan.github.io/cefet-web/classes/python2/#classes) para entender como funciona classes e a anotação `@property`.

## Avaliação - Classificação Automática de Segmentos de Imagens 

Nesta prática você irá avaliar um dataset de 1.500 segmentos de imagens. Nesse projeto, cada instancia representa um segmento de 3x3 pixels de uma imagem de algum dos seguintes elementos:

<img src="segments.png" alt="Imagens que foram seguementadas">

Assim, esta tarefa consiste em classificar tais segmentos de 3x3 pixels em um dos tipos de imagens externas (cimento, janela, grama, etc.). Cada instancia é representada da seguinte forma: 

<ol>
    <li>region-centroid-col:  coluna do pixel central da região </li>
    <li>region-centroid-row:  linha do pixel central da região </li>
    <li>region-pixel-count:  o número de pixels em uma região(3x3 = 9 neste caso) </li>
    <li>short-line-density-5: resultados de uma linha extraída no algoritmo que conta quantas linhas de comprimento 5 (qualquer orientação) com baixo contraste, menor ou igual a 5, passam pela região. </li>
    <li>short-line-density-2:  igual a densidade de linha curta-5, mas conta linhas de alto contraste, maiores que 2 </li>
    <li>vedge-mean: mede o contraste de pixels adjacentes horizontalmente na região. Existem 6, a média e o desvio padrão são dados. Este atributo é usado como um detector de borda vertical.</li>
    <li>vegde-sd: desvio padrão do contraste de pixels adjacentes horizontalmente </li>
    <li>hedge-mean: mede o contraste de pixels adjacentes verticalmente. Usado para detecção de linha horizontal. </li>
    <li>hedge-sd: desvio padrão do contraste de pixels adjacentes verticalmente.</li>
    <li>intensity-mean:  a média na região de (R + G + B) / 3 </li>
    <li>rawred-mean: a média sobre a região do valor R (cor vermelha) </li>
    <li>rawblue-mean: a média sobre a região do valor B (cor azul) </li>
    <li>rawgreen-mean: a média sobre a região do valor G (cor verde) </li>
    <li>exred-mean: mede o excesso de vermelho: (2R - (G + B)) </li>
    <li>exblue-mean: mede o excesso de azul: (2B - (G + R)) </li>
    <li>exgreen-mean: mede o excesso de verde:  (2G - (R + B)) </li>
    <li>value-mean: transformação não-linear 3-d de RGB </li>
    <li>saturatoin-mean: média de saturação do RGB</li>
    <li>hue-mean: média de tonalidade do RGB </li>
    <b><li style="color: red">y-i: classe a ser inferida (ver figura acima)</li></b>
</ol>

<a href="https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/segment-challenge.arff">**Referência**</a>

1. **Implementação do código de avaliação:** Primeiramente você deverá implementar as métricas de avaliação (da classe Resultado). O arquivo `resultado_tests.py` possui os testes unitários.  Veja abaixo como cada métrica, que é uma propriedade da classe (i.e. atributo calculado):
    - **mat_confusão**: Retorna a matriz de confusão correpondente. Será uma matriz em que o número de linhas e coluna é o valor numérico da maior classe na amostra.
    - **acurácia**: A partir da matriz de confusão, calcule a acurácia 
    - **precisao**: A partir da matriz de confusão, calcule a precisão por classe. Caso, a quantidade de instancias preditas para uma determinda classe for zero, então `precisao[c] = 0`. Nesses casos, você deverá [lançar um warning](https://docs.python.org/3.7/library/warnings.html) da classe `UndefinedMetricWarning` com uma mensagem que não havia instancias previstas para essa classe.
    - **revocacao**: De forma similar à `precisao`, calcula a revocação por meio da matriz de confusão. Caso o número de elementos dessa classe seja igual a zero, então a revocação para esta classe também é zero e também deverá ser retornado um warning `UndefinedMetricWarning` com essa informação
    - **f1_por_classe**: Retorna, para cada classe, o seu valor F1. Caso a soma da precisão e revocação dessa classe seja zero, deverá ser retornado zero.
    - **macro_f1**: Calcula a média do f1 por classe. O método `np.average` pode ajudar.
    
A matriz de confusão já está implementada, as demais possuem algo para você complementar. Se necessário, <a href="https://medium.com/thalus-ai/performance-metrics-for-classification-problems-in-machine-learning-part-i-b085d432082b">Explicações sobre precisão e revocação</a> Veja também nos slides



2. **Método eval da classe fold**: O método `eval` passará como parametro um método de aprendizado de máquina (por ex, uma instancia de [Árvore de Decisão](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier)). Assim, usando esse parametro, você deverá criar o modelo de treino (usando as features de `df_treino` e a sua classe) e classificar os elementos de `df_data_to_predict`.

3. **Obtenção e divisão do Dataset:** Nesta prática, iremos trabalhar com 80% de treino e 20% de teste. Leia o dataset [`segment.csv`](segment.csv) e divida-o apropriadamente. Não esqueça que a amostra deve ser aleatória. Coloque como `random_state=1`

In [5]:
df_segmento = pd.read_csv('segment.csv')
df_treino = df_segmento.sample(frac=0.2, random_state=1)
df_teste = df_segmento.drop(df_treino.index)
df_segmento

Unnamed: 0,region-centroid-col,region-centroid-row,region-pixel-count,short-line-density-5,short-line-density-2,vedge-mean,vegde-sd,hedge-mean,hedge-sd,intensity-mean,rawred-mean,rawblue-mean,rawgreen-mean,exred-mean,exblue-mean,exgreen-mean,value-mean,saturation-mean,hue-mean,y-i
0,38,189,9,0.000000,0.000000,1.000000,0.222222,6.222220,33.318500,29.074100,26.333300,35.22220,25.666700,-8.222220,18.444400,-10.22220,35.22220,0.271208,-2.049150,5
1,25,199,9,0.000000,0.000000,1.111110,0.607407,1.055560,0.462963,17.518500,13.111100,17.88890,21.555600,-13.222200,1.111110,12.11110,21.55560,0.393002,2.690110,6
2,49,139,9,0.000000,0.000000,0.166667,0.077778,0.333333,0.088889,0.444444,0.000000,1.33333,0.000000,-1.333330,2.666670,-1.33333,1.33333,0.777778,-2.094400,2
3,63,220,9,0.000000,0.000000,3.055560,15.263000,3.666670,6.088890,8.185190,6.555560,6.44444,11.555600,-4.888890,-5.222220,10.11110,11.55560,0.486717,2.093150,6
4,161,135,9,0.000000,0.000000,0.055556,0.136083,0.111111,0.172133,1.259260,0.777778,3.00000,0.000000,-1.444440,5.222220,-3.77778,3.00000,1.000000,-1.822210,4
5,235,88,9,0.000000,0.000000,0.611111,0.240741,0.944445,0.329630,2.777780,0.444444,6.44444,1.444440,-7.000000,11.000000,-4.00000,6.44444,0.938492,-2.269540,2
6,67,32,9,0.000000,0.000000,0.944444,1.062840,1.777780,1.310920,126.222000,115.111000,142.22200,121.333000,-33.333300,48.000000,-14.66670,142.22200,0.190625,-2.333750,1
7,188,182,9,0.000000,0.000000,1.611110,0.742868,4.166670,2.126550,58.000000,51.888900,72.44440,49.666700,-18.333300,43.333300,-25.00000,72.44440,0.314281,-1.991590,5
8,217,245,9,0.111111,0.111111,3.166670,3.016620,2.166670,1.242760,9.740740,7.444440,7.11111,14.666700,-6.888890,-7.888890,14.77780,14.66670,0.572767,2.069450,6
9,9,171,9,0.000000,0.000000,1.500000,1.005540,2.777780,1.642040,45.925900,41.000000,57.22220,39.555600,-14.777800,33.888900,-19.11110,57.22220,0.307943,-2.010720,5


4. **Criação do modelo e avaliação** dos modelos: agora, você deverá avaliar 4 modelos de aprendizado de máquina nessa tarefa. Use os métodos SVM com kernel linear e RBF, KNN e árvore de decisão. Deixe os parametros padrão de cada algoritmo. Por meio do método eval da classe Fold, avalie o método. Apresente a matriz de confusão resultante de cada um desses métodos além das métricas macro f1, precisão e revocação por classe. Também verifique  quão sensível são os resultados se mudarmos o parametro `random_seed`. Você pode criar mais de um bloco de código/texto para isso organizando da forma que julgar melhor. 

    <ul>
        <li><a href="https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC">SVM</a></li>
        <li><a href="https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html">KNN</a></li>
    <li><a href="https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html">Árvore de decisão</a></li>
    </ul>


**SVM com kernel Linear**

In [6]:
from resultado import Fold
from sklearn.svm import SVC

clf_svm_linear = SVC(kernel='linear')
fold = Fold(df_treino, df_teste,'y-i')
resultado = fold.eval(clf_svm_linear)
result_svm_linear = resultado.show_results(method_name='SVM Linear')
result_svm_linear_by_class = resultado.show_results_by_class(method_name='svm_linear')
resultados = result_svm_linear
pd.DataFrame(resultado.mat_confusao)

Unnamed: 0,0,1,2,3,4,5,6
0,164.0,0.0,0.0,4.0,1.0,0.0,0.0
1,0.0,167.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,158.0,2.0,10.0,2.0,0.0
3,4.0,0.0,13.0,146.0,4.0,1.0,0.0
4,0.0,0.0,30.0,5.0,132.0,0.0,0.0
5,0.0,0.0,0.0,0.0,0.0,183.0,0.0
6,0.0,0.0,0.0,0.0,0.0,0.0,174.0


**SVM com kernel RBF**

In [7]:
from resultado import Fold
from sklearn.svm import SVC

clf_svm_rbf = SVC(gamma='scale', kernel='rbf')
fold = Fold(df_treino, df_teste,'y-i')
resultado = fold.eval(clf_svm_rbf)
result_svm_rbf = resultado.show_results(method_name='SVM RBF')
resultados = resultados.append(result_svm_rbf)
result_svm_rbf_by_class = resultado.show_results_by_class(method_name='svm_rbf')
pd.DataFrame(resultado.mat_confusao)

Unnamed: 0,0,1,2,3,4,5,6
0,96.0,0.0,37.0,0.0,36.0,0.0,0.0
1,0.0,167.0,0.0,0.0,0.0,0.0,0.0
2,26.0,0.0,115.0,6.0,25.0,0.0,0.0
3,9.0,0.0,12.0,139.0,3.0,3.0,2.0
4,18.0,0.0,35.0,11.0,103.0,0.0,0.0
5,0.0,0.0,0.0,0.0,0.0,183.0,0.0
6,0.0,0.0,0.0,0.0,0.0,0.0,174.0


**KNN**

In [8]:
from resultado import Fold
from sklearn.neighbors import KNeighborsClassifier

clf_knn = KNeighborsClassifier()
fold = Fold(df_treino, df_teste,'y-i')
resultado = fold.eval(clf_knn)
result_knn = resultado.show_results(method_name='KNN')
resultados = resultados.append(result_knn)
result_knn_by_class = resultado.show_results_by_class(method_name='knn')
pd.DataFrame(resultado.mat_confusao)

Unnamed: 0,0,1,2,3,4,5,6
0,143.0,0.0,18.0,0.0,8.0,0.0,0.0
1,0.0,167.0,0.0,0.0,0.0,0.0,0.0
2,53.0,0.0,108.0,6.0,4.0,1.0,0.0
3,12.0,0.0,5.0,133.0,10.0,6.0,2.0
4,33.0,0.0,38.0,3.0,92.0,1.0,0.0
5,0.0,0.0,0.0,0.0,0.0,183.0,0.0
6,0.0,0.0,0.0,0.0,0.0,0.0,174.0


**Árvore de Decisão**

In [9]:
from sklearn.tree import DecisionTreeClassifier

clf_dtree = DecisionTreeClassifier(random_state=1)
fold = Fold(df_treino, df_teste,'y-i')
resultado = fold.eval(clf_dtree)
result_dtree = resultado.show_results(method_name='Árvore de Decisão')
resultados = resultados.append(result_dtree)
result_dtree_by_class = resultado.show_results_by_class(method_name='dtree')
pd.DataFrame(resultado.mat_confusao)

Unnamed: 0,0,1,2,3,4,5,6
0,163.0,0.0,0.0,3.0,3.0,0.0,0.0
1,0.0,167.0,0.0,0.0,0.0,0.0,0.0
2,0.0,1.0,135.0,5.0,31.0,0.0,0.0
3,0.0,0.0,21.0,134.0,10.0,0.0,3.0
4,6.0,0.0,37.0,3.0,121.0,0.0,0.0
5,0.0,0.0,0.0,0.0,2.0,178.0,3.0
6,0.0,0.0,0.0,0.0,0.0,1.0,173.0


### Resultados
#### Acurácia e Macro F1 por método

In [10]:
resultados

Unnamed: 0,metodo,acuracia,macro_f1
0,SVM Linear,0.936667,0.935939
0,SVM RBF,0.814167,0.812095
0,KNN,0.833333,0.830965
0,Árvore de Decisão,0.8925,0.892231


#### Precisão, Revocação e F1 por classe

In [11]:
pd.concat([result_svm_rbf_by_class, result_svm_linear_by_class, result_knn_by_class, result_dtree_by_class], axis=1, join='inner')

Unnamed: 0,classe,svm_rbf_revocacao,svm_rbf_f1_por_classe,svm_rbf_precisao,classe.1,svm_linear_revocacao,svm_linear_f1_por_classe,svm_linear_precisao,classe.2,knn_revocacao,knn_f1_por_classe,knn_precisao,classe.3,dtree_revocacao,dtree_f1_por_classe,dtree_precisao
0,0,0.568047,0.603774,0.644295,0,0.970414,0.973294,0.97619,0,0.846154,0.697561,0.593361,0,0.964497,0.964497,0.964497
1,1,1.0,1.0,1.0,1,1.0,1.0,1.0,1,1.0,1.0,1.0,1,1.0,0.997015,0.994048
2,2,0.668605,0.619946,0.577889,2,0.918605,0.847185,0.78607,2,0.627907,0.633431,0.639053,2,0.784884,0.739726,0.699482
3,3,0.827381,0.858025,0.891026,3,0.869048,0.898462,0.929936,3,0.791667,0.858065,0.93662,3,0.797619,0.85623,0.924138
4,4,0.616766,0.616766,0.616766,4,0.790419,0.840764,0.897959,4,0.550898,0.654804,0.807018,4,0.724551,0.724551,0.724551
5,5,1.0,0.99187,0.983871,5,1.0,0.99187,0.983871,5,1.0,0.97861,0.958115,5,0.972678,0.983425,0.994413
6,6,1.0,0.994286,0.988636,6,1.0,1.0,1.0,6,1.0,0.994286,0.988636,6,0.994253,0.98017,0.96648


5. **Conclusões:** Escreva um texto com uma análise e conclusão dos resultados, por exemplo: quais são as classes mais dificieis/fácieis de prever? Quais se confundem mais? Qual é o melhor método de classificação?

A partir da analise de acurácia de Macro F1, o melhor metodo de predição encontrado foi o SVM com Kernel Linear.
Ao fazer uma analise classe a classe observando os resultados de precisão, revocação e F1 por classe, foi possível
observar a a mesma prevalência do SVM com Kernel Linear.

Sobre as classes, a com maior grau de dificuldade de prever foram as classes: 2 e 4. Já que as mesmas possuiram um grau baixo de precissão da maioria dos métodos.

As mais fáceis de prever foram a 1, 5 e 6: Que conseguiram valores proximos ou iguais a 1 em todos os métodos.

As classes que mais se confundem são 3, 4, 5 como observado na matriz de confusão, com valores em muitas linhas de uma determinada coluna.