## Identificação Automática do Gênero do Filme

Você recebeu este dataset e seu objetivo é estimar o genero dele (comédia ou ação) de acordo com seus atributos - contidos neste dataset.

**O que você deverá fazer?**

- Explorar e entender os dados
- Criar os atributos de treino para isso, voce deverá:
    - Verificar a existencia de valores ausentes e verificar estratégias para lidar com eles
    - Descobrir a melhor forma de representar valores categóricos e textual (veja explicação abaixo) 
- Avaliar e descobrir o melhor método podendo considerar:
     - Qual são os melhores parametros?
     - Quais são os melhores métodos?
     - A combinação de mais de um método é útil?
     - Qual é a melhor representação de uma instancia? Ou seja, qual é a melhor forma de preprocessar meus atributos? Fazer normalização dos atributos auxiliará? Como lidar com dados inexistentes? 
     - Pode-se criar modelos de representações diferentes e combiná-los (Multiview)
     - Como lidar com um dataset que possui muito mais instancias de uma classe que outra? Isso pode fazer com que alguns métodos ficam tendenciosos para a classe que possui mais elementos.  Uma estratégia é usar undersampling: caso tenhamos uma classe com 10.000 e outra com 5.000, utilize uma amostra de 5.000 instancias da primeira classe para o treinamento.
     
Lembrem-se: temos pouco tempo, então, faça de um jeito simples, veja e investigue os erros e, logo após, vá incrementando...

**O que será entregue**

Após descoberto o melhor modelo, você receberá [um dataset como esse](datasets/movies_amostra_teste_ex.csv) - sem a informação sobre genero - e você deverá prever qual será o genero do film. Após avaliar vários modelos e descobrir o melhor, você entregará seu código zipado junto com a predição por instancia em um arquivo de nome `predict.txt` no seguinte formato: Para cada linha o exemplo de teste, o valor `comedy` ou `action` definindo seu genero. Por exemplo, caso tenhamos um dataset de teste de 10 instancias, uma possível saída seria: 

```
comedy
comedy
action
action
action
comedy
comedy
action
comedy
action
```

O professor terá as saídas esperadas do teste e irá compará-lo a partir da saída gerada. Caso o arquivo não tenha esse nome ou esteja fora do padrão, o resultado da equipe será desconsiderado. **Haverá duas rodadas e, cada rodada, um dataset de teste diferente**.


Para facilitar a reprodutibilidade, a implementação do modelo deverá estar bem organizada seguindo as seguintes especificações: 

- O modelo a ser gerado deverá ser subclasse de `MetodoAprendizado`. Nessa subclasse, você poderá facilmente criar um metodo com multiplos métodos de aprendizado de máquina e/ou também, para diferentes representações você pode passar como parametro no construtor as colunas do dataframe de cada visão. Por exemplo, caso tenhamos em uma visão os atributos `a'`, `b`, `c` e, em outro os atributos `x`, `y` e `z`: 

In [None]:
visao_1 = ['a','b','c']
visao_2 = ['x','y','z']
# o código não irá executar pois não implementamos essa classe ainda
metodo = MetodoCompeticao([ visao_1, visao_2])


Assim, no método `eval` você deverá apenas filtrar o dataframe por visão e gerar um vetor de predição por visão para, logo após, combiná-lo por maioria de votos, por exemplo. Esse é apena um exemplo de como podemos modificar o método, abaixo, fazemos um outro exemplo que usamos multivisão. 

**Regras** 

- O conhecimento e geração dos atributos/preprocessamente e método deve vir apenas no dataset `movies_amostra.csv`. Por exemplo, não é permitido adicionar um valor faltante a um filme baseado no seu conhecimento sobre o mesmo - ou de outros dados da Internet. A unica exceção a essa regra é o uso de palavras-chaves (que podem ser criadas por vocẽ) para geração de atributos (detalhado nas seções a seguir).

- Da mesma forma, o treino deve ser criado usando **apenas** as instancias do arquivo `movies_amostra.csv`. Por exemplo, o teste `movies_amostra_teste_ex.csv` não pode ser usado para criar dados de treino e nem outros dados fornecidos pelo professor ou externo. 

- Não é permitido salvar o objeto em arquivo (usando pickle, por exemplo) para ser lido na função `gerar_saidas_teste`

- O teste deve ser reprodutível, ou seja, resultado dos experimentos do código executado no computador do professor deve ter o mesmo resultado daquele obtido pelos alunos. 

- A organização dos arquivos deve ser respeitada, além do formato do `predict_grupoXX.txt`.

- O arquivo de saída deve ser exatamente o nome `predict_grupoXX.txt` sendo que XX é substituido pelo número do grupo e o formato conforme especificado. 

Caso a equipe não siga essas regras, ela será desclassificada. Caso haja algum problema, a equipe deve comunicar ao professor no chat do Discord.

**Duvidas: ** Todas as dúvidas devem ser postadas no canal `#competicao`. Para não beneficiar uma equipe ou outra, as dúvidas não serão esclarecidas no privado. 

**Organização dos arquivos: **

- Os arquivos `metodo.py`, `resultado.py` e `avaliacao.py` na pasta `base_am` devem permanecer sem modificações

- Qualquer método de aprendizado de maquina usado deverá estar no arquivo `metodo_competicao.py` na pasta `competicao_am` e ser subclasse de `MetodoAprendizadoMaquina` - já existe um exemplo pronto.
    
- Qualquer modificação da  avaliação experimental deve estar em `avaliacao_competicao.py` na pasta `competicao_am`. Alteração do experimento deve ser subclasse de `Experimento` e a as classes para variação dos parametros devem ser subclasses de `OtimizacaoObjetivo` e estar nesse mesmo arquivo. Há um exemplo de implementação da classe `OtimizacaoObjetivo` nesse arquivo.

- Caso seja necessária alguma modificação em classes do `resultado.py`, você deve fazer um arquivo `resultado_competicao.py` fazendo subclasses/associações das classes especificadas em `resultado.py`
    
- `preprocessamento_atributos_competicao.py`: Usará o arquivo `preprocessamento_atributos`  (se necessário) e criará os atributos do modelo. Você pode também criar as classes que desejar para criação dos atributos nesse arquivo. 
- Arquivo `gerar_resultado_teste.py` na pasta `competicao_am` que você deverá apresentar o código para gerar a saída para o dataset fornecido pelo professor. Esse código deverá usar o arquivo `datasets/movies_amostra.csv` para treino - nenhum outro arquivo a mais, fazer todo o processamento necessario, criação do modelo e gerar a saída. A função principal que gera a saída deve ser obrigatoriamente `gerar_saida_teste` - já com um exemplo implementado. Esse código deve estar claro e que seja possível o professor reproduzir o mesmo resultado. Há um exemplo pronto também. 

- Haverá `competicao.ipynb` explicando qual foi a solução adotada passo a passo: (a) como se escolheu o conjuntos de parametros? (c) qual foi a representação adotada?  (d) Como vocẽs chegaram nesta representação? ;(d) quais métodos foram adotados? (e) deixar claro passo a passo a implementação da função `gerar_saida_teste`do arquivo `gerar_resultado_teste.py`. Nesse arquivo Jupyter não haverá muito código apenas, se necessário, chamada as funções/métodos dos arquivos `.py` acima. Durante a competição, vocês testarão diversas representações e modelos. Porém, neste arquivo, você deverá usar apenas a representação e modelo que você considerou mais efetivo. Coloque também um paragrafo explicando o caminho e tentativas que não deram tanto certo. Além disso, nesse arquivo você deverá   Caso tenha sido feito uso de palavras chaves, lista-las e explicar como chegou nas mesmas. 

**Dinamica da competição**

Haverá 2 rodadas, cada rodada terá 3 fases: 

1. **Elaboração da solução e descoberta do melhor modelo**: nesta fase, você criará a solução que você julgar a melhor. Logo após, você enviará essa solução pronta no Moodle.
2. **Geração do resultado no dataset fornecido pelo professor**: logo após a entrega, estará disponível um dataset de teste para você gerar a predição. Nessa fase, você deverá usar seu código (submetido na fase anterior) para prever o resultado desse dataset. Porém, você não poderá alterar nenhuma parte de seu código, pois ele já foi submetido. Por isso, não esqueça de [testar seu código com este dataset](teste_ex.csv). Logo após, você deverá enviar o seu resultado via Moodle - o prazo para envio será de apenas 1 dia após da entrega de sua solução. 
3. **Apresentação do resultado**: com os resultados de cada equipe, o professor irá apresentar o ranking de cada solução por equipe

Os prazos não serão alterados devido ao atraso de alguma equipe. Instruções para implementação das fases 1 e 2 serão dadas a seguir.

## Critérios de classificação

Os códigos serão classificados de acordo com a macro F1. Caso ocorra empate, será feito desempate na seguinte ordem: 

1. F1 Score da classe `Action`
2. Tempo de execução da função `gerar_saida_teste`
3. Caso seja a segunda rodada, os critérios acima, nesta ordem, da primeira rodada
4. Clareza do código e elegancia da solução

O resultado final será o resultado da segunda rodada

## Datasets

- [Dataset de treino e avaliação](datasets/movies_amostra.csv)
- [Dataset de teste - exemplo](datasets/movies_amostra_teste_ex.csv)
- [Dataset de teste - primeira rodada](datasets/movies_amostra_teste_1.csv): a ser disponibilizado pelo professor na 2ª fase da primeira rodada
- [Dataset de teste - segunda rodada](datasets/movies_amostra_teste_2.csv): a ser disponibilizado pelo professor na 2ª fase da segunda rodada

In [7]:
import pandas as pd 
df = pd.read_csv("datasets/movies_amostra.csv")

df


Unnamed: 0,id,titulo,adulto,orcamento,idioma_original,popularidade,data_de_estreia,resumo,receita,duracao,genero,ator_1,ator_2,ator_3,ator_4,ator_5,dirigido_por,escrito_por_1,escrito_por_2,historia_original
0,86295,Treasure of the Yankee Zephyr,False,0,en,2.0,1981-11-28,In a lake high in the mountains of New Zealand...,0.0,108.0,Action,Ken Wahl,Lesley Ann Warren,Donald Pleasence,George Peppard,Bruno Lawrence,David Hemmings,Everett De Roche,,
1,289198,Redeemer,False,0,es,2.0,2014-09-18,A former hit-man for a drug cartel becomes a v...,0.0,88.0,Action,Marko Zaror,Loreto Aravena,Mauricio Diocares,José Luís Mósca,Noah Segan,Ernesto Díaz Espinoza,,,
2,24382,Big Deal on Madonna Street,False,0,it,11.0,1958-06-06,"Peppe, formerly a boxer, organizes the break-i...",0.0,106.0,Comedy,Vittorio Gassman,Renato Salvatori,Memmo Carotenuto,Rossana Rory,Carla Gravina,Mario Monicelli,Agenore Incrocci,Furio Scarpelli,
3,479,Shaft,False,46000000,en,13.0,2000-06-15,New York police detective John Shaft arrests W...,107196498.0,99.0,Action,Samuel L. Jackson,Jeffrey Wright,Christian Bale,Busta Rhymes,Dan Hedaya,John Singleton,,,
4,37712,Pistol Opera,False,0,ja,2.0,2001-10-27,"As one of Suzuki's last fims, it is related to...",0.0,112.0,Action,Makiko Esumi,Sayoko Yamaguchi,Hanae Kan,Masatoshi Nagase,Mikijiro Hira,Seijun Suzuki,Kazunori Ito,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2995,52448,Witch's Night Out,False,0,en,0.0,1978-10-27,"A witch, disgruntled by the fact that no one t...",0.0,28.0,Comedy,Gilda Radner,Catherine O'Hara,John Leach,John Leach,John Leach,John Leach,,,
2996,26603,Vice Versa,False,0,en,17.0,1988-02-25,A mysterious oriental skull transforms a fathe...,0.0,98.0,Comedy,Judge Reinhold,Fred Savage,Corinne Bohrer,Swoosie Kurtz,Jane Kaczmarek,Brian Gilbert,,,
2997,45438,Tokyo Raiders,False,0,cn,11.0,2000-01-28,"When a private eye, a jilted bride and a myste...",0.0,118.0,Comedy,Tony Leung Chiu-Wai,Kelly Chen,Ekin Cheng,Cecilia Cheung,Toru Nakamura,Jingle Ma,,,
2998,114060,Me and the Colonel,False,0,en,1.0,1958-10-01,"Jacobowsky, a Jewish refugee, flees from the N...",0.0,109.0,Comedy,Danny Kaye,Curd Jürgens,Akim Tamiroff,Nicole Maurey,Françoise Rosay,Peter Glenville,George Froeschel,S.N. Behrman,


## Tipos de representações de dados categóricos e textual

A maioria dos métodos de aprendizado de máquina esperam como entrada valores numéricos. Por isso, temos que fazer tratamento quando o dado é categorico. Além disso, outro tipo de dado que precisamos de tratamento especial é o texto corrido que pode trazer muita informação relevante para tarefas de aprendizado de máquin. Nesta seção, será explicado um pouco sobre algumas abordagens da mais simples até a mais usada
.

# Transformação para um número

A forma mais simples de se fazer a transformação é simplesmente mapear esse atributo para um valor numérico. Veja o exemplo abaixo: 
    

In [None]:
import pandas as pd
df_jogos = pd.DataFrame([   ["boa","nublado","não"],
                            ["boa","chuvoso","não"],
                           ["média","nublado","sim"],
                         ["fraca","chuvoso","não"]],
                        columns=["disposição","tempo","jogar volei?"])
df_jogos

Nesse exemplo, temos dois atributos disposição do jogador e tempo e queremos prever se o jogar irá jogar volei ou não. Tanto os atributos quanto a classe podem ser mapeados como número. Além disso, o atributo `disposicao` é um atributo que representa uma escala - o que deixa essa forma de tranformação bem adequada para esse atributo.

In [None]:
from typing import Dict
def mapeia_atributo_para_int(df_data:pd.DataFrame, coluna:str, dic_nom_to_int: Dict[int,str]):
    for i,valor in enumerate(df_data[coluna]):
        valor_int = dic_nom_to_int[valor]
        df_data[coluna].iat[i] = valor_int

        
df_jogos = pd.DataFrame([   ["boa","nublado","sim"],
                            ["boa","chuvoso","não"],
                           ["média","ensolarado","sim"],
                         ["fraca","chuvoso","não"]],
                        columns=["disposição","tempo","jogar volei?"])
dic_disposicao = {"boa":3,"média":2,"fraca":1}
mapeia_atributo_para_int(df_jogos, "disposição", dic_disposicao)

dic_tempo = {"ensolarado":3,"nublado":2,"chuvoso":1}
mapeia_atributo_para_int(df_jogos, "tempo", dic_tempo)

dic_volei = {"sim":1, "não":0}
mapeia_atributo_para_int(df_jogos, "jogar volei?", dic_volei)
df_jogos

## Binarização dos atributos categóricos


Podemos fazer a binarização dos atributos categóricos em que, cada valor de atributo transforma-se em uma coluna que recebe `0` caso esse atributo não exista e `1`, caso contrário. Em nosso exemplo: 

In [None]:
from base_am.preprocessamento_atributos import BagOfItems
df_jogos = pd.DataFrame([   [4, "boa","nublado","sim"],
                            [3,"boa","chuvoso","não"],
                           [2,"média","ensolarado","sim"],
                         [1,"fraca","chuvoso","não"]],
                        columns=["id","disposição","tempo","jogar volei?"])
dic_disposicao = {"boa":3,"média":2,"fraca":1}


bag_of_tempo = BagOfItems(0)
#veja a implementação do método em preprocesamento_atributos.py
df_jogos_bot = bag_of_tempo.cria_bag_of_items(df_jogos,["tempo"])
df_jogos_bot

Como existem vários valores no teste que você desconhece, se fizermos dessa forma, atributos que estão no teste poderiam estar completamente zerados no treino, sendo desnecessário, por exemplo: 

In [None]:
df_jogos_treino = df_jogos[:2]
df_jogos_treino

In [None]:
df_jogos_teste = df_jogos[2:]
df_jogos_teste

Neste exemplo, o tempo ensolarado não está no treino e, assim, não haveria esse atributo no treinamento. Assim, a forma mais correta de fazermos é (a) descobrirmos a lista de valores no treino e, logo após, aplicamos ela no teste. Por exemplo:

In [2]:
bag_of_tempo = BagOfItems(0)
df_jogos_bot_treino = bag_of_tempo.cria_bag_of_items(df_jogos_treino,["tempo"])
df_jogos_bot_treino

NameError: name 'BagOfItems' is not defined

In [None]:
df_jogos_bot_teste = bag_of_tempo.aplica_bag_of_items(df_jogos_teste,["tempo"])
df_jogos_bot_teste

Como o impacto no resultado não é tão grande, muitas vezes optamos por fazer binarização no dataset completo, por simplicidade. 

Como veremos no próximo exemplo, a binarização pode gerar milhares de atributos pois, em um exemplo completo, uma coluna pode assumir muitos valores. Por isso, colocamos um dataframe separado com tais colunas - neste caso, o `df_jogos_bot`. Se desejar, você pode juntar dois DataFrames pelo `id`:

In [None]:
df_jogos_full = pd.merge(df_jogos, df_jogos_bot, on='id')

In [None]:
df_jogos_full

Em nosso exemplo, as colunas que representam os atores principais podem ser binarizadas. Abaixo, veja um sugestão de como fazer em dataset: 

Em nosso caso, podemos colocar os atores todos em um "Bag of Items". Os atores são representados por as colunas `ator_1`, `ator_2`,..., `ator_5`. Podemos fazer da forma mais simples, que é usando o dataset todo: 

In [None]:
import pandas as pd
from base_am.preprocessamento_atributos import BagOfItems

df_amostra = pd.read_csv("datasets/movies_amostra.csv")


obj_bag_of_actors = BagOfItems(min_occur=3)

#boa=bag of actors ;)
df_amostra_boa = obj_bag_of_actors.cria_bag_of_items(df_amostra,["ator_1","ator_2","ator_3","ator_4","ator_5"])

In [None]:
df_amostra_boa

Veja que temos bastante atributos um para cada ator. Mesmo sendo melhor possuirmos poucos atributos e mais informativos, um método de aprendizado de máquina pode ser capaz de usar essa quantidade de forma eficaz. Particularmente, o [SVM linear](https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html) e o [RandomForest](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) são métodos que conseguem ir bem nesse tipo de dado.

Logo após, pode-se juntar os dados dos atores com os demais: 

In [None]:
df_movies_final = pd.merge(df_amostra, df_amostra_boa, on='id')

Essa é a forma mais prática de fazer, porém, conforme já mencionado, alguns atributos seriam inúteis para o teste. Isso pode fazer com que o resultado reproduza menos o mundo real - neste caso, é muito possível que a diferença seja quase insignificante. Mas, caso queiramos fazer da forma "mais correta", temos que considerar apenas o treino para isso:

In [None]:
#supondo que 80% da amostra é treino
df_treino_amostra = df_amostra.sample(frac=0.8, random_state = 2)
df_teste_amostra = df_amostra.drop(df_treino_amostra.index)
#min_occur=3 definie o minimo de ocorrencias desse ator para ser considerado
#pois, um ator que apareceu em poucos filmes, pode ser menos relevante para a predição do genero
obj_bag_of_actors = BagOfItems(min_occur=3)
df_treino_amostra_boa = obj_bag_of_actors.cria_bag_of_items(df_treino_amostra,["ator_1","ator_2","ator_3","ator_4","ator_5"])
df_teste_amostra_boa = obj_bag_of_actors.aplica_bag_of_items(df_teste_amostra,["ator_1","ator_2","ator_3","ator_4","ator_5"])


## Representação Bag of Words

Muitas vezes, temos textos que podem ser relevantes para uma determinada tarefa de aprendizado d máquina. Por isso, temos que representar tais elementos para nosso método de aprendizado de máquina. 

A forma mais usual para isso, é a `Bag of Words` em que cada palavra é um atributo e, o valor dela, é a frequencia dele no texto (ou algum outro valor que indique a importancia dessa palavra no texto).

Por exemplo, caso temos as frases `A casa é grande`, `A casa é verde verde` em que cada frase é uma instancia diferente. A representação seria da seguinte forma: 

In [None]:
dic_bow = {"a":[1,1],
         "casa":[1,1],
         "é":[1,1],
         "verde":[0,2]
        }
df_bow = pd.DataFrame.from_dict(dic_bow)
df_bow

Da forma que fizemos acima, usamos a frequencia de um termo para definir sua importancia no texto, porém, existem termos que possuem uma frequencia muito alta e importancia baixa: são os casos dos artigos e preposições por exemplo, pois, eles não discriminam o texto. 

Uma forma de mensurar o porder discriminativo das palavras é usando a métrica `TF-IDF`. Para calcularmos essa métrica, primeiramente calculamos a frequencia de um termo no documento (TF) e, logo após multiplamos pelo IDF. 
A fórmula para calcular o TF-IDF do termo $i$ no documento (ou instancia) $j$ é a seguinte:

\begin{equation}
    TFIDF_{ij} = TF_{ij} \times IDF_i
\end{equation}
\begin{equation}
    TF_{ij} = log(f_{ij})
\end{equation}

em que $f_{ij}$ é a frequencia de um termo $i$ no documento $j$. Usa-se o `log` para suavizar valores muito altos e o $IDF$ (do inglês, _Inverse Document Frequency_) do termo $i$ é calculado da seguinte forma:

\begin{equation}
    IDF_i = log(\frac{N}{n_i})
\end{equation}

em que $N$ é o número de documentos da coleção e $n_i$ é o número de documentos em que esse termo $i$ ocorre. Espera-se que, quanto mais discriminativo o termo, em menos documentos esse termo irá ocorrer e, consequentemente, o $IDF$ deste termo será mais alto. 

Por exemplo, considere as palavras `de`, `bebida` e `cerveja`. `cerveja` é uma palavra mais discriminativa do que `bebida`; e `bebibda` é mais discriminativo do que a preposição `de`. Muito provavelmente teremos mais frequentemente termos menos discriminativos. Por exemplo, se tivermos uma coleção de 1000 documentos,   `de` poderia ocorrer em 900 documentos,  `bebida` em 500 e `cerveja` em 100 documentos. Se fizermos o calculo, veremos que quanto mais discriminativo um termo, mais alto é seu IDF:

In [None]:
import math
N = 1000
n_de = 900
n_bebida = 500
n_cerveja = 100

IDF_de = math.log(N/n_de)
IDF_bebida = math.log(N/n_bebida)
IDF_cerveja = math.log(N/n_cerveja)

print(f"IDF_de: {IDF_de}\tIDF_bebida:{IDF_bebida}\tIDF_cerveja:{IDF_cerveja}")

A biblioteca `scikitlearn`também já possui uma classe [TFIDFVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) que transforma um texto em um vetor de atributos usando o TF-IDF para o valor referente a relevancia deste termo. Veja um exemplo na coluna `resumo` do nosso dataset de filme:

In [None]:
import pandas as pd
from base_am.preprocessamento_atributos import BagOfWords

df_amostra = pd.read_csv("datasets/movies_amostra.csv")
bow_amostra = BagOfWords()
df_bow_amostra = bow_amostra.cria_bow(df_amostra,"resumo")
df_bow_amostra


Como são muitos atributos, pode parecer que não ficou corretamente gerado. Mas, filtrando as palavras de um determinado resumo você verificará que está ok:

In [None]:
df_bow_amostra[["in","lake", "high"]]

Veja que também é uma representação muito extensa, com dezenas de milhares de atributos. Como a representação dos autores e dos resumos, dessa forma, ficou com muitos atributos uma sugestão é fazer modelos separados e combinar as suas predições. Você pode pensar em várias formas de combinação:
 
- Usar três representações: dos atores, do resumo e dos demais dados, combiná-las usando votação por maioria

- Verificar a  predição com maior probabilidade - usando o método [predict_proba](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier.predict_proba).


Não fique preso apenas nessas representações. Vocês podem tentar fazer representações mais sucintas, como, por exemplo: para preprocessar os dados da equipe do filme (atores, diretor e escritor), calcule o número de filmes de comédia que membros da equipe  participaram e, logo após, o número de filme de ação. Neste caso, como você usará a classe, você deverá usar **apenas** os dados de treino. No caso do resumo, você pode utilizar palavras chaves. Por exemplo, faça uma lista de palavras chaves que remetem "ação" e contabilize o quantidade dessas palavras chaves no resumo.

## Como avaliar modelos?

Visando uma melhor organização do código e para que vocês possam ter a experiencia de adaptar códigos dos outros - com restrições - vocês deverão fazer as implementações apenas nos arquivos de final "competição" fazendo subclasses/associações com as classes presentes nos arquivos `avaliacao.py`, `resultado.py` e `metodo.py`. 

Em `metodo_competicao.py` e `avaliacao_competicao` fizemos um exemplo simples usando nosso BOW para vocês entenderem o que deve ser feito nessa tarefa. Em `metodo_competicao.py` fizemos um método exemplo nele, temos que preprocessar e gerar alguns atributos. Para isso, fizemos a chamada do método de preprocessamento dentro dele com funções implementadas em `preprocessamento_atributos_competicao.py`. Não houv necessidade, porém, você poderia criar novas classes de tipos diferentes de preprocessamento e geração de atributos além de poder criar subclasses de BagOfWords para fazer algum preprocessamento diferente dessas classes.

De forma similar a prática de avaliação, você deve gerar experimentos, analisar e entende-los. Investigue quando su método é bom o ruim e, com isso, tente melhorá-lo. Para isso, analise vários tipos de representações, métodos e suas combinações além de parametros para descobrir qual é o melhor. Dentre analises interessantes, tente refletir qual a classe que o método erra mais, se em algum grupo de instancia que ocorreu erro há alguma particularidade - analisando, principalmente, seus atributos. Verifique também se está ocorrendo overfitting/underfitting.

In [None]:
from base_am.resultado import Fold
from base_am.avaliacao import Experimento
from competicao_am.metodo_competicao import MetodoCompeticao
from competicao_am.avaliacao_competicao import OtimizacaoObjetivoSVMCompeticao
from sklearn.svm import LinearSVC
import pandas as pd

df_amostra = pd.read_csv("datasets/movies_amostra.csv")

arr_folds = Fold.gerar_k_folds(df_amostra, val_k=5, col_classe="genero",
                            num_repeticoes=1, num_folds_validacao=4,num_repeticoes_validacao=1)
scikit_method = LinearSVC(random_state=2)


ml_method = MetodoCompeticao(scikit_method)

ClasseObjetivo = OtimizacaoObjetivoSVMCompeticao
#colocamos apenas 5 trials para ir mais rápido. Porém, algumas vezes precisamos de dezenas, centenas - ou milhares - de trials para conseguir uma boa configuração
#Isso depende muito da caracteristica do problema, da quantidade de parametros e do impacto desses parametros no resultado
experimento = Experimento(arr_folds, ml_method=ml_method,
                    ClasseObjetivoOtimizacao=ClasseObjetivo,
                    num_trials=2)
print(f"MACRO F1: {experimento.macro_f1_avg}")


O ConvergenceWarning que você está vendo é por que o SVM, assim como vários métodos de aprendizado de máquina, tentam convergir para um determinado resultado e, por algum motivo, para uma das representações o SVM não está convergindo. Você pode aumentar o valor do parametro que regula isso ou até alterar a representação para deixá-la mais informativa.

O que recomendo fazer: para descobrir a melhor representação e método, use diretamente a classe `MetodoCompeticao`  para ir brincando e descartando representações que aparentemente, não foram tão boas com os parametros padrão. Logo após, utilize as mais promissoras e analise o resultado. Sempre considere, além da macro-f1, a precisão e revocação por classe além da matriz de confusão. Use a classe `Experimento` para analisar o impacto dessas representações também considerando a melhor configuração de parametros. Se desejar, crie uma subclasse de `Experimento` em "avaliacao_competicao.py" para gerar algumas análises, por exemplo, gerar a matriz de confusão que agrupa o resultado dos folds. Para agregar as matrizes de confusão, você pode gerar tanto a média da quantidade por fold ou fazer o somatório de todas elas. 

Este foi um exemplo com apenas um modelo para as duas representações. Você poderia, para cada representação, criar modelos distintos e com parametros distintos. Para isso, você pode mudar o constutor da classe `MetodoCompeticao`.

Uma boa prática é salvar seus experimentos em arquivos, com algum nome sugestivo. Assim, você não precisará rodar ele novamente para analisá-lo. Uma excelente e bem organizada forma é usar um banco de dados. Porém, você pode simplesmente salvar o objeto em um arquivo: 

In [None]:
import pickle

pickle.dump( experimento, open( "resultados/exp_bow_e_bag_of_actors.p", "wb" ) )

experimento = pickle.load( open( "resultados/exp_bow_e_bag_of_actors.p", "rb" ) )
print(f"MACRO F1: {experimento.macro_f1_avg}")

## Geração do resultado no dataset fornecido pelo professor

Depois de definido a melhor solução, você deverá aplicá-la no teste fornecido pelo professor. Para esse teste você deverá usar a função `gerar_saida_teste` do arquivo `gerar_resultado_teste.py` criada por você na fase de elaboração da solução. Nele, você deverá usar o dataset completo `movies_amostra.csv` **nenhum dado a mais e sem nenhum preprocessamento**. O preprocessamento e geração dos atributos deverá ser feito na própria função (como no exemplo já implementado). Você poderá alterar essa função - até a data de entrega **de seu código**. 

In [1]:
import pandas as pd
from competicao_am.gerar_resultado_teste import gerar_saida_teste

#altere aqui para o número correspondente ao seu grupo
num_grupo = 13

#leia o dataset fornecido pelo professor (coloquei apenas um exemplo, na entrega, será outro)
df_amostra_teste = pd.read_csv("datasets/movies_amostra_teste_ex.csv")

gerar_saida_teste(df_amostra_teste,"genero", num_grupo)

ModuleNotFoundError: No module named 'metodo_competicao'

In [None]:
#imprime a saida gerada
with open(f"predict_grupo_{num_grupo}.txt", "r") as file_predict:
    for line in file_predict:
        print(line,end="")

## Como funciona o SVM?

Considere que temos acesso a um conjunto de treino $\{(\textbf{x}_1, \textbf{y}_1), (\textbf{x}_1, \textbf{y}_1), ...,  (\textbf{x}_n, \textbf{y}_1n)\}$ em que $\textbf{x}_i$ é um vetor de valores numéricos $x_{i,1}, x_{i,2}, ...., x_{i,m}$ representando os $m$ atributos da instancia $i$ e $y_i$ é a classe (valor alvo) a ser predito desta mesma instancia. 

Dado o vetor de pesos $w_1, w_2, w_m$ e a função linear na forma $f(x_{i,1}, x_{i,2}, ...., x_{i,m}) = w_1 x_{i,}$. Essa função pode também ser representada como $f(x_i)$. Assim, a classificação do SVM é dada por: 
\begin{equation}    
    g(x_i) = \begin{cases} 1 &\mbox{se } f(x_i) >= 0 \\ 
                         -1 & caso contrário 
  \end{cases} 
\end{equation}
em que 1 e -1 são os valores (rótulos) das classes a serem preditas. Instancias da classe $-1$ são denominadas exemplos negativos e, da classe $+1$ exemplos possitivos. Podemos representar um exemplo de modelo construído pelo SVM usando o seguinte plano cartesiano:  

<img src="imgs/svm.png">

Neste plano, o objetivo é encontrar $\textbf{w}$ em que minimizamos o erro da função $f(x_i)$ e, ao mesmo tempo maximizamos a margem. A margem é dada pela a distancia do exemplo positivo mais próximo a função $f(x_i)$, representado por $d_+$, e pela distancia do exemplo negativo mais próximo, representada por $d_-$. 

Para isso, temos também um parâmetro que é o custo. O custo aumenta a tolerância ao erro da classificação desconsiderando exemplos que fariam que a margem fosse menor. Por exemplo: 

<img src="imgs/svm_custo.png">