## Identificação Automática do Gênero de Músicas

Você recebeu este dataset de músicas e seu objetivo é estimar o genero da música (entre Metal, Rock, Folk e Country) de acordo com seus atributos - contidos neste dataset. Neste trabalho, você deverá, obrigatoriamente, utilizar classificação hierarquica e utilizar qualquer método de aprendizado de máquina e qualquer forma de representação dos atributos.

**O que você deverá fazer?**

- Explorar e entender os dados
- Criar os atributos para isso, voce deverá:
    - Verificar a existencia de valores ausentes e verificar estratégias para lidar com eles
    - Descobrir a melhor forma de representar valores categóricos e textual (veja explicação abaixo). Inclusive, realização de remoção de stopwords e stemming. 
    
- Avaliar e descobrir o melhor método podendo considerar:
     - Qual são os melhores parametros?
     - Quais são os melhores métodos (tanto no primeiro quanto no segundo nível da classificação hierarquica)?
     - A combinação de mais de um método é útil?
     - Qual é a melhor representação de uma instancia? Ou seja, qual é a melhor forma de preprocessar meus atributos? Fazer normalização dos atributos auxiliará? Como lidar com dados inexistentes? 
     - Como lidar com um dataset que possui muito mais instancias de uma classe que outra? Isso pode fazer com que alguns métodos ficam tendenciosos para a classe que possui mais elementos.  Uma estratégia é usar undersampling: caso tenhamos uma classe com 10.000 e outra com 5.000, utilize uma amostra de 5.000 instancias da primeira classe para o treinamento.
     
Lembrem-se: temos pouco tempo, então, faça de um jeito simples, veja e investigue os erros e, logo após, vá incrementando...

**O que será entregue**

Após descoberto o melhor modelo, você receberá [um dataset como esse](datasets/movies_amostra_teste_ex.csv) - sem a informação sobre genero - e você deverá prever qual será o genero da música. Após avaliar vários modelos e descobrir o melhor, você entregará seu código zipado junto com a predição por instancia em um arquivo de nome `predict.txt` no seguinte formato: Para cada linha o exemplo de teste, o valor `Metal`, `Rock`, `Country`  ou `Folk` definindo seu genero. Por exemplo, caso tenhamos um dataset de teste de 10 instancias, uma possível saída seria: 

```
Folk
Metal
Rock
Metal
Rock
Country
Country
Metal
Folk
Metal
```

O professor terá as saídas esperadas do teste e irá compará-lo a partir da saída gerada. Caso o arquivo não tenha esse nome ou esteja fora do padrão, o resultado da equipe será desconsiderado. **Haverá duas rodadas e, cada rodada, um dataset de teste diferente**.




**Definição das equipes**

As equipes devem ser formadas com, no máximo 3 pessoas. Elas devem ser informadas [na seguinte planilha até o dia 10/03](https://docs.google.com/spreadsheets/d/10PaP5i9nfyHT5p-apRYK32AvmzShohhKBMryFiDxLEI/edit?usp=sharing). Alunos que não estiverem na planilha até esta data, perderão 1 ponto por dia. 

**Dinamica da competição**

Haverá 2 rodadas, cada rodada terá 3 fases: 

1. **Elaboração da solução e descoberta do melhor modelo**: nesta fase, você criará a solução que você julgar a melhor. Logo após, você enviará o código fonte dessa solução pronta no SIGAA.
2. **Geração do resultado no dataset fornecido pelo professor**: logo após a entrega, estará disponível um dataset de teste para você gerar a predição. Nessa fase, você deverá usar seu código (submetido na fase anterior) para prever o resultado desse dataset. Porém, você não poderá alterar nenhuma parte de seu código, pois ele já foi submetido, caso contrário, será desclassificado. Por isso, não esqueça de [testar seu código com este dataset](teste_ex.csv). Logo após, você deverá enviar o seu resultado **exatamente** no formato `predict_grupoXX.txt` via SIGAA - o prazo para envio será de apenas 2 dias após da entrega de sua solução. 
3. **Apresentação do resultado**: com os resultados de cada equipe, o professor irá apresentar o ranking de cada solução por equipe

Instruções para implementação das fases 1 e 2 serão dadas a seguir. Logo após as duas rodadas, a equipe deverá **apresentar um relatorio em Jupyter** deixando claro (a) qual foi o preprocessamento adotado e a representação adotoda, possíveis análises e descobertas no dados para melhorar o preprocessamento; (b) como vocês chegaram nesta representação?; (c) quais métodos foram usados e seus parametros; (d) como foi feito para a descoberta de parametros; (e) melhorias da primeira para a segunda rodada; (e) deixar claro passo a passo a implementação da função `gerar_saida_teste`do arquivo `gerar_resultado_teste.py` . Nesse arquivo Jupyter não haverá muito código apenas, se necessário, chamada as funções/métodos dos arquivos `.py` acima. Durante a competição, vocês testarão diversas representações e modelos. Porém, neste arquivo, você deverá usar apenas a representação e modelo que você considerou mais efetivo. Coloque também um paragrafo explicando o caminho e tentativas que não deram tanto certo. 


Para facilitar a reprodutibilidade, a implementação do modelo deverá estar bem organizada seguindo as seguintes especificações: 

- O conhecimento e geração dos atributos/preprocessamente e método deve vir apenas no dataset `lyrics_amostra.csv`. Por exemplo, não é permitido adicionar um valor faltante a uma música baseada no seu conhecimento sobre o mesmo - ou de outros dados da Internet. A única exceção a essa regra é o uso de palavras-chaves (que podem ser criadas por vocẽ) para geração de atributos (detalhado nas seções a seguir).

- Da mesma forma, o treino deve ser criado usando **apenas** as instancias do arquivo `lyrics_amostra.csv`. Por exemplo, o teste `lyrics_amostra_teste_ex.csv` não pode ser usado para criar dados de treino e nem outros dados fornecidos pelo professor ou externo. 

- Não é permitido salvar o objeto em arquivo (usando pickle, por exemplo) para ser lido na função `gerar_saidas_teste`

- O teste deve ser reprodutível, ou seja, resultado dos experimentos do código executado no computador do professor deve ter o mesmo resultado daquele obtido pelos alunos. 

- A organização dos arquivos deve ser respeitada.

- O arquivo de saída deve ser exatamente o nome `predict_grupoXX.txt` sendo que XX é substituido pelo número do grupo e o formato conforme especificado. 

- Equipe que não enviar nada na primeira rodada poderá enviar na segunda rodada. 

- Caso instale algum pacote, use ambiente virtual e crie o requirements.txt correspondente. Caso o professor não consiga executar o código por falta de dependencias, a equipe será desclassificada.

Caso a equipe não siga essas regras, ela será desclassificada. Caso haja algum problema, a equipe deve comunicar ao professor no chat do Teams.

**Duvidas: ** Todas as dúvidas devem ser postadas no canal `#competicao`. Para não beneficiar uma equipe ou outra, as dúvidas não serão esclarecidas no privado.  

**Bugs no código da competição** A primeira equipe a descobrir e reportar o bug (no canal competição) ganhará os pontos e o bug deve ser reportado com pelo menos 3 dias de antecedencia.

**Organização dos arquivos: **

- Os arquivos `preprocessament_atributos.py`, `metodo.py`, `resultado.py` e `avaliacao.py` na pasta `base_am` devem permanecer sem modificações

- Qualquer método de aprendizado de maquina usado deverá estar no arquivo `metodo_competicao.py` na pasta `competicao_am` e ser subclasse de `MetodoAprendizadoMaquina` - já existe um exemplo pronto. Você devera obrigatoriamente usar classificação hierarquica para este problema.
    
- Qualquer modificação da  avaliação experimental deve estar em `avaliacao_competicao.py` na pasta `competicao_am`. Alteração do experimento deve ser subclasse de `Experimento` e a as classes para variação dos parametros devem ser subclasses de `OtimizacaoObjetivo` e estar nesse mesmo arquivo. Há um exemplo de implementação da classe `OtimizacaoObjetivo` nesse arquivo.

- Caso seja necessária alguma modificação em classes do `resultado.py`, você deve fazer um arquivo `resultado_competicao.py` fazendo subclasses/associações das classes especificadas em `resultado.py`
    
- `preprocessamento_atributos_competicao.py`: Usará o arquivo `preprocessamento_atributos`  (se necessário) e criará os atributos do modelo. Você pode também criar as classes que desejar para criação dos atributos nesse arquivo. 
- Arquivo `gerar_resultado_teste.py` na pasta `competicao_am` que você deverá apresentar o código para gerar a saída para o dataset fornecido pelo professor. Esse código deverá usar o arquivo `datasets/movies_amostra.csv` para treino - nenhum outro arquivo a mais, fazer todo o processamento necessario, criação do modelo e gerar a saída. A função principal que gera a saída deve ser obrigatoriamente `gerar_saida_teste` - já com um exemplo implementado. Esse código deve estar claro e que seja possível o professor reproduzir o mesmo resultado. Há um exemplo pronto também. 

**Avaliação**

A equipe será avaliada pelo qualidade do relatório e pelo esforço que ela demonstrou para chegar em um bom resultado. Além disso, poderá perder pontos caso desobedeça as regras continas na competição. As equipes mais bem colocadas ganharão pontos de atividades complementaries. 


**Prazo**

Primeira Rodada:
    - Elaboração da solução: até 29/03
    - Geração do resultado no dataset fornecido pelo professor: Até 31/03

Segunda Rodada:
    - Elaboração da solução: até 07/04
    - Geração do resultado: até 09/04
Geração do relatório final: até dia 14/04

🏆 Dia 14/04 será anunciado o ranking final 🏆 

Os prazos não serão alterados devido ao atraso de alguma equipe. 

## Critérios de classificação

Os códigos serão classificados de acordo com a macro F1. Caso ocorra empate, será feito desempate na seguinte ordem: 

1. F1 Score da classe `Folk`
1. MarcoF1 da classificação de primeiro nível
2. Tempo de execução da função `gerar_saida_teste`
3. Caso seja a segunda rodada, os critérios acima, nesta ordem, da primeira rodada
4. Clareza do código e elegancia da solução

O resultado final será o resultado da segunda rodada. Caso uma equipe entregue apenas a primeira rodada, será executado o método entregue na primeira rodada no dataset da segunda rodada para a classificação final.  

## Datasets

- [Dataset de treino e avaliação](datasets/movies_amostra.csv)
- [Dataset de teste - exemplo](datasets/movies_amostra_teste_ex.csv)
- [Dataset de teste - primeira rodada](datasets/movies_amostra_teste_1.csv): a ser disponibilizado pelo professor após a 2ª fase da primeira rodada
- [Dataset de teste - segunda rodada](datasets/movies_amostra_teste_2.csv): a ser disponibilizado pelo professor após a 2ª fase da segunda rodada



In [1]:
import pandas as pd
pd.read_csv("datasets/lyrics_amostra_teste_ex.csv")

Unnamed: 0,id,artist,song,lyrics
0,246976,5ive,don t fight it baby,"Check it out\nHere we go, right\nHey Five [Inc..."
1,347605,atom-and-his-package,head of septa nose of me,i know.\ni could have been dead.\nmy nose swel...
2,145352,electric-six,dime dime penny dime,
3,26653,fear-before-the-march-of-flames,high as a horse,If we give the horses blinders\nThey won't see...
4,200042,diamond-rio,finish what we started,Lyin' on our backs\nWe stared at the stars\nTr...
5,182412,edge-of-sanity,crimson ii passage of time,Oh willing host who doth not know\nThe full de...
6,215908,godsmack,one rainy day,"Oh man, I'm tired and lonely\nAgain, why must ..."
7,116746,dawn,eyesland,
8,126667,alison-krauss,winter of a broken heart,Oh it seems the sun will never shine\nThe skie...
9,263128,cody-johnson,holes,


## Organização do Notebook

O restante deste Notebook está organizado da seguinte forma: 

- Conceitos importantes:
    - [Uma descrição dos tipos de representações possíveis](#Tipos-de-representações-de-dados-categóricos-e-textual)
    - [Classificação Hierarquica](#Classificação-Hierárquica)
- [Como criar a solução](#Como-começar?) 
    - [análise mais rápida](#Inicio---Preprocessamento-e-testes-mais-rápidos)
    - [descoberta dos parametros e avaliação dos métodos](#Como-avaliar-modelos?)
- [Como gerar o resultado por meio do dataset fornecido pelo professor](#Geração-do-resultado-no-dataset-fornecido-pelo-professor)

## Tipos de representações de dados categóricos e textual

A maioria dos métodos de aprendizado de máquina esperam como entrada valores numéricos. Por isso, temos que fazer tratamento quando o dado é categorico. Além disso, outro tipo de dado que precisamos de tratamento especial é o texto corrido que pode trazer muita informação relevante para tarefas de aprendizado de máquin. Nesta seção, será explicado um pouco sobre algumas abordagens da mais simples até a mais usada
.

# Transformação para um número

A forma mais simples de se fazer a transformação é simplesmente mapear esse atributo para um valor numérico. Veja o exemplo abaixo: 
    

In [2]:
import pandas as pd
df_jogos = pd.DataFrame([   ["boa","nublado","não"],
                            ["boa","chuvoso","não"],
                           ["média","nublado","sim"],
                         ["fraca","chuvoso","não"]],
                        columns=["disposição","tempo","jogar volei?"])
df_jogos

Unnamed: 0,disposição,tempo,jogar volei?
0,boa,nublado,não
1,boa,chuvoso,não
2,média,nublado,sim
3,fraca,chuvoso,não


Nesse exemplo, temos dois atributos disposição do jogador e tempo e queremos prever se o jogar irá jogar volei ou não. Tanto os atributos quanto a classe podem ser mapeados como número. Além disso, o atributo `disposicao` é um atributo que representa uma escala - o que deixa essa forma de tranformação bem adequada para esse atributo.

In [3]:
from typing import Dict
def mapeia_atributo_para_int(df_data:pd.DataFrame, coluna:str, dic_nom_to_int: Dict[int,str]):
    for i,valor in enumerate(df_data[coluna]):
        valor_int = dic_nom_to_int[valor]
        df_data[coluna].iat[i] = valor_int

        
df_jogos = pd.DataFrame([   ["boa","nublado","sim"],
                            ["boa","chuvoso","não"],
                           ["média","ensolarado","sim"],
                         ["fraca","chuvoso","não"]],
                        columns=["disposição","tempo","jogar volei?"])
dic_disposicao = {"boa":3,"média":2,"fraca":1}
mapeia_atributo_para_int(df_jogos, "disposição", dic_disposicao)

dic_tempo = {"ensolarado":3,"nublado":2,"chuvoso":1}
mapeia_atributo_para_int(df_jogos, "tempo", dic_tempo)

dic_volei = {"sim":1, "não":0}
mapeia_atributo_para_int(df_jogos, "jogar volei?", dic_volei)
df_jogos

Unnamed: 0,disposição,tempo,jogar volei?
0,3,2,1
1,3,1,0
2,2,3,1
3,1,1,0


## Binarização dos atributos categóricos


Podemos fazer a binarização dos atributos categóricos em que, cada valor de atributo transforma-se em uma coluna que recebe `0` caso esse atributo não exista e `1`, caso contrário. Em nosso exemplo: 

In [4]:
from base_am.preprocessamento_atributos import BagOfItems
df_jogos = pd.DataFrame([   [4, "boa","nublado","sim"],
                            [3,"boa","chuvoso","não"],
                           [2,"média","ensolarado","sim"],
                         [1,"fraca","chuvoso","não"]],
                        columns=["id","disposição","tempo","jogar volei?"])
dic_disposicao = {"boa":3,"média":2,"fraca":1}


bag_of_tempo = BagOfItems(0)
#veja a implementação do método em preprocesamento_atributos.py
df_jogos_bot = bag_of_tempo.cria_bag_of_items(df_jogos,["tempo"])
df_jogos_bot

0/4


Unnamed: 0,nublado,chuvoso,ensolarado,id
0,1,0,0,4
1,0,1,0,3
2,0,0,1,2
3,0,1,0,1


Como existem vários valores no teste que você desconhece, se fizermos dessa forma, atributos que estão no teste poderiam estar completamente zerados no treino, sendo desnecessário, por exemplo: 

In [5]:
df_jogos_treino = df_jogos[:2]
df_jogos_treino

Unnamed: 0,id,disposição,tempo,jogar volei?
0,4,boa,nublado,sim
1,3,boa,chuvoso,não


In [6]:
df_jogos_teste = df_jogos[2:]
df_jogos_teste

Unnamed: 0,id,disposição,tempo,jogar volei?
2,2,média,ensolarado,sim
3,1,fraca,chuvoso,não


Neste exemplo, o tempo ensolarado não está no treino e, assim, não haveria esse atributo no treinamento. Assim, a forma mais correta de fazermos é (a) descobrirmos a lista de valores no treino e, logo após, aplicamos ela no teste. Por exemplo:

In [7]:
bag_of_tempo = BagOfItems(0)
df_jogos_bot_treino = bag_of_tempo.cria_bag_of_items(df_jogos_treino,["tempo"])
df_jogos_bot_treino

0/2


Unnamed: 0,nublado,chuvoso,id
0,1,0,4
1,0,1,3


In [8]:
df_jogos_bot_teste = bag_of_tempo.aplica_bag_of_items(df_jogos_teste,["tempo"])
df_jogos_bot_teste

0/2


Unnamed: 0,nublado,chuvoso,id
0,0,0,2
1,0,1,1


# Como o impacto no resultado não é tão grande, muitas vezes optamos por fazer binarização no dataset completo, por simplicidade. 

Como veremos no próximo exemplo, a binarização pode gerar milhares de atributos pois, em um exemplo completo, uma coluna pode assumir muitos valores. Por isso, colocamos um dataframe separado com tais colunas - neste caso, o `df_jogos_bot`. Se desejar, você pode juntar dois DataFrames pelo `id`:

In [9]:
df_jogos_full = pd.merge(df_jogos, df_jogos_bot, on='id')

In [10]:
df_jogos_full

Unnamed: 0,id,disposição,tempo,jogar volei?,nublado,chuvoso,ensolarado
0,4,boa,nublado,sim,1,0,0
1,3,boa,chuvoso,não,0,1,0
2,2,média,ensolarado,sim,0,0,1
3,1,fraca,chuvoso,não,0,1,0


## Representação Bag of Words

Muitas vezes, temos textos que podem ser relevantes para uma determinada tarefa de aprendizado d máquina. Por isso, temos que representar tais elementos para nosso método de aprendizado de máquina. 

A forma mais usual para isso, é a `Bag of Words` em que cada palavra é um atributo e, o valor dela, é a frequencia dele no texto (ou algum outro valor que indique a importancia dessa palavra no texto).

Por exemplo, caso temos as frases `A casa é grande`, `A casa é verde verde` em que cada frase é uma instancia diferente. A representação seria da seguinte forma: 

In [11]:
dic_bow = {"a":[1,1],
         "casa":[1,1],
         "é":[1,1],
         "verde":[0,2]
        }
df_bow = pd.DataFrame.from_dict(dic_bow)
df_bow

Unnamed: 0,a,casa,é,verde
0,1,1,1,0
1,1,1,1,2


Da forma que fizemos acima, usamos a frequencia de um termo para definir sua importancia no texto, porém, existem termos que possuem uma frequencia muito alta e importancia baixa: são os casos dos artigos e preposições por exemplo, pois, eles não discriminam o texto. 

Uma forma de mensurar o porder discriminativo das palavras é usando a métrica `TF-IDF`. Para calcularmos essa métrica, primeiramente calculamos a frequencia de um termo no documento (TF) e, logo após multiplamos pelo IDF. 
A fórmula para calcular o TF-IDF do termo $i$ no documento (ou instancia) $j$ é a seguinte:

\begin{equation}
    TFIDF_{ij} = TF_{ij} \times IDF_i
\end{equation}
\begin{equation}
    TF_{ij} = log(f_{ij})
\end{equation}

em que $f_{ij}$ é a frequencia de um termo $i$ no documento $j$. Usa-se o `log` para suavizar valores muito altos e o $IDF$ (do inglês, _Inverse Document Frequency_) do termo $i$ é calculado da seguinte forma:

\begin{equation}
    IDF_i = log(\frac{N}{n_i})
\end{equation}

em que $N$ é o número de documentos da coleção e $n_i$ é o número de documentos em que esse termo $i$ ocorre. Espera-se que, quanto mais discriminativo o termo, em menos documentos esse termo irá ocorrer e, consequentemente, o $IDF$ deste termo será mais alto. 

Por exemplo, considere as palavras `de`, `bebida` e `cerveja`. `cerveja` é uma palavra mais discriminativa do que `bebida`; e `bebibda` é mais discriminativo do que a preposição `de`. Muito provavelmente teremos mais frequentemente termos menos discriminativos. Por exemplo, se tivermos uma coleção de 1000 documentos,   `de` poderia ocorrer em 900 documentos,  `bebida` em 500 e `cerveja` em 100 documentos. Se fizermos o calculo, veremos que quanto mais discriminativo um termo, mais alto é seu IDF:

In [12]:
import math
N = 1000
n_de = 900
n_bebida = 500
n_cerveja = 100

IDF_de = math.log(N/n_de)
IDF_bebida = math.log(N/n_bebida)
IDF_cerveja = math.log(N/n_cerveja)

print(f"IDF_de: {IDF_de}\tIDF_bebida:{IDF_bebida}\tIDF_cerveja:{IDF_cerveja}")

IDF_de: 0.10536051565782635	IDF_bebida:0.6931471805599453	IDF_cerveja:2.302585092994046


A biblioteca `scikitlearn`também já possui uma classe [TFIDFVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) que transforma um texto em um vetor de atributos usando o TF-IDF para o valor referente a relevancia deste termo. Veja um exemplo na coluna `lyrics` do nosso dataset de músicas:

In [13]:
import pandas as pd
from base_am.preprocessamento_atributos import BagOfWords

df_amostra = pd.read_csv("datasets/lyrics_amostra.csv")
bow_amostra = BagOfWords()
df_bow_amostra = bow_amostra.cria_bow(df_amostra,"lyrics")
df_bow_amostra


Unnamed: 0,000,01715599,05,08,0ver,10,100,1000,100æ,102,...,ð¾ð¼,ð¾ð½ð,ð¾ð½ðµ,ð¾ð½ð½ñ,ð¾ð½ñ,ð¾ñ,óig,ólta,über,überkochende
0,0.0,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4995,0.0,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4996,0.0,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4997,0.0,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4998,0.0,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


Como são muitos atributos, pode parecer que não ficou corretamente gerado. Mas, filtrando as palavras de um determinado resumo você verificará que está ok:

In [14]:
df_bow_amostra[["in","screaming", "pride"]]

Unnamed: 0,in,screaming,pride
0,0.000000,0.09873,0.08606
1,0.037870,0.00000,0.00000
2,0.144143,0.00000,0.00000
3,0.098268,0.00000,0.00000
4,0.107559,0.00000,0.00000
...,...,...,...
4995,0.183471,0.00000,0.00000
4996,0.024684,0.00000,0.00000
4997,0.008507,0.00000,0.00000
4998,0.000000,0.00000,0.00000


Veja que também é uma representação muito extensa, com dezenas de milhares de atributos. Os algoritmos de aprendizado de máquina são geralmente bons em filtrar tais atributos, mesmo assim, você pode usar técnicas de redução de atributos como o Principal Component Analysis (PCA).  Lembre-se de adicionar no requirementes.txt qualquer biblioteca adicional a ser utilizada.


Não fique preso apenas nessa representações. Vocês podem tentar fazer representações mais sucintas, como, por exemplo, você pode utilizar palavras chaves. Por exemplo, considerando o sentimento: faça uma lista de palavras chaves que remetem "amor", "raiva", "felicidade" e contabilize o quantidade dessas palavras chaves na musica. No final, nesse exemplo, você teria apenas três atributos: número de palavras que remetem a raiva, amor e felicidade na musica. Outro exemplo de atributo mais sucinto seria o tamanho do vocabulário da música.

## Classificação Hierárquica

Nesta competição você deverá usar obrigatóriamente classificação hierarquica. Para entender melhor o funcionamento, estude a Seção 4.2 do [TCC da Barbara Jaber](docs/TCC_Music_genre_Jaber.pdf). 

## Como começar?

Visando uma melhor organização do código e para que vocês possam ter a experiencia de adaptar códigos dos outros - com restrições - vocês deverão fazer as implementações **apenas** nos arquivos de final "competição", presente no pacote `competicao` fazendo subclasses/associações com as classes presentes nos arquivos `preprocessamento_atributos.py`, `avaliacao.py`, `resultado.py` e `metodo.py`, que está no pacote `base_am`. 

Em `metodo_competicao.py` e `avaliacao_competicao` fizemos um exemplo simples usando nosso BOW para vocês entenderem o que deve ser feito nessa tarefa. Em `metodo_competicao.py` fizemos uma classe para classificação hierarquica, temos que preprocessar e gerar alguns atributos. Para isso, fizemos a chamada a função `gerar_atributos` implementada em `preprocessamento_atributos_competicao.py`. Não houve necessidade, porém, você poderia criar novas classes de tipos diferentes de preprocessamento e geração de atributos além de poder criar subclasses de BagOfWords para fazer algum preprocessamento diferente dessas classes. Você pode mudar algo, porém, a classificação deverá ser sempre hierarquica.


## Inicio - Preprocessamento e testes mais rápidos

Partindo do principio **obtenha rapidamente um resultado**, inicialmente, você pode fazer um exemplo bem simples, com um fold apenas. Com isso, você pode testar métodos diferentes, impacto de cada parametro e também o tipo de preprocessamento no texto a ser usado. 

Investigue quando su método é bom o ruim e, com isso, tente melhorá-lo. Para isso, analise vários tipos de representações, métodos e suas combinações. Dentre análises interessantes, tente refletir qual a classe que o método erra mais, se em algum grupo de instancia que ocorreu erro há alguma particularidade - analisando, principalmente, seus atributos. Verifique também se está ocorrendo overfitting/underfitting.

Considerando o preprocessamento, como exemplo criamos a classe MetodoCompeticaoHierarquico no arquivo `competicao_am/metodo_competicao.py` em que é chamado a função gerar_atributos do arquivo `competicao_am/preprocessamento_atributos_competicao.py` que, por sua vez, chama a classe BagOfWordsLyrics. Você pode fazer vários ajustes na classe BagOfWordsLyrics e testar o resultado. Por exemplo:

- Ajustar o preprocessamento no método fazendo, por exemplo, transformação da string para minuscula, tratar caso em que não há letra de música, fazer stemming, etc.
- Ajustar os parametros do TfidfVectorizer
- Ajustar a lista de stopwords para uma maior redução do texto
- Criar os atributos usando BagOfWords é apenas uma sugestão. Você pode tentar fazer um preprocessamento diferente, por palavras chaves, por exemplo. Inclusive, caso queira, pode gerar um conjunto de atributos para o primeiro nível e para o segundo nível de forma diferente. 
- Testar outras representações e redução de dimensionalidade do problema (i.e. redução de atributos). Por exemplo, pesquise sobre Principal Component Analisys (PCA), Latent Dirichlet Allocation (LDA). Qualquer nova implementação deve ser implementada no arquivo `competicao_am/preprocessamento_atributos_competicao.py`. Tente seguir os moldes da geração de representação na função `gerar_atributos_letra_musica`. 
- Considerando os parâmetros, o  código pode demorar muito para executar dependendo do seu valor, assim, no teste abaixo você pode tentar verificar qual seria a faixa de valores a serem testados verificando o tempo e o impacto de modificar um determinado parametro. Assim, na proxima seção, você pode usar essa informação para definir a variação dos parâmetros. 

In [15]:
!pip3 install optuna
import pandas as pd
from sklearn.metrics import classification_report
from sklearn.svm import LinearSVC
from sklearn.ensemble import RandomForestClassifier
from competicao_am.metodo_competicao import MetodoCompeticaoHierarquico
from competicao_am.preprocessamento_atributos_competicao import gerar_atributos_letra_musica

df_lyrics = pd.read_csv("datasets/lyrics_amostra.csv")

#remove id
df_lyrics.drop("id",axis=1)


#separa em treino e validacao
df_treino = df_lyrics.sample(frac=0.7, random_state=2)
df_validacao = df_lyrics.drop(df_treino.index)


#cria o metodo de ap de maquina 
scikit_method = RandomForestClassifier(random_state=2,class_weight='balanced',n_estimators=10)
#no método de competição hierarquico, temos que passar como parametro qual é a classe do primeiro nivel tb
ml_method = MetodoCompeticaoHierarquico(scikit_method,"grouped_genre")

result = ml_method.eval(df_treino,df_validacao,"genre",seed=2)

print("====== Resultado primeiro Nivel ====")
result_prim_nivel = ml_method.result_prim_nivel
print(f"Macro F1: {result_prim_nivel.macro_f1}")
print(result_prim_nivel.mat_confusao)
print(ml_method.obj_class_prim_nivel.dic_int_to_nom_classe)
print(classification_report(result_prim_nivel.y, result_prim_nivel.predict_y))

print("\n\n====== Resultado segundo nivel =====")
print(f"Macro F1: {result.macro_f1}")
print(result.mat_confusao)
print(ml_method.obj_class_final.dic_int_to_nom_classe)

print(classification_report(result.y, result.predict_y))

Defaulting to user installation because normal site-packages is not writeable
Macro F1: 0.6301511795996555
[[445. 191.]
 [363. 501.]]
{0: 'Country_n_Folk', 1: 'Rock_n_Metal'}
              precision    recall  f1-score   support

           0       0.55      0.70      0.62       636
           1       0.72      0.58      0.64       864

    accuracy                           0.63      1500
   macro avg       0.64      0.64      0.63      1500
weighted avg       0.65      0.63      0.63      1500



Macro F1: 0.4287426611754872
[[ 89.  49.  57.  36.]
 [ 80. 144. 151.  48.]
 [ 78.  95. 221.  11.]
 [ 80. 108.  52. 201.]]
{0: 'Folk', 1: 'Rock', 2: 'Country', 3: 'Metal'}
              precision    recall  f1-score   support

           0       0.27      0.39      0.32       231
           1       0.36      0.34      0.35       423
           2       0.46      0.55      0.50       405
           3       0.68      0.46      0.55       441

    accuracy                           0.44      1500

## Como avaliar modelos?

Nesta parte, você irá descobrir quais são os melhores parametros. Perceba que esses parametros podem ser tanto do método de aprendizado de máquina quanto do método de preprocessamento (foi colocado como exemplo, o parametro max_df de preprocessamento). De forma similar a prática de avaliação, você deverá ajustar as faixas de valores em `competicao_am/avaliacao_competicao.py`. Note que você pode criar diversos métodos de aprendizado de máquina, cada um, terá sua classe de avaliação correpondente. Não se assuste se o código demorar muito para executar, para descobrirmos um bom modelo, muitas vezes, temos que deixar o código rodando por mais de um dia.

Nesta parte, você irá efetivamente comparar quais são os melhores métodos e melhores parametros. Assim, você poderá fixar o melhor parametro e método para o dataset fornecido pelo professor.

Veja abaixo um exemplo que utilizamos o Método SVM e variamos o custo.

In [16]:
from base_am.resultado import Fold
from base_am.avaliacao import Experimento
from competicao_am.metodo_competicao import MetodoCompeticaoHierarquico
from competicao_am.avaliacao_competicao import OtimizacaoObjetivoSVMCompeticao
from sklearn.svm import LinearSVC
import pandas as pd

df_amostra = pd.read_csv("datasets/lyrics_amostra.csv")

arr_folds = Fold.gerar_k_folds(df_amostra, val_k=3, col_classe="genre",
                            num_repeticoes=1, num_folds_validacao=2,num_repeticoes_validacao=1)
scikit_method = LinearSVC(random_state=2)


ml_method = MetodoCompeticaoHierarquico(scikit_method,"grouped_genre")

ClasseObjetivo = OtimizacaoObjetivoSVMCompeticao
#colocamos apenas 5 trials para ir mais rápido. Porém, algumas vezes precisamos de dezenas, centenas - ou milhares - de trials para conseguir uma boa configuração
#Isso depende muito da caracteristica do problema, da quantidade de parametros e do impacto desses parametros no resultado
experimento = Experimento(arr_folds, ml_method=ml_method,
                    ClasseObjetivoOtimizacao=ClasseObjetivo,
                    num_trials=1)
print(f"MACRO F1: {experimento.macro_f1_avg}")


[32m[I 2021-03-29 21:13:45,220][0m A new study created in memory with name: no-name-64e1d23e-48b4-413b-923e-0cfccfb612bf[0m
[32m[I 2021-03-29 21:13:47,742][0m Trial 0 finished with value: 0.4560570633503045 and parameters: {'exp_cost': 1.251066014107722}. Best is trial 0 with value: 0.4560570633503045.[0m
[32m[I 2021-03-29 21:13:49,769][0m A new study created in memory with name: no-name-0b56b698-8e61-4fdb-b48c-a24d542c07dc[0m


0.5129055995058861


[32m[I 2021-03-29 21:13:52,550][0m Trial 0 finished with value: 0.48912024275650445 and parameters: {'exp_cost': 2.1609734803264744}. Best is trial 0 with value: 0.48912024275650445.[0m
[32m[I 2021-03-29 21:13:54,738][0m A new study created in memory with name: no-name-9cc610b2-12d7-456e-8f24-18b1e1c87adb[0m


0.5219859840697778


[32m[I 2021-03-29 21:13:57,062][0m Trial 0 finished with value: 0.46394205686801027 and parameters: {'exp_cost': 0.0003431244520346599}. Best is trial 0 with value: 0.46394205686801027.[0m


0.420171138120186
MACRO F1: 0.48502090723194996


Se desejar, crie uma subclasse de `Experimento` em "avaliacao_competicao.py" para gerar algumas análises, por exemplo, gerar a matriz de confusão que agrupa o resultado dos folds. Para agregar as matrizes de confusão, você pode gerar tanto a média da quantidade por fold ou fazer o somatório de todas elas. 

Este foi um exemplo com apenas um modelo. Você poderia, por exemplo, para cada nivel, criar modelos distintos e com parametros distintos. Para isso, você pode mudar o constutor da classe `MetodoCompeticaoHierarquico`.

Uma boa prática é salvar seus experimentos em arquivos, com algum nome sugestivo. Assim, você não precisará rodar ele novamente para analisá-lo. Uma excelente e bem organizada forma é usar um banco de dados. Porém, você pode simplesmente salvar o objeto em um arquivo: 

In [17]:
import pickle

pickle.dump( experimento, open( "resultados/exp_bow_svm_rev0.p", "wb" ) )

experimento = pickle.load( open( "resultados/exp_bow_svm_rev0.p", "rb" ) )
print(f"MACRO F1: {experimento.macro_f1_avg}")

MACRO F1: 0.48502090723194996


## Geração do resultado no dataset fornecido pelo professor

Depois de definido a melhor solução, você deverá aplicá-la no teste fornecido pelo professor. Assim, ainda na fase de eleboração da solução, você deve preparar a função `gerar_saida_teste` do arquivo `gerar_resultado_teste.py`. Para que o professor possa rodar o código adequadamente e, também, que você possa gerar a saída do resultado quando o professor enviar o teste na fase seguinte. Nesse arquivo, você deverá usar o dataset completo `movies_amostra.csv` **nenhum dado a mais e sem nenhum preprocessamento**. O preprocessamento e geração dos atributos deverá ser feito na própria função (ou em algum método que as invoca).  Isso garante que fique claro tudo que foi feito para o seu método obter um determinado resultado. Você poderá alterar essa função - até a data de entrega **de seu código**. Caso o aluno altere o comportamento da função após a entrega do código, a equipe será eliminada. Lembre-se que é por meio desta função que o professor irá verificar se o resultado, gerado por você, corresponde ao resultado obtido pelo professor. Por isso, sempre garanta que esteja usando uma seed fixa. 

Na função `gerar_saida_teste` você deverá escolher a abordagem que melhor obteve resultado usando também o melhor parametro) para que seja criado o modelo e obtido um resultado.

In [18]:
import pandas as pd
from competicao_am.gerar_resultado_teste import gerar_saida_teste

#altere aqui para o número correspondente ao seu grupo
num_grupo = 0 

#leia o dataset fornecido pelo professor (coloquei apenas um exemplo, na entrega, será outro)
df_amostra_teste = pd.read_csv("datasets/lyrics_amostra_teste_ex.csv")

gerar_saida_teste(df_amostra_teste,"genre", num_grupo)

In [19]:
# para testes, imprime a saida gerada
with open(f"predict_grupo_{num_grupo}.txt", "r") as file_predict:
    for line in file_predict:
        print(line,end="")

Rock
Rock
Metal
Rock
Country
Metal
Metal
Metal
Country
Metal
