# Treinamento e validação de Modelos - Dataset FakeRecogna
Treinamento de um modelo usando como base o segundo dataset estudado: https://github.com/Gabriel-Lino-Garcia/FakeRecogna 

Após verificar que o primeiro modelo obteve uma performace ruim ao ser testado com outro dataset, fez-se a hipótese de que isto pode ter ocorrido devido à baixa variabilidade de notícias no primeiro dataset utilizado. Optou-se então por tentar treinar um modelo TF-IDF no segundo dataset, que possui maior variedade de notícias, para validar se isto resultaria em um modelo mais geral.

Este modelo, além de ser validado no próprio dataset que o gerou, também é validado com o primeiro dataset utilizado no projeto.

In [2]:
# Se necessário
%pip install wordcloud

Looking in indexes: https://pypi.org/simple, https://pip.repos.neuron.amazonaws.com
Collecting wordcloud
  Downloading wordcloud-1.8.2.2-cp36-cp36m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (435 kB)
     |████████████████████████████████| 435 kB 21.9 MB/s            
Installing collected packages: wordcloud
Successfully installed wordcloud-1.8.2.2
Note: you may need to restart the kernel to use updated packages.


In [2]:
import os
import sagemaker
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import RobustScaler
from sklearn.metrics import classification_report
from scipy.sparse import csr_matrix, hstack
from python_scripts.save_load import load_df_from_bucket, save_df_to_s3_bucket, save_to_s3_bucket_as_libsvm, BUCKET_MODEL
from python_scripts.modelling import create_train_validation_test_sets, setup_model, make_prediction

## Carregamento de dados
O pré-processamento e padronização dos dados deste dataset já foi realizado no notebook `preprocessing.ipynb`.

In [3]:
model_df = load_df_from_bucket('dados_processados_recogna.csv', tipo='processado')
model_df.head()

Unnamed: 0,Categoria,lemmas_str,fake
0,entretenimento,apagão vaticano papar presar acusação tráfico ...,1
1,saúde,governar equador anunciar preparar cova coleti...,0
2,saúde,companhia air france operar voar direto pequim...,0
3,saúde,marfrig global foods retomar vender carnar bov...,0
4,entretenimento,assunto voltar compartilhar rede social julho ...,1


## Modelo 1: TF-IDF baseado no texto da notícia
Vetorização TF-IDF é aplicada somente à coluna de texto da notícia. Demais colunas de dados não são consideradas.

In [4]:
train_1, test_1, validate_1 = create_train_validation_test_sets(model_df, 
                                                                stratify_col='fake',
                                                                test_size=0.2, random_state=42)

### Processamento adicional

Um vetorizador TFIDF é utilizado para converter os dados textuais em colunas do DataFrame.

In [5]:
# Criar vetorizador TFIDF e ajustar aos dados de treinamento
tfidf = TfidfVectorizer(lowercase=False, ngram_range = (1,2))
tfidf.fit(train_1['lemmas_str'])

TfidfVectorizer(lowercase=False, ngram_range=(1, 2))

In [6]:
def create_x_y_1(base_df, tfidf, target_col='fake', lemma_col = 'lemmas_str'):
    tfidf_res = tfidf.transform(base_df[lemma_col])
    return tfidf_res, base_df[target_col]

x_train_1, y_train_1 = create_x_y_1(train_1, tfidf)
x_validate_1, y_validate_1 = create_x_y_1(validate_1, tfidf)
x_test_1, y_test_1 = create_x_y_1(test_1, tfidf)

### Upload de dados para o S3

In [7]:
file_name_tuples = [(x_train_1, y_train_1, 'train'), 
                   (x_test_1, y_test_1, 'test'), 
                   (x_validate_1, y_validate_1, 'validate')]

for x, y, prefix in file_name_tuples:
    save_to_s3_bucket_as_libsvm(x, y, prefix=prefix, filename='model_1_2.libsvm', tipo='modelo')



### Treinar modelo

In [9]:
xgb_model_1, data_channels_1 = setup_model(base_image='xgboost', model_name='model_1_2', instance_count=4, 
                                           instance_type='ml.m4.xlarge')
xgb_model_1.fit(inputs=data_channels_1)

print('ready for hosting!')

2022-11-14 20:32:07 Starting - Starting the training job...ProfilerReport-1668457927: InProgress
...
2022-11-14 20:32:43 Starting - Preparing the instances for training...............
2022-11-14 20:35:22 Downloading - Downloading input data...
2022-11-14 20:36:02 Training - Training image download completed. Training in progress.[34m[2022-11-14 20:35:59.983 ip-10-0-187-94.ec2.internal:8 INFO utils.py:27] RULE_JOB_STOP_SIGNAL_FILENAME: None[0m
[34m[2022-11-14:20:36:00:INFO] Imported framework sagemaker_xgboost_container.training[0m
[34m[2022-11-14:20:36:00:INFO] Failed to parse hyperparameter eval_metric value auc to Json.[0m
[34mReturning the value itself[0m
[34m[2022-11-14:20:36:00:INFO] Failed to parse hyperparameter objective value binary:logistic to Json.[0m
[34mReturning the value itself[0m
[34m[2022-11-14:20:36:00:INFO] No GPUs detected (normal if no gpus installed)[0m
[34m[2022-11-14:20:36:00:INFO] Running XGBoost Sagemaker in algorithm mode[0m
[34m[2022-11-14:2

In [10]:
xgb_predictor_1 = xgb_model_1.deploy(initial_instance_count=1,
                                     serializer=sagemaker.serializers.LibSVMSerializer(),
                                     instance_type='ml.m4.xlarge')

--------!

### Métricas do modelo

In [12]:
y_pred_1 = make_prediction(xgb_predictor_1, model_name='model_1_2')

In [13]:
print(classification_report(y_test_1, y_pred_1))

              precision    recall  f1-score   support

           0       0.93      0.85      0.89       595
           1       0.86      0.93      0.90       595

    accuracy                           0.89      1190
   macro avg       0.90      0.89      0.89      1190
weighted avg       0.90      0.89      0.89      1190



Verifica-se aqui um excelente desempenho mesmo com os dados separados para teste, como foi visto no notebook `model_fakebr.ipynb`para o dataset Fake.br-Corpus. Em seguida, será feita uma segunda validação utilizando este dataset.

### Salvar predição

In [None]:
df_pred_alt = pd.DataFrame({'pred_1_2': y_pred_1})1
df_pred_alt.to_csv(f's3://{BUCKET_MODEL}/test/pred_1_2.csv', encoding='utf-8', index=False)

## Teste adicional - Dataset Fake.br-Corpus
Serão amostradas 800 notícias do Dataset Fake.br-Corpus para uma segunda validação do presente modelo.

### Carregar dataset e amostrar dados

In [17]:
alternative_df = load_df_from_bucket('dados_processados.csv', tipo='processado')
alternative_df.head()

Unnamed: 0,fake,text,avg_sent_len,avg_word_len,words_str,lemmas_str
0,0,A divisão do STF ao meio entre partidários e ...,10.504673,6.785107,divisão STF meio partidários independentes fic...,divisão STF meio partidário independente ficar...
1,1,"General manda recado para STF: ""Abaixaram as c...",10.866667,6.50261,General manda recado STF Abaixaram calças Cong...,general mandar recado STF abaixar calça congre...
2,1,O Nordeste acordou! Lula e o PT são enxotados:...,7.333333,6.565873,Nordeste acordou Lula PT enxotados Chega bande...,nordeste acordar Lula PT enxotar chegar bandei...
3,0,"Dois relatórios da Polícia Federal, com análi...",16.878788,7.286668,Dois relatórios Polícia Federal análises mater...,dois relatório Polícia Federal análise materia...
4,1,Coreia do Norte declara status de QUASE-GUERRA...,11.6,6.53132,Coreia Norte declara status QUASE-GUERRA mobil...,Coreia Norte declarar status QUASE-GUERRA mobi...


In [18]:
alternative_df = alternative_df[['fake', 'lemmas_str']]
alternative_df.head()

Unnamed: 0,fake,lemmas_str
0,0,divisão STF meio partidário independente ficar...
1,1,general mandar recado STF abaixar calça congre...
2,1,nordeste acordar Lula PT enxotar chegar bandei...
3,0,dois relatório Polícia Federal análise materia...
4,1,Coreia Norte declarar status QUASE-GUERRA mobi...


In [22]:
sample_df = alternative_df.sample(n=800)

#### Predição

Aplicar TF-IDF para vetorizar, salvar dados no S3 e efetuar predição

In [23]:
x_test_alt, y_test_alt = create_x_y_1(sample_df, tfidf)
save_to_s3_bucket_as_libsvm(x_test_alt, y_test_alt, 
                            prefix='test', filename='model_2_1_alt.libsvm', tipo='modelo')



In [24]:
y_pred_alt = make_prediction(xgb_predictor_1, model_name='model_2_1_alt')

## Métricas

In [25]:
print(classification_report(y_test_alt, y_pred_alt))

              precision    recall  f1-score   support

           0       0.64      0.94      0.77       381
           1       0.91      0.52      0.66       419

    accuracy                           0.72       800
   macro avg       0.78      0.73      0.71       800
weighted avg       0.78      0.72      0.71       800



Os resultados neste modelo foram bem mais razoáveis. Embora o modelo obtido não obtenha resultados ideais ao avaliar as notícias do outro dataset, são resultados mais coerentes.

Um modelo combinado, treinado baseado nos dois datasets, é apresentado no notebook `model_combinado.ipynb`.

#### Salvar predição

In [26]:
df_pred_alt = pd.DataFrame({'pred_2_alt': y_pred_alt})
df_pred_alt.to_csv(f's3://{BUCKET_MODEL}/test/pred_2_alt.csv', encoding='utf-8', index=False)

### Encerrar modelo
Após pegar métricas e dados de interesse, encerrar modelo para evitar cobranças.

In [27]:
xgb_predictor_1.delete_endpoint(delete_endpoint_config=True) 