# Transferência de aprendizado com Hugging Face

Um curso preparatório está buscando alternativas para que os alunos possam praticar mais a redação de textos.

Atualmente o curso preparatório consegue fazer a correção de apenas uma redação por semana para cada aluno e por conta disso, os alunos não se sentem motivados a fazer mais redações, uma vez que não terão ideia de qual seria a nota recebida nas redações extras que não serão corrigidas pelo curso.

Nosso papel nesse projeto é construir um **aplicativo de IA** para atribuir uma nota a uma redação, para que os alunos possam praticar quantas vezes quiserem e saberem se estão indo bem nos estudos.

## Explorando modelo pré-treinado

### Utilizando o hugging face pipeline

Para construir o aplicativo, precisamos de algo que consiga interpretar os textos e atribuir uma nota para a redação. Vamos utilizar um modelo pré-treinado da plataforma Hugging Face para tentar solucionar nosso problema.

Como a nossa tarefa é bem específica, vamos utilizar um modelo zero-shot que consegue fazer a classificação de um texto a partir de labels personalizadas.

Modelo zero-shot em português:

- https://huggingface.co/Mel-Iza0/zero-shot

In [None]:
# !pip install -q transformers

In [None]:
from transformers import pipeline

In [None]:
classificador = pipeline('zero-shot-classification', model = 'Mel-Iza0/zero-shot', tokenizer = 'Mel-Iza0/zero-shot')

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/1.05k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/738M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/407 [00:00<?, ?B/s]

spm.model:   0%|          | 0.00/2.46M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/8.66M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/23.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/173 [00:00<?, ?B/s]

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.
Failed to determine 'entailment' label id from the label2id mapping in the model config. Setting to -1. Define a descriptive label2id mapping in the model config to ensure correct outputs.


In [None]:
texto = 'Com o início da era digital, a capacidade de transmissão de informações cresceu apressuradamente, o que facilitou o contato com diversos assuntos, dentre eles a educação sexual . Entretanto, surgiram paralelamente algumas questões, das quais se destacam a preocupação com o momento adequado do ingresso do tema a vida do estudante, assim como de maneira antagônica, o aumento de casos de DST´S\\xa0\\xa0e gravidez indesejada nesse período, a qual leva a um maior questionamento sobre o começo desta pauta., A falta de comunicação sobre a sexualidade entre jovens no Brasil acarreta muitas das vezes\\xa0na inserção desses em um meio repleto de dúvidas, gerando a ocorrência de doenças sexualmente transmissíveis e de gravidez precoce. Com base nisso, muitos adolescentes buscam compreender melhor essas questões na internet, local onde se podem encontrar notícias falsas ou inadequadas para seu desenvolvimento, impedindo assim a correta compreensão do assunto, assim como a responsabilidade imposta por ele., Por outro lado, o diálogo em relação à sexualidade e seus tópicos é um tabu para pais e professores, que se sentem desorientados sobre a devida hora e os devidos critérios a serem tratados com os filhos e alunos, dificultando com que esses esclareçam suas dúvidas e entenda de maneira correta, o que levaria a conscientização da seriedade dessa discussão., Em virtude do que foi mencionado, as indagações a respeito divide vrias opiniões e reflexões acima do que deve ser feito. É de extrema importância o Ministério da Educação, em parceria com o Ministério da Cidadania, implantar a educação sexual na matriz curricular estudantil dos jovens, através de aulas elaboradas e destinadas ao esclarecimento de perguntas, assim como palestras e programas com a intenção de propagar o conteúdo aos estudantes, contando com o suporte dos pais, funcionários e encarregados da rede de ensino no país, para que seja realizado constantemente.'

In [None]:
classificador(texto , candidate_labels = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10'])

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


{'sequence': 'Com o início da era digital, a capacidade de transmissão de informações cresceu apressuradamente, o que facilitou o contato com diversos assuntos, dentre eles a educação sexual . Entretanto, surgiram paralelamente algumas questões, das quais se destacam a preocupação com o momento adequado do ingresso do tema a vida do estudante, assim como de maneira antagônica, o aumento de casos de DST´S\\xa0\\xa0e gravidez indesejada nesse período, a qual leva a um maior questionamento sobre o começo desta pauta., A falta de comunicação sobre a sexualidade entre jovens no Brasil acarreta muitas das vezes\\xa0na inserção desses em um meio repleto de dúvidas, gerando a ocorrência de doenças sexualmente transmissíveis e de gravidez precoce. Com base nisso, muitos adolescentes buscam compreender melhor essas questões na internet, local onde se podem encontrar notícias falsas ou inadequadas para seu desenvolvimento, impedindo assim a correta compreensão do assunto, assim como a responsabil

### Realizando o deploy com gradio

Para que o aplicativo fique completo, podemos utilizar o gradio, uma ferramenta que permite a interação de forma rápida e eficiente a modelos de IA.

In [1]:
# !pip install -q gradio

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.4/50.4 kB[0m [31m203.4 kB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.5/12.5 MB[0m [31m24.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m318.6/318.6 kB[0m [31m8.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.6/75.6 kB[0m [31m5.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m77.9/77.9 kB[0m [31m5.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m141.1/141.1 kB[0m [31m9.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.1/10.1 MB[0m [31m51.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.8/62.8 kB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
import gradio as gr

In [None]:
def mostrar_resultado(texto):
    return classificador(texto , candidate_labels = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10'])['labels'][0]

In [None]:
app = gr.Interface(
    fn = mostrar_resultado,
    inputs = ['text'],
    outputs = ['text']
)

app.launch()

Setting queue=True in a Colab notebook requires sharing enabled. Setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
Running on public URL: https://402132dbaf55385988.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)




## Preparando dados de texto

### Carregando a base de dados

Como nossa tarefa é muito específica, o modelo zero-shot não vai lidar muito bem com a situação. O que podemos fazer é explorar uma base de dados que contêm redações e suas respectivas notas e criar um modelo que fará a atribuição da nota com base no texto.

Tarefas de NLP são muito complexas e criar um modelo do zero a partir de poucos dados se torna ineficiente. O que vamos fazer é utilizar um modelo pré-treinado a partir de um corpus textual em português e transferir o conhecimento desse modelo para um novo modelo que vai se especializar na tarefa de atribuir notas a redações. Essa tarefa é conhecida como **Transfer Learning** ou **transferência de aprendizado**.

In [None]:
# !pip install -q datasets

In [None]:
from datasets import load_dataset

In [None]:
dados_redacoes = load_dataset('csv', data_files = '/content/redacoes.csv')

Generating train split: 0 examples [00:00, ? examples/s]

In [None]:
dados_redacoes

DatasetDict({
    train: Dataset({
        features: ['essay', 'score'],
        num_rows: 4570
    })
})

In [None]:
dados_redacoes['train'].features

{'essay': Value(dtype='string', id=None),
 'score': Value(dtype='int64', id=None)}

In [None]:
dados_redacoes['train']['essay'][0]

'A convivência com o ensino em uma escola pública , nos mostra \\xa0como a reforma do ensino médio é necessária, com o ensino precário, escolas quase desabando, falta de educadores,a formação de estudantes fica a \\xa0cada dia mais difícil., Atualmente o índice de jovens que procuram uma educação de qualidade é maior do que em todos os séculos , temos em vista que todos procuram a melhoria, tanto na estrutura da instituição como no ensino, muitos sonham em ser: médicos, professores,advogados, contadores, e assim sucessivamente., A solução seria a constatação de uma lei em prol dos estudantes, precisamos ser ouvidos, a voz dos jovens é a voz do futuro, queremos o ensino superior, queremos oportunidades em escolas públicas, escolas bem estruturada e profissionais competentes., Creio \\xa0que a reforma deveria ocorrer, pois o intuito é a melhoria (Que tipo de melhoria?,\\xa0assim todos os jovens teriam a oportunidade de serem profissionais de sucesso. O incentivo ( aos jovens é o que torn

In [None]:
dados_redacoes['train']['score'][0]

4

In [None]:
dados_redacoes['train'].to_pandas()

Unnamed: 0,essay,score
0,A convivência com o ensino em uma escola públi...,4
1,O Brasil possui aproximadamente 425 mil polici...,5
2,"O esporte é muito importante, as Olimpíadas, u...",8
3,"O conceito de ""banalidade do mal"" da filósofa ...",8
4,Um dos assuntos que mais geram discussões atua...,5
...,...,...
4565,"Com o início da era digital, a capacidade de t...",6
4566,"O feminicídio é o assassinato de uma mulher, a...",4
4567,Foram vrias as conquistas que as mulheres bras...,5
4568,Segundo o psicoterapeuta Ivan Carpelatto: “a v...,9


### Separando os dados

Vamos fazer uma separação dos dados de treino e teste para validação do modelo de machine learning e evitar o teste em dados que foram usados no aprendizado do modelo.

In [None]:
treino_teste = dados_redacoes['train'].train_test_split(test_size = 0.2, shuffle = False)
treino_teste

DatasetDict({
    train: Dataset({
        features: ['essay', 'score'],
        num_rows: 3656
    })
    test: Dataset({
        features: ['essay', 'score'],
        num_rows: 914
    })
})

In [None]:
from datasets import DatasetDict

In [None]:
dados_redacoes = DatasetDict({
    'treino': treino_teste['train'],
    'teste': treino_teste['test']
})

In [None]:
dados_redacoes

DatasetDict({
    treino: Dataset({
        features: ['essay', 'score'],
        num_rows: 3656
    })
    teste: Dataset({
        features: ['essay', 'score'],
        num_rows: 914
    })
})

### Tokenizando dados textuais

Para trabalhar com dados textuais, precisamos transformar as palavras em números que podem ser entendidos pelo computador. Vamos utilizar uma arquitetura específica para o modelo de Machine Learning que é chamada **Transformers**. Nessa arquitetura os tokens tem uma representação em ids e uma camada de atenção, que permite o modelo compreender melhor o sentido da palavra dentro do contexto da sentença.

Vamos utilizar um modelo pré-treinado que já possui armazenado toda a etapa de transformação do texto em tokens, portanto podemos importar o tokenizador do modelo que fará todo o processamento dos dados de texto para o formato adequado.

Modelo de base para tranferência de aprendizado e tokenização:

- https://huggingface.co/Geotrend/distilbert-base-pt-cased

In [None]:
checkpoint_modelo = 'Geotrend/distilbert-base-pt-cased'

In [None]:
from transformers import AutoTokenizer

In [None]:
tokenizador = AutoTokenizer.from_pretrained(checkpoint_modelo)

tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/557 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/162k [00:00<?, ?B/s]

In [None]:
texto = dados_redacoes['treino']['essay'][0]

In [None]:
tokens = tokenizador.tokenize(texto)
print(tokens)

['A', 'con', '##viv', '##ência', 'com', 'o', 'ensino', 'em', 'uma', 'escola', 'pública', ',', 'nos', 'mostra', '\\', 'xa', '##0', '##com', '##o', 'a', 'reforma', 'do', 'ensino', 'médio', 'é', 'ne', '##ces', '##s', '##ária', ',', 'com', 'o', 'ensino', 'pre', '##c', '##ário', ',', 'escolas', 'quase', 'desa', '##band', '##o', ',', 'falta', 'de', 'edu', '##cado', '##res', ',', 'a', 'formação', 'de', 'estudantes', 'fica', 'a', '\\', 'xa', '##0', '##cada', 'dia', 'mais', 'difícil', '.', ',', 'Atualmente', 'o', 'índice', 'de', 'jovens', 'que', 'procura', '##m', 'uma', 'educação', 'de', 'qualidade', 'é', 'maior', 'do', 'que', 'em', 'todos', 'os', 'séculos', ',', 'tem', '##os', 'em', 'vista', 'que', 'todos', 'procura', '##m', 'a', 'melhor', '##ia', ',', 'tanto', 'na', 'estrutura', 'da', 'instituição', 'como', 'no', 'ensino', ',', 'muitos', 'son', '##ham', 'em', 'ser', ':', 'médicos', ',', 'professore', '##s', ',', 'ad', '##vog', '##ados', ',', 'conta', '##dores', ',', 'e', 'assim', 'su', '##ces

In [None]:
ids = tokenizador.convert_tokens_to_ids(tokens)
print(ids)

[46, 270, 24522, 2475, 303, 91, 13849, 348, 469, 5148, 5155, 25, 1125, 4201, 73, 5308, 759, 5563, 231, 77, 8008, 246, 13849, 19640, 144, 539, 2597, 206, 4354, 25, 303, 91, 13849, 1480, 415, 2854, 25, 16687, 8774, 3151, 4948, 231, 25, 5988, 203, 5725, 8294, 920, 25, 77, 11569, 203, 22157, 13510, 77, 73, 5308, 759, 6073, 608, 578, 7859, 27, 25, 12242, 91, 20373, 203, 18423, 220, 21237, 244, 469, 17937, 203, 16944, 144, 2695, 246, 220, 348, 1692, 463, 16426, 25, 1802, 383, 348, 3416, 220, 1692, 21237, 244, 77, 5915, 359, 25, 1813, 230, 9885, 240, 21600, 314, 286, 13849, 25, 6455, 385, 1948, 348, 510, 39, 17306, 25, 17575, 206, 25, 712, 22852, 2092, 25, 5719, 2669, 25, 81, 4832, 292, 2597, 12125, 576, 27, 25, 46, 2996, 10877, 4245, 77, 10673, 15832, 203, 469, 2900, 348, 955, 258, 441, 22157, 25, 15218, 2041, 510, 465, 17157, 25, 77, 4567, 441, 18423, 144, 77, 4567, 246, 5343, 25, 15894, 16539, 91, 13849, 3121, 25, 15894, 16539, 21388, 348, 16687, 13027, 25, 16687, 4577, 9885, 317, 81, 2339

In [None]:
texto_decodificado = tokenizador.decode(ids)
print(texto_decodificado)

A convivência com o ensino em uma escola pública, nos mostra \ xa0como a reforma do ensino médio é necessária, com o ensino precário, escolas quase desabando, falta de educadores, a formação de estudantes fica a \ xa0cada dia mais difícil., Atualmente o índice de jovens que procuram uma educação de qualidade é maior do que em todos os séculos, temos em vista que todos procuram a melhoria, tanto na estrutura da instituição como no ensino, muitos sonham em ser : médicos, professores, advogados, contadores, e assim sucessivamente., A solução seria a constatação de uma lei em prol dos estudantes, precisamos ser ouvidos, a voz dos jovens é a voz do futuro, queremos o ensino superior, queremos oportunidades em escolas públicas, escolas bem estruturada e profissionais competentes., Creio \ xa0que a reforma deveria ocorrer, pois o intuito é a melhoria ( Que tipo de melhoria?, \ xa0assim todos os jovens teriam a oportunidade de serem profissionais de sucesso. O incentivo ( aos jovens é o que to

In [None]:
input_codificado = tokenizador(texto, return_tensors = 'tf')
print(input_codificado)

{'input_ids': <tf.Tensor: shape=(1, 271), dtype=int32, numpy=
array([[   11,    46,   270, 24522,  2475,   303,    91, 13849,   348,
          469,  5148,  5155,    25,  1125,  4201,    73,  5308,   759,
         5563,   231,    77,  8008,   246, 13849, 19640,   144,   539,
         2597,   206,  4354,    25,   303,    91, 13849,  1480,   415,
         2854,    25, 16687,  8774,  3151,  4948,   231,    25,  5988,
          203,  5725,  8294,   920,    25,    77, 11569,   203, 22157,
        13510,    77,    73,  5308,   759,  6073,   608,   578,  7859,
           27,    25, 12242,    91, 20373,   203, 18423,   220, 21237,
          244,   469, 17937,   203, 16944,   144,  2695,   246,   220,
          348,  1692,   463, 16426,    25,  1802,   383,   348,  3416,
          220,  1692, 21237,   244,    77,  5915,   359,    25,  1813,
          230,  9885,   240, 21600,   314,   286, 13849,    25,  6455,
          385,  1948,   348,   510,    39, 17306,    25, 17575,   206,
           25, 

### Tokenizando a base de dados

In [None]:
def funcao_tokenizadora(dados_texto):
    return tokenizador(dados_texto['essay'], truncation = True)

In [None]:
dataset_tokenizado = dados_redacoes.map(funcao_tokenizadora, batched = True, remove_columns = ['essay'])

Map:   0%|          | 0/3656 [00:00<?, ? examples/s]

Map:   0%|          | 0/914 [00:00<?, ? examples/s]

In [None]:
dataset_tokenizado

DatasetDict({
    treino: Dataset({
        features: ['score', 'input_ids', 'attention_mask'],
        num_rows: 3656
    })
    teste: Dataset({
        features: ['score', 'input_ids', 'attention_mask'],
        num_rows: 914
    })
})

In [None]:
dataset_tokenizado['treino'].to_pandas()

Unnamed: 0,score,input_ids,attention_mask
0,4,"[11, 46, 270, 24522, 2475, 303, 91, 13849, 348...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ..."
1,5,"[11, 60, 1497, 6656, 5124, 9019, 2782, 22218, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ..."
2,8,"[11, 60, 290, 8465, 144, 3240, 1668, 25, 243, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ..."
3,8,"[11, 60, 19131, 203, 15, 23380, 19311, 246, 28...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ..."
4,5,"[11, 2567, 441, 17363, 206, 220, 578, 2989, 78...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ..."
...,...,...,...
3651,5,"[11, 46, 5148, 1802, 469, 17870, 7326, 230, 11...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ..."
3652,6,"[11, 60, 7234, 1280, 3543, 1802, 91, 2885, 203...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ..."
3653,4,"[11, 7855, 325, 4776, 4323, 1559, 14086, 13232...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ..."
3654,6,"[11, 60, 23602, 235, 326, 23949, 206, 203, 179...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ..."


In [None]:
dataset_tokenizado['teste'].to_pandas()

Unnamed: 0,score,input_ids,attention_mask
0,7,"[11, 60, 9133, 18342, 2294, 220, 13606, 1295, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ..."
1,8,"[11, 599, 3088, 1306, 25, 22568, 2284, 2251, 8...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ..."
2,4,"[11, 46, 15182, 20233, 16866, 2969, 14150, 81,...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ..."
3,7,"[11, 60, 10910, 303, 469, 7592, 1828, 21261, 1...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ..."
4,7,"[11, 1876, 91, 3222, 240, 1774, 9151, 359, 25,...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ..."
...,...,...,...
909,6,"[11, 3444, 91, 5764, 240, 452, 3543, 25, 77, 1...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ..."
910,4,"[11, 60, 4880, 1235, 2011, 3575, 144, 91, 2370...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ..."
911,5,"[11, 24848, 98, 8544, 243, 6634, 206, 220, 243...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ..."
912,9,"[11, 4433, 91, 22999, 22429, 14533, 3507, 304,...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ..."


## Ajustando dados para o modelo

### Ajustando a variável alvo

Para realizar o treinamento do modelo, a variável alvo precisa estar no formato específico ClassLabel. Vamos realizar essa transformação na base de dados.

In [None]:
dataset_tokenizado['treino'].features['score']

Value(dtype='int64', id=None)

In [None]:
from datasets import ClassLabel

In [None]:
dataset_tokenizado['treino'].unique('score')

[4, 5, 8, 6, 10, 7, 1, 9, 3, 0, 2]

In [None]:
scores = ClassLabel(names = [str(i) for i in range(11)])

In [None]:
scores

ClassLabel(names=['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10'], id=None)

In [None]:
def mapear_labels(dados):
    dados['label'] = scores.str2int(str(dados['score']))
    return dados

In [None]:
dataset_tokenizado = dataset_tokenizado.map(mapear_labels, remove_columns = 'score')

Map:   0%|          | 0/3656 [00:00<?, ? examples/s]

Map:   0%|          | 0/914 [00:00<?, ? examples/s]

In [None]:
dataset_tokenizado = dataset_tokenizado.cast_column('label', scores)

Casting the dataset:   0%|          | 0/3656 [00:00<?, ? examples/s]

Casting the dataset:   0%|          | 0/914 [00:00<?, ? examples/s]

In [None]:
dataset_tokenizado

DatasetDict({
    treino: Dataset({
        features: ['input_ids', 'attention_mask', 'label'],
        num_rows: 3656
    })
    teste: Dataset({
        features: ['input_ids', 'attention_mask', 'label'],
        num_rows: 914
    })
})

In [None]:
dataset_tokenizado['treino'].features['label']

ClassLabel(names=['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10'], id=None)

### Preparando dados de treino e teste

Agora que já realizamos todas as transformações nos dados, vamos inicializar o modelo pré-treinado e preparar os dados de treino e validação que serão utilizados no treinamento do novo modelo.

Modelo de base para tranferência de aprendizado e tokenização:

- https://huggingface.co/Geotrend/distilbert-base-pt-cased

In [None]:
from transformers import TFAutoModelForSequenceClassification

In [None]:
checkpoint_modelo = 'Geotrend/distilbert-base-pt-cased'

In [None]:
id2label = {0: '0', 1: '1', 2:'2', 3:'3', 4:'4', 5:'5', 6:'6', 7:'7', 8:'8', 9:'9',10:'10'}
label2id = {valor: chave for chave, valor in id2label.items()}

modelo = TFAutoModelForSequenceClassification.from_pretrained(
    checkpoint_modelo,
    num_labels = dataset_tokenizado['treino'].features['label'].num_classes,
    id2label = id2label,
    label2id = label2id,
    from_pt = True
)

pytorch_model.bin:   0%|          | 0.00/251M [00:00<?, ?B/s]

Some weights of the PyTorch model were not used when initializing the TF 2.0 model TFDistilBertForSequenceClassification: ['vocab_projector.weight', 'vocab_transform.weight', 'vocab_layer_norm.weight', 'vocab_layer_norm.bias', 'vocab_projector.bias', 'vocab_transform.bias']
- This IS expected if you are initializing TFDistilBertForSequenceClassification from a PyTorch model trained on another task or with another architecture (e.g. initializing a TFBertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing TFDistilBertForSequenceClassification from a PyTorch model that you expect to be exactly identical (e.g. initializing a TFBertForSequenceClassification model from a BertForSequenceClassification model).
Some weights or buffers of the TF 2.0 model TFDistilBertForSequenceClassification were not initialized from the PyTorch model and are newly initialized: ['pre_classifier.weight', 'pre_classifier.bias', 'classifier.weight', 'cla

In [None]:
dados_treino = modelo.prepare_tf_dataset(
    dataset_tokenizado['treino'],
    shuffle = True,
    batch_size = 16,
    tokenizer = tokenizador
)

dados_validacao = modelo.prepare_tf_dataset(
    dataset_tokenizado['teste'],
    shuffle = False,
    batch_size = 16,
    tokenizer = tokenizador
)

## Transferindo o aprendizado para um modelo

### Treinando o modelo

Para realizar o treinamento do modelo, vamos criar um otimizador e definir os hiperparâmetros do modelo. A partir daí, podemos realizar o treinamento e a avaliação do modelo a partir da métrica Loss.

Para que o tempo de execução do treinamento seja menor, vamos utilizar um ambiente de execução que permite o uso de uma GPU do Colab.

In [None]:
from transformers import create_optimizer

In [None]:
batch_size = 16
epocas = 2
batches_por_epoca = len(dataset_tokenizado['treino']) // batch_size
total_passos_treino = int(batches_por_epoca * epocas)
taxa_aprendizado = 2e-5

In [None]:
otimizador, scheduler = create_optimizer(
    init_lr = taxa_aprendizado, num_warmup_steps = 0, num_train_steps = total_passos_treino
)

modelo.compile(optimizer = otimizador)

In [None]:
modelo.fit(dados_treino, validation_data = dados_validacao, epochs= epocas)

Epoch 1/2


Cause: for/else statement not yet supported


Cause: for/else statement not yet supported
Epoch 2/2


<tf_keras.src.callbacks.History at 0x79be64a4d000>

In [None]:
resultados_avaliacao = modelo.evaluate(dados_validacao)
print(f'Loss: {resultados_avaliacao}')

Loss: 1.6580368280410767


### Publicando o modelo no Hugging Face Hub

Agora que temos o modelo treinado, vamos publicar o checkpoint no Hugging Face Hub, para que possa ser utilizado posteriormente de forma rápida e fácil. Temos que realizar o login na plataforma e armazenar tanto o modelo quanto o tokenizador.

In [None]:
from huggingface_hub import notebook_login

notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [None]:
modelo.push_to_hub('distilbert-pt-cased-redacao-nota')

tf_model.h5:   0%|          | 0.00/251M [00:00<?, ?B/s]

In [None]:
tokenizador.push_to_hub('distilbert-pt-cased-redacao-nota')

README.md:   0%|          | 0.00/1.60k [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/joaomiranda27/distilbert-pt-cased-redacao-nota/commit/74ae3a1a096ba8fdbd1f1717c8f7b06aed7af23f', commit_message='Upload tokenizer', commit_description='', oid='74ae3a1a096ba8fdbd1f1717c8f7b06aed7af23f', pr_url=None, pr_revision=None, pr_num=None)

## Colocando o modelo em produção

### Utilizando o modelo para previsão

Agora que temos o modelo treinado, podemos testar a previsão a partir de novos textos. Vamos carregar o modelo do Hugging Face Hub e
utilizar redações que estejam na base de dados de teste.

In [None]:
from transformers import AutoTokenizer, TFAutoModelForSequenceClassification

In [None]:
modelo = TFAutoModelForSequenceClassification.from_pretrained('joaomiranda27/distilbert-pt-cased-redacao-nota')
tokenizador = AutoTokenizer.from_pretrained('joaomiranda27/distilbert-pt-cased-redacao-nota')

In [None]:
dados_redacoes['teste'].to_pandas()

Unnamed: 0,essay,score
0,O atual vírus que expandiu o Brasil está sendo...,7
1,"No século XIX, Positivismo defendia o uso do m...",8
2,A Qualificação qualificação e o futuro do empr...,4
3,O homem com uma arma nas mãos é um bicho feroz...,7
4,"Durante o período da Guerra Fria, ocorreu o ma...",7
...,...,...
909,"Com o início da era digital, a capacidade de t...",6
910,"O feminicídio é o assassinato de uma mulher, a...",4
911,Foram vrias as conquistas que as mulheres bras...,5
912,Segundo o psicoterapeuta Ivan Carpelatto: “a v...,9


In [None]:
textos = [dados_redacoes['teste']['essay'][2],
          dados_redacoes['teste']['essay'][909]]

In [None]:
import numpy as np

In [None]:
textos_tokenizados = tokenizador(textos, return_tensors = 'np', padding = 'longest')

In [None]:
resultados = modelo(textos_tokenizados).logits
resultados

<tf.Tensor: shape=(2, 11), dtype=float32, numpy=
array([[-0.7013803 , -1.517425  , -0.6545117 , -0.6658932 ,  1.5844313 ,
         1.5811318 ,  1.3559291 ,  0.11009378, -0.10283059, -1.1452317 ,
        -1.4484564 ],
       [-1.2863702 , -2.227331  , -1.8260715 , -1.6185671 , -0.35812587,
         0.6221011 ,  2.098205  ,  1.8000288 ,  1.332548  ,  0.033755  ,
        -1.2579945 ]], dtype=float32)>

In [None]:
classificacao = np.argmax(resultados, axis = 1)
print(classificacao)

[4 6]


In [2]:
from transformers import pipeline

classificador = pipeline('text-classification', 'joaomiranda27/distilbert-pt-cased-redacao-nota', framework = 'tf')

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/901 [00:00<?, ?B/s]

tf_model.h5:   0%|          | 0.00/251M [00:00<?, ?B/s]

All model checkpoint layers were used when initializing TFDistilBertForSequenceClassification.

All the layers of TFDistilBertForSequenceClassification were initialized from the model checkpoint at joaomiranda27/distilbert-pt-cased-redacao-nota.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFDistilBertForSequenceClassification for predictions without further training.


tokenizer_config.json:   0%|          | 0.00/1.25k [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/162k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/554k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

In [None]:
classificador(textos)

[{'label': '4', 'score': 0.27185747027397156},
 {'label': '6', 'score': 0.360436350107193}]

### Construindo o aplicativo com gradio

Como última tarefa, vamos disponibilizar o modelo a partir de um aplicativo no gradio, permitindo a avaliação da nota da redação de forma prática e interativa.

In [3]:
import gradio as gr

In [4]:
def mostrar_resultado(texto):
    if len(texto) < 400:
        return 'O texto precisa ter no mínimo 400 caracteres'
    return int(classificador(texto)[0]['label']) * 100

In [5]:
app = gr.Interface(
    fn = mostrar_resultado,
    inputs = gr.Textbox(label = 'Digite o texto'),
    outputs = gr.Textbox(label = 'Nota da redação'),
    title = 'Insira um texto para receber uma nota entre 0 e 1000'
)

app.launch()

Setting queue=True in a Colab notebook requires sharing enabled. Setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
Running on public URL: https://06fa5671dc404a587c.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)




In [None]:
dados_redacoes['teste']['essay'][2]

'A Qualificação qualificação e o futuro do emprego estão cada vez mais preocupantes e eles são importantes para que nosso país saia dessa crise de desemprego, Cerca desemprego. Cerca de 12 milhões de pessoas atualmente estão desempregadas, por isso que o futuro é tão preocupante para alguns., Por tanto Portanto, é importante ressaltar que uma qualificação em alguma área e o ensino medio médio completo é essencial são essenciais para que a pessoa consiga um emprego, muitas emprego. Muitas vezes as empresas deixam de contratar o funcionário por conta de seu currículo não ter nenhuma qualificação., Atualmente a tecnologia é uma das ferramentas mais usadas, hoje em dia conseguimos fazer praticamente tudo com ela, porém o excesso dela pode ocasionar muitos problemas, um deles é a falta de emprego por conta de ser algo mais robotico e agil robótico e ágil., Infelizmente em outros países esse método já foi adotado nos mercados e industrias indústrias, substituindo o funcionário por algo mais 