<h1 align="center">Zero-Shot Text Classification with Hugging Face</h1>

Data Scientist.: Dr.Eddy Giusepe Chirinos Isidro

<font color="orange">Este Script é sobre como detectar o sentimento do texto de forma não-supervisionada, usando o modelo de classificação de texto Hugging Face zero-shot.</font> (zero-shot Pipeline sentiment)


 Estava estudando como detectar o sentimento do texto de maneira não-supervisionada. Mais especificamente, tratava-se da extração de dados. Com base em alguns tópicos predefinidos, minha tarefa era automatizar a extração de informações de dados de texto. Enquanto fazia pesquisas e verificava as melhores maneiras de resolver esse problema, descobri que o `Hugging Face NLP` oferece suporte à `classificação de texto zero-shot`.


<font color="red">O que é classificação de texto zero-shot?</font> 

Confira este post — [Zero-Shot Learning in Modern NLP](https://joeddav.github.io/blog/2020/05/29/ZSL.html). Há uma [demonstração](https://huggingface.co/spaces/joeddav/zero-shot-demo) ao vivo da equipe Hugging Face, juntamente com um [notebook Colab](https://colab.research.google.com/drive/1jocViLorbwWIkTXKwxCOV9HLTaDDgCaw) de amostra . <font color="pink">Em palavras simples, o modelo zero-shot nos permite classificar os dados, que não foram usados ​​para construir um modelo.</font> O que quero dizer aqui - o modelo foi construído por outra pessoa, estamos usando-o para executar em nossos dados.



Achei que seria um exemplo útil, onde busco mensagens do `Twitter` e executo a classificação para agrupar as mensagens em tópicos. Isso pode ser usado como ponto de partida para casos de uso mais complexos.


<font color="orange">Estou usando a biblioteca `GetOldTweets3` para descartar mensagens do Twitter. A `classificação zero-shot` com Transformers é direta, eu estava seguindo o exemplo do Colab fornecido pelo Hugging Face.</font>

# Importamos as Bibliotecas

In [2]:
import GetOldTweets3 as got
import pandas as pd
from tqdm import tqdm
import matplotlib.pyplot as plt
%matplotlib inline

import seaborn as sns

from transformers import pipeline

  from .autonotebook import tqdm as notebook_tqdm
2023-03-10 00:07:05.507755: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 AVX512F AVX512_VNNI FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2023-03-10 00:07:05.727112: I tensorflow/core/util/port.cc:104] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2023-03-10 00:07:06.521738: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer.so.7'; dlerror: libnvinfer.so.7: cannot open shared object file: No such file or directory
2023-03-10 00:07:06.521811: W tensorflow/compiler/xla/s

<font color="orange">Instanciamos o classificador do Pipeline do Transformers:</font>

In [None]:
classifier = pipeline("zero-shot-classification")


Eu raspo 500 mensagens mais recentes do Twitter, com base em uma consulta predefinida – `“luta climática”`. Vamos buscar mensagens relacionadas à luta contra as mudanças climáticas no quadro de dados do Pandas e, em seguida, tentar dividi-las em tópicos usando a classificação zero-shot:

```
txt = 'climate fight'
max_recs = 500

tweets_df = text_query_to_df(txt, max_recs)
```

In [None]:
# Function that pulls tweets based on a general search query

# Parameters: (text query you want to search), (max number of most recent tweets to pull from)
def text_query_to_df(text_query, count):
    # Creation of query object
    tweetCriteria = got.manager.TweetCriteria().setQuerySearch(text_query)\
                                                .setMaxTweets(count).setLang('en')
    # Creation of list that contains all tweets
    tweets = got.manager.TweetManager.getTweets(tweetCriteria)

    # Creating list of chosen tweet data
    text_tweets = [[tweet.date, tweet.text] for tweet in tweets]

    # Creation of dataframe from tweets
    tweets_df = pd.DataFrame(text_tweets, columns = ['Datetime', 'Text'])

    return tweets_df

# Input search query to scrape tweets and name csv file
# Max recent tweets pulls x amount of most recent tweets from that user
txt = 'climate fight'
max_recs = 500

# Calling function to query X amount of relevant tweets and create a CSV file
tweets_df = text_query_to_df(txt, max_recs)