<a href="https://colab.research.google.com/github/Gabrielasants7/NLP2/blob/main/NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pré-processamento de Texto com TensorFlow

Este notebook demonstra como realizar o pré-processamento de texto usando a biblioteca TensorFlow em Python, especificamente a camada `TextVectorization`. O objetivo é criar um vocabulário a partir de um conjunto de sentenças e associar cada palavra a um índice numérico.

*Esse projeto faz parte do curso Stanford University |
DeepLearning.AI Programa de cursos integrados Aprendizado de máquina
Aprendizado não supervisionado, recomendações, aprendizado por reforço*

## Como funciona

1. **Importar bibliotecas:** Importa as bibliotecas necessárias, incluindo `tensorflow` para funcionalidades de aprendizado de máquina e `IPython` para interação com o ambiente do notebook.

2. **Definir sentenças:** Define uma lista de sentenças de exemplo que serão usadas para construir o vocabulário. Essas sentenças são sobre filmes e séries.

3. **Criar a camada de vetorização:** Inicializa uma camada `TextVectorization` do TensorFlow. Essa camada é responsável por converter texto em vetores numéricos.

4. **Adaptar ao vocabulário:** A camada de vetorização é "adaptada" às sentenças de entrada usando o método `adapt()`. Isso significa que a camada analisa as sentenças e constrói um vocabulário com base nas palavras únicas encontradas.

5. **Obter o vocabulário:** O vocabulário é extraído da camada de vetorização usando o método `get_vocabulary()`. O argumento `include_special_tokens=False` garante que tokens especiais (como padding e unknown) não sejam incluídos no vocabulário.

6. **Imprimir o vocabulário:** O código itera pelo vocabulário e imprime cada palavra junto com seu índice numérico correspondente.


## Uso

Para executar este código, você precisa ter o TensorFlow instalado. Você pode instalá-lo usando `pip install tensorflow`.

1. Copie e cole o código em um notebook do Google Colab ou em um arquivo Python.
2. Execute o código.
3. O vocabulário será impresso no console, mostrando cada palavra e seu índice.


## Observações

- O vocabulário resultante é uma lista onde as palavras mais frequentes têm índices menores.
- Este código é um exemplo básico de pré-processamento de texto. Em aplicações reais, você pode precisar realizar etapas adicionais, como limpeza de texto, remoção de stop words e stemming/lemmatization.


## Próximos passos

Este código pode ser usado como base para construir modelos de aprendizado de máquina que trabalham com dados de texto. Por exemplo, você pode usar o vocabulário gerado para converter sentenças em vetores numéricos e usá-los como entrada para um modelo de classificação de texto.

In [None]:
#importando as bibliotecas
import tensorflow as tf


In [None]:
# definindo a lista de sentenças (frases) que serão usadas como entrada para o processo de vetorização
sentencas = [
    "Breaking Bad é uma das melhores séries de todos os tempos",
    "Adoro maratonar séries no fim de semana",
    "Qual seu filme favorito da Marvel?",
    "A atuação em O Poderoso Chefão é impecável",
    "Friends ainda é uma série muito divertida",
    "Game of Thrones teve um final controverso",
    "Já assistiu Stranger Things? É incrível!",
    "Os filmes de Christopher Nolan sempre têm roteiros complexos",
    "O suspense em Parasita foi muito bem construído",
    "A nova temporada de The Witcher foi muito aguardada pelos fãs"
]


#inicializndo a camada de vetorização


vectorize_layer = tf.keras.layers.TextVectorization()

#construção do vocabulário
#adapt é chamado com as sentenças como entrada. Esse método analisa as sentenças
# e constrói um vocabulário com base nas palavras encontradas nos dados fornecidos
vectorize_layer.adapt(sentencas)

#obtençõo do vocabulário

vocabulario = vectorize_layer.get_vocabulary(include_special_tokens=False)



O vocabulário resultante será uma lista onde as palavras usadas com mais frequência terão um índice mais baixo. Por padrão, ele também reservará índices para tokens especiais

In [None]:
# Printando o indice  token
for index, word in enumerate(vocabulario):
  print(index, word)

0 de
1 é
2 muito
3 uma
4 séries
5 os
6 o
7 foi
8 em
9 a
10 É
11 witcher
12 um
13 têm
14 todos
15 thrones
16 things
17 the
18 teve
19 tempos
20 temporada
21 série
22 suspense
23 stranger
24 seu
25 sempre
26 semana
27 roteiros
28 qual
29 poderoso
30 pelos
31 parasita
32 of
33 nova
34 nolan
35 no
36 melhores
37 marvel
38 maratonar
39 já
40 incrível
41 impecável
42 game
43 fãs
44 friends
45 final
46 fim
47 filmes
48 filme
49 favorito
50 divertida
51 das
52 da
53 controverso
54 construído
55 complexos
56 christopher
57 chefão
58 breaking
59 bem
60 bad
61 atuação
62 assistiu
63 ainda
64 aguardada
65 adoro
