
# <p align="center"><span style="color:green;">Processamento de Linguagem Natural (PLN)</span></p>      

> <p1><span style="color: rgba(144, 238, 144, 0.5); ">(Perspectiva de Aprendizado de Máquina)</span></p1>

### Pré-processamento de Texto  


👨🏻‍🏫 **Pré-processamento de Dados em Aprendizado de Máquina**

* O pré-processamento de dados é uma etapa crucial para qualquer algoritmo de Aprendizado de Máquina, e isso também se aplica aos algoritmos que lidam com dados textuais.

✍️ **O pré-processamento de texto é bem diferente do pré-processamento numérico. As tarefas de pré-processamento mais comuns para dados textuais incluem:**

* Transformar para letras minúsculas
* Lidar com números, pontuação e símbolos
* Divisão (splitting)
* Tokenização
* Remoção de "stopwords"
* Lematização


####  <span color="green">Limpeza básica com operações de string nativas do Python</span>

> <p1><span style="color: rgba(144, 238, 144, 0.5); ">Quando você tem um texto não estruturado, já pode limpá-lo com algumas operações de string embutidas no Python.</span></p1>

<p aling=">
==
Limpeza Basica com python
==
</p>


1. Armazenamento das frases em um contexto de Texto no python

In [None]:
texts = [
    '   Bonjour, comment ca va ?     ',
    '    Heyyyyy, how are you doing ?   ',
    '        Hallo, wie gehts ?     '
]
texts

- Limpando todos o espaços entre as palavras da frase ultilizando `strip`

In [None]:
[text.strip() for text in texts]

- Removendo caracteres do inicil e final de uma string

In [None]:
text = "abcd Who is abcd ? That's not a real name!!! abcd"
text

In [None]:
text.strip('bdac')

- Trabalhadando com Replace para substituir palavras

In [None]:
text = "I love koalas, koalas are the cutest animals on Earth."
text

In [None]:
text.replace("koala", "panda")

-  Trabalhando com split para remover um caracter

In [None]:
text = "linkin park / metallica /red hot chili peppers"

In [None]:
text.split("/")

- Trabalhando com Lower case para padronizar letras minusculas

In [None]:
text = "i LOVE football sO mUch. FOOTBALL is my passion. Who else loves fOOtBaLL ?"
text

In [None]:
text.lower()

- Trabalhando com Numeros identificando oque são digitos dentro de uma frase
  - Agrupamento de texto (text clustering)
  - Coleta de palavras-chave (keyphrases)

In [None]:
text = "i do not recommend this restaurant, we waited for so long, like 30 minutes, this is ridiculous"
text

In [None]:
cleaned_text = ''.join(char for char in text if not char.isdigit())
cleaned_text

- Pontuações e simbolos
    - A pontuação, como ".?!", e os símbolos, como "@#$", não são úteis para a modelagem de tópicos.  
    - A pontuação raramente é usada corretamente em plataformas de mídia social.  

>**Atenção:** você pode querer manter a pontuação e os símbolos se estiver realizando atribuição de autoria!


In [None]:
text = "I love bubble tea! OMG so #tasty @channel XOXO @$ ^_^ "
text

In [None]:
import string # "string" module is already installed with Python
string.punctuation

In [None]:
for punctuation in string.punctuation:
    text = text.replace(punctuation, '')

text

- Combo: strip + lowercase + números + pontuação/símbolos 
    1. `strip()` : Remove espaços em branco no início e no final das strings.
    2. `lower()` : Converte todo o texto para letras minúsculas.
    3. **Remover números**: Substitui ou elimina números usando expressões regulares.
    4. **Remover pontuação e símbolos**: Exclui caracteres como ".?!@#$" também com expressões regulares.

In [None]:
sentences = [
    "   I LOVE Pizza 999 @^_^",
    "  Le Wagon is amazing, take care - 666"
]

In [None]:
def basic_cleaning(sentence):
    sentence = sentence.lower()
    sentence = ''.join(char for char in sentence if not char.isdigit())

    for punctuation in string.punctuation:
        sentence = sentence.replace(punctuation, '')

    sentence = sentence.strip()

    return sentence

In [None]:
cleaned = [basic_cleaning(sentence) for sentence in sentences]
cleaned

-  Removendo Tags com RegEx  

In [None]:
import re

text = """<head><body>Hello Le Wagon!</body></head>"""
cleaned_text = re.sub('<[^<]+?>','', text)

print (cleaned_text)

In [None]:
import re

txt = '''
    This is a random text, authored by darkvador@gmail.com
    and batman@outlook.com, WOW!
'''

re.findall('[\w.+-]+@[\w-]+\.[\w.-]+', txt)

## Limpando com NLTK  


#### -- O Natural Language Toolkit (NLTK) é uma biblioteca de PLN que fornece ferramentas de pré-processamento e modelagem para dados textuais.

*  Documentação de instalação
*  Site oficial do NLTK

#### -- Tokenização  

A tokenização é basicamente dividir uma sentença, um parágrafo ou até mesmo um texto inteiro em pedaços menores, como palavras individuais chamadas tokens.  

"Natural Language Processing"  
→  
`["Natural", "Language", "Processing"]`

- nltk.tokenize

In [None]:
text = 'It is during our darkest moments that we must focus to see the light'

text

In [None]:
%pip install nltk

In [None]:
import nltk
from nltk.tokenize import word_tokenize

# Make sure the punkt package is properly downloaded and configured
nltk.download('punkt', quiet=False)

# Set NLTK to use a specific language model - try PY3 as it might be the Python 3 compatible version
nltk.data.path.append('/home/codespace/nltk_data')

# Explicitly try to use a specific model
text = 'It is during our darkest moments that we must focus to see the light'

# Alternative approach that doesn't rely on the punkt model
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
word_tokens = tokenizer.tokenize(text)
print(word_tokens)

### -- Stopwords

- **Stopwords** são palavras que são usadas tão frequentemente que não carregam muita informação, especialmente para modelagem de tópicos
- O **NLTK** possui um corpus integrado de stopwords em inglês que pode ser carregado e utilizado

In [None]:
import nltk

# Baixar o recurso de stopwords
nltk.download('stopwords')

# Agora tente carregar as stopwords
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))

# Exibir algumas stopwords
print(list(stop_words)[:10])

### -- Lemmatizing

![Screenshot of a comment on a GitHub issue showing an image, added in the Markdown, of an Octocat smiling and raising a tentacle.](image.webp)

- Olhe a seguinte frase

In [None]:
sentence = 'He was RUNNING and EATING at the same time =[. He has a bad habit of swimming after playing 3 hours in the Sun =/'
sentence

- Vamos aplicar os seguintes passos:

In [None]:
import re
import string
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords

# Baixar recursos necessários do NLTK
nltk.download('stopwords', download_dir='/home/codespace/nltk_data')
nltk.download('wordnet', download_dir='/home/codespace/nltk_data')
nltk.download('omw-1.4', download_dir='/home/codespace/nltk_data')  # Open Multilingual WordNet
nltk.data.path.append('/home/codespace/nltk_data')

def basic_cleaning(text):
    # Converter para minúsculas
    text = text.lower()
    
    # Remover pontuações
    text = text.translate(str.maketrans('', '', string.punctuation))
    
    # Remover números
    text = re.sub(r'\d+', '', text)
    
    # Remover espaços extras
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

def simple_tokenize(text):
    """
    Tokeniza um texto dividindo por espaços
    """
    return text.split()

def remove_stopwords(tokens):
    """
    Remove stopwords da lista de tokens
    """
    stop_words = set(stopwords.words('english'))
    return [word for word in tokens if word not in stop_words]

def lemmatize_tokens(tokens):
    """
    Lematiza uma lista de tokens usando WordNetLemmatizer do NLTK
    """
    lemmatizer = WordNetLemmatizer()
    return [lemmatizer.lemmatize(token) for token in tokens]

# Exemplo de uso
sentence = 'He was RUNNING and EATING at the same time =[. He has a bad habit of swimming after playing 3 hours in the Sun =/'

# Etapa 1: Limpeza básica
cleaned_sentence = basic_cleaning(sentence)
print("Após limpeza básica:", cleaned_sentence)

# Etapa 2: Tokenização simples
tokens = simple_tokenize(cleaned_sentence)
print("Após tokenização:", tokens)

# Etapa 3: Remoção de stopwords
filtered_tokens = remove_stopwords(tokens)
print("Após remoção de stopwords:", filtered_tokens)

# Etapa 4: Lematização
lemmatized_tokens = lemmatize_tokens(filtered_tokens)
print("Após lematização:", lemmatized_tokens)

## Exercicio


In [92]:
import re
import string
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords

# Baixar recursos necessários do NLTK
'''
nltk.download('stopwords', download_dir='/home/codespace/nltk_data')
nltk.download('wordnet', download_dir='/home/codespace/nltk_data')
nltk.download('omw-1.4', download_dir='/home/codespace/nltk_data')  # Open Multilingual WordNet
nltk.data.path.append('/home/codespace/nltk_data')
'''

def basic_cleaning(text):
    # Converter para minúsculas
    text = text.lower()
    
    # Remover pontuações
    text = text.translate(str.maketrans('', '', string.punctuation))
    
    # Remover números
    text = re.sub(r'\d+', '', text)
    
    # Remover espaços extras
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

def simple_tokenize(text):
    """
    Tokeniza um texto dividindo por espaços
    """
    return text.split()

def remove_stopwords(tokens):
    """
    Remove stopwords da lista de tokens
    """
    stop_words = set(stopwords.words('english'))
    return [word for word in tokens if word not in stop_words]

def lemmatize_tokens(tokens):
    """
    Lematiza uma lista de tokens usando WordNetLemmatizer do NLTK
    """
    lemmatizer = WordNetLemmatizer()
    return [lemmatizer.lemmatize(token) for token in tokens]

frases = [
    "The children were playing in the leaves yesterday.",
    "She studies computer science and is taking three courses.",
    "The wolves howled at the moon while mice scurried in the grass.",
    "He was driving faster than the cars around him.",
    "The chefs used sharp knives to prepare the tastiest dishes."
]
for i in frases:
    print("==============================================")
    
    frase_limpa = basic_cleaning(i)
    print ("frase limpa : " + frase_limpa)
    
    frase_token = simple_tokenize(frase_limpa)
    print ("Frase Token : " , frase_token)

    frase_sem_stop = remove_stopwords(frase_token)
    print ("Frase remove stop: " , frase_sem_stop)

    frase_lematizada = lemmatize_tokens(frase_sem_stop)
    print ("frase lematizada: " , frase_lematizada)

    print("==============================================\n")