## NLP: Construcción de sistemas que hablen lo más parecido posble a los humanos

<b>Aplicaciones:</b>

chatbots, reconocimeinto entidadies, análisis de sentimientos, clasificación textos...

Nuestro dataset de partida a va a ser esta vez un corpus.

https://en.wikipedia.org/wiki/ELIZA

<b>Técnicas</b>

1. Normalizar
2. Tokenizar
3. Lematizar/stemming
4. Eliminar stopwords
5. Conversión a números: Bag of words, word2vscm Tfidf...

<b>Librerías Python</b>

NLTK SPACY...

<b>PRE PROCESAD</b> 

#### 1. NORMALIZACIÓN - PRE PROCESADO

Su objetivo es transformar el texto a una forma estándar y uniforme, para que los algoritmos lo entiendan mejor y no se confundan con variaciones superficiales.

In [62]:
import pandas as pd

In [63]:
corpus =['I did not like these products.',
        'THE PRODUCT does not work...',
        'it is very EXPENSIVE $']

In [64]:
dataset = pd.DataFrame(corpus,columns=['corpus'])

In [65]:
dataset.head()

Unnamed: 0,corpus
0,I did not like these products.
1,THE PRODUCT does not work...
2,it is very EXPENSIVE $


In [66]:
import re # sirve para buscar, validar y transformar texto con patrones
import nltk # Natural Language Toolkit, librería para Procesamiento de Lenguaje Natural (PLN)

In [67]:
# Convertimos a minúsculas, codificación, preparación del dataset...

In [68]:
dataset_clean = dataset['corpus'].str.lower() # Convertir el texto en minúsculas
dataset_clean.head()

0    i did not like these products.
1      the product does not work...
2            it is very expensive $
Name: corpus, dtype: object

In [69]:
dataset_clean

0    i did not like these products.
1      the product does not work...
2            it is very expensive $
Name: corpus, dtype: object

#### 2. TOKENIZACIÓN

Consiste en dividir un texto en unidades más pequeñas llamadas tokens.

In [70]:
dataset_clean1 = dataset_clean.str.split()
dataset_clean1.head()

0    [i, did, not, like, these, products.]
1       [the, product, does, not, work...]
2             [it, is, very, expensive, $]
Name: corpus, dtype: object

In [71]:
from nltk.tokenize import word_tokenize # librería para tokenizar
nltk.download('punkt_tab') # Tablas auxiliares (idiomas, abreviaturas, etc.) usadas por punkt en versiones nuevas de NLTK

[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\pauri\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [72]:
for i in range(len(dataset_clean)):
    dataset_clean[i] = word_tokenize(dataset_clean[i]) # aplicamos función word_tokenize
    dataset_clean[i] = [word for word in dataset_clean[i] if word.isalpha()] #isalpha para eliminar signos


In [73]:
dataset_clean.head()

0    [i, did, not, like, these, products]
1         [the, product, does, not, work]
2               [it, is, very, expensive]
Name: corpus, dtype: object

#### 4. REMOVE STOP WORDS

Eliminar las palabras sin significado

In [74]:
nltk.download('stopwords') # descarga el conjunto de stopw words 
from nltk.corpus import stopwords # importa el modulo stopwords 

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\pauri\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [75]:
stop_words = set(stopwords.words('english')) # podemos decirle que sean en español

In [76]:
filtered_sentence = [] # creamos una nueva lista
for i in range(len(dataset_clean)): # para el largo del dataset_clean aplicamos un bucle for
    filtered_sentence.append(' '.join([w for w in dataset_clean[i] if not w in stop_words])) # para la lista anteriormente cread, le añadimos un espacio y las palabras que no se encuentran en stopwords

In [77]:
filtered_sentence

['like products', 'product work', 'expensive']

In [78]:
dataset_end = pd.DataFrame(filtered_sentence, columns=['corpus'])

In [79]:
dataset_end.head()

Unnamed: 0,corpus
0,like products
1,product work
2,expensive


#### 3. LEMATIZACIÓN
Consiste en reducir una palabra a su forma base o “lema”, teniendo en cuenta su significado y función gramatical.

In [80]:
dataset_end.iloc[0]

corpus    like products
Name: 0, dtype: object

In [81]:
from nltk.stem.porter import PorterStemmer # El stemming recorta sufijos para llevar palabras a su raíz (no siempre una palabra real).

In [None]:
lista_lema = [] # creación de lista para realizar un append de las palabras en su raiz
for i in range(len(dataset_end)):
    ps = PorterStemmer() 
    lista_lema.append([ps.stem(word) for word in dataset_end.iloc[i]][0]) # bucle for para la variable y aplciamos el PorterStemmer()

In [83]:
dataset_clean

0    [i, did, not, like, these, products]
1         [the, product, does, not, work]
2               [it, is, very, expensive]
Name: corpus, dtype: object

In [84]:
lista_lema

['like product', 'product work', 'expens']

#### 5. Conversión a números(vectores): Bag of words, word2vscm Tfidf...

In [85]:
from sklearn.feature_extraction.text import CountVectorizer # Mide con qué frecuencia aparece un término o frase dentro de un documento determinado, y lo compara con el número de documentos que mencionan ese término dentro de una colección entera de documentos

In [86]:
cv = CountVectorizer(max_features =1500)
X = cv.fit_transform(lista_lema).toarray()

In [87]:
lista_lema

['like product', 'product work', 'expens']

In [None]:
X # se puede usar para entrenar

array([[0, 1, 1, 0],
       [0, 0, 1, 1],
       [1, 0, 0, 0]], dtype=int64)

In [None]:
cv.get_feature_names_out() # para ver a que corresponde cada una de las palabras (columnas) según cada una de las frases (filas) en la matriz 

array(['expens', 'like', 'product', 'work'], dtype=object)