### NLP : construcción de sistemas que hablen lo más parecido posible a los humanos

#### Aplicaciones: 
chatbots, reconocimiento entidades, análisis de sentimientos, clasificación textos...

Nuestro dataset de partida va a ser esta vez un corpus


https://en.wikipedia.org/wiki/ELIZA

#### Técnicas

1. Normalizar
2. Tokenizar
3. Lematizar /stemming
4. Eliminar stopwords
5. Conversión a números: Bag of words,word2vec, Tfidf...


#### Librerías python
NLTK
SPACY ...

### Pre procesado

In [20]:
# NORMALIZACIÓN - PRE PROCESADO

In [21]:
import pandas as pd

In [57]:
corpus = ['I did not like these products.',
          'THE PRODUCT does not work...', 
          'it is very EXPENSIVE $']

# Convierto el corpus en DataFrame

In [58]:
dataset = pd.DataFrame(corpus,columns =['corpus'])

In [59]:
dataset.head()

Unnamed: 0,corpus
0,I did not like these products.
1,THE PRODUCT does not work...
2,it is very EXPENSIVE $


In [60]:
import re
import nltk

# Normalizo el texto

Un ejemplo de la normalización de texto es convertirlo a minúscula, pero hay muchas maneras de hacer esto

In [61]:
## convertimos a minúsculas, codificación, preparación del dataset...

In [62]:
dataset_clean = dataset.corpus.str.lower()
dataset_clean.head()

0    i did not like these products.
1      the product does not work...
2            it is very expensive $
Name: corpus, dtype: object

In [63]:
dataset_clean

0    i did not like these products.
1      the product does not work...
2            it is very expensive $
Name: corpus, dtype: object

# Separar las frases en palabras

In [64]:
## TOKENIZACIÓN

Si no le meto nada dentro de split, por defecto utiliza el espacio

In [65]:
dataset_clean1 = dataset_clean.str.split()
dataset_clean1.head()

0    [i, did, not, like, these, products.]
1       [the, product, does, not, work...]
2             [it, is, very, expensive, $]
Name: corpus, dtype: object

# Librería NLTK

Tiene su propio takenización, pero hace lo mismo

In [66]:
from nltk.tokenize import word_tokenize
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\cx02202\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

# Eliminar los signos de puntuación

In [67]:
for i in range(len(dataset_clean)):
    dataset_clean[i] = word_tokenize(dataset_clean[i])  
    dataset_clean[i]= [word for word in dataset_clean[i] if word.isalpha()]

In [68]:
dataset_clean

0    [i, did, not, like, these, products]
1         [the, product, does, not, work]
2               [it, is, very, expensive]
Name: corpus, dtype: object

# Palabras que no aportan

In [69]:
## REMOVE STOPWORDS

In [70]:
nltk.download('stopwords')
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\cx02202\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Le digo en qué idioma está el idioma y él se encarga

In [71]:
stop_words = set(stopwords.words('english'))  

In [72]:
filtered_sentence = []
for i in range(len(dataset_clean)):
    filtered_sentence.append(' '.join([w for w in dataset_clean[i] if not w in stop_words]))

Hay que chequear esto, puede quitar palabras claves para la predicción

In [73]:
dataset_end = pd.DataFrame(filtered_sentence,columns = ['corpus'])

In [None]:
dataset_end

# Lematización - PorterStemmer

Convertir palabras similares a la raíz de la palabra. Como hablado, hablaré a hablar.

In [75]:
## LEMATIZACIÓN

In [76]:
dataset_end.iloc[0]

corpus    like products
Name: 0, dtype: object

In [77]:
from nltk.stem.porter import PorterStemmer

In [78]:
list_lema = []
for i in range(len(dataset_end)):
    ps = PorterStemmer()
    list_lema.append([ps.stem(word) for word in dataset_end.iloc[i]][0])

In [83]:
list_lema

['like product', 'product work', 'expens']

In [82]:
dataset_end

Unnamed: 0,corpus
0,like products
1,product work
2,expensive


In [80]:
list_lema

['like product', 'product work', 'expens']

In [81]:
dataset_end

Unnamed: 0,corpus
0,like products
1,product work
2,expensive


# CONVERSIÓN A VECTORES : BAG OF WORDS,TFIDF...

In [48]:
from sklearn.feature_extraction.text import CountVectorizer

 Mide con qué frecuencia aparece un término o frase dentro de un documento determinado, y lo compara con el número de documentos que mencionan ese  término dentro de una colección entera de documentos

saca una dimensión de 3 filas correspondientes a cada pablabra, los ordena alfabéticamente. Cada columna corresponde al True o False de si aparece la pabla que hemos metido o no 

In [49]:
cv = CountVectorizer(max_features = 1500)
X = cv.fit_transform(list_lema).toarray()

In [50]:
list_lema

['like product', 'product work', 'expens']

In [51]:
X

array([[0, 1, 1, 0],
       [0, 0, 1, 1],
       [1, 0, 0, 0]], dtype=int64)

In [52]:
print(cv.get_feature_names())

['expens', 'like', 'product', 'work']


In [53]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [54]:
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(list_lema)
print(vectorizer.get_feature_names())

['expens', 'like', 'product', 'work']


In [55]:
!conda install -c anaconda nltk

^C


In [56]:
!pip install nltk

^C
