<a href="https://colab.research.google.com/github/hebermudezg/Machine-Learning/blob/master/NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Text Mining with Python
---
El testo estan en todos lados, libros, noticias, foros, ... et

Aproximadamente el 80% de los datos son no estructurados, texto plano. 

* 40 millones de articulos en Wikipedia

* 4500 millones de paginas web.

* 500 millones de tweets al dia.

**Que podemos hacer con el texto?**

* Analizar gramaticalmente
* Buscar, Identificar y extraer información relevante del texto.
* Clasificación de texto
* Análisis de sentimientos

# NLP
---

El procesamiento del lenguaje natural (PNL) es una rama del aprendizaje automático que se ocupa del procesamiento, el análisis y, a veces, la generación del habla humana ("lenguaje natural").

Se usa en:

* chatbots 
* Anásis de sentimientos
* Asistetes de voz

SpaCy.
---
spaCy es una biblioteca de procesamiento de lenguaje natural de código abierto para Python. Está diseñado especialmente para uso en producción, y puede ayudarnos a crear aplicaciones que procesen volúmenes masivos de texto de manera eficiente



```
pip install spacy
```



In [0]:
text = """When hola learning ciencia de datosss, you shouldn't get discouraged!
Challenges and setbacks aren't failures, they're just part of the journey. You've got this!
  12344 #$%&/()=? #$%&/()=?  juan, calos, pedro, por hola  igual, da, general"""

# Limpieza, Procesamiento de texto
---


### Tokenización
---
La tokenización es el proceso de dividir el texto en pedazos, llamados tokens, el texto se puede dividir en palabras individuales y conjuntos de palabras como oraciones. 

In [0]:
# Cargando libreria
from spacy.lang.es import Spanish

In [20]:
# Cargando tokenizador
nlp = Spanish()

#  "nlp" crear documentos con anotaciones linguisticas
my_doc = nlp(text)

# creando lista vacia de tokens
token_list = []
for token in my_doc:
    token_list.append(token.text)
print(token_list)

['When', 'hola', 'learning', 'ciencia', 'de', 'datosss', ',', 'you', "shouldn't", 'get', 'discouraged', '!', '\n', 'Challenges', 'and', 'setbacks', "aren't", 'failures', ',', "they're", 'just', 'part', 'of', 'the', 'journey', '.', "You've", 'got', 'this', '!', '\n  ', '12344', '#', '$', '%', '&', '/()=', '?', '#', '$', '%', '&', '/()=', '?', ' ', 'juan', ',', 'calos', ',', 'pedro', ',', 'por', 'hola', ' ', 'igual', ',', 'da', ',', 'general']


### Tokenizacion por oraciones.
---

Al realizar la tokenización de oraciones, el tokenizador busca caracteres específicos que se encuentran entre oraciones, como puntos, signos de exclamación y caracteres de nueva línea.

In [29]:
# cargando tokenizador
nlp = Spanish()

# Crear el componente de canalización 'sentencizer'
sbd = nlp.create_pipe('sentencizer')

# Agregar el componente a la tubería
nlp.add_pipe(sbd)

#  "nlp" para crear documentos con anotaciones linguisticas
doc = nlp(text)

# creando lista de tokens(oraciones)
sents_list = []
for sent in doc.sents:
    sents_list.append(sent.text)
print(sents_list)

["When hola learning ciencia de datosss, you shouldn't get discouraged!", "\nChallenges and setbacks aren't failures, they're just part of the journey.", "You've got this!", '\n  12344 #$%&/()=? #', '$%&/()=?', ' juan, calos, pedro, por hola  igual, da, general']


### Eliminación de palabras vacías (Stopwords)
---

La mayoría de los datos de texto con los que trabajamos contendrán muchas palabras que en realidad no nos son útiles. Estas palabras, llamadas palabras vacías , son útiles en el habla humana, pero no tienen mucho que aportar al análisis de datos. (conjunciones, pronombres, etc)

In [30]:
# Importando palabras vacias en español
import spacy
spacy_stopwords = spacy.lang.es.stop_words.STOP_WORDS

#Printing the total number of stop words:
print('Número de palabras vacias: %d' % len(spacy_stopwords))

#Printing first ten stop words:
print('Primeras 10 palabras vacias: %s' % list(spacy_stopwords)[:10])

Número de palabras vacias: 551
Primeras 10 palabras vacias: ['igual', 'da', 'debido', 'debajo', 'ir', 'modo', 'encima', 'general', 'dijo', 'pasado']


In [31]:
from spacy.lang.es.stop_words import STOP_WORDS

# Lista de palabras filtradas
filtered_sent=[]

doc = nlp(text)

# filtrando palabras vacias. 
for word in doc:
    if word.is_stop==False:
        filtered_sent.append(word)
print("Filtrados:",filtered_sent)

Filtrados: [When, hola, learning, ciencia, datosss, ,, you, shouldn't, get, discouraged, !, 
, Challenges, and, setbacks, aren't, failures, ,, they're, just, part, of, the, journey, ., You've, got, this, !, 
  , 12344, #, $, %, &, /()=, ?, #, $, %, &, /()=, ?,  , juan, ,, calos, ,, pedro, ,, hola,  , ,, ,]


# Normalización de léxico
---

### Lematización
---

La lematización es una forma de lidiar con el hecho de que, aunque palabras como conecta , conectó , conectarian , etc. no son exactamente lo mismo, todas tienen el mismo significado esencial: conectar .

In [32]:
# Implementing lemmatization
lem = nlp("jugar jugaron jugarian jugamos correr correrían")
# finding lemma for each word
for word in lem:
    print(word.text,word.lemma_)

jugar jugar
jugaron jugar
jugarian jugarian
jugamos jugar
correr correr
correrían correr


In [33]:
nlp

<spacy.lang.es.Spanish at 0x7f9935330240>