# Procesamiento del Lenguaje Natural, con Python

#### Ricardo Moya García, PhD



# Índice

#### Tema 1: Introducción


* ¿Qué es un Lenguaje?


* ¿Qué es el Procesamiento del Lenguaje Natural?


* Herramientas en Python para NLP:
    - NLTK
    - SpaCy
    - Gensim
    - Scikit
    - Keras


#### Tema 2: NLP - Conceptos y Preprocesamiento de texto


* Conceptos:

    - Corpus
    - Bag of Words (BoW)
    - Tokenización
    - N-Grammas
    - Stemming
    - Lematización
    - Stop-Words
    - Parts of Speech (PoS)
    - Named Entity Recognition (NER)


* Normalización de textos: Preprocesamiento


#### Tema 3: Analisis Automático de texto subjetivo (Clasificación de textos)


* Introducción: Clasificación de textos con Naive Bayes


* Clasificación de textos: Algoritmos de aprendizaje para la clasificación


* Clasificación de textos: Redes Neuronales

#### Tema 4: Topic Modeling (Clustering)


* LSI: Latent Semantic Index


* LDA: Latent Dirichlet Allocation


* Visialización: pyLDAvis



<hr>


# Tema 1: Introducción


## ¿Qué es un Lenguaje?


* Un Lenguajes es un conjunto potencialmente infinito de oraciones y sentencias de palabras construidas mediante reglas gramaticales, foneticas y de significación que rigen el propio lenguaje.


* Nos encontramos con 3 tipos de lenguajes:
<span></span><br><br>
    - ***Lenguaje Natural***: Lengua o idioma que nace espontáneamente de un grupo de hablantes por la necesidad de establecer comunicación verbal. Ejm: Ingles, Castellano, Frances, Italiano, etc.
<span></span><br><br>
    - ***Lenguaje Formal***: Lenguajes diseñados para un ámbito de aplicación concreto, que se definen de manera precisa y libre de ambigüedad. Ejm: Matemático, Lógico, Musical, Programación (C, Java, Python, R, Scala, etc.)
<span></span><br><br>
    - ***Lenguaje Artificial***: Lenguajes diseñados antes de ser usados por sus parlantes. Es una mezcla entre los lenguajes naturales y formales. Ejm: Klingon.



## ¿Qué es el Procesamiento del Lenjuaje Natural?


* El ***Procesamiento del Lenguaje Natural*** (NLP) es un campo que combina la ***Informática***, la ***Inteligencia Artificial*** y la ***Lingüística***; que tiene como objetivo, tratar la interacción entre los lenguajes humanos (lenguajes naturales) y los dispositivos informáticos.


* El NLP abarca los siguientes campos:
    - Recuperación de información
    - Extracción y categorización de información
    - Análisis automático de texto subjetivo (Análisis de sentimientos)
    - Traducción automática
    - Generación del lenguaje
    - Questions & Answering (Chatbots)


<img src="./imgs/000_nlp.png" style="width: 700px;"/>



## De la *Lingüística* al *Procesamiento del Lenguaje Natural*

### - Lingüística


* La ***lingüística*** es el estudio científico del lenguaje, incluyendo su gramática, semántica y fonética.


* En términos generales, un ***lingüista*** es cualquier persona que estudia un idioma.


### - Lingüística computacional


* La lingüística computacional es el estudio de la lingüística utilizando las herramientas de la informática. 


### - Procesamiento estadístico del lenguaje natural


* La lingüística computacional también se conoce con el nombre de Procesamiento del Lenguaje Natural, para reflejar el enfoque más ingenieril o empírico de los métodos estadísticos aplicados a la Lingüistica. 


* El dominio estadístico del campo, lleva a menudo a que el ***NLP*** sea descrito como ***Procesamiento Estadístico del Lenguaje Natural***, para distanciarse (en la definición) de los métodos clásicos de la lingüística computacional.


### - Procesamiento del Lenguaje natural


* Campo que combina la ***Informática***, la ***Inteligencia Artificial*** y la ***Lingüística***; que tiene como objetivo, tratar la interacción entre los lenguajes humanos (lenguajes naturales) y los dispositivos informáticos.


## Herramientas en Python para el NLP


* Aunque existen bastante librería en Python destinadas al Procesamiento del Lenguaje Natural o a resolver determinadas partes del NLP, mostramos a continuación una serie de librería que vamos a utilizar en este curso:
<span></span><br><br>
    - ***NLTK*** (https://www.nltk.org/): Es una librería desarrollada por Steven Bird y Edward Loper para el NLP (principalmente en Inglés) que incorpora muchas funcionalidades como, corpus, recursos léxicos, algoritmos de aprendizaje para el NLP, etc.
<span></span><br><br>
    - ***SpaCy*** (https://spacy.io/): Es una librería para el NLP incorpora funcionalidades como Tokenización, Lematización, PoS, NER, etc. en varios idiomas. A diferencia de NLTK que tienen fines de caracter didáctico, SpaCy esta pensado para explotarlo en entornos productivos.
<span></span><br><br>
    - ***Gensim*** (https://radimrehurek.com/gensim): Es una librería desarrollada por el Checo Radim Řehůřek, Ph.D, que tiene implementadas; entre otras cosas, algoritmos como el LSI y el LDA para la detección de tópicos (Topic Modeling)
<span></span><br><br>
    - ***Scikit*** (https://scikit-learn.org/): Es una librería que tiene implementada multitud de algoritmos de aprendizaje (regresión, clasificación, cluterización, reducción de la dimensionalidad) y funcionalidades para trabajar con estos algoritmos.
<span></span><br><br>
    - ***Keras*** (https://keras.io/): Es una librería desarrollada por François Chollet (ingeniero de Google) que en esencia es un wrapper sobre TensorFlow, Theano y CNTK para trabajar con Redes Neuronales (MLP, CNN, RNN). 
    

* A continuación se muestra un análisis con los Pros y los Contras de estas librerías (a excepción de Keras):

<img src="./imgs/000_NLP_python.png" style="width: 700px;"/>