# Modelado de lenguaje --> Language Modeling

## ¿Qué es?

En esta parte veremos una de las tareas más complejas de NLP. La generación de texto. Es decir, si queremos tener un asistente virtual, pero no queremos programarle las respuestas, ¿Qué opciones tenemos? Una de ellas es Language Modeling. De todas formas esto último aún no ha funcionado bien nunca, así que vamos a lo que sí ha funcionado? El algoritmo que predice o os sugiere la siguiente palabra en vuestro teclado? Language Modeling. ¿Os acordáis cuándo aplicamos la distancia de edición en palabras? ¿Que pasa si queremos aplicar distancias de edición pero las sugerencias de la edición estan a la misma distáncia? Podríamos aplicar Language Modeling y ver cuál es la mejor opción. 

Técnicamente, el modelado de lenguaje es una distribución de probabilidades sobre secuencias de palabras. Que significa esto?

![](https://i.imgur.com/OWHNbj9.jpg)

![](https://i.imgur.com/V9jXP6J.jpg)

## Como lo hacemos?
Es decir, es una manera de asignar una probabilidad a auna frase o texto. Como lo hacemos? Con Bayes. Tenemos los conteos hechos de bayes, solo hay que aplicar la asumpción de independéncia.

### Dependencia 
![](https://i.imgur.com/3ARmOZr.jpg)

### Independencia
![](https://i.imgur.com/JBn2GhN.jpg)

#### bayes! 
### BAYES! 
## BAYES!

Contamos! --> asignamos probabilidades a que ocurran los n-grams que decidamos usar... y ya casi lo tenemos listo para su uso!


### Ejemplos de uso:

Ejemplo:

![](https://i.imgur.com/IlxTT9P.jpg)

Otro ejemplo.

![](https://i.imgur.com/T2ZUr6y.jpg)

## Imports


In [0]:
!pip install spacy

In [0]:
!python -m spacy download en_core_web_sm

Collecting https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.0.0/en_core_web_sm-2.0.0.tar.gz
[?25l  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.0.0/en_core_web_sm-2.0.0.tar.gz (37.4MB)
[K    100% |████████████████████████████████| 37.4MB 45.5MB/s 
[?25hInstalling collected packages: en-core-web-sm
  Running setup.py install for en-core-web-sm ... [?25l- \ | done
[?25hSuccessfully installed en-core-web-sm-2.0.0

[93m    Linking successful[0m
    /usr/local/lib/python3.6/dist-packages/en_core_web_sm -->
    /usr/local/lib/python3.6/dist-packages/spacy/data/en_core_web_sm

    You can now load the model via spacy.load('en_core_web_sm')



In [0]:
import spacy

nlp = spacy.load('en_core_web_sm')

In [0]:
doc = nlp('this is a test of a text processed')

In [0]:
[(t.text, t.pos_, t.dep_) for t in doc]

[('this', 'DET', 'nsubj'),
 ('is', 'VERB', 'ROOT'),
 ('a', 'DET', 'det'),
 ('test', 'NOUN', 'attr'),
 ('of', 'ADP', 'prep'),
 ('a', 'DET', 'det'),
 ('text', 'NOUN', 'pobj'),
 ('processed', 'VERB', 'acl')]

## Preprocesado de texto

In [0]:
corpus =[
    'this is an apple', 'this is a document', 'we are in a Keepcoding course',
    'we are teaching a language model', 'the corpus will be super small',
    'this is also a test', 'we will see what we can do', 'this is an orange',
    'apples are not oranges', 'apples and oranges are fruits',
    'fruits are not vegatables', 'this is Sparta', 'is an orange a fruit'
        ]

## Preparación del modelo

[('this', 5), ('is', 6), ('an', 3), ('apple', 1), ('a', 5)]

[('this is', 5), ('is an', 3), ('an apple', 1), ('is a', 1), ('a document', 1)]

Compute the probability of a sentence? Yes We Can!

Pero lo haremos en log space! Nada de multiplicar, porque cuando estemos trabajando con probabilidades muy pequenas y encima las estemos multiplicando, tendremos un problema de "underflow".

¿Qué acaba de pasar?

Ver P(x) = 0

## Smoothing - Laplace

En todos estos modelos, siempre hay que tener en cuenta, que pasa con todas esas palabras/tokens que no hemos visto en el entreno.

Que podemos hacer? Una solución muy simple se llama Laplace smoothing o add-one smoothing. Consiste en añadir +1 a todos los conteos, y así, hacemos ver que todas esas palabras que no hemos visto nunca, por lo menos han sido "vistas" una vez en nuestro train set.

No es ni mucho menos la mejor de las opciones, el más usado es [Kneser-Ney](http://www.foldl.me/2014/kneser-ney-smoothing/), os dejo el link aquí. No lo implementaremos, pero este tutorial contiene información muy valiosa, e intuiciones muy válidas.

# ¿Cómo evaluamos un sistema de LM?

Normalmente usaríamos medidas cómo las que ya habéis visto: accuracy, precision, recall, F-1... En LM, no usamos ninguna de ellas. Usamos una medida que se llama perplexity. Perplejidad.

Una analogía muy buena que he leído últimamente es la siguiente. Cuándo nace un bebé, la perplejidad es muy alta, porque no tenemos ni idea de lo que va a decir (es un modelo sin entrenar). Cuando el bebé empieza a crecer, y a aprender sus primeras palabras y frases, la perplejidad va disminuyendo poco a poco, porque cada vez es más predecible saber que va a decir. Hasta que llega un momento, que os sorprende muy poco la estructura de sus frases porque ya ha aprendido un modelo de lenguaje muy particular. Este modelo no tiene que ser un castellano perfecto, o un inglés perfecto, es el lenguaje que habla en su día a día, en su casa, en el colegio, o donde sea que aprenda, justo igual que nuestros modelos. Si aprenden de un lenguaje muy coloquial, no podemos esperar que generen frases muy formales y viceversa. Pues esto es la perplejidad.

No entraremos en detalles de cómo se llego aquí, pero para que os hagáis una idea, viene de Claude Shannon y su teoría de la información. Lo que viene a decirnos es, como podemos guardar el máximo de información en los menores bits, es decir, quan bien somos capaces de predecir la siguiente palabra, y optimizar un modelo acorde a ello.

La fórmula de perplexity que implementaremos es la siguiente:

<div align="center">
![](https://i.imgur.com/0WwyBbc.png)
</div>




## Generar frases!