## TFM: versión LDA  

En esta versión del documento, vamos a tratar de analizar los tweets de la RAE de manera cuantitativa y clasificativa haciendo uso de la herramienta LDA y la librería **PANDAS**  

### Loading data
---
Primero debemos importar los tweets de un documento *excel* o *csv*:
``` python 

    # Importing modules
    import pandas as pd
    import os
    
    # Read data into papers
    papers = pd.read_csv('../../tweets.csv') #ruta
    
    # Print head
    papers.head()

    ```

In [9]:
#poner código válido aquí:
#importar pandas
import pandas as pd 



### Data cleaning
---
El siguiente paso es limpiar los datos. Eliminaremos las columnas que no nos interesan del documento cargado. Además, se imprimirá la primera fila del documento como título de las otras:
``` python

    # Remove the columns
    papers = papers.drop(columns=['id', 'event_type', 'pdf_name'], axis=1).sample(100)
    
    # Print out the first rows of papers
    papers.head()

    ```

In [15]:
#poner código válido aquí:

### Removing
---
En este apartado vamos a limpiar los signos de puntuación que no nos interesen. En este ejemplo se aprecia el borrado de **puntuación**, **mayúsculas** y la **primera fila** del la hoja de datos, pero se pueden añadir, por ejemplo, **_stopwords_**:
``` python

    # Load the regular expression library
    import re
    
    # Remove punctuation
    papers['paper_text_processed'] = \
    papers['paper_text'].map(lambda x: re.sub('[,\.!?]', '', x))
    
    # Convert the titles to lowercase
    papers['paper_text_processed'] = \
    papers['paper_text_processed'].map(lambda x: x.lower())
    
    # Print out the first rows of papers
    papers['paper_text_processed'].head()

    ```
    
    

In [16]:
#poner código válido aquí:

### Create the visual *cloud*
---
En este apartado vamos a crear una imagen visual que nos indique a través de su tamaño, cuales son las palabras que mas aparecen en nuestro corpus. Esto no tiene unicamente una función decorativa, sino que podemos :
``` python

    # Import the wordcloud library
    from wordcloud import WordCloud
    
    # Join the different processed titles together.
    long_string = ','.join(list(papers['paper_text_processed'].values))
    
    # Create a WordCloud object
    wordcloud = WordCloud(background_color="white", max_words=5000, contour_width=3, contour_color='steelblue')
    
    # Generate a word cloud
    wordcloud.generate(long_string)
    
    # Visualize the word cloud
    wordcloud.to_image()

    ```
    
<img src="cloud.jpg" width="50%" height="50%">


In [17]:
#poner código válido aquí:

### Prepare data for LDA
---
Hay que transformar los datos para que sirvan como input en un **modelo de entrenamiento LDA**. Se tokeniza y se eliminan las _stopwords_, si es que no se ha hecho antes:
``` python

    import gensim
    from gensim.utils import simple_preprocess
    import nltk
    nltk.download('stopwords')
    from nltk.corpus import stopwords
    
    stop_words = stopwords.words('english')
    stop_words.extend(['from', 'subject', 're', 'edu', 'use'])
    
    def sent_to_words(sentences):
        for sentence in sentences:
            # deacc=True removes punctuations
            yield(gensim.utils.simple_preprocess(str(sentence), deacc=True))
            
    def remove_stopwords(texts):
        return [[word for word in simple_preprocess(str(doc)) 
                 if word not in stop_words] for doc in texts]
    
    data = papers.paper_text_processed.values.tolist()
    data_words = list(sent_to_words(data))
    
    # remove stop words
    data_words = remove_stopwords(data_words)
    
    print(data_words[:1][0][:30])

    ```

In [18]:
#poner código válido aquí:

### Modelo de entrenamiento LDA
---
En esta parte indicamos a LDA en cuantas categorías se va a clasificar el corpus. En el siguiente ejemplo, vemos que son 10. Como resultado, obtendremos las diez categorias con las palabras que mayor número de apariciones tengan:
``` python

    from pprint import pprint
    
    # number of topics
    num_topics = 10
    
    # Build LDA model
    lda_model = gensim.models.LdaMulticore(corpus=corpus,
                                           id2word=id2word,
                                           num_topics=num_topics)
    
    # Print the Keyword in the 10 topics
    pprint(lda_model.print_topics())
    doc_lda = lda_model[corpus]
```

In [19]:
#poner código válido aquí:

### Gráficos
---
En esta seción obtenemos una representación gráfica de los datos:

In [20]:
#poner código válido aquí: