# Topic modeling

## Comparación entre Propuesta de Constitución y Constitución Vigente

### Librerías

In [1]:
import pandas as pd
import numpy as np

In [2]:
# for text preprocessing
import re
import spacy

from nltk.corpus import stopwords 
from nltk.stem.wordnet import WordNetLemmatizer
import string

# import vectorizers
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

In [3]:
# import LDA from sklearn
from sklearn.decomposition import LatentDirichletAllocation

In [4]:
import warnings
warnings.filterwarnings("ignore")

In [5]:
esp_stop = stopwords.words('spanish')
esp_stop = esp_stop + ['ser','tener','deber']

## Funciones

In [6]:
def delete_stopwords(text):
    """
    Función para eliminar stopwords del texto
    """
    doc = nlp(text)
    return ' '.join([word.text for word in doc if word.text not in esp_stop])

In [7]:
def cleaner(df, text):
    """
    Función para dejar las palabras en minúscula, eliminar números, puntuación, espacios y saltos de línea.
    """
    df[text] = df[text].str.lower()
    df[text] = df[text].apply(lambda x: re.sub("[0-9]", '', str(x)))
    df[text] = df[text].str.translate(str.maketrans(' ', ' ', string.punctuation))
    df[text] = df[text].str.replace('\n',' ')
    df[text] = df[text].str.replace('nº','')
    df[text] = df[text].str.replace('n°','')
    df[text] = df[text].str.replace('n º','')
    df[text] = df[text].str.replace('n °','')
    df[text] = df[text].str.replace('º','')
    df[text] = df[text].str.replace('°','')
    df[text] = df[text].str.strip()
    df[text] = df[text].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')  # Eliminación de acentos
    

In [8]:
def wordcloud(data):
    """
    Función para graficar un wordcloud
    """
    wc = WordCloud(background_color='white',width=800, height=400, max_words=200, colormap = 'plasma').generate_from_frequencies(data)
    plt.figure(figsize=(15, 10))
    plt.imshow(wc, interpolation='bilinear')
    plt.axis('off')
    plt.show()

### Importando textos ya digitalizados

In [9]:
df_propuesta = pd.read_csv('data/processed/constitucion_propuesta.csv')
df_propuesta.rename(columns = {'articulo':'nro_articulo'}, inplace = True)
df_propuesta['constitucion'] = 'Propuesta'
df_propuesta = df_propuesta[df_propuesta['capitulo']!='Convención Constitucional']

df_vigente = pd.read_csv('data/processed/constitucion_actual.csv')
df_vigente.drop(columns = 'id', inplace = True)
df_vigente['constitucion'] = 'Vigente'

df = pd.concat([df_vigente,df_propuesta])

df = df[['constitucion','capitulo', 'titulo_capitulo', 'nro_articulo', 'texto']]

In [10]:
df.reset_index(drop = True, inplace = True)

In [11]:
df.sample(3)

Unnamed: 0,constitucion,capitulo,titulo_capitulo,nro_articulo,texto
2426,Propuesta,Capítulo XI,Reforma y Reemplazo de la Constitución,Artículo 383,3. El referéndum se realizará en la forma qu...
145,Vigente,Capítulo III,DE LOS DERECHOS Y DEBERES CONSTITUCIONALES,Artículo 19,La ley contemplará los mecanismos que aseguren...
2218,Propuesta,Capítulo IX,Sistemas de Justicia,Artículo 307,- k) Dictar instrucciones relativas a la organ...


### Desarrollo

Basado en: https://github.com/sethns/Latent-Dirichlet-Allocation-LDA-/blob/main/Topic%20Modeling%20_%20Extracting%20Topics_%20Using%20Sklearn.ipynb

Definiendo nlp

In [12]:
nlp = spacy.load('es_core_news_sm')

Limpiando texto

In [13]:
cleaner(df, 'texto')

In [14]:
df['texto_clean'] = df['texto'].apply(lambda x: delete_stopwords(x))

In [15]:
df.sample()

Unnamed: 0,constitucion,capitulo,titulo_capitulo,nro_articulo,texto,texto_clean
2415,Propuesta,Capítulo X,Órganos Autónomos Constitucionales,Artículo 307,la corte constitucional solo podra acoger la i...,corte constitucional solo podra acoger inconst...


In [17]:
cv_vectorizer = CountVectorizer(ngram_range = (1,2))
cv_arr = cv_vectorizer.fit_transform(df['texto_clean'])

In [18]:
cv_arr

<2619x31536 sparse matrix of type '<class 'numpy.int64'>'
	with 81851 stored elements in Compressed Sparse Row format>

In [19]:
# Creating vocabulary array which will represent all the corpus 
vocab_cv = cv_vectorizer.get_feature_names()

# get the vocb list
vocab_cv[:10]

['abandono',
 'abandono deberes',
 'abastecer',
 'abastecer sectores',
 'abastecimiento',
 'abastecimiento comunidades',
 'abastecimiento poblacion',
 'abierta',
 'abierta manifiesta',
 'abiertamente']

### Implementando LDA

In [20]:
# Implementation of LDA:
    
# Create object for the LDA class 
# Inside this class LDA: define the components:
lda_model = LatentDirichletAllocation(n_components = 6, max_iter = 20, random_state = 20)

# fit transform on model on our count_vectorizer : running this will return our topics 
X_topics = lda_model.fit_transform(cv_arr)

# .components_ gives us our topic distribution 
topic_words = lda_model.components_



In [21]:
#  Define the number of Words that we want to print in every topic : n_top_words
n_top_words = 10

for i, topic_dist in enumerate(topic_words):
    
    # np.argsort to sorting an array or a list or the matrix acc to their values
    sorted_topic_dist = np.argsort(topic_dist)
    
    # Next, to view the actual words present in those indexes we can make the use of the vocab created earlier
    topic_words = np.array(vocab_cv)[sorted_topic_dist]
    
    # so using the sorted_topic_indexes we ar extracting the words from the vocabulary
    # obtaining topics + words
    # this topic_words variable contains the Topics  as well as the respective words present in those Topics
    topic_words = topic_words[:-n_top_words:-1]
    print ("Topic", str(i), topic_words)

Topic 0 ['ley' 'constitucion' 'derechos' 'podra' 'nacional' 'indigenas' 'publico'
 'derecho' 'caso']
Topic 1 ['articulo' 'ley' 'constitucional' 'constitucion' 'organica'
 'ley organica' 'organica constitucional' 'podra' 'republica']
Topic 2 ['ley' 'derecho' 'constitucion' 'podra' 'dentro' 'tribunal' 'nacional'
 'caso' 'dias']
Topic 3 ['ley' 'presidente' 'ejercicio' 'republica' 'constitucion'
 'presidente republica' 'diputados' 'cargo' 'derecho']
Topic 4 ['regional' 'ley' 'constitucion' 'podran' 'derechos' 'derecho' 'personas'
 'podra' 'republica']
Topic 5 ['ley' 'congreso' 'presidente' 'republica' 'diputados'
 'presidente republica' 'diputadas' 'diputadas diputados' 'camara']


Creando df de tópicos

In [22]:
df_topicos = pd.DataFrame(X_topics)
df_topicos.columns = ['Topic 0', 'Topic 1', 'Topic 2', 'Topic 3', 'Topic 4', 'Topic 5']

Agrando los tópicos al df original

In [23]:
df_con_topicos = pd.merge(df, df_topicos, left_index = True, right_index = True)

In [24]:
df_con_topicos['max_topic'] = X_topics.argmax(axis = 1)

In [25]:
df_con_topicos.sample(3)

Unnamed: 0,constitucion,capitulo,titulo_capitulo,nro_articulo,texto,texto_clean,Topic 0,Topic 1,Topic 2,Topic 3,Topic 4,Topic 5,max_topic
2416,Propuesta,Capítulo X,Órganos Autónomos Constitucionales,Artículo 307,declarada la inaplicabilidad de un precepto le...,declarada inaplicabilidad precepto legal podra...,0.007602,0.007596,0.007603,0.00761,0.961996,0.007592,4
1684,Propuesta,Capítulo VI,Estado Regional y Organización Territorial,Artículo 164,las entidades territoriales autonomas cuentan ...,entidades territoriales autonomas cuentan auto...,0.003485,0.003496,0.003488,0.003493,0.982541,0.003497,4
1279,Propuesta,Capítulo III,Naturaleza y Medioambiente,Artículo 144,e coordinar y elaborar un sistema unificado de...,coordinar elaborar sistema unificado informaci...,0.011985,0.011945,0.940186,0.011933,0.011958,0.011993,2


Cuanto aparece cada tópico en cada constitución?

In [32]:
temp = df_con_topicos[df_con_topicos['constitucion']=='Propuesta'].groupby(['constitucion','max_topic'])['texto'].count().reset_index()
temp['peso'] = temp['texto']/temp['texto'].sum()
temp

Unnamed: 0,constitucion,max_topic,texto,peso
0,Propuesta,0,222,0.125637
1,Propuesta,1,484,0.273911
2,Propuesta,2,231,0.13073
3,Propuesta,3,272,0.153933
4,Propuesta,4,259,0.146576
5,Propuesta,5,299,0.169213


In [33]:
temp = df_con_topicos[df_con_topicos['constitucion']!='Propuesta'].groupby(['constitucion','max_topic'])['texto'].count().reset_index()
temp['peso'] = temp['texto']/temp['texto'].sum()
temp

Unnamed: 0,constitucion,max_topic,texto,peso
0,Vigente,0,71,0.083333
1,Vigente,1,192,0.225352
2,Vigente,2,151,0.17723
3,Vigente,3,152,0.178404
4,Vigente,4,125,0.146714
5,Vigente,5,161,0.188967
