# AMLO Exploratory Data Analysis

In [29]:
import re
import os
import pandas as pd


In [60]:
PATH = "C:/Users/fdmol/Desktop/AMLO-NLP/src/data/text_files/"
REGEX_PATTERNS = [
    r"copyright derechos reservados 2011-2020 - sitio oficial de andrés manuel lópez obrador",
    r"versión estenográfica de la conferencia de prensa matutina del presidente de méxico, andrés manuel lópez obrador – amlo \| \d+/\d+/\d+",
    r" descarga audio: \d+-\d+-\d+ audio conferencia de prensa presidente de méxico palacio nacional,",
]

STOPWORDS = [
    "el",
    "ella",
    "ellos",
    "ellas",
    "con",
    "contra",
    "como",
    "de",
    "por",
    "para",
    "a",
    "ante",
    "bajo",
    "cabe",
    "con",
    "contra",
    "de",
    "desde",
    "durante",
    "en",
    "entre",
    "hacia",
    "hasta",
    "mediante",
    "para",
    "por",
    "según",
    "sin",
    "so",
    "sobre",
    "tras",
    "versus",
    "vía",
    "y",
    "e",
    "ni",
    "o",
    "u",
    "pero",
    "aunque",
    "la",
    "las",
    "los",
    "lo",
    "un",
    "una",
    "unos",
    "unas",
    "al",
    "del",
    "lo",
    "le",
    "les",
    "me",
    "te",
    "se",
    "nos",
    "os",
    "les",
    "le",
    "me",
    "te",
    "se",
    "nos",
]


#### Defining classes and functions

In [62]:
class TextParser:
    REGEX_PATTERNS = REGEX_PATTERNS
    STOPWORDS = STOPWORDS

    def __init__(self, path):
        self.path = path

    def txt_to_list(self, filename):
        """
        Add each line of a text file to a list
        """

        file_path = os.path.join(self.path, filename)
        lines = []
        with open(file_path, "r", encoding="utf-8") as f:
            for line in f:
                line = line.strip().split()
                lines.append(line)

        return lines

    def file_to_string(self, filename):
        """
        Add each line of a text file to a string
        """
        text = ""
        file_path = os.path.join(self.path, filename)
        with open(file_path, "r", encoding="utf-8") as f:
            for line in f:
                text += line

        text = text.strip()
        text = text.lower()
        text = re.sub(r"\s+", " ", text)

        for pattern in self.REGEX_PATTERNS:
            text = re.sub(pattern, "", text)

        return text

    def remove_stopwords(self, text):
        """
        Removes predefined stopwords from a string
        """
        text = text.split()
        text = [word for word in text if word not in self.STOPWORDS]
        text = " ".join(text)
        return text


In [44]:
text_parser = TextParser(PATH)

text = text_parser.file_to_string("20181207.txt")
print(text)


 07 de diciembre de 2018 versión estenográfica conferencia de prensa del presidente de méxico, andrés manuel lópez obrador -presidente andrés manuel lópez obrador: buenos días. estamos terminando la reunión de seguridad y ahora informamos que está terminando esta semana. hemos estado de lunes a viernes con estas reuniones, para tratar el asunto que tanto importa, el de la seguridad pública. y lo vamos a seguir haciendo siempre de lunes a viernes, de seis de la mañana en adelante, de seis a siete en promedio. la reunión la presido y participa el secretario de la defensa, el secretario de marina, la secretaria de gobernación, el secretario de seguridad pública. también se está invitando al fiscal general, alejandro gertz, y diariamente estamos recibiendo la información, el reporte de lo acontecido en todo el país. les comentaba que poco a poco estamos ya acercándonos a un buen sistema informativo, a definir un buen sistema de información para contar con elementos, contar con la informaci

In [58]:
# Use TF-IDF to find the most important words in the text

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Create a TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()

# Apply the vectorizer
tfidf_matrix = tfidf_vectorizer.fit_transform([text])

# Print the result
scores = tfidf_matrix.toarray()[0]
words = tfidf_vectorizer.get_feature_names_out()

# Create a DataFrame with the result
df = pd.DataFrame({"Word": words, "Score": scores})
df.sort_values("Score", ascending=False, inplace=True)
print(df.head(10))


     Word     Score
309    de  0.558941
971   que  0.416275
666    la  0.326375
391    el  0.271653
1050   se  0.265790
690   los  0.189571
402    en  0.185662
433    es  0.127032
1211   va  0.115306
218   con  0.111397


In [61]:
df.to_csv("C:/Users/fdmol/Desktop/AMLO-NLP/src/data/word_scores.csv", index=False)