# Data Cleaning

## Introduction

This notebook goes through the steps taken with the data collected in order to get cleaned organized data in two standard text formats. The notebook will contain the nexts steps.

1. **Cleaning the data -** I will use text pre-procesing techniques to get the dta into shape.
2. **Organizing the data -** I'l organize the data into a way that is easy to input into other algoithms

The output of this notebook will be clean, organized data in two standard text formats:

1. **Corpus** - a collection of texts
2. **Document-Term Matrix** - words counts in matrix format

### Problem Statement

My goal is to look look a the latest headlines of the main newspapers in Perú and note simmilarities and differences.

In [1]:
import emoji
import json
import numpy as np
import os
import pandas as pd
import plotly.express as px
import plotly.io as pio
import re
import string
import spacy

from collections import Counter
from dotenv import load_dotenv
from itertools import product
from num2words import num2words

Since most of the data we are dealing with is text data, I'm goig to be using some common text pre-processing techniques.

For that I'm going to follow the MVP __(Minimum Viable Product)__ approach. For that the main resource I'll be using is a talk from PyOhio by [Alice Zhao](https://github.com/adashofdata/nlp-in-python-tutorial/blob/master/1-Data-Cleaning.ipynb). The cleaning steps I'll be taking are.

**Removing tweets that are outside of the scope**

* Tweets corresponding to the cover page announcement
* Tweets corresponding to caricature of the day
* Tweets corresponding to the horoscope
* ...

**Common data cleaning steps on all text:**

* Make text all lowercase
* Remove punctuation
* Remove numerical values
* Remove common non.sensical text (\n)
* Tokenize text
* Remove stop words

**More data cleaning steps after tokenization:**

* Stemming/lemmatization
* Parts of speech tagging
* Create bi-grams or tri-grams
* Deal with typos

In [2]:
load_dotenv()

BASE_DIR = os.environ.get("BASE_DIR")
BEARER_TOKEN = os.environ.get("BEARER_TOKEN")

In [3]:
pd.set_option("display.max_colwidth", 300)
pd.set_option("display.max_rows", 25)
pd.set_option("display.precision", 2)
pd.set_option("display.float_format",  "{:,.2f}".format)

pio.templates.default = "plotly_white"
pio.kaleido.scope.default_scale = 2

gruvbox_colors = ["#458588", "#FABD2F", "#B8BB26", "#CC241D", "#B16286", "#8EC07C", "#FE8019"]

## Data Loading

In [4]:
TIME_STAMPS = [(2022, 35), (2022, 40), (2022, 45), (2022, 50), (2023, 3)]

In [5]:
with open(f'{BASE_DIR}/data/raw/newspapers_id.json', 'r') as read_file:
    newspapers_id = json.load(read_file)

In [6]:
newspaper_df_list = []

for newspaper, (year, week) in product(newspapers_id, TIME_STAMPS):

    with open(f'{BASE_DIR}/data/raw/{year}w{week}_data_{newspaper}.json', 'r') as read_file:
        json_file = json.load(read_file)

    json_data = json_file["data"]

    newspaper_df = pd.json_normalize(json_data)
    newspaper_df["newspaper"] = newspaper

    newspaper_df_list.append(newspaper_df)

In [7]:
data_raw = pd.concat(newspaper_df_list)

In [8]:
data_raw["created_at"] = pd.to_datetime(data_raw["created_at"], infer_datetime_format=True)

In [9]:
data_raw.columns = data_raw.columns.str.removeprefix("public_metrics.")

In [10]:
data_raw.head()

Unnamed: 0,created_at,possibly_sensitive,id,text,retweet_count,reply_count,like_count,quote_count,referenced_tweets,newspaper,edit_history_tweet_ids,impression_count
0,2022-08-28 23:57:24+00:00,False,1564039479391838209,Venezuela y Colombia retoman relaciones diplomáticas rotas hace tres años https://t.co/L6uVA6LcEE,0,0,6,1,,elcomercio_peru,,
1,2022-08-28 23:49:59+00:00,False,1564037610393280512,“Me dijeron que estaba llevando vergüenza a la universidad”: la profesora obligada a renunciar por postear fotos en bikini https://t.co/zAe98GI7W2,0,0,5,1,,elcomercio_peru,,
2,2022-08-28 23:29:00+00:00,False,1564032331706470401,AMLO afirma que familias ya aceptaron plan de rescate de 10 mineros https://t.co/dG3VJXWgNa,0,0,2,0,,elcomercio_peru,,
3,2022-08-28 23:14:11+00:00,False,1564028601053347843,Zelensky: los ocupantes rusos sentirán las consecuencias de “futuras acciones” https://t.co/mNJTLz0SS7,6,7,18,1,,elcomercio_peru,,
4,2022-08-28 23:09:07+00:00,False,1564027328157683713,Essalud: realizan con éxito operativo de donación de órganos para salvar vida de siete pacientes en espera https://t.co/3sDo7q9Nuu,1,0,11,0,,elcomercio_peru,,


In [11]:
data_raw.tail()

Unnamed: 0,created_at,possibly_sensitive,id,text,retweet_count,reply_count,like_count,quote_count,referenced_tweets,newspaper,edit_history_tweet_ids,impression_count
19,2023-01-10 02:37:07+00:00,False,1612639646231527424,"""Se va Tomás Unger, magnífico divulgador científico. Se jubila a los 92 años y lúcido. Yo nunca dejé de leerlo y le agradezco por todos estos años de información, de historias"". #Hildebrandt ahora en su podcast de https://t.co/ofhuiX1sZu https://t.co/UrlOl4SUVd",25,9,226,3,,ensustrece,[1612639646231527424],16189.0
20,2023-01-10 02:33:51+00:00,False,1612638821660721155,"""@peru21noticias está quebrado, es un diario inviable. Entonces, Cecilia Valenzuela, Alfredo Torres y la hermana de Gilberto Hume están haciendo una bolsa para comprarlo. Necesitan un chaleco ilustrado de la derecha. Necesitan un diario combativo y doctrinario"". #Hildebrandt https://t.co/7Xnmt3DAwO",158,29,448,10,,ensustrece,[1612638821660721155],29084.0
21,2023-01-10 02:09:05+00:00,False,1612632590606794756,"""Señora Boluarte: si usted ha decidido no gobernar, renuncie. Usted espera, espera, espera, no sé qué espera y luego autoriza la bala"". #Hildebrandt ahora en https://t.co/ofhuiX1sZu https://t.co/xamhBxUpTI",1350,288,3774,46,,ensustrece,[1612632590606794756],159409.0
22,2023-01-10 02:04:37+00:00,False,1612631466286133248,"""Los peruanos no escarmentamos, no aprendemos, siempre nos creemos por encima de todo. Van 40 muertos, señora @DinaErcilia. El gobierno no dialoga, no hace política y cuando la derecha le dice que está siendo pasivo, pide más muertos. El gobierno no dialoga, balea"". #Hildebrandt https://t.co/4VU...",1036,310,2365,41,,ensustrece,[1612631466286133248],85233.0
23,2023-01-09 20:52:45+00:00,False,1612552984340078610,"Hoy regresa el podcast de César #Hildebrandt. Va cada lunes a la 9 p.m. en https://t.co/ofhuiX1sZu. No se requiere suscripción ni pago alguno para ver la transmisión EN VIVO; para acceder al archivo de vídeos pasados, sí. https://t.co/VHjWhcGSY0",95,34,438,3,,ensustrece,[1612552984340078610],29116.0


In [12]:
data_raw.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 51235 entries, 0 to 23
Data columns (total 12 columns):
 #   Column                  Non-Null Count  Dtype              
---  ------                  --------------  -----              
 0   created_at              51235 non-null  datetime64[ns, UTC]
 1   possibly_sensitive      51235 non-null  bool               
 2   id                      51235 non-null  object             
 3   text                    51235 non-null  object             
 4   retweet_count           51235 non-null  int64              
 5   reply_count             51235 non-null  int64              
 6   like_count              51235 non-null  int64              
 7   quote_count             51235 non-null  int64              
 8   referenced_tweets       5091 non-null   object             
 9   newspaper               51235 non-null  object             
 10  edit_history_tweet_ids  34073 non-null  object             
 11  impression_count        7352 non-null   floa

In [13]:
data_raw["hour_posted"] = data_raw["created_at"].dt.time

In [14]:
data_raw.reset_index().to_feather(f"{BASE_DIR}/data/interim/data_raw-{TIME_STAMPS[0]}-{TIME_STAMPS[-1]}.feather")

## First look on data

From the first looks, as well a the look on the head and tail I get to see how many of the variables are categorical and how many are numerical. Also, I only found missing values in the referenced tweets field. So, first for the numerical value I'm going to take a look of some metrics before the EDA.

**Numerical variables:**

1. `created_at`: Timestamp of the tweet
2. `retweet_count`: Number of times a tweet was retweeted
3. `like_count`: Number of likes a tweet has
4. `quote_count`: Number of times a tweet was quoted

**Categorical variables**

1. `id`: Unique identifier of tweet
2. `positively_sensitive`: Boolean variable of whether a tweet might contain sensitive information
3. `text`: Actual text of the tweet
4. `referenced_tweet`: Whether this tweet is a retweet or a quoted tweet
5. `newspaper`: Twitter handle if the newspaper the tweet belongs to

In [15]:
fig = px.histogram(
    data_raw,
    x="created_at",
    color_discrete_sequence=gruvbox_colors,
    facet_row="newspaper",
    title="Number of tweets per newspaper",
    height=1600,
    width=1000
)

fig.update_traces(xbins_size="D1")
fig.for_each_annotation(lambda a: a.update(text=f"@{a.text.split('=')[-1]}"))

fig.show()

# fig.write_image(f"{BASE_DIR}/reports/figures/1-histogram-tweeets-per-newspaper-{TIME_STAMPS[0]}-{TIME_STAMPS[-1]}.jpg")

In [16]:
fig = px.scatter(
    data_raw,
    x="created_at",
    y="hour_posted",
    color_discrete_sequence=gruvbox_colors,
    facet_row="newspaper",
    title="Number of tweets per newspaper",
    height=1600,
    width=1000
)

# fig.update_traces(xbins_size="D1")
fig.for_each_annotation(lambda a: a.update(text=f"@{a.text.split('=')[-1]}"))
fig.update_traces(marker_size=2)

fig.show()

# fig.write_image(f"{BASE_DIR}/reports/figures/1-scatter-tweeets-per-newspaper-{TIME_STAMPS[0]}-{TIME_STAMPS[-1]}.jpg")

In [17]:
data_stats = pd.DataFrame()

data_stats["raw_tweet_count"] = data_raw["newspaper"].value_counts()

data_stats = data_stats.merge(data_raw.loc[data_raw["referenced_tweets"].notna(), "newspaper"].value_counts(), how="left", left_index=True, right_index=True)
data_stats.rename(columns={"newspaper": "raw_referenced_tweet_count"}, inplace=True)

data_stats = data_stats.merge(data_raw.loc[data_raw["possibly_sensitive"] == True, "newspaper"].value_counts(), how="left", left_index=True, right_index=True)
data_stats.rename(columns={"newspaper": "raw_possibly_sensitive_count"}, inplace=True)

data_stats = data_stats.merge(data_raw.groupby("newspaper").sum(numeric_only=True).drop("possibly_sensitive", axis=1), how="left", left_index=True, right_index=True)
data_stats.rename(columns={"retweet_count": "raw_retweet_count", "reply_count": "raw_reply_count", "like_count": "raw_like_count", "quote_count": "raw_quote_count"}, inplace=True)

In [18]:
data_raw[data_raw["possibly_sensitive"] == True]

Unnamed: 0,created_at,possibly_sensitive,id,text,retweet_count,reply_count,like_count,quote_count,referenced_tweets,newspaper,edit_history_tweet_ids,impression_count,hour_posted
108,2022-10-02 03:09:17+00:00,True,1576408955529707521,Bebé recién nacido fue encontrado en la basura al sur de Bogotá https://t.co/WJCnELvkR0,4,1,12,0,,elcomercio_peru,[1576408955529707521],,03:09:17
98,2022-11-05 19:01:18+00:00,True,1588969725387751430,Campaña de vasectomía gratuita: ¿la ligadura de trompas está disponible todo el año? https://t.co/LImvmUT2JE,0,1,1,0,,elcomercio_peru,[1588969725387751430],,19:01:18
114,2023-01-14 18:34:06+00:00,True,1614330031181905926,Miraflores: lobo marino queda varado en playa Punta Roquitas https://t.co/PuQnEIQZw7,1,1,3,1,,elcomercio_peru,[1614330031181905926],2074.0,18:34:06
439,2022-11-04 17:41:08+00:00,True,1588587161699352577,Vasectomía gratis del 14 al 18 de noviembre en hospitales de Lima: ¿Cómo se realiza la intervención? https://t.co/3Bc9h9e20O,6,1,2,2,,peru21noticias,[1588587161699352577],,17:41:08
100,2023-01-14 20:02:19+00:00,True,1614352230651465731,¡Necesita ayuda! Lobo marino quedó varado en playa Punta Roquitas de Miraflores https://t.co/mJQv2XsPGB,3,0,12,0,,peru21noticias,[1614352230651465731],1590.0,20:02:19
426,2022-09-30 18:31:32+00:00,True,1575916269525778442,Yahaira Plasencia sufrió incidente en Iquitos: le jalonearon el cabello antes de subir al escenario https://t.co/k1rbS4PGwr,1,0,3,0,,tromepe,[1575916269525778442],,18:31:32
742,2022-12-05 21:35:28+00:00,True,1599880158810365977,Aumentan a 40 las niñas entre 11 a 14 años que ya se convirtieron en madres en la región Ica https://t.co/cP9HBb7Bkd,1,5,4,0,,diariocorreo,[1599880158810365977],,21:35:28
249,2022-11-04 17:16:09+00:00,True,1588580874186104832,Vasectomía gratis del 14 al 18 de noviembre en Lima: ¿afecta el deseo sexual? todo sobre este procedimiento para varones https://t.co/DQ9x0n7HBe,1,0,2,0,,diarioojo,[1588580874186104832],,17:16:09
71,2022-12-11 14:05:39+00:00,True,1601941285023129602,Comer para vivir: Cómo reducir la preferencia por lo dulce https://t.co/4ru7CmiKhR,0,0,2,0,,diarioojo,[1601941285023129602],,14:05:39
111,2023-01-11 19:57:50+00:00,True,1613263940049330176,#Juliaca | Recogen restos de bombas lacrimógenas y munición que usó la policía contra manifestantes en el lugar donde recibieron los féretros de los fallecidos en protestas. https://t.co/sBEPFGD5ss,22,3,33,0,,elbuho_pe,[1613263940049330176],1180.0,19:57:50


In [17]:
data_stats["raw_reference_to_tweets_ratio"] = data_stats["raw_referenced_tweet_count"]/data_stats["raw_tweet_count"]
data_stats["raw_sensitive_to_tweets_ratio"] = data_stats["raw_possibly_sensitive_count"]/data_stats["raw_tweet_count"]
data_stats["raw_retweet_to_tweets_ratio"] = data_stats["raw_retweet_count"]/data_stats["raw_tweet_count"]
data_stats["raw_reply_to_tweets_ratio"] = data_stats["raw_reply_count"]/data_stats["raw_tweet_count"]
data_stats["raw_like_to_tweets_ratio"] = data_stats["raw_like_count"]/data_stats["raw_tweet_count"]
data_stats["raw_quote_to_tweets_ratio"] = data_stats["raw_quote_count"]/data_stats["raw_tweet_count"]

I decided to look at ratios related to the total ammount of tweets, because, as seen from the graph above, there is a big difference in the ammount of tweets from each newspaper.

In [18]:
data_stats.T

Unnamed: 0,Gestionpe,peru21noticias,tromepe,larepublica_pe,diarioojo,diariocorreo,elcomercio_peru,ExpresoPeru,DiarioElPeruano,elbuho_pe,larazon_pe,ensustrece
raw_tweet_count,8169.0,7571.0,7186.0,7064.0,5063.0,4841.0,4529.0,2599.0,2305.0,899.0,879.0,130.0
raw_referenced_tweet_count,30.0,244.0,3.0,4065.0,,4.0,258.0,,68.0,395.0,,24.0
raw_possibly_sensitive_count,,2.0,1.0,,2.0,1.0,3.0,,,1.0,,
raw_retweet_count,11985.0,61410.0,8924.0,137796.0,2800.0,15481.0,18388.0,90404.0,12838.0,11472.0,2477.0,21269.0
raw_reply_count,11074.0,45983.0,19886.0,28637.0,7616.0,14963.0,10625.0,82260.0,10078.0,828.0,458.0,5180.0
raw_like_count,46076.0,197619.0,56303.0,142432.0,20775.0,47437.0,40572.0,299029.0,34004.0,9241.0,4666.0,44677.0
raw_quote_count,1717.0,6378.0,1537.0,5968.0,624.0,1983.0,1616.0,9158.0,1135.0,346.0,131.0,918.0
impression_count,3312134.0,3880890.0,1606484.0,5505507.0,405654.0,1201940.0,2661255.0,3780412.0,1696783.0,406532.0,39958.0,761751.0
raw_reference_to_tweets_ratio,0.0,0.03,0.0,0.58,,0.0,0.06,,0.03,0.44,,0.18
raw_sensitive_to_tweets_ratio,,0.0,0.0,,0.0,0.0,0.0,,,0.0,,


In [19]:
data_stats.to_csv(f"{BASE_DIR}/reports/tables/1-raw_stats-{TIME_STAMPS[0]}-{TIME_STAMPS[-1]}.csv")

## Removing non relevant tweets

From checking the tweet feeds, and dataframe, I noticed that there are tweets that do not speak of the discourse of the newspaper, such as horoscopes caricatures and portada post.

In [17]:
data = data_raw

data.drop(data[data["text"].str.contains('horóscopo diario', flags=re.IGNORECASE, regex=True)].index, inplace=True)
data.drop(data[data["text"].str.contains('horóscopo de', flags=re.IGNORECASE, regex=True)].index, inplace=True)
data.drop(data[data["text"].str.contains('horóscopo hoy', flags=re.IGNORECASE, regex=True)].index, inplace=True)
data.drop(data[data["text"].str.contains('horóscopo y tarot', flags=re.IGNORECASE, regex=True)].index, inplace=True)
data.drop(data[data["text"].str.contains('horóscopo', flags=re.IGNORECASE, regex=True)].index, inplace=True)
data.drop(data[data["text"].str.contains('Buenos días', flags=re.IGNORECASE, regex=True)].index, inplace=True)
data.drop(data[data["text"].str.contains('caricatura de', flags=re.IGNORECASE, regex=True)].index, inplace=True)
data.drop(data[data["text"].str.contains('las caricaturas de', flags=re.IGNORECASE, regex=True)].index, inplace=True)
data.drop(data[data["text"].str.contains('portada impresa', flags=re.IGNORECASE, regex=True)].index, inplace=True)
data.drop(data[data["text"].str.contains('portada de hoy', flags=re.IGNORECASE, regex=True)].index, inplace=True)
data.drop(data[data["text"].str.contains('en portada', flags=re.IGNORECASE, regex=True)].index, inplace=True)
data.drop(data[data["text"].str.contains('trome gol', flags=re.IGNORECASE, regex=True)].index, inplace=True)
data.drop(data[data["text"].str.contains('no te pierdas las chiquitas de hoy', flags=re.IGNORECASE, regex=True)].index, inplace=True)
data.drop(data[data["text"].str.contains('esta es la portada', flags=re.IGNORECASE, regex=True)].index, inplace=True)
data.drop(data.loc[data["text"].str.contains("Aquí la portada del", flags=re.IGNORECASE, regex=True)].index, inplace=True)
data.drop(data.loc[data["text"].str.contains("yapaza", flags=re.IGNORECASE, regex=True)].index, inplace=True)

In [21]:
data_stats = data_stats.merge(data["newspaper"].value_counts(), how="left", left_index=True, right_index=True)
data_stats.rename(columns={"newspaper": "clean_tweet_count"}, inplace=True)

data_stats = data_stats.merge(data.loc[data["referenced_tweets"].notna(), "newspaper"].value_counts(), how="left", left_index=True, right_index=True)
data_stats.rename(columns={"newspaper": "clean_referenced_tweet_count"}, inplace=True)

data_stats = data_stats.merge(data.loc[data["possibly_sensitive"] == True, "newspaper"].value_counts(), how="left", left_index=True, right_index=True)
data_stats.rename(columns={"newspaper": "clean_possibly_sensitive_count"}, inplace=True)

data_stats = data_stats.merge(data.groupby("newspaper").sum(numeric_only=True).drop("possibly_sensitive", axis=1), how="left", left_index=True, right_index=True)
data_stats.rename(columns={"retweet_count": "clean_retweet_count", "reply_count": "clean_reply_count", "like_count": "clean_like_count", "quote_count": "clean_quote_count"}, inplace=True)

In [22]:
data_stats.rename(columns={"impression_count_x": "raw_impression_count", "impression_count_y": "clean_impression_count"}, inplace=True)

In [23]:
data_stats["clean_to_raw_tweet_ratio"] = data_stats["clean_tweet_count"]/data_stats["raw_tweet_count"]
data_stats["clean_to_raw_impression_ratio"] = data_stats["clean_impression_count"]/data_stats["raw_impression_count"]

In [24]:
data_stats["clean_reference_to_tweets_ratio"] = data_stats["clean_referenced_tweet_count"]/data_stats["clean_tweet_count"]
data_stats["clean_sensitive_to_tweets_ratio"] = data_stats["clean_possibly_sensitive_count"]/data_stats["clean_tweet_count"]
data_stats["clean_retweet_to_tweets_ratio"] = data_stats["clean_retweet_count"]/data_stats["clean_tweet_count"]
data_stats["clean_reply_to_tweets_ratio"] = data_stats["clean_reply_count"]/data_stats["clean_tweet_count"]
data_stats["clean_like_to_tweets_ratio"] = data_stats["clean_like_count"]/data_stats["clean_tweet_count"]
data_stats["clean_quote_to_tweets_ratio"] = data_stats["clean_quote_count"]/data_stats["clean_tweet_count"]

In [25]:
data_stats = data_stats.T

In [26]:
data_stats

Unnamed: 0,Gestionpe,peru21noticias,tromepe,larepublica_pe,diarioojo,diariocorreo,elcomercio_peru,ExpresoPeru,DiarioElPeruano,elbuho_pe,larazon_pe,ensustrece
raw_tweet_count,8169.00,7571.00,7186.00,7064.00,5063.00,4841.00,4529.00,2599.00,2305.00,899.00,879.00,130.00
raw_referenced_tweet_count,30.00,244.00,3.00,4065.00,,4.00,258.00,,68.00,395.00,,24.00
raw_possibly_sensitive_count,,2.00,1.00,,2.00,1.00,3.00,,,1.00,,
raw_retweet_count,11985.00,61410.00,8924.00,137796.00,2800.00,15481.00,18388.00,90404.00,12838.00,11472.00,2477.00,21269.00
raw_reply_count,11074.00,45983.00,19886.00,28637.00,7616.00,14963.00,10625.00,82260.00,10078.00,828.00,458.00,5180.00
...,...,...,...,...,...,...,...,...,...,...,...,...
clean_sensitive_to_tweets_ratio,,,,,0.00,0.00,0.00,,,,,
clean_retweet_to_tweets_ratio,1.44,7.70,1.15,19.41,0.51,3.00,3.92,30.58,5.62,10.42,0.70,122.25
clean_reply_to_tweets_ratio,1.34,5.60,2.34,3.58,1.57,2.96,2.00,30.46,4.80,0.78,0.15,29.60
clean_like_to_tweets_ratio,5.47,24.54,6.93,18.16,4.08,9.22,8.24,101.75,16.07,6.13,1.47,277.91


In [27]:
data_stats.to_csv(f"{BASE_DIR}/reports/tables/1-clean_stats-{TIME_STAMPS[0]}-{TIME_STAMPS[-1]}.csv")

## Extracting @mentions and #hashtags

In [18]:
data["mentions"] = data["text"].apply(lambda x: re.findall("@(\w+)", x))
data["hasthags"] = data["text"].apply(lambda x: re.findall("#(\w+)", x))

In [19]:
data.sample(10)

Unnamed: 0,created_at,possibly_sensitive,id,text,retweet_count,reply_count,like_count,quote_count,referenced_tweets,newspaper,edit_history_tweet_ids,impression_count,hour_posted,mentions,hasthags
353,2023-01-10 18:16:51+00:00,False,1612876136089899009,Mujer denuncia que es amenazada por su expareja en Comas: “No hay día que yo no tenga miedo” | VIDEO https://t.co/WzrF97ePYe,2,0,3,0,,diariocorreo,[1612876136089899009],1170.0,18:16:51,[],[]
183,2022-09-27 03:43:47+00:00,False,1574605695340597248,#ALVUELO | Antauro Humala propuso cerrar el Congreso si se aprueba ley que impide postular a los sentenciados por homicidio. https://t.co/39BU2FjYK2,1,2,5,0,,elbuho_pe,[1574605695340597248],,03:43:47,[],[ALVUELO]
324,2022-09-29 22:58:43+00:00,False,1575621121596182531,Irán amenaza a famosos y medios por protestas tras la muerte de Mahsa Amini https://t.co/v3BDtVkdvb,0,0,17,0,,elcomercio_peru,[1575621121596182531],,22:58:43,[],[]
92,2022-08-28 14:54:13+00:00,False,1563902779206287361,Elecciones 2022: candidatos a la Alcaldía de Lima debaten este domingo a las 9:00 p.m. https://t.co/1xbLvtdQL9,1,0,3,1,,tromepe,,,14:54:13,[],[]
683,2022-12-06 20:11:02+00:00,False,1600221298151591976,Comer para vivir: ¿Por qué algunos no recomiendan la leche de vaca? https://t.co/5R4CccGG56,0,0,0,0,,diarioojo,[1600221298151591976],,20:11:02,[],[]
655,2023-01-10 17:34:43+00:00,False,1612865534684532760,Voto de confianza: Alianza para el Progreso propone postergar presentación de gabinete Otárola https://t.co/4m9GLSqEDS,0,1,0,0,,peru21noticias,[1612865534684532760],995.0,17:34:43,[],[]
1143,2022-12-06 18:24:00+00:00,False,1600194361806954497,Qatar 2022: Samuel Eto’o golpea a youtuber a la salida de estadio mundialista https://t.co/dxUzfxLWgi,1,0,1,0,,peru21noticias,[1600194361806954497],,18:24:00,[],[]
880,2022-08-20 13:41:48+00:00,False,1560985454152978435,Miraflores: detienen a delincuente que robó joyería y se llevó artículos valorizados en S/ 80 mil https://t.co/jygyHX78DX,0,0,6,0,,elcomercio_peru,,,13:41:48,[],[]
637,2023-01-10 19:08:53+00:00,False,1612889232657289216,Gabinete Otárola solicita voto de confianza https://t.co/nfx9vcTb3w,1,3,6,0,,peru21noticias,[1612889232657289216],1831.0,19:08:53,[],[]
189,2022-11-05 17:08:07+00:00,False,1588941242473267203,"Policía sobre marcha nacional contra Pedro Castillo: protesta debe ser pacífica, sin armas y no afectar derechos https://t.co/FYF4yN3zB5",0,1,1,1,,tromepe,[1588941242473267203],,17:08:07,[],[]


## Text cleaning and tokenization

When it comes to text processing, and specially for tweets, there are some common text patterns that do not add any meaning to the message being conveyed. For example: links, hashtags and mentions.

In [20]:
def number_processing(text: str) -> str:
    """Takes a string, finds numbers on it, converts numbers to words and returns string with numbers replaced

    Args:
        text (str): text string to be processed

    Returns:
        str: string with numbers processed
    """
    numbers = re.findall(r"\b\d+\b", text)

    if numbers is []:
        return text

    for number in numbers:
        word_number = num2words(float(number), lang="es")
        text = re.sub(number, word_number, text)

    return text

In [21]:
def clean_text_first_pass(text):
    """Get rid of other punctuation and non-sensical text identified.

    Args:
        text (string): text to be processed.
    """
    text = text.lower()
    text = re.sub("http[s]?(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+", "", text) # Eliminates URLs
    text = re.sub("[%s]" % re.escape(string.punctuation), "", text) # Eliminates punctuarion
    text = re.sub("[‘’“”…«»►¿¡|│`]", "", text)
    text = re.sub("\n", " ", text)

    return text

first_pass = lambda x: clean_text_first_pass(x)

In [22]:
data["text_clean"] = data["text"].apply(number_processing)
data["text_clean"] = data["text_clean"].apply(first_pass)
data["text_clean"]

0                                                                                                                                                     venezuela y colombia retoman relaciones diplomáticas rotas hace tres años 
2                                                                                                                                                         amlo afirma que familias ya aceptaron plan de rescate de diez mineros 
3                                                                                                                                                   zelensky los ocupantes rusos sentirán las consecuencias de futuras acciones 
5                                                                                                                                                   autoridades confirman transmisión comunitaria de viruela del mono en panamá 
7                                                                                                   

In [23]:
data[data["possibly_sensitive"] == True]

Unnamed: 0,created_at,possibly_sensitive,id,text,retweet_count,reply_count,like_count,quote_count,referenced_tweets,newspaper,edit_history_tweet_ids,impression_count,hour_posted,mentions,hasthags,text_clean
108,2022-10-02 03:09:17+00:00,True,1576408955529707521,Bebé recién nacido fue encontrado en la basura al sur de Bogotá https://t.co/WJCnELvkR0,4,1,12,0,,elcomercio_peru,[1576408955529707521],,03:09:17,[],[],bebé recién nacido fue encontrado en la basura al sur de bogotá
742,2022-12-05 21:35:28+00:00,True,1599880158810365977,Aumentan a 40 las niñas entre 11 a 14 años que ya se convirtieron en madres en la región Ica https://t.co/cP9HBb7Bkd,1,5,4,0,,diariocorreo,[1599880158810365977],,21:35:28,[],[],aumentan a cuarenta las niñas entre once a catorce años que ya se convirtieron en madres en la región ica
249,2022-11-04 17:16:09+00:00,True,1588580874186104832,Vasectomía gratis del 14 al 18 de noviembre en Lima: ¿afecta el deseo sexual? todo sobre este procedimiento para varones https://t.co/DQ9x0n7HBe,1,0,2,0,,diarioojo,[1588580874186104832],,17:16:09,[],[],vasectomía gratis del catorce al dieciocho de noviembre en lima afecta el deseo sexual todo sobre este procedimiento para varones


In [24]:
data.head()

Unnamed: 0,created_at,possibly_sensitive,id,text,retweet_count,reply_count,like_count,quote_count,referenced_tweets,newspaper,edit_history_tweet_ids,impression_count,hour_posted,mentions,hasthags,text_clean
0,2022-08-28 23:57:24+00:00,False,1564039479391838209,Venezuela y Colombia retoman relaciones diplomáticas rotas hace tres años https://t.co/L6uVA6LcEE,0,0,6,1,,elcomercio_peru,,,23:57:24,[],[],venezuela y colombia retoman relaciones diplomáticas rotas hace tres años
2,2022-08-28 23:29:00+00:00,False,1564032331706470401,AMLO afirma que familias ya aceptaron plan de rescate de 10 mineros https://t.co/dG3VJXWgNa,0,0,2,0,,elcomercio_peru,,,23:29:00,[],[],amlo afirma que familias ya aceptaron plan de rescate de diez mineros
3,2022-08-28 23:14:11+00:00,False,1564028601053347843,Zelensky: los ocupantes rusos sentirán las consecuencias de “futuras acciones” https://t.co/mNJTLz0SS7,6,7,18,1,,elcomercio_peru,,,23:14:11,[],[],zelensky los ocupantes rusos sentirán las consecuencias de futuras acciones
5,2022-08-28 22:54:58+00:00,False,1564023766937731073,Autoridades confirman transmisión comunitaria de viruela del mono en Panamá https://t.co/EBFcdrHz4Y,1,0,1,1,,elcomercio_peru,,,22:54:58,[],[],autoridades confirman transmisión comunitaria de viruela del mono en panamá
7,2022-08-28 22:30:25+00:00,False,1564017585561141248,Las imágenes de los enfrentamientos entre seguidores de Cristina Kirchner y la policía en Argentina https://t.co/BYalmVyPBF,3,0,8,0,,elcomercio_peru,,,22:30:25,[],[],las imágenes de los enfrentamientos entre seguidores de cristina kirchner y la policía en argentina


From checking the resulting text I found that there are some tweets that contain emojis that haven't been removed. For that I will use the `emoji` package.

In [25]:
replace_emojis = lambda x: emoji.replace_emoji(x, "")

In [26]:
data["text_clean"] = data["text_clean"].apply(replace_emojis)
data.sample(10)

Unnamed: 0,created_at,possibly_sensitive,id,text,retweet_count,reply_count,like_count,quote_count,referenced_tweets,newspaper,edit_history_tweet_ids,impression_count,hour_posted,mentions,hasthags,text_clean
347,2022-09-29 20:09:18+00:00,False,1575578483731808256,Vladimir Putin ordena enviar a sus casas a los rusos movilizados por error https://t.co/TzUfmqU4gA,0,1,17,0,,elcomercio_peru,[1575578483731808256],,20:09:18,[],[],vladimir putin ordena enviar a sus casas a los rusos movilizados por error
1386,2022-08-17 22:31:52+00:00,False,1560031683990142981,La delincuencia jaquea a peruanos: aumenta número de víctimas a nivel nacional https://t.co/gwQABENmHR,1,0,1,0,,diarioojo,,,22:31:52,[],[],la delincuencia jaquea a peruanos aumenta número de víctimas a nivel nacional
839,2022-11-02 20:01:01+00:00,False,1587897590116679680,¿Qué es ‘El Tren de Aragua’? La banda que extorsiona y amenaza a ‘Cuto’ Guadalupe https://t.co/7WkiZPsdNN,2,1,2,0,,peru21noticias,[1587897590116679680],,20:01:01,[],[],qué es el tren de aragua la banda que extorsiona y amenaza a cuto guadalupe
623,2022-11-01 23:30:50+00:00,False,1587588003056472065,Valery Revello se luce con Ale Venturo en fiesta de la hija de Melissa Paredes y Rodrigo Cuba | VIDEO https://t.co/nSVs2cuBcg,0,0,2,0,,diarioojo,[1587588003056472065],,23:30:50,[],[],valery revello se luce con ale venturo en fiesta de la hija de melissa paredes y rodrigo cuba video
749,2022-08-24 15:55:28+00:00,False,1562468641781587970,“Al fondo hay sitio”: ‘Alessia’ destruirá a ‘Jaimito’ haciendo que pase la vergüenza de su vida con cruel broma https://t.co/6px2BYkKmC,0,0,2,0,,tromepe,,,15:55:28,[],[],al fondo hay sitio alessia destruirá a jaimito haciendo que pase la vergüenza de su vida con cruel broma
2405,2022-08-15 00:43:02+00:00,False,1558977530937360388,RT @rajesdeloficio: La fujimorista Milagros Takayama es la nueva jefa del Fondo Editorial del Congreso de la República sin cumplir con el p…,939,0,0,0,"[{'type': 'retweeted', 'id': '1558974747026853888'}]",larepublica_pe,,,00:43:02,[rajesdeloficio],[],rt rajesdeloficio la fujimorista milagros takayama es la nueva jefa del fondo editorial del congreso de la república sin cumplir con el p
262,2023-01-13 13:38:02+00:00,False,1613893134156529665,Gobierno agiliza nuevos subsidios a familias para reactivar su economía https://t.co/DjatyLrwpD,1,3,2,0,,Gestionpe,[1613893134156529665],1793.0,13:38:02,[],[],gobierno agiliza nuevos subsidios a familias para reactivar su economía
166,2022-09-29 22:07:38+00:00,False,1575608264909365248,Estampas nocturnas: comentario al cortometraje de Hong Kong 'La Noche' https://t.co/mtvBiyjv3k\n\nPor: ✍ Ernesto Carlín @tanquedecasma https://t.co/7WzsGvZBuG,2,0,32,0,,DiarioElPeruano,[1575608264909365248],,22:07:38,[tanquedecasma],[],estampas nocturnas comentario al cortometraje de hong kong la noche por ernesto carlín tanquedecasma
299,2022-09-27 20:51:44+00:00,False,1574864389362032651,"⬆ El Ministerio de Comercio Exterior y Turismo (@MINCETUR) proyecta más de US$ 2,530 millones en ingresos por turismo interno en 2022, en el marco del Día Mundial del Turismo.\n\n👉 https://t.co/p1iAVYAzjz https://t.co/94HLLITF6s",0,0,5,0,,DiarioElPeruano,[1574864389362032651],,20:51:44,[MINCETUR],[],el ministerio de comercio exterior y turismo mincetur proyecta más de us dosquinientos treinta millones en ingresos por turismo interno en dos0dosdos en el marco del día mundial del turismo
722,2023-01-11 16:33:10+00:00,False,1613212430653616130,Los diez “proyectos emblemáticos” en la agenda del Otárola\n https://t.co/EpONVgxKk6,2,0,4,0,,Gestionpe,[1613212430653616130],1989.0,16:33:10,[],[],los diez proyectos emblemáticos en la agenda del otárola


Also, form redoing the analysis, and looking at the tweeter feeds from many of the newspapers I found that there are some patterns of writing that do not add to the content, like calls to action, that interact with the audience, but do not add any significance to the headline. I'll be checking at the twitter feed for such patterns and add them during cleaning. I'm not adding them as stopwords because these calls to action in specific are groups of words.

In [27]:
def clean_text_second_pass(text):
    """Get rid of other punctuation and non-sensical text identified.

    Args:
        text (string): text to be processed.
    """
    text = re.sub("click aquí", "", text)
    text = re.sub("opinión", "", text)
    text = re.sub("rt ", "", text)
    text = re.sub('lee aquí el blog de', '', text)
    text = re.sub('vía gestionpe', '', text)
    text = re.sub('entrevista exclusiva', '', text)
    text = re.sub('en vivo', '', text)
    text = re.sub('entérate más aquí', '', text)
    text = re.sub('lee la columna de', '', text)
    text = re.sub('lee y comenta', '', text)
    text = re.sub('lea hoy la columna de', '', text)
    text = re.sub('escrito por', '', text)
    text = re.sub('lee la nota aquí', '', text)
    text = re.sub('una nota de', '', text)
    text = re.sub('aquí la nota', '', text)
    text = re.sub('nota completa aquí', '', text)
    text = re.sub('nota completa', '', text)
    text = re.sub('lee más', '', text)
    text = re.sub('lee aquí', '', text)

    text = re.sub("  ", " ", text)
    text = re.sub(" \w ", " ", text)
    text = re.sub("^(plusg)", "", text)
    text = re.sub("( video )$", "", text)
    text = re.sub("( lee )$", "", text)
    text = re.sub("( lee la )$", "", text)

    return text

second_pass = lambda x: clean_text_second_pass(x)

In [29]:
data["text_clean"] = data.text_clean.apply(second_pass)

Unnamed: 0,created_at,possibly_sensitive,id,text,retweet_count,reply_count,like_count,quote_count,referenced_tweets,newspaper,edit_history_tweet_ids,impression_count,hour_posted,mentions,hasthags,text_clean
122,2022-11-04 14:43:38+00:00,False,1588542491665784832,"💰 El @MidisPeru alcanzó una ejecución presupuestal de 80.3 % por el cumplimiento de metas de sus programas sociales, así como por el presupuesto destinado en alimentación a población vulnerable, ollas comunes y comedores populares. \n\n👉 https://t.co/bAtkOB30FI https://t.co/6eaT1QPRfj",3,0,9,1,,DiarioElPeruano,[1588542491665784832],,14:43:38,[MidisPeru],[],el midisperu alcanzó una ejecución presupuestal de ochentatres por el cumplimiento de metas de sus programas sociales así como por el presupuesto destinado en alimentación población vulnerable ollas comunes comedores populares
1053,2022-08-22 23:05:19+00:00,False,1561852043425419266,RT @LR_Deportes: ⚠️📺 #VIDEO | ¡No le gustó nada! Benavente fue captado en concierto y se molestó con el reportero\n\nEl ‘Chaval’ se fue de fi…,1,0,0,0,"[{'type': 'retweeted', 'id': '1561851962433212416'}]",larepublica_pe,,,23:05:19,[LR_Deportes],[VIDEO],lrdeportes video no le gustó nada benavente fue captado en concierto se molestó con el reportero el chaval se fue de fi
295,2023-01-12 12:55:37+00:00,False,1613520073250963457,Hugo García grita de emoción al ver a Alessia participando en ronda preliminar del Miss Universo: “Vamos mi amor” https://t.co/fjljmLYHtT,0,0,0,0,,diarioojo,[1613520073250963457],376.0,12:55:37,[],[],hugo garcía grita de emoción al ver alessia participando en ronda preliminar del miss universo vamos mi amor
1466,2022-09-26 19:57:09+00:00,False,1574488264727314453,"‘Precio de la guerra’ en Ucrania lastrará la economía mundial en 2023, según la OCDE https://t.co/nOgy6yy7yk",0,0,1,1,,Gestionpe,[1574488264727314453],,19:57:09,[],[],precio de la guerra en ucrania lastrará la economía mundial en dos mil veintitrés según la ocde
1105,2022-08-22 18:31:29+00:00,False,1561783131514044418,Congresistas exigen respuestas por liberación de Antauro Humala y las noticias del día en #LRNoticias https://t.co/9gpW6b4UHj,4,2,8,0,,larepublica_pe,,,18:31:29,[],[LRNoticias],congresistas exigen respuestas por liberación de antauro humala las noticias del día en lrnoticias
144,2022-08-25 22:50:13+00:00,False,1562935407322337281,"El presidente de la República, Pedro Castillo Terrones, señaló este jueves que el desarrollo del país se debe construir entre todos los peruanos sin distinción y no solamente esperar al gobierno y a las autoridades nacionales. 👉 https://t.co/5tDZ9lu6mX https://t.co/ZxnGEuDpct",0,0,5,0,,DiarioElPeruano,,,22:50:13,[],[],el presidente de la república pedro castillo terrones señaló este jueves que el desarrollo del país se debe construir entre todos los peruanos sin distinción no solamente esperar al gobierno las autoridades nacionales
412,2022-11-04 18:54:34+00:00,False,1588605642796851202,"Tercer Simulacro Nacional Multipeligro: cuándo se realizará, a qué hora y cómo puedes participar https://t.co/uu4Ew2UXaF",1,0,0,0,,peru21noticias,[1588605642796851202],,18:54:34,[],[],tercer simulacro nacional multipeligro cuándo se realizará qué hora cómo puedes participar
734,2022-09-29 00:50:14+00:00,False,1575286795641708544,¿Quiénes son los candidatos a la alcaldía de Miraflores? https://t.co/cpTKvq1o4r,0,0,1,0,,tromepe,[1575286795641708544],,00:50:14,[],[],quiénes son los candidatos la alcaldía de miraflores
340,2022-09-30 00:16:08+00:00,False,1575640604679323650,Roberto Sánchez sobre Gonzalo Alegría: Juntos por el Perú “tiene sus propios mecanismos y dirigentes” https://t.co/ZDfPj9HOKd,0,1,2,0,,diariocorreo,[1575640604679323650],,00:16:08,[],[],roberto sánchez sobre gonzalo alegría juntos por el perú tiene sus propios mecanismos dirigentes
1061,2022-09-28 09:00:02+00:00,False,1575047672163143682,"""Indomable, Colosso Wines"", lee aquí el #blog de José Bracamonte ► https://t.co/fcDSZ7Juyl https://t.co/ZKgj0mWudJ",0,0,0,0,,Gestionpe,[1575047672163143682],,09:00:02,[],[blog],indomable colosso wines josé bracamonte


In [30]:
data.reset_index().to_feather(f"{BASE_DIR}/data/interim/data_clean-{TIME_STAMPS[0]}-{TIME_STAMPS[-1]}.feather")

## Organizing the data

Now I need to get the data in both of the standar text formats:

1. **Corpus -** a collection of text
2. **Document-Term matrix -** word counts in matrix format

In the case of the tweets, I will start by combining all the clean texts and in the case of *Document-term matrix* tokenising the result.

In [32]:
df_clean = pd.read_feather(f"{BASE_DIR}/data/interim/data_clean-{TIME_STAMPS[0]}-{TIME_STAMPS[-1]}.feather")
df_clean.set_index("index", inplace=True)

In [34]:
df_clean.sample(5)

Unnamed: 0_level_0,created_at,possibly_sensitive,id,text,retweet_count,reply_count,like_count,quote_count,referenced_tweets,newspaper,edit_history_tweet_ids,impression_count,hour_posted,mentions,hasthags,text_clean
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
590,2022-09-28 11:47:37+00:00,False,1575089844405116929,Magaly le da con palo a la mamá de María Fe: “La suegra feliz con los viajes” \n\nhttps://t.co/rfMI1c74ia,0,0,2,0,,diarioojo,[1575089844405116929],,11:47:37,[],[],magaly le da con palo la mamá de maría fe la suegra feliz con los viajes
1257,2022-08-18 14:08:30+00:00,False,1560267397335961601,Tumbes: Dos candidatos de Fuerza Popular son excluidos https://t.co/ieraPI9nTL,0,0,2,0,,diariocorreo,,,14:08:30,[],[],tumbes dos candidatos de fuerza popular son excluidos
581,2022-08-23 17:34:08+00:00,False,1562131086116880385,¿Cuánto será el pago del Bono Alimentario para los beneficiarios de Pensión 65? https://t.co/BHX7qUnYzr,0,0,2,0,,elcomercio_peru,,,17:34:08,[],[],cuánto será el pago del bono alimentario para los beneficiarios de pensión sesenta cinco
359,2023-01-13 13:25:11+00:00,False,1613889901702914048,"#CuatroD | Mientras la cifra de fallecidos a raíz de las protestas sigue en aumento, el premier Otárola descartó que la presidenta Dina Boluarte vaya a renunciar. Analizamos el tema con @Techtulia, @alvarezrodrich y @lauermirko.\n\n📺 Míralo #ENVIVO, aquí ↓\nhttps://t.co/byZyCUVWGw",7,19,16,1,,larepublica_pe,[1613889901702914048],5148.0,13:25:11,"[Techtulia, alvarezrodrich, lauermirko]","[CuatroD, ENVIVO]",cuatrod mientras la cifra de fallecidos raíz de las protestas sigue en aumento el premier otárola descartó que la presidenta dina boluarte vaya renunciar analizamos el tema con techtulia alvarezrodrich lauermirko míralo envivo aquí ↓
1422,2022-08-20 15:45:49+00:00,False,1561016662891151361,Viruela del mono en Perú: estas son las razones que explicarían el incremento considerable de contagios https://t.co/ZgqpoLrlaA,0,0,0,0,,tromepe,,,15:45:49,[],[],viruela del mono en perú estas son las razones que explicarían el incremento considerable de contagios


In [35]:
stats_data = df_clean.drop(["text", "text_clean"], axis=1)

In [36]:
stats_data.head()

Unnamed: 0_level_0,created_at,possibly_sensitive,id,retweet_count,reply_count,like_count,quote_count,referenced_tweets,newspaper,edit_history_tweet_ids,impression_count,hour_posted,mentions,hasthags
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
0,2022-08-28 23:57:24+00:00,False,1564039479391838209,0,0,6,1,,elcomercio_peru,,,23:57:24,[],[]
2,2022-08-28 23:29:00+00:00,False,1564032331706470401,0,0,2,0,,elcomercio_peru,,,23:29:00,[],[]
3,2022-08-28 23:14:11+00:00,False,1564028601053347843,6,7,18,1,,elcomercio_peru,,,23:14:11,[],[]
5,2022-08-28 22:54:58+00:00,False,1564023766937731073,1,0,1,1,,elcomercio_peru,,,22:54:58,[],[]
7,2022-08-28 22:30:25+00:00,False,1564017585561141248,3,0,8,0,,elcomercio_peru,,,22:30:25,[],[]


In [41]:
stats_data.reset_index().to_feather(f"{BASE_DIR}/data/processed/stats_data-{TIME_STAMPS[0]}-{TIME_STAMPS[-1]}.feather")

### Corpus

The corpus corresponds to the data clean from the step above.

In [35]:
df_corpus = df_clean[["id", "text", "created_at", "newspaper", "text_clean"]].reset_index()
df_corpus.rename(columns={"text_clean": "corpus"}, inplace=True)

In [36]:
df_corpus.to_feather(f"{BASE_DIR}/data/processed/corpus-{TIME_STAMPS[0]}-{TIME_STAMPS[-1]}.feather")

### Document-Term Matrix

From the corpus constructed in the step above I'll proceed to tokenizethe text to use with further techniques. For that I'll use scikit-learn's `CountVectorizer`, where every row represents a document and each column is a different row.

I'll also remove stop words.

In [5]:
nlp = spacy.load('es_core_news_sm')

In [6]:
data_dtm = pd.read_feather(f"{BASE_DIR}/data/processed/corpus-{TIME_STAMPS[0]}-{TIME_STAMPS[-1]}.feather")

In [7]:
data_dtm.drop(["index"], axis=1, inplace=True)

In [9]:
data_dtm.sample(5)

Unnamed: 0,id,text,created_at,newspaper,corpus
32370,1599831323199389700,"Gobierno tomará acciones legales en caso de que se concrete la vacancia contra Pedro Castillo, anuncia Félix Chero https://t.co/XGEYvsq5cQ",2022-12-05 18:21:25+00:00,diarioojo,gobierno tomará acciones legales en caso de que se concrete la vacancia contra pedro castillo anuncia félix chero
3350,1562442570529091589,⚠️ Dictan 18 meses de prisión preventiva a trabajadora bancaria que transfirió S/ 110.000 a su cuenta\n\nLa mujer fue detenida el último 15 de agosto en flagrancia. La investigada realizó 7 transferencias a su cuenta personal.\nhttps://t.co/829JoJJbZF,2022-08-24 14:11:52+00:00,larepublica_pe,dictan dieciocho meses de prisión preventiva trabajadora bancaria que transfirió ciento diezcero su cuenta la mujer fue detenida el último quince de agosto en flagrancia la investigada realizó siete transferencias su cuenta personal
17382,1601091651576991744,Betssy Chávez: conoce las conversaciones que la conectan con el golpe de Estado https://t.co/6LKhfp5dWj,2022-12-09 05:49:31+00:00,tromepe,betssy chávez conoce las conversaciones que la conectan con el golpe de estado
33143,1559305536356732931,"El titular de @pcmperu, Aníbal Torres, participó esta tarde en el segundo Simulacro Nacional Multipeligro, en la sede de Palacio de Gobierno. 👉 https://t.co/xEFAkguYlo https://t.co/IiBlluWHNE",2022-08-15 22:26:25+00:00,DiarioElPeruano,el titular de pcmperu aníbal torres participó esta tarde en el segundo simulacro nacional multipeligro en la sede de palacio de gobierno
2134,1600834997736607745,"#Editorial | ""Es cierto que el golpe que dio Castillo no prosperó, pero ello –contrariamente a lo que algunos de sus todavía simpatizantes se aventuraban a asegurar ayer– no lo hace menos golpe"".\n\nhttps://t.co/rRU8KBCvso",2022-12-08 12:49:40+00:00,elcomercio_peru,editorial es cierto que el golpe que dio castillo no prosperó pero ello –contrariamente lo que algunos de sus todavía simpatizantes se aventuraban asegurar ayer– no lo hace menos golpe


In [10]:
data_dtm.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34924 entries, 0 to 34923
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype              
---  ------      --------------  -----              
 0   id          34924 non-null  object             
 1   text        34924 non-null  object             
 2   created_at  34924 non-null  datetime64[ns, UTC]
 3   newspaper   34924 non-null  object             
 4   corpus      34924 non-null  object             
dtypes: datetime64[ns, UTC](1), object(4)
memory usage: 1.3+ MB


In [11]:
data_dtm["doc"] = data_dtm["corpus"].apply(lambda x: nlp(x))
data_dtm["doc"]

0                                                                                                                                                                           (venezuela, colombia, retoman, relaciones, diplomáticas, rotas, hace, tres, años)
1                                                                                                                                                                          (amlo, afirma, que, familias, ya, aceptaron, plan, de, rescate, de, diez, mineros)
2                                                                                                                                                                      (zelensky, los, ocupantes, rusos, sentirán, las, consecuencias, de, futuras, acciones)
3                                                                                                                                                                      (autoridades, confirman, transmisión, comunitaria, de, viruela, del, mo

In [12]:
data_dtm["token"] = data_dtm["doc"].apply(lambda doc: [t.orth_ for t in doc if not t.is_punct | t.is_stop | t.is_space])
data_dtm["lemma"] = data_dtm["doc"].apply(lambda doc: [t.lemma_ for t in doc if not t.is_punct | t.is_stop | t.is_space])

In [13]:
data_dtm = data_dtm.loc[data_dtm["corpus"] != ""]
data_dtm = data_dtm.loc[data_dtm["token"].map(lambda d: len(d)) > 0]

In [14]:
data_dtm.head()

Unnamed: 0,id,text,created_at,newspaper,corpus,doc,token,lemma
0,1564039479391838209,Venezuela y Colombia retoman relaciones diplomáticas rotas hace tres años https://t.co/L6uVA6LcEE,2022-08-28 23:57:24+00:00,elcomercio_peru,venezuela colombia retoman relaciones diplomáticas rotas hace tres años,"(venezuela, colombia, retoman, relaciones, diplomáticas, rotas, hace, tres, años)","[venezuela, colombia, retoman, relaciones, diplomáticas, rotas, años]","[venezuela, colombia, retomar, relación, diplomático, roto, año]"
1,1564032331706470401,AMLO afirma que familias ya aceptaron plan de rescate de 10 mineros https://t.co/dG3VJXWgNa,2022-08-28 23:29:00+00:00,elcomercio_peru,amlo afirma que familias ya aceptaron plan de rescate de diez mineros,"(amlo, afirma, que, familias, ya, aceptaron, plan, de, rescate, de, diez, mineros)","[amlo, afirma, familias, aceptaron, plan, rescate, mineros]","[amlo, afirmar, familia, aceptar, plan, rescate, minero]"
2,1564028601053347843,Zelensky: los ocupantes rusos sentirán las consecuencias de “futuras acciones” https://t.co/mNJTLz0SS7,2022-08-28 23:14:11+00:00,elcomercio_peru,zelensky los ocupantes rusos sentirán las consecuencias de futuras acciones,"(zelensky, los, ocupantes, rusos, sentirán, las, consecuencias, de, futuras, acciones)","[zelensky, ocupantes, rusos, sentirán, consecuencias, futuras, acciones]","[zelensky, ocupante, ruso, sentir, consecuencia, futuro, acción]"
3,1564023766937731073,Autoridades confirman transmisión comunitaria de viruela del mono en Panamá https://t.co/EBFcdrHz4Y,2022-08-28 22:54:58+00:00,elcomercio_peru,autoridades confirman transmisión comunitaria de viruela del mono en panamá,"(autoridades, confirman, transmisión, comunitaria, de, viruela, del, mono, en, panamá)","[autoridades, confirman, transmisión, comunitaria, viruela, mono, panamá]","[autoridad, confirmar, transmisión, comunitario, viruela, mono, panamá]"
4,1564017585561141248,Las imágenes de los enfrentamientos entre seguidores de Cristina Kirchner y la policía en Argentina https://t.co/BYalmVyPBF,2022-08-28 22:30:25+00:00,elcomercio_peru,las imágenes de los enfrentamientos entre seguidores de cristina kirchner la policía en argentina,"(las, imágenes, de, los, enfrentamientos, entre, seguidores, de, cristina, kirchner, la, policía, en, argentina)","[imágenes, enfrentamientos, seguidores, cristina, kirchner, policía, argentina]","[imagen, enfrentamiento, seguidor, cristina, kirchner, policía, argentina]"


In [15]:
print(data_dtm.head().to_markdown())

|    |                  id | text                                                                                                                        | created_at                | newspaper       | corpus                                                                                            | doc                                                                                               | token                                                                                         | lemma                                                                                    |
|---:|--------------------:|:----------------------------------------------------------------------------------------------------------------------------|:--------------------------|:----------------|:--------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------|:-----------

In [25]:
data_dtm.to_pickle(f"{BASE_DIR}/data/processed/data-dtm-{TIME_STAMPS[0]}-{TIME_STAMPS[-1]}.pkl")

In [26]:
dtm = pd.DataFrame(data_dtm[["id", "lemma"]].explode("lemma").groupby(by="id").value_counts())
dtm.rename({0: "count"}, axis=1, inplace=True)
dtm = dtm.reset_index()

In [27]:
dtm = dtm.pivot(index="id", columns="lemma", values="count")

In [28]:
dtm.fillna(0.00, inplace=True)

In [29]:
dtm.head()

lemma,aa,aaaaatención,aaaatención,aactor,aafp,aaguinagar,aahh,aap,aar,abad,...,𝗨́𝗻𝗲𝘁𝗲,𝗩𝗮𝗹𝗹𝗲,𝗱𝗲,𝗱𝗲𝗹,𝗲𝗱𝗶𝘁𝗼𝗿𝗶𝗮𝗹,𝗵𝗿𝘀,𝗹𝗮,𝗻𝗼𝘃𝗶𝗲𝗺𝗯𝗿𝗲,𝗽𝗿𝗲𝘀𝗲𝗻𝘁𝗮𝗰𝗶𝗼́𝗻,󠁧󠁢󠁥󠁮󠁧󠁿
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1558966707611385861,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1558966968039997441,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1558967193043361792,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1558967616777109510,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1558968396674473985,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [30]:
dtm.info()

<class 'pandas.core.frame.DataFrame'>
Index: 34851 entries, 1558966707611385861 to 1614774185221308416
Columns: 24473 entries, aa to 󠁧󠁢󠁥󠁮󠁧󠁿
dtypes: float64(24473)
memory usage: 6.4+ GB


In [31]:
dtm.reset_index().to_feather(f"{BASE_DIR}/data/processed/dtm-{TIME_STAMPS[0]}-{TIME_STAMPS[-1]}.feather")