# What we have here?

This notebook gives a quick overview of the data we have. We will preprocess the data and save it to a new file in order to be able to use it in the next notebooks.

In [24]:
import pandas as pd

from sklearn.model_selection import train_test_split

### Overview

In [5]:
# loading de data ../data/raw/sample-data.json
news = pd.read_json('../data/raw/sample-data.json', lines=True)
print(news.shape)
news.head()

(92, 7)


Unnamed: 0,nombre,enlace,medio,fecha,titular,cuerpo,label
0,Mónica Sofía Torres Campuzano,https://eldeber.com.bo/pais/la-asamblea-legisl...,eldeber.com.bo,2021-06-28,La Asamblea Legislativa inicia su receso hasta...,[La Asamblea Legislativa Plurinacional (ALP) c...,1
1,William Torrez Tordoya,https://eldeber.com.bo/bolivia/william-torres-...,eldeber.com.bo,2017-10-25,William Torres Tordoya: “La independencia de p...,[El ciclo de entrevistas a los postulantes jud...,1
2,Evert Cruz Quiroga,https://eldeber.com.bo/pais/el-killer-dice-que...,eldeber.com.bo,2022-02-19,“El Killer” dice que sabe quiénes tienen\n los...,[Poco después de salir de las celdas de la Fel...,0
3,Laura Marlene Lujan Condori,https://eldeber.com.bo/pais/la-asamblea-legisl...,eldeber.com.bo,2021-06-28,La Asamblea Legislativa inicia su receso hasta...,[La Asamblea Legislativa Plurinacional (ALP) c...,1
4,Regis German Richter Alencar,https://eldeber.com.bo/mundo/un-sismo-de-57-gr...,eldeber.com.bo,2022-01-10,Un sismo de 5.7 grados en la escala de Richter...,[Tembló Tucumán. Este lunes un sismo de magnit...,0


In [6]:
news.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 92 entries, 0 to 91
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   nombre   92 non-null     object
 1   enlace   92 non-null     object
 2   medio    92 non-null     object
 3   fecha    92 non-null     object
 4   titular  92 non-null     object
 5   cuerpo   92 non-null     object
 6   label    92 non-null     int64 
dtypes: int64(1), object(6)
memory usage: 5.2+ KB


### Preproc

In [7]:
# just select columns 'titular', 'cuerpo' and 'label'
news = news[['titular', 'cuerpo', 'label']]
news.head()

Unnamed: 0,titular,cuerpo,label
0,La Asamblea Legislativa inicia su receso hasta...,[La Asamblea Legislativa Plurinacional (ALP) c...,1
1,William Torres Tordoya: “La independencia de p...,[El ciclo de entrevistas a los postulantes jud...,1
2,“El Killer” dice que sabe quiénes tienen\n los...,[Poco después de salir de las celdas de la Fel...,0
3,La Asamblea Legislativa inicia su receso hasta...,[La Asamblea Legislativa Plurinacional (ALP) c...,1
4,Un sismo de 5.7 grados en la escala de Richter...,[Tembló Tucumán. Este lunes un sismo de magnit...,0


In [8]:
news.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 92 entries, 0 to 91
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   titular  92 non-null     object
 1   cuerpo   92 non-null     object
 2   label    92 non-null     int64 
dtypes: int64(1), object(2)
memory usage: 2.3+ KB


In [12]:
news.iloc[0]['cuerpo']

['La Asamblea Legislativa Plurinacional (ALP) comenzó este lunes el receso de sus labores hasta el 11 de julio. Sin embargo, existe una comisión de 18 senadores y 36 diputados, entre titulares y suplentes, que dará seguimiento a algunos temas.',
 'Al interior de esa instancia queda pendiente el tratamiento de las leyes de ascensos para la Policía Boliviana y la de lucha contra la corrupción, que fueron aprobadas por Diputados y que deben ser revisadas por el Senado.',
 'Las dos semanas de receso están enmarcadas en lo establecido en la Constitución Política del Estado (CPE), que en el parágrafo 3 del artículo 153 señala, “las sesiones ordinarias serán permanentes y contarán con dos recesos de quince días, cada uno, por año”.',
 'Los diputados titulares que conforman parte de la comisión que continuará con sus actividades son: Freddy Mamani Laura, Patricio Mendoza Chumpe, Gustavo Vega Piña, Andrés Flores Condori, Héctor Arce Rodríguez, Jerges Mercado Suarez, Israel Huaytari Martínez,\xa

In [9]:
train_test_ratio = 0.10
train_valid_ratio = 0.80

first_n_words = 200

In [14]:
# join all the text in the 'cuerpo' column
news['cuerpo'] = news['cuerpo'].apply(lambda x: ' '.join(x))
news.iloc[0]

titular    La Asamblea Legislativa inicia su receso hasta...
cuerpo     La Asamblea Legislativa Plurinacional (ALP) co...
label                                                      1
Name: 0, dtype: object

In [15]:
news.iloc[0]['cuerpo']

'La Asamblea Legislativa Plurinacional (ALP) comenzó este lunes el receso de sus labores hasta el 11 de julio. Sin embargo, existe una comisión de 18 senadores y 36 diputados, entre titulares y suplentes, que dará seguimiento a algunos temas. Al interior de esa instancia queda pendiente el tratamiento de las leyes de ascensos para la Policía Boliviana y la de lucha contra la corrupción, que fueron aprobadas por Diputados y que deben ser revisadas por el Senado. Las dos semanas de receso están enmarcadas en lo establecido en la Constitución Política del Estado (CPE), que en el parágrafo 3 del artículo 153 señala, “las sesiones ordinarias serán permanentes y contarán con dos recesos de quince días, cada uno, por año”. Los diputados titulares que conforman parte de la comisión que continuará con sus actividades son: Freddy Mamani Laura, Patricio Mendoza Chumpe, Gustavo Vega Piña, Andrés Flores Condori, Héctor Arce Rodríguez, Jerges Mercado Suarez, Israel Huaytari Martínez,\xa0 Miriam Mart

In [16]:
news['titletext'] = news['titular'] + ' ' + news['cuerpo']

In [17]:
news.head()

Unnamed: 0,titular,cuerpo,label,titletext
0,La Asamblea Legislativa inicia su receso hasta...,La Asamblea Legislativa Plurinacional (ALP) co...,1,La Asamblea Legislativa inicia su receso hasta...
1,William Torres Tordoya: “La independencia de p...,El ciclo de entrevistas a los postulantes judi...,1,William Torres Tordoya: “La independencia de p...
2,“El Killer” dice que sabe quiénes tienen\n los...,Poco después de salir de las celdas de la Felc...,0,“El Killer” dice que sabe quiénes tienen\n los...
3,La Asamblea Legislativa inicia su receso hasta...,La Asamblea Legislativa Plurinacional (ALP) co...,1,La Asamblea Legislativa inicia su receso hasta...
4,Un sismo de 5.7 grados en la escala de Richter...,Tembló Tucumán. Este lunes un sismo de magnitu...,0,Un sismo de 5.7 grados en la escala de Richter...


In this case is not necessary to delete empty rows, because we are using a dataset with no empty rows.

In [18]:
def trim_string(x):

    x = x.split(maxsplit=first_n_words)
    x = ' '.join(x[:first_n_words])

    return x

In [20]:
news['cuerpo'] = news['cuerpo'].apply(trim_string)
news['titletext'] = news['titletext'].apply(trim_string) 
news.head()

Unnamed: 0,titular,cuerpo,label,titletext
0,La Asamblea Legislativa inicia su receso hasta...,La Asamblea Legislativa Plurinacional (ALP) co...,1,La Asamblea Legislativa inicia su receso hasta...
1,William Torres Tordoya: “La independencia de p...,El ciclo de entrevistas a los postulantes judi...,1,William Torres Tordoya: “La independencia de p...
2,“El Killer” dice que sabe quiénes tienen\n los...,Poco después de salir de las celdas de la Felc...,0,“El Killer” dice que sabe quiénes tienen los r...
3,La Asamblea Legislativa inicia su receso hasta...,La Asamblea Legislativa Plurinacional (ALP) co...,1,La Asamblea Legislativa inicia su receso hasta...
4,Un sismo de 5.7 grados en la escala de Richter...,Tembló Tucumán. Este lunes un sismo de magnitu...,0,Un sismo de 5.7 grados en la escala de Richter...


In [22]:
# where 0 is a news that we want to filter
news_1 = news[news['label'] == 1]
news_0 = news[news['label'] == 0]
news_1.head()

Unnamed: 0,titular,cuerpo,label,titletext
0,La Asamblea Legislativa inicia su receso hasta...,La Asamblea Legislativa Plurinacional (ALP) co...,1,La Asamblea Legislativa inicia su receso hasta...
1,William Torres Tordoya: “La independencia de p...,El ciclo de entrevistas a los postulantes judi...,1,William Torres Tordoya: “La independencia de p...
3,La Asamblea Legislativa inicia su receso hasta...,La Asamblea Legislativa Plurinacional (ALP) co...,1,La Asamblea Legislativa inicia su receso hasta...
10,La Asamblea Legislativa inicia su receso hasta...,La Asamblea Legislativa Plurinacional (ALP) co...,1,La Asamblea Legislativa inicia su receso hasta...
11,La Asamblea Legislativa inicia su receso hasta...,La Asamblea Legislativa Plurinacional (ALP) co...,1,La Asamblea Legislativa inicia su receso hasta...


In [25]:
# train test split
news_1_full_train, news_1_test = train_test_split(news_1, test_size=train_test_ratio, random_state=1)
news_0_full_train, news_0_test = train_test_split(news_0, test_size=train_test_ratio, random_state=1)

# train valid split
news_1_train, news_1_valid = train_test_split(news_1_full_train, test_size=train_valid_ratio, random_state=1)
news_0_train, news_0_valid = train_test_split(news_0_full_train, test_size=train_valid_ratio, random_state=1)

print(news_1_train.shape)
print(news_1_valid.shape)
print(news_1_test.shape)

print(news_0_train.shape)
print(news_0_valid.shape)
print(news_0_test.shape)

(8, 4)
(33, 4)
(5, 4)
(8, 4)
(33, 4)
(5, 4)


In [26]:
# concatenate splits
news_train = pd.concat([news_1_train, news_0_train], ignore_index=True, sort=False)
news_valid = pd.concat([news_1_valid, news_0_valid], ignore_index=True, sort=False)
news_test = pd.concat([news_1_test, news_0_test], ignore_index=True, sort=False)

print(news_train.shape)
print(news_valid.shape)
print(news_test.shape)

(16, 4)
(66, 4)
(10, 4)


In [34]:
# export to json
news_train.to_json('../data/processed/train.json', orient='records', lines=True)
news_valid.to_json('../data/processed/valid.json', orient='records', lines=True)
news_test.to_json('../data/processed/test.json', orient='records', lines=True)