In [24]:
import pandas as pd
import re
import unidecode
import nltk
from nltk.tokenize import word_tokenize as wtoken
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from clean import removeChar, lowText, removeAccents, tokenWords, remStopWords, wordStem

In [13]:
data = pd.read_csv("../input/clean_data.csv")

In [7]:
# Inspección csv

In [14]:
data.head()

Unnamed: 0.1,Unnamed: 0,fecha,titulo,texto,etiquetas
0,28,1976-05-09,'Al director','La imagen que el primer periódico francés of...,"['Opinión', 'Periódicos', 'Política nacional',..."
1,25,1976-05-16,'Los sucesos de Montejurra','En el diario El País número 7 del día 11 del...,"['Opinión', 'Sucesos Montejurra', 'PC', 'Parti..."
2,24,1976-05-16,'Utrera no retiró la firma','En el diario que usted dirige en el número c...,"['Gobierno predemocrático', 'Opinión', 'Políti..."
3,23,1976-05-16,'Descapitalización del Estado','La banca en al capital del Reino cierra prem...,"['Opinión', 'Banca', 'Finanzas']"
4,26,1976-05-16,'Causa Ciudadana','Al fin de completar la información que figur...,"['ID', 'Opinión', 'Partidos políticos', 'Polít..."


In [15]:
data = data.drop(["Unnamed: 0"], axis=1)

In [16]:
data.shape

(71993, 4)

In [None]:
# Preparación columna texto y etiquetas

In [None]:
# Limpieza de todos los caracteres que no sean ni letras ni números

In [27]:
def removeChar(data):
    # Función para eliminar todos los caraceteres que no sean ni letras, ni números

    if type(data) == str:
        result = re.sub("[\W_]+", " ", data)
        result = result.strip()
        return result
    else:
        result = []
        for element in data:
            element = re.sub("[\W_]+", " ", element)
            element = element.strip()
            result.append(element)
        return result

In [28]:
data["texto"] = data["texto"].apply(removeChar)

In [29]:
data["etiquetas"] = data["etiquetas"].apply(removeChar)

In [30]:
# pasar todo el texto a minúscula

In [31]:
def lowText(data):
    #Función para que el texto esté ni minuscula
    if type(data) == str:
        result = data.lower()
        return result.strip()
    else:
        result = []
        for element in data:
            element = element.lower()
            element = element.strip()
            result.append(element)
        return result

In [32]:
data["texto"] = data["texto"].apply(lowText)

In [33]:
data["etiquetas"] = data["etiquetas"].apply(lowText)

In [34]:
# quitar acentos

In [35]:
def removeAccents(data):
    # función para quitar los acentos
    if type(data) == str:
        unaccented_data = unidecode.unidecode(data)
        return unaccented_data
    else:
        result = []
        for element in data:
            result.append(unidecode.unidecode(element))
        return result

In [37]:
data["texto"] = data["texto"].apply(removeAccents)

In [36]:
data["etiquetas"] = data["etiquetas"].apply(removeAccents)

In [38]:
# Tokenizacion

In [39]:
def tokenWords(data):
    # función para obtener los tokens
    data = wtoken(data)
    return data

In [40]:
data["texto"] = data["texto"].apply(tokenWords)

In [41]:
# Stop Words

In [42]:
def remStopWords(data):
    #función para quitar las stopwords
    data_stopwords = []
    for word in data:
        if word not in stopwords.words("spanish"):
            data_stopwords.append(word)
            
    return data_stopwords

In [43]:
data["texto"] = data["texto"].apply(remStopWords)

In [None]:
# Stem

In [44]:
def wordStem(data):
    # función para stem
    data_stem = []
    stemmer = SnowballStemmer("spanish")
    for item in data:
        data_stem.append(stemmer.stem(item))
   
    return " ".join(data_stem)

In [45]:
data["texto"] = data["texto"].apply(wordStem)

In [46]:
# Limpieza columna etiquetas. Con la etiqueta política agrupo todas las cartas que originalmente cuentan con esa
# etiqueta. Bajo la etiqueta otros se agrupan el resto

In [47]:
def cleanLabels(data):
    if 'politica' in data:
        data = data.replace(data, 'politica')
        return data
    else:
        data = data.replace(data, 'otros')
        return data

In [48]:
data["etiquetas"] = data["etiquetas"].apply(cleanLabels)

In [49]:
data["etiquetas"].value_counts()

otros       41728
politica    30265
Name: etiquetas, dtype: int64

In [51]:
# Creo una nueva columna con la que asigno un 1 a las cartas etiquetadas como política, y un cero a las que no lo son
categorias = {
    "politica" : 1,
    "otros" : 0
}

In [52]:
data["categoria"] = data["etiquetas"]

In [53]:
data = data.replace({"categoria":categorias})

In [54]:
# Divido el dataset en dos. Con las cartas escritas entre 2015 y 2019 entrenará los modelos y con las
# escritas en 1996, comprobaré el nivel de acierto

In [55]:
mask_2019 = (data["fecha"] >= "2015-1-1") & (data["fecha"] <= "2019-09-30")

In [56]:
mask_1996 = (data["fecha"] >= "1996-1-1") & (data["fecha"] <= "1996-12-31")

In [71]:
data_2019 = data.loc[mask_2019]

In [72]:
data_2019.head()

Unnamed: 0,fecha,titulo,texto,etiquetas,categoria
68701,2015-10-01,'El feminismo como igualdad',viv pais 63 habit opin mujer aptas desarroll t...,otros,0
68702,2015-10-01,'Pedimos\ndiálogo',catalan habl bander call sin vot urnas aclar m...,politica,1
68703,2015-10-01,'Alcobendas',agradezc pais espaci dedic inquietud 376 mayor...,politica,1
68704,2015-10-01,'Nueva fábula\nde la lechera',camin merc lecher punt derram lech final consi...,otros,0
68705,2015-10-02,'En defensa de la historia',escrib cart defens histori hac anos sistem edu...,politica,1


In [73]:
data_2019.shape

(3288, 5)

In [74]:
data_1996 = data.loc[mask_1996]

In [75]:
data_1996.head()

Unnamed: 0,fecha,titulo,texto,etiquetas,categoria
32568,1996-10-01,'Protesta',comentari fot pap port 23 septiembr lee poc mi...,politica,1
32569,1996-10-01,'Derechos de los niños',nunc entend derech nin tan import adult articu...,politica,1
32570,1996-10-01,'Agencia Tributaria',leer articul public dia 13 septiembr titul lla...,politica,1
32571,1996-10-01,'Profesionales y solidaridad',veran sid play bar cop fiest mas mill espanol ...,otros,0
32572,1996-10-01,'Expolio',madrilen quier manifest profund indignacion ex...,politica,1


In [76]:
data_1996.shape

(469, 5)

In [None]:
# Exporto los dos dataframes

In [77]:
data_2019.to_csv("../Output/data_2019.csv", index=False)

In [78]:
data_1996.to_csv("../Output/data_1996.csv", index=False)