# Preprocesar datos textuales

Este notebook muestra métodos estándares de preprocesamiento de datos textuales a través de la librería spacy.

## 1. Cargar nuestro dataset en dataframe Pandas

In [1]:
import pandas

archivo = "contaminaciónacústica_chile_2018-01-01_2021-12-31.csv"

dataset = pandas.read_csv(archivo)
dataset.drop('Unnamed: 0', axis=1, inplace=True)
dataset

Unnamed: 0,id_news,country,media_outlet,url,title,text,date,search
0,17785718.0,chile,emol,https://www.emol.com/noticias/Autos/2021/02/24...,Estudio advierte que la contaminación acústica...,La prestigiosa revista estadounidense The Atl...,2021-02-25,contaminación acústica
1,22416427.0,chile,laestrelladechiloe,https://www.laestrellachiloe.cl/impresa/2021/0...,La contaminación acústica,"La contaminación acústica, según la Organizaci...",2021-06-15,contaminación acústica
2,261700.0,chile,biobiochile,https://www.biobiochile.cl/noticias/nacional/r...,Justicia ordena al municipio de Concepción fis...,La Municipalidad de Concepción deberá fiscaliz...,2020-07-02,contaminación acústica
3,22330373.0,chile,elllanquihue,https://www.ellanquihue.cl/impresa/2021/07/07/...,Contaminación acústica,"La contaminación acústica, según la Organizaci...",2021-07-07,contaminación acústica
4,13871464.0,chile,emol,https://www.emol.com/noticias/Nacional/2018/11...,Los siete puntos estratégicos de Santiago que ...,SANTIAGO.- El Ministerio del Medio Ambiente ...,2018-11-21,contaminación acústica
...,...,...,...,...,...,...,...,...
83,22333632.0,chile,elllanquihue,https://www.ellanquihue.cl/impresa/2021/09/08/...,Vivir en La Vara: vecinos cuentan conflictos q...,Los habitantes de La Vara están cansados. Se s...,2021-09-08,contaminación acústica
84,22410052.0,chile,elllanquihue,https://www.ellanquihue.cl/impresa/2021/04/05/...,En Senda Sur y La Vara presionan para mejorar ...,Los ya cotidianos problemas que enfrentan los ...,2021-04-05,contaminación acústica
85,21960210.0,chile,elciudadano,https://www.elciudadano.com/chile/la-conservac...,La conservación del agua frente al antropocent...,Por Catalina Vergara (Antropocentrismo: del gr...,2020-12-22,contaminación acústica
86,3839185.0,chile,elmostrador,https://www.elmostrador.cl/cultura/destacados-...,"Cuñado de Ricardo Lagos, el personaje detrás d...",Roberto Durán de la Fuente es el director de l...,2020-12-24,contaminación acústica


In [2]:
dataset["title"][4]

'Los siete puntos estratégicos de Santiago que tendrán aparatos para medir la contaminación acústica'

In [3]:
dataset["text"][5]

'La ministra del Medio Ambiente, Carolina Schmidt, presentó hoy la primera Red de Monitoreo de Ruido Ambiental de Chile, que mide en tiempo real y de forma continua la contaminación acústica en siete puntos estratégicos de Santiago. El objetivo de este monitoreo es reducir la contaminación acústica para mejorar la calidad de vida de los habitantes de la capital y aplicar políticas públicas que permitan bajar el ruido. La ministra indicó que "muchas veces nos acostumbramos al ruido y pensamos que no lo sentimos, es un contaminante invisible, genera estrés, trastornos en el sueño, problemas cardiovasculares, problemas de convivencia y agresividad". ESTACIONES DE MONITOREO Estos puntos están ubicados en puntos estratégicos de Santiago: San Martín, frente al Ministerio de Medio Ambiente; en la Alameda, frente al edificio del Minvu; en la Municipalidad de Providencia; frente al Juzgado de Policía Local de Ñuñoa; en la Autopista Central, cercanías el Metro Santa Ana; Plaza de Armas y en Maip

## 2. Librería NLP: spaCy (https://spacy.io/)

In [11]:
#!pip install spacy
#!python -m spacy download es_core_news_md

In [5]:
import spacy

print(spacy.__version__)

3.2.4


In [6]:
nlp = spacy.load("es_core_news_md")



In [7]:
text=dataset["title"][4]

In [8]:
doc = nlp(text)

- Tokenización, Análisis gramátical, lematización...

In [9]:
for token in doc:
    print(token.text, token.lemma_,token.is_stop,token.pos_)

Los el True DET
siete siete True NUM
puntos punto False NOUN
estratégicos estratégico False ADJ
de de True ADP
Santiago Santiago False PROPN
que que True PRON
tendrán tener True VERB
aparatos aparato False NOUN
para para True ADP
medir medir False VERB
la el True DET
contaminación contaminación False NOUN
acústica acústico False ADJ


In [10]:
text=dataset["text"][5]

- Extracción de las Entidades (Personas, Organizaciones, Lugares, etc.)

In [11]:
doc = nlp(text)
for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Medio Ambiente 16 30 LOC
Carolina Schmidt 32 48 PER
Red de Monitoreo 74 90 LOC
Ruido Ambiental de Chile 94 118 ORG
Santiago 222 230 LOC
El objetivo de este monitoreo 232 261 MISC
La ministra indicó 421 439 MISC
DE MONITOREO Estos puntos 665 690 ORG
Santiago 732 740 LOC
San Martín 742 752 PER
Ministerio de Medio Ambiente 764 792 LOC
la Alameda 797 807 LOC
Minvu 832 837 LOC
Municipalidad de Providencia 845 873 LOC
Juzgado de Policía Local de Ñuñoa 885 918 ORG
Autopista Central 926 943 LOC
Metro Santa Ana 958 973 LOC
Plaza de Armas 975 989 LOC
Maipú 995 1000 LOC
Plaza de Armas 1157 1171 LOC
Santiago 1201 1209 LOC
Schmidt 1238 1245 PER
Transantiago 1383 1395 MISC
Valparaíso 1524 1534 LOC
El principal ruido ambiental de Santiago 1536 1576 MISC
Todas las personas somos potenciales fuentes de ruido 1612 1665 MISC
Por favor 2013 2022 MISC
La Tercera 2041 2051 MISC


In [12]:
for ent in doc.ents:
    if(ent.label_ == "PER"):
        if (" " in ent.text):
            print(ent.text, ent.start_char, ent.end_char, ent.label_)

Carolina Schmidt 32 48 PER
San Martín 742 752 PER


- Extracción de patrones

In [13]:
from spacy.matcher import Matcher
matcher = Matcher(nlp.vocab)

In [14]:
# pattern: NOUN-de-NOUN
pattern_1 = [{"POS": "NOUN"},{"LOWER": "de"}, {"POS": "NOUN"}]
matcher.add("NOUN-de-NOUN", [pattern_1])

In [15]:
# pattern: NOUN-ADJ
pattern_2 = [{"POS": "NOUN"}, {"POS": "ADJ"}]
matcher.add("NOUN-ADJ", [pattern_2])

In [16]:
matches = matcher(doc)

for match_id, start, end in matches:
    #string_id = nlp.vocab.strings[match_id]
    span = doc[start:end]  # The matched span
    #print(match_id, string_id, start, end, span.text)
    print(span.text.lower())

tiempo real
forma continua
contaminación acústica
puntos estratégicos
contaminación acústica
calidad de vida
políticas públicas
contaminante invisible
problemas cardiovasculares
problemas de convivencia
estaciones de monitoreo
puntos estratégicos
vías exclusivas
zonas residenciales
lugar icónico
tránsito peatonal
fuente contaminante
transporte público
políticas relevantes
red de monitoreo
ruido ambiental
transporte vehicular
fuentes de ruido
ruido ambiental
través de consejos
consejos prácticos
tubo de escape
equipos sonoros
volúmenes moderados


## 3. Utilizar Wikipedia como fuente de datos

In [None]:
#pip install wikipedia

In [17]:
import wikipedia
wikipedia.set_lang("es")

In [18]:
print(wikipedia.search("Chile"))    

['Chile', 'Movistar (Chile)', 'Universidad de Chile', 'Selección de fútbol de Chile', 'Presidente de Chile', 'Club Universidad de Chile', 'Chile Vamos', 'Regiones de Chile', 'Capitanía General de Chile', 'Inmigración en Chile']


In [None]:
page = wikipedia.page("Carolina Schmidt")

#print(page.title)
#print(page.url)
#print(page.content)
#print(page.links)

In [19]:
print(wikipedia.summary("Carolina Schmidt", sentences=2))

María Carolina Schmidt Zaldívar (Santiago, 9 de septiembre de 1967) es una ingeniera comercial, empresaria y política chilena. Desde agosto de 2018 hasta noviembre de 2021, se desempeñó como ministra del Medio Ambiente bajo el segundo gobierno del presidente Sebastián Piñera.[2]​
En el primer gobierno de Piñera ejerció como ministra directora del Servicio Nacional de la Mujer (Sernam), cargo en el que se mantuvo hasta mediados de abril de 2013, cuando se le encargó la cartera de Educación tras la destitución de Harald Beyer.


In [None]:
#pip install git+https://github.com/Commonists/pageview-api.git

In [21]:
import pageviewapi

In [23]:
result=pageviewapi.per_article('es.wikipedia', 'Carolina Schmidt', '20220511', '20220511',
                        access='all-access', agent='all-agents', granularity='daily')

for item in result.items():
    for article in item[1]:
        timestamp=article['timestamp'][:8] #first 8 digits
        views=article['views']
        print(timestamp)
        print(views)

20220511
18


## 4. Utilizar modelos de redes neuronales Transformers para Question-Answering

In [28]:
text=wikipedia.summary("Carolina Schmidt", sentences=2)

In [24]:
from transformers import AutoModelForQuestionAnswering, AutoTokenizer
from transformers import pipeline

In [26]:
ES_MODEL_LANGUAGE="mrm8488/bert-base-spanish-wwm-cased-finetuned-spa-squad2-es"

tokenizer_es_language = AutoTokenizer.from_pretrained(ES_MODEL_LANGUAGE)
model_es_language = AutoModelForQuestionAnswering.from_pretrained(ES_MODEL_LANGUAGE)

In [27]:
q_a_es = pipeline("question-answering", model=model_es_language, tokenizer=tokenizer_es_language)

In [31]:
result = q_a_es(question="¿En qué año nació el o ella?", context=text)
result["answer"]

'1967'

In [32]:
result = q_a_es(question="¿Cuál es su profesión?", context=text)
result["answer"]

'ingeniera comercial, empresaria y política chilena'