# Preprocesar datos textuales

Este notebook muestra métodos estándares de preprocesamiento de datos textuales a través de la librería spacy.

## 1. Cargar nuestro dataset en dataframe Pandas

In [1]:
import pandas

archivo = "biodiversidad_chile_2010-01-01_2021-12-31.csv"

dataset = pandas.read_csv(archivo)
dataset.drop('Unnamed: 0', axis=1, inplace=True)
dataset

Unnamed: 0,id_news,country,media_outlet,url,title,text,date,search
0,22000913.0,chile,elciudadano,https://www.elciudadano.com/actualidad/disponi...,Disponible online importante catálogo con semi...,"La Fundación BIODIVERSIDAD ALIMENTARIA, señala...",2021-09-16,biodiversidad
1,6414845.0,chile,latercera,https://www.latercera.com/que-pasa/noticia/no-...,"""No es suficiente"": Informe reconoce que Chile...","""Si el 2019 fue el año del cambio climático, s...",2020-01-20,biodiversidad
2,15637554.0,chile,emol,https://www.emol.com/noticias/Tecnologia/2016/...,Caída de la biodiversidad en el planeta supera...,MADRID.- La biodiversidad del planeta ha caído...,2016-07-14,biodiversidad
3,5157141.0,chile,elciudadano,https://www.elciudadano.com/chile/congreso-ava...,Congreso: Avanza votación de proyecto que crea...,La Comisión de Medio Ambiente de la Cámara de ...,2020-11-12,biodiversidad
4,21494220.0,chile,elrepuertero,https://www.elrepuertero.cl/noticia/sociedad/e...,En Santo Tomás abordarán la temática del manej...,Porque cada vez se hace más necesario analizar...,2017-11-20,biodiversidad
...,...,...,...,...,...,...,...,...
4075,4946124.0,chile,elciudadano,https://www.elciudadano.com/politica/debate-pr...,"Debate Presidencial en Chile, ¿Qué intereses r...","El Ciudadano entrega aquí las voces, los argu...",2013-06-24,biodiversidad
4076,5006851.0,chile,elciudadano,https://www.elciudadano.com/medio-ambiente/la-...,La renovación de la crítica al desarrollo y el...,De a poco el Buen Vivir ha ido permeando las ...,2012-03-27,biodiversidad
4077,5703004.0,chile,elciudadano,https://www.elciudadano.com/organizacion-socia...,Poderes populares en América Latina: pistas es...,Compartimos la Introducción del libro colect...,2013-04-13,biodiversidad
4078,5654115.0,chile,ahoranoticiasmega,https://www.meganoticias.cl/nacional/226074-cu...,Cuenta Pública: Discurso completo del Presiden...,MENSAJE PRESIDENCIAL CUENTA PÚBLICA 01/JUNIO/2...,2018-06-01,biodiversidad


In [2]:
dataset["title"][4]

'En Santo Tomás abordarán la temática del manejo y la conservación ambiental'

In [3]:
dataset["text"][5]

'Cada vez es más necesaria cualquier acción que contribuya a mejorar las prácticas en el jardín que aumentan o protegen la biodiversidad. La Corporación Jardín Botánico Chagual y CAPES UC son muy conscientes de ello y han desarrollado un curso sobre esta materia. El curso introductorio\xa0Jardines por la Biodiversidad\xa0es una primera aproximación a conceptos fundamentales y prácticas de manejo sustentable para fomentar la biodiversidad a nuestro alrededor, promoviendo refugios seguros para la flora y fauna local en las ciudades donde residimos, en un contexto de crisis del sistema en su conjunto. Si bien los contenidos a tratar en general corresponden a principios posibles de aplicar a nivel global, en esta primera versión el curso se enfocará en la zona central de Chile y su biodiversidad asociada. Así también, las salidas a terreno corresponden a lugares dentro de la ciudad de Santiago El curso cumple los siguientes objetivos: 1. Promover la biodiversidad y fomentar el manejo suste

## 2. Librería NLP: spaCy (https://spacy.io/)

In [4]:
#!pip install spacy==3.2.4
!python -m spacy download es_core_news_md

  return torch._C._cuda_getDeviceCount() > 0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_md')


In [5]:
import spacy

print(spacy.__version__)

  return torch._C._cuda_getDeviceCount() > 0


3.2.4


In [6]:
nlp = spacy.load("es_core_news_md")

In [7]:
text=dataset["title"][4]
text

'En Santo Tomás abordarán la temática del manejo y la conservación ambiental'

In [13]:
doc = nlp(text)

- Tokenización, Análisis gramátical, lematización...

In [14]:
for token in doc:
    print(token.text, token.lemma_,token.is_stop,token.pos_)

Los el True DET
siete siete True NUM
puntos punto False NOUN
estratégicos estratégico False ADJ
de de True ADP
Santiago Santiago False PROPN
que que True PRON
tendrán tener True VERB
aparatos aparato False NOUN
para para True ADP
medir medir False VERB
la el True DET
contaminación contaminación False NOUN
acústica acústico False ADJ


In [16]:
text=dataset["text"][5]
text

'La ministra del Medio Ambiente, Carolina Schmidt, presentó hoy la primera Red de Monitoreo de Ruido Ambiental de Chile, que mide en tiempo real y de forma continua la contaminación acústica en siete puntos estratégicos de Santiago. El objetivo de este monitoreo es reducir la contaminación acústica para mejorar la calidad de vida de los habitantes de la capital y aplicar políticas públicas que permitan bajar el ruido. La ministra indicó que "muchas veces nos acostumbramos al ruido y pensamos que no lo sentimos, es un contaminante invisible, genera estrés, trastornos en el sueño, problemas cardiovasculares, problemas de convivencia y agresividad". ESTACIONES DE MONITOREO Estos puntos están ubicados en puntos estratégicos de Santiago: San Martín, frente al Ministerio de Medio Ambiente; en la Alameda, frente al edificio del Minvu; en la Municipalidad de Providencia; frente al Juzgado de Policía Local de Ñuñoa; en la Autopista Central, cercanías el Metro Santa Ana; Plaza de Armas y en Maip

- Extracción de las Entidades (Personas, Organizaciones, Lugares, etc.)

In [17]:
doc = nlp(text)
for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Medio Ambiente 16 30 LOC
Carolina Schmidt 32 48 PER
Red de Monitoreo de Ruido Ambiental de Chile 74 118 ORG
Santiago 222 230 LOC
El objetivo de este monitoreo 232 261 MISC
ESTACIONES DE MONITOREO 654 677 MISC
San Martín 742 752 LOC
Ministerio de Medio Ambiente 764 792 LOC
Alameda 800 807 LOC
Minvu 832 837 LOC
Municipalidad de Providencia 845 873 LOC
Juzgado de Policía Local de Ñuñoa 885 918 LOC
Autopista Central 926 943 LOC
Metro Santa Ana 958 973 LOC
Plaza de Armas 975 989 LOC
Maipú. 995 1001 LOC
Plaza de Armas 1157 1171 LOC
Santiago 1201 1209 LOC
Schmidt 1238 1245 PER
Transantiago 1383 1395 MISC
No obstante, 1398 1410 MISC
Valparaíso 1524 1534 LOC
de Santiago 1565 1576 LOC
Todas las personas somos potenciales fuentes 1612 1656 MISC
tronadores 1908 1918 LOC
Por favor, 2013 2023 MISC
La Tercera 2041 2051 MISC


In [12]:
for ent in doc.ents:
    if(ent.label_ == "PER"):
        if (" " in ent.text):
            print(ent.text, ent.start_char, ent.end_char, ent.label_)

Carolina Schmidt 32 48 PER
San Martín 742 752 PER


- Extracción de patrones

In [18]:
from spacy.matcher import Matcher
matcher = Matcher(nlp.vocab)

In [19]:
# pattern: NOUN-de-NOUN
pattern_1 = [{"POS": "NOUN"},{"LOWER": "de"}, {"POS": "NOUN"}]
matcher.add("NOUN-de-NOUN", [pattern_1])

In [20]:
# pattern: NOUN-ADJ
pattern_2 = [{"POS": "NOUN"}, {"POS": "ADJ"}]
matcher.add("NOUN-ADJ", [pattern_2])

In [21]:
matches = matcher(doc)

for match_id, start, end in matches:
    #string_id = nlp.vocab.strings[match_id]
    span = doc[start:end]  # The matched span
    #print(match_id, string_id, start, end, span.text)
    print(span.text.lower())

tiempo real
forma continua
contaminación acústica
puntos estratégicos
contaminación acústica
calidad de vida
políticas públicas
contaminante invisible
problemas cardiovasculares
problemas de convivencia
estaciones de monitoreo
puntos estratégicos
vías exclusivas
zonas residenciales
lugar icónico
tránsito peatonal
fuente contaminante
transporte público
políticas relevantes
red de monitoreo
ruido ambiental
transporte vehicular
fuentes de ruido
ruido ambiental
través de consejos
consejos prácticos
tubo de escape
equipos sonoros
volúmenes moderados
