# Preprocesar datos textuales

Este notebook muestra métodos estándares de preprocesamiento de datos textuales a través de la librería spacy.

## 1. Cargar nuestro dataset en dataframe Pandas

In [1]:
import pandas

archivo = "biodiversidad_chile_2010-01-01_2021-12-31.csv"

dataset = pandas.read_csv(archivo)
dataset.drop('Unnamed: 0', axis=1, inplace=True)
dataset

Unnamed: 0,id_news,country,media_outlet,url,title,text,date,search
0,22000913.0,chile,elciudadano,https://www.elciudadano.com/actualidad/disponi...,Disponible online importante catálogo con semi...,"La Fundación BIODIVERSIDAD ALIMENTARIA, señala...",2021-09-16,biodiversidad
1,6414845.0,chile,latercera,https://www.latercera.com/que-pasa/noticia/no-...,"""No es suficiente"": Informe reconoce que Chile...","""Si el 2019 fue el año del cambio climático, s...",2020-01-20,biodiversidad
2,15637554.0,chile,emol,https://www.emol.com/noticias/Tecnologia/2016/...,Caída de la biodiversidad en el planeta supera...,MADRID.- La biodiversidad del planeta ha caído...,2016-07-14,biodiversidad
3,5157141.0,chile,elciudadano,https://www.elciudadano.com/chile/congreso-ava...,Congreso: Avanza votación de proyecto que crea...,La Comisión de Medio Ambiente de la Cámara de ...,2020-11-12,biodiversidad
4,21494220.0,chile,elrepuertero,https://www.elrepuertero.cl/noticia/sociedad/e...,En Santo Tomás abordarán la temática del manej...,Porque cada vez se hace más necesario analizar...,2017-11-20,biodiversidad
...,...,...,...,...,...,...,...,...
4075,4946124.0,chile,elciudadano,https://www.elciudadano.com/politica/debate-pr...,"Debate Presidencial en Chile, ¿Qué intereses r...","El Ciudadano entrega aquí las voces, los argu...",2013-06-24,biodiversidad
4076,5006851.0,chile,elciudadano,https://www.elciudadano.com/medio-ambiente/la-...,La renovación de la crítica al desarrollo y el...,De a poco el Buen Vivir ha ido permeando las ...,2012-03-27,biodiversidad
4077,5703004.0,chile,elciudadano,https://www.elciudadano.com/organizacion-socia...,Poderes populares en América Latina: pistas es...,Compartimos la Introducción del libro colect...,2013-04-13,biodiversidad
4078,5654115.0,chile,ahoranoticiasmega,https://www.meganoticias.cl/nacional/226074-cu...,Cuenta Pública: Discurso completo del Presiden...,MENSAJE PRESIDENCIAL CUENTA PÚBLICA 01/JUNIO/2...,2018-06-01,biodiversidad


In [2]:
dataset["title"][4]

'En Santo Tomás abordarán la temática del manejo y la conservación ambiental'

In [3]:
dataset["text"][5]

'Cada vez es más necesaria cualquier acción que contribuya a mejorar las prácticas en el jardín que aumentan o protegen la biodiversidad. La Corporación Jardín Botánico Chagual y CAPES UC son muy conscientes de ello y han desarrollado un curso sobre esta materia. El curso introductorio\xa0Jardines por la Biodiversidad\xa0es una primera aproximación a conceptos fundamentales y prácticas de manejo sustentable para fomentar la biodiversidad a nuestro alrededor, promoviendo refugios seguros para la flora y fauna local en las ciudades donde residimos, en un contexto de crisis del sistema en su conjunto. Si bien los contenidos a tratar en general corresponden a principios posibles de aplicar a nivel global, en esta primera versión el curso se enfocará en la zona central de Chile y su biodiversidad asociada. Así también, las salidas a terreno corresponden a lugares dentro de la ciudad de Santiago El curso cumple los siguientes objetivos: 1. Promover la biodiversidad y fomentar el manejo suste

## 2. Librería NLP: spaCy (https://spacy.io/)

In [5]:
!pip install spacy==3.2.4
!python -m spacy download es_core_news_md

Collecting spacy==3.2.4
  Downloading spacy-3.2.4-cp39-cp39-win_amd64.whl (11.3 MB)
Collecting cymem<2.1.0,>=2.0.2
  Downloading cymem-2.0.7-cp39-cp39-win_amd64.whl (30 kB)
Collecting spacy-legacy<3.1.0,>=3.0.8
  Downloading spacy_legacy-3.0.10-py2.py3-none-any.whl (21 kB)
Collecting spacy-loggers<2.0.0,>=1.0.0
  Downloading spacy_loggers-1.0.3-py3-none-any.whl (9.3 kB)
Collecting murmurhash<1.1.0,>=0.28.0
  Downloading murmurhash-1.0.9-cp39-cp39-win_amd64.whl (18 kB)
Collecting pathy>=0.3.5
  Downloading pathy-0.6.2-py3-none-any.whl (42 kB)
Collecting blis<0.8.0,>=0.4.0
  Downloading blis-0.7.9-cp39-cp39-win_amd64.whl (7.0 MB)
Collecting typer<0.5.0,>=0.3.0
  Downloading typer-0.4.2-py3-none-any.whl (27 kB)
Collecting catalogue<2.1.0,>=2.0.6
  Downloading catalogue-2.0.8-py3-none-any.whl (17 kB)
Collecting pydantic!=1.8,!=1.8.1,<1.9.0,>=1.7.4
  Downloading pydantic-1.8.2-cp39-cp39-win_amd64.whl (1.9 MB)
Collecting wasabi<1.1.0,>=0.8.1
  Downloading wasabi-0.10.1-py3-none-any.whl (26 k

In [6]:
import spacy

print(spacy.__version__)

3.2.4


In [7]:
nlp = spacy.load("es_core_news_md")

In [8]:
text=dataset["title"][4]
text

'En Santo Tomás abordarán la temática del manejo y la conservación ambiental'

In [9]:
doc = nlp(text)

- Tokenización, Análisis gramátical, lematización...

In [10]:
for token in doc:
    print(token.text, token.lemma_,token.is_stop,token.pos_)

En en True ADP
Santo Santo False PROPN
Tomás Tomás False PROPN
abordarán abordar False VERB
la el True DET
temática temática False NOUN
del del True ADP
manejo manejo False NOUN
y y False CCONJ
la el True DET
conservación conservación False NOUN
ambiental ambiental False ADJ


In [11]:
text=dataset["text"][5]
text

'Cada vez es más necesaria cualquier acción que contribuya a mejorar las prácticas en el jardín que aumentan o protegen la biodiversidad. La Corporación Jardín Botánico Chagual y CAPES UC son muy conscientes de ello y han desarrollado un curso sobre esta materia. El curso introductorio\xa0Jardines por la Biodiversidad\xa0es una primera aproximación a conceptos fundamentales y prácticas de manejo sustentable para fomentar la biodiversidad a nuestro alrededor, promoviendo refugios seguros para la flora y fauna local en las ciudades donde residimos, en un contexto de crisis del sistema en su conjunto. Si bien los contenidos a tratar en general corresponden a principios posibles de aplicar a nivel global, en esta primera versión el curso se enfocará en la zona central de Chile y su biodiversidad asociada. Así también, las salidas a terreno corresponden a lugares dentro de la ciudad de Santiago El curso cumple los siguientes objetivos: 1. Promover la biodiversidad y fomentar el manejo suste

- Extracción de las Entidades (Personas, Organizaciones, Lugares, etc.)

In [12]:
doc = nlp(text)
for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

La Corporación Jardín Botánico Chagual 137 175 LOC
CAPES UC 178 186 ORG
El curso introductorio Jardines 263 294 MISC
Si bien los contenidos 599 621 MISC
Chile 771 776 LOC
Así también, las salidas a terreno 806 840 MISC
Promover la biodiversidad 941 966 MISC
Esta primera edición 1344 1364 MISC
Zoom. 1503 1508 ORG
Jardines 1560 1568 LOC
PARQUEMET. 1584 1594 MISC
Chile 1699 1704 LOC
Chile 1866 1871 LOC
Instagram 2217 2226 MISC
Facebook 2229 2237 MISC


In [13]:
for ent in doc.ents:
    if(ent.label_ == "PER"):
        if (" " in ent.text):
            print(ent.text, ent.start_char, ent.end_char, ent.label_)

- Extracción de patrones

In [14]:
from spacy.matcher import Matcher
matcher = Matcher(nlp.vocab)

In [15]:
# pattern: NOUN-de-NOUN
pattern_1 = [{"POS": "NOUN"},{"LOWER": "de"}, {"POS": "NOUN"}]
matcher.add("NOUN-de-NOUN", [pattern_1])

In [16]:
# pattern: NOUN-ADJ
pattern_2 = [{"POS": "NOUN"}, {"POS": "ADJ"}]
matcher.add("NOUN-ADJ", [pattern_2])

In [17]:
matches = matcher(doc)

for match_id, start, end in matches:
    #string_id = nlp.vocab.strings[match_id]
    span = doc[start:end]  # The matched span
    #print(match_id, string_id, start, end, span.text)
    print(span.text.lower())

curso introductorio
conceptos fundamentales
prácticas de manejo
manejo sustentable
refugios seguros
fauna local
contexto de crisis
principios posibles
nivel global
zona central
biodiversidad asociada
manejo sustentable
espacios urbanos
hábitats seguros
fauna local
conjunto pequeños
parches verdes
red mayor
biodiversidad urbana
factor de cambio
lacrisis climática
clases teóricas
través de plataforma
clases prácticas
temas abordados
ecología urbana
cambio climático
vegetación nativa
clima mediterráneo
plantas acompañantes
plantas comestibles
-elaboración de biofertilizantes
-insectos benéficos
