In [None]:
!pip install flair

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


#Cargamos el modelo de reconocimiento de entidades nombradas (NER) en espa√±ol de Flair
## Fuente: https://huggingface.co/flair/ner-spanish-large

Flair es un marco de trabajo para procesamiento de lenguaje natural (NLP) que permite aplicar modelos de vanguardia a su texto para la posterior clasificaci√≥n que ser√° exportada a formato .JSON


In [None]:
#importe los m√≥dulos necesarios.
import requests
import regex as re
import pandas as pd
import json
import flair
import numpy as np
# Luego, importe las clases o funciones espec√≠ficas que se utilizar√°n
from bs4 import BeautifulSoup
from flair.data import Sentence
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer
from flair.models import SequenceTagger


El modelo "flair/ner-spanish-large" predice 4 etiquetas: PER (nombre de persona), LOC (nombre de lugar), ORG (nombre de organizaci√≥n) y MISC (otro nombre).



In [None]:
# Cargamos el modelo ner-spanish-large de Flair
TAGGER = SequenceTagger.load("flair/ner-spanish-large")
# El modelo est√° basado en embeddings de nivel documental con XLM-R y FLERT

2023-06-11 17:12:09,882 SequenceTagger predicts: Dictionary with 20 tags: <unk>, O, S-LOC, S-ORG, B-PER, I-PER, E-PER, S-MISC, B-ORG, E-ORG, S-PER, I-ORG, B-LOC, E-LOC, B-MISC, E-MISC, I-MISC, I-LOC, <START>, <STOP>


Esta funci√≥n lee un archivo de Excel y lo convierte en un DataFrame de pandas. Tambi√©n elimina las filas que tienen la columna 'TEXTO' vac√≠a, ya que no son √∫tiles para el an√°lisis.

In [None]:
def load_data(path_to_filename: str) -> pd.DataFrame:
    df = pd.read_excel(path_to_filename) # Leemos el archivo de Excel con pandas
    df.dropna(subset=['TEXTO'], inplace=True) # Descartamos las filas con valores nulos en 'TEXTO'
    return df # Retornamos el DataFrame limpio

Esta funci√≥n toma una entidad etiquetada por el modelo de Flair y la transforma en una tupla con el texto de la entidad, el tipo de entidad y la probabilidad con la que se detecta la entidad. As√≠, se crea una funci√≥n llamada get_impact(text) que recibe un texto como argumento y retorna la categor√≠a de impacto, sin embargo, la precisi√≥n en este proceso puede mejorarse en desarrollos posteriores.



In [None]:
def entity_from_tagged_str(entity: flair.data.Span) -> tuple:
    parsed_entity = re.findall('"([^"]*)"', str(entity))
    confidence = re.findall('[^()]+(?=\))', str(entity))
    clss = ''
    if 'PER' in str(entity):
        clss = 'PER'
    elif 'LOC' in str(entity):
        clss = 'LOC'
    elif 'ORG' in str(entity):
        clss = 'ORG'
    elif 'MISC' in str(entity):
        clss = 'MISC'
    return parsed_entity[0], clss, confidence[0]

Entrenamiento con textos a elecci√≥n

In [None]:
def get_impact(text: str) -> str:
    # 1. Entrenamiento con datos y clasificacion dada en los datos
    textos = [
        'Contaminacion', 'La afectaci√≥n ambiental ocasionada por el derrame de cerca de 130.000 galones de crudo obligado por las Farc en putumayo se prolonga por meses, e incluso a√±os, en la vegetaci√≥n y las fuentes h√≠dricas.', 'Afectaci√≥n por contaminacion con hidrocarburos en afluentes hidricos en Puerto Asis que presta el servicio a 9.000 habitantes del municipio. Sobre esta situaci√≥n se busca la identificaci√≥n y evaluaci√≥n para determinar el grado de contaminaci√≥n de la Quebrada Agua Negra que surte agua para el cinsumo del municipio.', 'En 2019 se han registrado 19 atentados contra este oleoducto que transporta el crudo entre Putumayo y Nari√±o hacia el puerto de Tumaco, en el Pac√≠fico. El derrame de crudo afecto el rio Guamuez en Orito Putumayo.', 'el derrame del hidrocarburo afect√≥ 9 humedales; 7 en la vereda Las Caba√±as y 2 m√°s en la Vereda de Santa Rosa, lo que suma 3,5 hect√°reas de humedales afectados, causando un grave deterioro al ecosistema de fauna y flora en la regi√≥n.', 'En las localidades de Curillo, Solita y Solano fue declarada la emergencia sanitaria para prevenir la captaci√≥n de agua para sus acueductos. Empresa petrolera activ√≥ plan de contingencia. Se cree que contaminaci√≥n fue producida por una extracci√≥n ilegal de crudo.', 'Comunidades que habitan en la Inspecci√≥n de Puerto Lim√≥n evidenciaron los olores a petr√≥leo en el momento que crec√≠a el r√≠o Mocoa por las fuertes lluvias en la zona. Se trat√≥ del da√±o en la tuber√≠a que atraviesa el r√≠o y conduce gas y crudo lo que origin√≥ la contaminaci√≥n hacia aguas del r√≠o Caquet√°.', 'autoridades eval√∫an da√±os ambientales generados por el derrame de crudo; a causa del ataque perpetrado contra dos carrotanques en la v√≠a que de Puerto Rico conduce hacia San Vicente del Cagu√°n en el norte del Caquet√°.', 'Una embarcaci√≥n naufrag√≥ en el r√≠o con 12.000 galones de gasolina y 8.000 de Acpm. El barco ‚ÄúLuna Azul‚Äù de la empresa Transportes Caribe, que cubr√≠a la ruta Puerto As√≠s- Puerto Legu√≠zamo, se volte√≥ a 20 kil√≥metros del destino.', 'La contaminaci√≥n que provoca este metal es principalmente da√±ina para la principal fuente de prote√≠na del territorio, si se ingiere sin control, causa da√±os a la salud como da√±ar sus ri√±ones y el sistema cardiovascular  porque est√° contaminada.', 'El Guain√≠a es sin√≥nimo de agua y vida, siendo uno de los departamentos con mayor presencia de fuentes h√≠dricas dulces de Colombia, que en conjunto con las densas selvas que se levantan sobre su territorio, la convierte en el hogar de miles de especies de fauna y flora, que aporta una gran proporci√≥n del ox√≠geno para un pa√≠s, que cada d√≠a se ahoga en el efecto invernadero.', 'Este martes 27 de diciembre, cuatro d√≠as despu√©s de que una embarcaci√≥n quedara encallada en el r√≠o Putumayo y causara derrame de combustible, las autoridades de socorro del departamento recomendaron a la poblaci√≥n aleda√±a no consumir el agua ni el pescado de la fuente h√≠drica. Adem√°s, est√°n buscando alternativas para resolver esta crisis ambiental mediante un puesto de mando unificado (PMU).', 'En Leticia, capital del Amazonas, hay otro grave problema ambiental: sus humedales est√°n seriamente amenazados por, entre otras cosas, residuos s√≥lidos y cultivo de peces no nativos. Esta situaci√≥n tambi√©n est√° causando una dif√≠cil situaci√≥n de salud p√∫blica.', 'Por la destrucci√≥n de las dragas que son utilizadas para la extracci√≥n minera en el rio pur√© y cotuh√© de las amazonas, se genera un gran impacto ambiental, ecosistemas y afluentes h√≠dricos, en el marco de estas operaciones se estar√≠an vertiendo alrededor de entre 5 y 7 gramos de mercurio por cada gramo de oro que se estar√≠an extrayendo de los afluentes h√≠dricos.', 'El estudio Contenido de mercurio en comunidades √©tnicas de la subregi√≥n planicie de la Amazonia colombiana arroja datos alarmantes sobre las consecuencias del mercurio en la salud humana y en el ecosistema de los r√≠os Caquet√°, Apaporis, Pur√© y Cotuh√©. Este territorio ha estado expuesto a varias olas extractivas y conflictos que ponen en riesgo sus ecosistemas. Uno de los fen√≥menos que ha afectado la zona es la miner√≠a ilegal, actividad en la que se utiliza el mercurio, dice el estudio realizado a trav√©s de la Direcci√≥n Territorial Amazonia, y con el apoyo de la Universidad de Cartagena y la Fundaci√≥n Gordon and Betty Moore.', 'la alcald√≠a de San Vicente del Cagu√°n dio a conocer que ‚Äúdebido a los √∫ltimos acontecimientos ocurrido en las plataformas Capella, en la vereda los Pozos y Bruselas, se han ocasionado derrames de sustancias qu√≠micas que pueden llegar a contaminar fuentes h√≠dricas cercanas‚Äù.', 'El mercurio dorado amenaza el suelo y las aguas de la AmazoniaA la Amazonia se le reconoce como el bosque tropical y el sistema de r√≠os m√°s grande del mundo. Es el lugar que alberga el 10% de la biodiversidad del planeta y se extiende por los territorios de 9 pa√≠ses en Latinoam√©rica. Es el hogar de m√°s de 47 millones de personas, incluyendo 410 grupos ind√≠genas.', 'Incendios y derrames de hidrocarburos amenazan la Amazon√≠a colombianaLos incendios masivos en la Amazon√≠a colombiana superan las cifras para el mes de enero de los √∫ltimos diez a√±os, a lo que se a√±ade al menos dos derrames de hidrocarburos.', 'El 40 % del Amazonas puede convertirse en un ecosistema tipo sabana.Una gran parte de la selva amaz√≥nica, un 40 %, est√° en riesgo de convertirse en un ecosistema del tipo sabana, mientras aumenta el calentamiento de la regi√≥n por las emisiones contaminantes', ' El Amazonas podr√≠a haber llegado a un punto de no retorno: la deforestaci√≥n y los fuegos han llevado al extremo a la mayor selva tropical del mundo las tres primeras semanas de agosto 71.497 focos de incendio, el mayor n√∫mero para el per√≠odo en los √∫ltimos siete a√±os, y poco m√°s de la mitad de los cuales se reportaron en la Amazon√≠a', 'reportaron m√°s de 1.200 derrames de petr√≥leo en el √°rea. Las poblaciones ind√≠genas, as√≠ como la flora y fauna de la selva, sufren diariamente las consecuencias de manera m√°s directa. la situaci√≥n en el Amazonas empeora debido a las fallas de las autoridades para tratar con los perpetradores y prevenir los derrames', 'Contaminacion',
        'La contaminaci√≥n en el Amazonas es un problema creciente que pone en peligro la biodiversidad y las comunidades que dependen de esta selva. La tala ilegal, la miner√≠a descontrolada y los vertidos t√≥xicos est√°n causando un da√±o irreparable.', 'La deforestaci√≥n en el Amazonas est√° liberando grandes cantidades de carbono a la atm√≥sfera, contribuyendo al cambio clim√°tico global y afectando el equilibrio ecol√≥gico de la regi√≥n.', 'La quema de bosques en el Amazonas para crear √°reas de pastoreo y cultivos libera humo y gases contaminantes, provocando problemas respiratorios y afectando la calidad del aire en la regi√≥n.', 'La preservaci√≥n del Amazonas es urgente para evitar la p√©rdida de biodiversidad, proteger las comunidades ind√≠genas y mitigar los impactos del cambio clim√°tico. Es necesario tomar medidas para reducir la contaminaci√≥n y promover pr√°cticas sostenibles en la regi√≥n.',
        'mineria', 'La miner√≠a ilegal de oro se expande sin freno en la Amazon√≠a,como demuestran los √∫ltimos datos en la provincia de Napo, en Ecuador, la multiplicaci√≥n de actividades mineras ilegales altamente contaminantes es imparable en la Amazon√≠a', 'La miner√≠a ilegal crece voraz y amenazante en la Amazon√≠a,El Gobierno, en cambio, lo atribuye al poder econ√≥mico del narcotr√°fico y, si bien existen focos en casi todo el pa√≠s, hay cinco en la Amazon√≠a que generan preocupaci√≥n por su extensi√≥n o por estar dentro de reservas naturales.', 'La miner√≠a ilegal de oro ha sido una importante fuente de ingresos para los grupos armados no estatales en Colombia desde finales de la d√©cada de 1990, cuando el Bloque Central Bol√≠var (BCB) de las Autodefensas Unidas de Colombia (AUC), una organizaci√≥n paramilitar de derecha comenz√≥ a beneficiarse de la extracci√≥n del mineral en los departamentos de Bol√≠var y Antioquia.', 'M√°s de 30 hect√°reas afectadas, la desaparici√≥n de una quebrada y la contaminaci√≥n de varias fuentes h√≠dricas es el costo medioambiental que deja la explotaci√≥n de este yacimiento de oro a cielo abierto. Nueve personas fueron detenidas, Su nocivo impacto ambiental, por tanto, tampoco da tregua. Un ejemplo de su implacable efecto sobre el medioambiente fue el que encontraron en las √∫ltimas horas tropas del Batall√≥n de Artiller√≠a N¬∫. 27, de la Vig√©sima S√©ptima Brigada del Ej√©rcito Nacional, en la vereda conocida como Las Minas, del corregimiento de Puerto Umbr√≠a, en el municipio de Villagarz√≥n (Putumayo), All√≠ no solo resultaron afectadas cerca de 30 hect√°reas de vegetaci√≥n nativa por cuenta de una mina de oro a cielo abierto, sino adem√°s una quebrada, la cual -seg√∫n las autoridades- pr√°cticamente desapareci√≥. ', 'La miner√≠a en los r√≠os de esta zona no es ilegal solo porque carezca de permisos y t√≠tulos. Tambi√©n lo es porque viola las leyes de origen de los pueblos ind√≠genas amaz√≥nicos como los bora mira√±a, makuna, uitoto y aduche, a lo largo de las cuencas. Seg√∫n su cosmogon√≠a, son los esp√≠ritus guardianes del agua los √∫nicos que pueden autorizar la extracci√≥n del oro. A ellos nadie les ha vuelto a preguntar ‚Äúy por eso es que llegan las desgracias‚Äù, afirma la lideresa uitoto Nazareth Cabrera.‚ÄúLos dineros de la miner√≠a salen de los lugares en donde se explota. Lo que s√≠ quedan son las consecuencias ambientales y sociales‚Äù,  explica Mar√≠a Camila Munar, asesora de la Fundaci√≥n GAIA Amazonas.', 'Sin el servicio de acueducto se encuentran los municipios de Curillo, Solita y Solano, en el sur del Caquet√°, luego de que, a trav√©s de redes sociales, circularan im√°genes en las que se envidenciaban una mancha de petr√≥leo que cay√≥ al r√≠o Caquet√°, frente a esta situaci√≥n, el director territorial de Corpoamazonia, Mario √Ångel Bar√≥n, manifest√≥ que la emergencia ambiental se habr√≠a generado por la perforaci√≥n de una l√≠nea de conducci√≥n de petr√≥leo, en la zona baja del vecino departamento del Putumayo.', 'Sin importar la profundidad y la corriente del r√≠o Guaviare, mineros de subsistencia arriesgan su vida a diario en las aguas, sin que ninguna autoridad legal medie para proteger este sector de la econom√≠a informal, un sin numero de personas llegan a Puerto Tolima desde muy temprano a recolectar gravilla desde la profundidad del caudaloso r√≠o con un balde con el cual se introducen hasta el fondo para pescar el material y arrojarlo en una canoa, por cada metro cubico reciben 10.000 pesos y en el d√≠a pueden llegar a conseguir unos 50.000 pesos para alimentar su familia.', 'Desde que comenz√≥ la pandemia la miner√≠a ilegal en la Amazonia colombiana ha incrementado. Adem√°s de las problem√°ticas ambientales que trae el mercurio utilizado en estas actividades, monitoreos satelitales evidenciaron que desde 2020 ha aumentado m√°s del 1.000 % sobre el r√≠o Pur√© y los mineros tienen enclaves en el Parque Nacional Natural R√≠o Pur√©, a pocos kil√≥metros de un pueblo en aislamiento.', 'Seg√∫n monitoreo de la Alianza Regional Amaz√≥nica para la Reducci√≥n de los Impactos de la Miner√≠a de Oro, integrada por varias organizaciones de la sociedad civil, se ha identificado un aumento de lanchas, balsas y dragones en r√≠os como Pur√©, Cotuh√© y Caquet√°, en donde la explotaci√≥n de oro puede estar realiz√°ndose tanto por mineros colombianos como brasile√±os. En el r√≠o Pur√© (ubicado en el departamento del Amazonas, entre los r√≠os Caquet√° y Putumayo) durante 2022 se identificaron 357 balsas y dragones, un incremento de m√°s del 1.000 % con respecto a 2020, cuando se reportaron 25. Estos registros se llevan a cabo, entre otros recursos, gracias a im√°genes satelitales. ', 'Desde que comenz√≥ la pandemia la miner√≠a ilegal en la Amazonia colombiana ha incrementado. Adem√°s de las problem√°ticas ambientales que trae el mercurio utilizado en estas actividades, monitoreos satelitales evidenciaron que desde 2020 ha aumentado m√°s del 1.000 % sobre el r√≠o Pur√© y los mineros tienen enclaves en el Parque Nacional Natural R√≠o Pur√©, a pocos kil√≥metros de un pueblo en aislamiento.', 'Una operaci√≥n especial de las Fuerzas Militares y la Polic√≠a en el marco del Plan Perseo ha destruido los equipos de producci√≥n minera que, seg√∫n las investigaciones, pertenec√≠an a grupos armados vinculados al narcotr√°fico.', 'la corte constitucional orden√≥ suspednder cualquier actividad minera en un millon de hectareas en los departamentos  de vaup√©s y Amazonas.', 'En junio de 2021 varias comunidades ind√≠genas vieron cinco embarcaciones haciendo miner√≠a ilegal en el r√≠o Caquet√°. Im√°genes satelitales llegaron a mostrar hasta 19 embarcaciones en el mismo mes en el R√≠o Pur√©, uno de sus afluentes.', 'En lo que va de 2022 y hasta finales de mayo, en el √°rea central del departamento del Choc√≥, la Fuerza P√∫blica junto con la Fiscal√≠a General de la Naci√≥n y la Corporaci√≥n Aut√≥noma Ambiental del Choc√≥, Codechoc√≥, ubicaron y destruyeron 20 maquinarias amarillas y 11 dragas y dragones. Tambi√©n destruyeron 49 unidades de producci√≥n minera ilegales, 27 motores, y un bote.', 'La extracci√≥n il√≠cita de minerales no para en diferentes regiones del pa√≠s, pese a las restricciones existentes de movilidad para controlar la pandemia del coronavirus.                                                                                                                Su nocivo impacto ambiental, por tanto, tampoco da tregua. Un ejemplo de su implacable efecto sobre el medioambiente fue el que encontraron en las √∫ltimas horas tropas del Batall√≥n de Artiller√≠a N¬∫. 27, de la Vig√©sima S√©ptima Brigada del Ej√©rcito Nacional, en la vereda conocida como Las Minas, del corregimiento de Puerto Umbr√≠a, en el municipio de Villagarz√≥n (Putumayo). ', 'La miner√≠a ilegal en la Amazon√≠a colombianaA medida que los precios del oro se han disparado, los grupos criminales que antes se dedicaban exclusivamente al tr√°fico de drogas y armas han incursionado en la miner√≠a ilegal.', 'Cultivos de coca y miner√≠a ilegal se dispararon en la Amazon√≠a, advierte organizaci√≥n ambientalistaEste jueves el World Wildlife Fund (WWF) dio a conocer el informe ‚ÄòUn clima peligroso: deforestaci√≥n, cambio clim√°tico y violencia contra defensores ambientales en la Amazon√≠a colombiana‚Äô en el que se√±alan que la desmovilizaci√≥n y el desarme de la Farc cre√≥ una especie de vac√≠o de poder en esa zona lo que aument√≥ la explotaci√≥n de recursos y de actividades econ√≥micas ilegales.', 'Cultivos de coca y miner√≠a ilegal se dispararon en la Amazon√≠a, advierte organizaci√≥n ambientalistaEste jueves el World Wildlife Fund (WWF) dio a conocer el informe ‚ÄòUn clima peligroso: deforestaci√≥n, cambio clim√°tico y violencia contra defensores ambientales en la Amazon√≠a colombiana‚Äô en el que se√±alan que la desmovilizaci√≥n y el desarme de la Farc cre√≥ una especie de vac√≠o de poder en esa zona lo que aument√≥ la explotaci√≥n de recursos y de actividades econ√≥micas ilegales.', 'Destrucci√≥n del Amazonas: autoridades colombianas detuvieron brasileros que estaban afectando ocho kil√≥metros de r√≠o y selvaLos individuos llevaban a cabo actividades de miner√≠a ilegal en la zona en complicidad con el grupo armado organizado residual Estructura 48, Comandos de Frontera',  'mineria', 'Las carreteras, las v√≠as f√©rreas y las nuevas rutas de transporte fluvial est√°n transformando la Amazonia. Actualmente decenas de miles de kil√≥metros de carreteras atraviesan sus bosques; y la construcci√≥n de nuevas rutas seguir√° aumentando. En este momento m√°s de 20 proyectos de construcci√≥n de carreteras gigantes ejercen presi√≥n sobre la Amazonia, lo que puede generar un r√°pido aumento de la p√©rdida de bosques.', 'En los √∫ltimos tres meses de 2019, la deforestaci√≥n en Colombia se concentr√≥ en un 84.9% en la Amazonia, de acuerdo con el Instituto de Hidrolog√≠a, Meteorolog√≠a y Estudios Ambientales (Ideam).', 'Colombia propone fondo internacional para proteger la Amazon√≠a. El presidente de Colombia, el izquierdista Gustavo Petro, anunci√≥ el jueves (18.08.2022) que pedir√° a los pa√≠ses ricos y a grandes empresas pagar a los campesinos por cuidar la selva amaz√≥nica y recuperar las zonas deforestadas.', '"La deforestaci√≥n en Colombia subi√≥ 11 % en el primer semestre de 2022. En las √∫ltimas semanas, se ha tendido en medio de la opini√≥n p√∫blica las cifras sobre deforestaci√≥n en Colombia presentadas por el Ministerio de Ambiente y Desarrollo Sostenible, despu√©s de analizar los reportes del Sistema de Monitoreo de Bosques y Carbono del Instituto de Hidrolog√≠a, Meteorolog√≠a y Estudios Ambientales (Ideam). De acuerdo con la cartera, en las √∫ltimas dos d√©cadas se han deforestado en el pa√≠s 3,1 millones de hect√°reas de bosque, siendo la Amazonia colombiana, el sector m√°s afectado.', 'La crisis con las disidencias de Iv√°n Mordisco impacta la lucha contra la deforestaci√≥n', '"El ""impacto inmenso"" de las regiones del Amazonas que ahora emiten m√°s carbono del que absorben. vLa deforestaci√≥n y el cambio clim√°tico est√°n alterando la capacidad de la selva amaz√≥nica de absorber di√≥xido carbono, de acuerdo con un nuevo estudio.Significativas √°reas de la selva tropical m√°s grande del planet han comenzado a emitir m√°s CO2 del que absorben.El √°rea sureste es la m√°s afectada, dicen los cient√≠ficos, con tasas m√°s altas de p√©rdida de √°rboles y un incremento en el n√∫mero de incendios.Las temperaturas all√≠ han aumentado tres veces el promedio mundial durante los meses m√°s calurosos."',
        '"El Amazonas est√° cerca del punto de inflexi√≥n de convertirse en una sabana, sugiere un estudio. La selva del Amazonas podr√≠a estar acerc√°ndose a un punto de inflexi√≥n cr√≠tico que podr√≠a hacer que este ecosistema biol√≥gicamente rico y diverso se transforme en una sabana de hierba.El destino de la selva tropical es crucial para la salud del planeta, ya que alberga una variedad √∫nica de vida animal y vegetal, almacena una enorme cantidad de carbono e influye en gran medida en los patrones clim√°ticos globales."', 'McDonald‚Äôs Corp. estar√≠a vinculada con la deforestaci√≥n y abusos laborales en la selva amaz√≥nica,hay varios casos en los que la carne de res de ranchos despejados ilegalmente se mezcl√≥ con la de granjas para ocultar su verdadero origen y luego se envi√≥ a mataderos propiedad de empresas que abastecen a McDonald‚Äôs.', 'Siete de cada diez habitantes de la Amazon√≠a no tienen acceso al agua potable, pese a albergar el 20% de las reservas de agua dulce del planeta, seg√∫n World Vision que ha lanzado la campa√±a Iniciativa de la Cuenca Amaz√≥nica, coincidiendo con el D√≠a Mundial del Medio Ambiente.', 'A la Amazonia se le reconoce como el bosque tropical y el sistema de r√≠os m√°s grande del mundo. Es el lugar que alberga el 10% de la biodiversidad del planeta y se extiende por los territorios de 9 pa√≠ses en Latinoam√©rica. Es el hogar de m√°s de 47 millones de personas, incluyendo 410 grupos ind√≠genas. Por su extensi√≥n y caracter√≠sticas ambientales, esta regi√≥n es fundamental para la regulaci√≥n del clima, el ciclo h√≠drico y para la prosperidad ambiental y econ√≥mica de la zona. Por ello, su protecci√≥n y conservaci√≥n es vital para el ecosistema mundial.', 'Durante agosto del 2019, el aumento de los incendios en Brasil y Bolivia volvi√≥ a poner el Amazonas en el punto de mira.Seg√∫n un informe del Instituto de Investigaci√≥n Ambiental de la Amazon√≠a (IPAM) los fuegos estaban directamente relacionados con la deforestaci√≥n.A pesar de las promesas del gobierno de que pondr√≠a fin a la deforestaci√≥n, los incendios en el bosque volvieron a ocurrir durante el mismo periodo de 2020.', 'La tala ilegal, la ganader√≠a y la expansi√≥n de tierras agr√≠colas han destruido un 75 % de los bosques del departamento en las √∫ltimas d√©cadas, la deforestaci√≥n y el conflicto han sido dos de los problemas m√°s significativos que han afectado durante d√©cadas al departamento de Caquet√°, Como otras regiones del sur del pa√≠s, Caquet√° ha sido sitio de violencia intensa y degradaci√≥n ambiental, con ambos problemas que, a menudo, se interceptan y exacerban el uno al otro, La deforestaci√≥n es uno de las dificultades ambientales m√°s importantes en Colombia, ya que el pa√≠s pierde un estimado de 220.000 hect√°reas de bosque al a√±o, pero en Caquet√°, la deforestaci√≥n ha sido particularmente grave.', 'A pesar de que la deforestaci√≥n est√° prohibida en el Guaviare por el Estado colombiano y las disidencias, la selva amaz√≥nica, que ocupa pr√°cticamente la totalidad del territorio, sigue menguando a√±o a a√±o, agonizando entre llamas, y dando paso a un inmenso potrero.Cuesta pensar en que en alg√∫n momento todo estuviera lleno de selva, como cuentan los habitantes del Guaviare, pues los parches ‚Äútumbados‚Äù, cuadrados perfectos de bosque quemado y deforestado, se pueden apreciar desde el aire pero, sobre todo, transitando las ‚Äútrochas‚Äù (caminos) que conectan municipios y veredas en las que el ojo no alcanza a ver d√≥nde acaban los potreros de cientos de hect√°reas en los que contrasta la poca cantidad de vacas.', 'La Amazonia colombiana concentr√≥ m√°s del 57% de las alertas tempranas por deforestaci√≥n que acaban de ser publicadas por el Ideam. La Macarena, Sierra Nevada de Santa Marta y Chiribiquete fueron los Parques Nacionales m√°s afectados por la motosierra, En el primer trimestre, este departamento perdi√≥ m√°s de 14.000 hect√°reas boscosas y concentr√≥ 24,3 por ciento de las alertas tempranas por deforestaci√≥n, cifra que en el mismo periodo de 2018 fue del 12,1 por ciento. El Ideam identific√≥ 305 parches con √°reas superiores a las 10 hect√°reas, de los cuales 13 superaron las 50 hect√°reas. ', 'L√≠deres ind√≠genas reunidos este martes en Lima (Per√∫) advirtieron que la Amazonia se encuentra en ‚Äúalerta roja‚Äù, porque el 26 % de su ecosistema ha sido destruido irreversiblemente por la deforestaci√≥n, la contaminaci√≥n y el narcotr√°fico.', 'Cuando alguien se atrev√≠a a afirmar o a vaticinar que la selva amaz√≥nica ser√≠a tan solo un buen recuerdo si la deforestaci√≥n y los incendios se segu√≠an produciendo en ella, muchos se iban en contra de quien pronunciaba dichas palabras y lo consideraban exagerado, pues resulta que al paso que vamos, esos comentarios parecer√°n una dura sentencia contra una regi√≥n que no para de arder.', 'Eso es lo que est√° pasando en San Vicente del Cagu√°n, el municipio m√°s deforestado del Caquet√° con 18.000 hect√°reas derribadas el a√±o pasado, desde principios de agosto varios pobladores de la zona han ingresado a un √°rea de reserva forestal instituida por la propia comunidad para tumbar el bosque y establecer pastos para la ganader√≠a. El saldo, dice √©l, son al menos 2.000 hect√°reas deforestadas hasta ahora y con grandes posibilidades de aumentar en los pr√≥ximos meses.', 'La mayor parte de la deforestaci√≥n se debe a la construcci√≥n de v√≠as terciarias, no porque destruyan los bosques, sino porque es por ah√≠ que llegan los nuevos colonos. Le sigue la tala y quema para ganader√≠a, y en tercer lugar, los cultivos de coca que han aumentado en el departamento. Esto ocurre en zonas con bosques que tardaron miles de a√±os en crecer y que son el hogar de una flora y fauna √∫nica.', 'Los municipios de Puerto Guzm√°n, Puerto Legu√≠zamo, Puerto As√≠s y Puerto Caicedo registraron cerca de 11 mil hect√°reas deforestadas, lo que corresponde al 85 % de zonas afectadas por esta problem√°tica ambiental en el Putumayo.                                                                 Los municipios con mayor deforestaci√≥n han sido Puerto Guzm√°n, con alrededor de 1.953 hect√°reas, y Puerto Legu√≠zamo, con 1.144 hect√°reas, en el 2021',  '‚ÄúA pesar de que ya hay sitios con pocos remanentes de bosques, el tama√±o de la deforestaci√≥n y de las quemas sigue siendo enorme. Hay sitios que est√°n quedando con un cambio de cobertura definitivo, algunos de ellos corresponden a corredores de conectividad ecol√≥gica que eran cruciales‚Äù, explica Botero, ya en tierra, en la sede de la FCDS en San Jos√© del Guaviare, a manera de balance. ‚ÄúEstamos entrando en un punto de inflexi√≥n. Es posible que antes haya habido m√°s √°rea deforestada, pero no necesariamente con esta intensidad‚Äù.', 'La Amazon√≠a colombiana sufre una "preocupante degradaci√≥n ambiental"Cultivos il√≠citos, agricultura intensiva, miner√≠a ilegal narcotr√°fico producen una "preocupante degradaci√≥n ambiental" en la Amazon√≠a colombiana, cada vez m√°s golpeada por la deforestaci√≥n y los ataques contra ambientalistas, denunciaron este jueves varias ONGs.',
        'El ganado acorrala a la Amazon√≠a Desde 2016 la poblaci√≥n vacuna que circunda a los parques nacionales colombianos La Macarena, Cordillera los Picachos, Tinigua y Serran√≠a del Chiribiquete se ha m√°s que duplicado. Quebrantan as√≠ la ecolog√≠a de reserva que protege la selva m√°s importante del planeta. ¬øPor qu√© y c√≥mo se han podido apropiar los particulares de tierras p√∫blicas reservadas?', 'Arde la Amazon√≠a colombianaLas llamas devoran, una vez m√°s, la Amazon√≠a colombiana. Pocos minutos despu√©s de que la avioneta despega del aeropuerto de Villavicencio, la puerta de entrada a la inmensidad de las llanuras que dominan la mitad sur de Colombia, se comienza a observar las copiosas columnas de humo. ', 'La crisis con las disidencias de Iv√°n Mordisco impacta la lucha contra la deforestaci√≥n', 'EL PESO DE LA COCA EN LA DEFORESTACION AMAZONICA El cultivo de la hoja de coca en la regi√≥n de la Amazonia viene desde los tiempos ancestrales. Las comunidades amaz√≥nicas cuentan que los grupos ind√≠genas que han habitado este territorio hist√≥ricamente han sembrado coca, entre ellos los huitotos, muinane, andoques, nonuyas, mira√±as, yucunas y matap√≠s.', '‚ÄúGanader√≠a genera 60 veces m√°s deforestaci√≥n que el √°rea por coca en la Amazon√≠a‚ÄùAs√≠ lo concluye Paulo Murillo, top√≥grafo y PhD en geograf√≠a de la Oregon State University, en su tesis doctoral sobre la expansi√≥n de los cultivos de coca y ganader√≠a extensiva en el posconflicto. Afirma que habitantes de los territorios se debaten entre su supervivencia y la protecci√≥n del medioambiente.', 'Ganader√≠a extensiva, uno de los motores de la deforestaci√≥n en ColombiaSeg√∫n cifras del Ideam, solo en 2021 se deforestaron 174.113 hect√°reas en el pa√≠s, especialmente en la Amazon√≠a.', 'SOS por la Amazon√≠a colombiana: 600.000 hect√°reas han sido arrasadas en los √∫ltimos 5 a√±os',
        'El aumento de las represas en la Amazonia amenaza el flujo natural de sus r√≠os, altera los ciclos naturales y pone en grave riesgo especies como los delfines y peces migratorios. El suministro de agua para las comunidades locales y el transporte de alimentos, tambi√©n se ven afectados por cuenta de la producci√≥n de energ√≠a en la selva amaz√≥nica. En la Amazonia hay 154 represas para la producci√≥n de energ√≠a hidroel√©ctrica y se planea la construcci√≥n de otras 277 en los pr√≥ximos a√±os.', 'Desde hace dos semanas el nivel promedio del r√≠o Amazonas, en el lado brasile√±o, ha llegado a bajar 25 cent√≠metros por d√≠a,R√≠os reducidos a tierras agrietadas y peque√±as embarcaciones atascadas e inmovilizadas ante la ausencia de agua, se estan afectando 41 municipios que est√°n en alerta, 3 en estado de emergencia, Y los 18 restantes tienen problemas de abastecimiento y salida de producci√≥n.', 'los problemas del eje vial que une a 12 distritos que siembran m√°s de 40 mil hect√°reas de caf√© y producen m√°s de un mill√≥n de quintales de este preciado grano para exportaci√≥n, la reclasificaci√≥n de una ruta nacional definitiva; la construcci√≥n de un pavimento de tr√°nsito pesado y la conectividad digital en la zona pues carece de este importante servicio en muchas localidades.', 'La anomal√≠a de la temperatura del agua del oc√©ano Pac√≠fico ha mostrado un calentamiento bastante at√≠pico durante algunas semanas que podr√≠a provocar efectos m√°s intensos y duraderos, como una sequ√≠a en el norte de Brasil, dejando a la Amazonia bajo un gran estr√©s h√≠drico y m√°s propensa a los incendios.', ' El delf√≠n rosado ha sido cazado por que la carne del animal es usada como carnada para pescar el pez mota, Esta actividad no solamente es ilegal sino que estan cazando delfines de forma cruel.', ' las carreteras que actualmente est√°n proyectadas para ser construidas en la regi√≥n amaz√≥nica producir√°n desarrollo, tambi√©n provocar√°n deforestaci√≥n, violaciones a derechos ind√≠genas, transgresiones a las normas ambientales y p√©rdidas econ√≥micas. ', 'As√≠ operan los grupos armados y el narcotr√°fico en el Amazonas. De alguna manera esta industria ha sido la v√≠a del lavado de dinero de narcos desde que aparece este il√≠cito. Pero hasta los noventa se fortalece y se hace visible esta acci√≥n con los herederos de los carteles de la droga, quedando a luz p√∫blica, por sus estrategias que quedaron en evidencia ante el mundo por sus excedidas opulencias y los seguimientos que desenmascararon terceras personas como a empresas de fachada.', 'Interceptan aeronave que intentaba traficar droga y detienen al piloto y copiloto, ‚ÄúEstos aviones vienen desde Suram√©rica y aqu√≠ en Venezuela son interceptados con nuestro Sistema de Defensa Aeroespacial Integral, capaz de detectar todo tipo de aeronaves que ingresen; inmediatamente procedemos a los protocolos de actuaci√≥n de acuerdo a los est√°ndares internacionales‚Äù, asegur√≥ Ichaso quien destac√≥ que Venezuela ejerce su soberan√≠a sobre la normativa de los espacios a√©reos', 'en el operativo se encontraron 12 computadores port√°tiles ‚Äìque tendr√≠an claves sobre las finanzas de la red ilegal‚Äì y una nevera en la que se guardaban licores finos para el consumo de ‚ÄòGentil Duarte‚Äô, en el cambuche principal estaba la cama del jefe de la disidencia y hab√≠a ropa de mujer, Adem√°s se encontraron 60 equipos de campa√±a nuevos, 200 kilos de v√≠veres, 9 fusiles, 8 pistolas nueve mil√≠metros, miras telesc√≥picas y 2.547 cartuchos de diferentes calibres, la mayor parte del campamento sigue en pie y sin da√±o, pues el bombardeo se concentr√≥ solo en el sitio que se sab√≠a estaba destinado para la llegada de ‚ÄòGentil Duarte‚Äô, quien pasar√≠a la noche en e l lugar.', 'El asesinato de cuatro adolescentes ind√≠genas en el sur de Colombia supone un nuevo obst√°culo para el objetivo de "paz total" que persigue el gobierno de Gustavo Petro, los j√≥venes fueron reclutados forzosamente por las disidencias de la guerrilla de las FARC en su propio territorio y luego, a pesar de que ellos mismos lograron escapar, acabaron perdiendo la vida, la masacre en la que fueron asesinados ocurri√≥ el pasado 17 de mayo en el departamento del Putumayo. El hecho fue denunciado tres d√≠as despu√©s por la Organizaci√≥n Nacional de los Pueblos Ind√≠genas de la Amazon√≠a Colombiana (Opiac) en redes sociales.', 'Un operativo en conjunto con la Polic√≠a Nacional, el Ej√©rcito y la Fiscal√≠a permiti√≥ darle un golpe al grupo armado  ‚ÄòComandos de Frontera‚Äô de la llamada ‚ÄòSegunda Marquetalia‚Äô, la operaci√≥n que se hizo en el departamento de Caquet√° logr√≥ la captura de siete integrantes del GAOR estructura 48 de esta disidencia, Los capturados deber√°n responder por delitos como concierto para delinquir agravado, homicidio agravado y tr√°fico, fabricaci√≥n o porte de armas de fuego.', 'La Fuerza P√∫blica de Colombia no descansa en la lucha contra el narcotr√°fico, logrando resultados cada vez m√°s contundentes. A finales de octubre las autoridades destruyeron 71 laboratorios ilegales de organizaciones narcotraficantes en la regi√≥n Amaz√≥nica colombiana, inform√≥ la Armada de Colombia en un comunicado.', 'Los disidentes de las Farc preguntaban por la ubicaci√≥n de 450 kilos de marihuana de variedad cripa, que estaban ocultos en alg√∫n lugar del vasto Amazonas. El traficante se negaba a entregar el bot√≠n y soport√≥ durante ocho horas los m√°s crueles castigos.', 'Las conclusiones, recopiladas en un art√≠culo recientemente publicado en la revista Nature, surgen al comparar la capacidad de resistir la falta de agua de las diferentes especies de √°rboles de la regi√≥n y constatar que la tolerancia a la sequ√≠a de los √°rboles de la selva amaz√≥nica puede variar en funci√≥n de la especie.', 'M√ÅS de un tercio de la Amazon√≠a se habr√≠a degradado por la actividad humana y las sequ√≠as, dijeron investigadores, y se requieren acciones para proteger ese ecosistema crucial.', 'Uno de los panoramas que evidenci√≥ el Sinchi (Instituto Amaz√≥nico de Investigaciones Cient√≠ficas) tiene que ver con el cambio clim√°tico donde se indic√≥ que, si se pierde el 40% de la selva tropical, los bosques podr√≠an dirigirse a un punto de inflexi√≥n o punto de no retorno, donde el bosque restante eventualmente transformarse en un ecosistema de sabana. En Colombia la regi√≥n amaz√≥nica representa el 42,3% del territorio con una superficie estimada de 483.164 km. En esta √°rea, el 14% est√° dominado por tierras agr√≠colas, vegetaci√≥n secundaria y bosques fragmentados. Actualmente, el 86% del √°rea corresponde a √°reas naturales en buen estado de conservaci√≥n, donde los bosques son la cobertura dominante.', ' Ning√∫n continente se ha librado del fuego, pero la zona de la que m√°s se habla es de la gran cantidad de incendios que est√°n destruyendo el Amazonas. A√∫n no se puede saber si el √°rea afectada por incendios es mayor que la del a√±o pasado, pero s√≠ se conoce que, como apuntan desde Greenpeace, el n√∫mero de incendios surgidos entre enero y finales de agosto ha sido un 145% mayor que en el mismo per√≠odo de 2018. Aunque tambi√©n es cierto que el n√∫mero de incendios de este a√±o no es mayor que la media de los √∫ltimos 18 a√±os (desde que los sat√©lites de la NASA son capaces de monitorizarlos), seg√∫n los datos cient√≠ficos.', 'Las poblaciones del Amazonas sufrieron una selecci√≥n natural a causa del pat√≥geno del Chagas y su gen√©tica se fue adaptando hasta tener una variante resistente a esta enfermedad, seg√∫n ha descubierto un estudio coliderado por el Instituto de Biolog√≠a Evolutiva (IBE-CSIC-UPF) y la Universidad de Sao Paulo (Brasil).', 'La Fuerza P√∫blica de Colombia no descansa en la lucha contra el narcotr√°fico, logrando resultados cada vez m√°s contundentes. A finales de octubre las autoridades destruyeron 71 laboratorios ilegales de organizaciones narcotraficantes en la regi√≥n Amaz√≥nica colombiana, inform√≥ la Armada de Colombia en un comunicado.', 'En G√ºerima, Vichada, a las puertas de la Amazon√≠a colombiana, las antiguas pistas del narcotr√°fico sirven para transportar cacao a los campesinos que abandonaron los cultivos il√≠citos en esta regi√≥n pobre, despoblada y sin carreteras', 'Sobre la ciudad de San Jos√© del Guaviare, un remanso en la Amazonia colombiana, un helic√≥ptero de la √©poca de la guerra en Vietnam repleto de agentes de la polic√≠a judicial y el Ej√©rcito se eleva hacia el cielo. A medida que vuela hacia el sur, el mosaico de fincas ganaderas atravesado por caminos de arcilla roja se disuelve en parches de vegetaci√≥n desfigurados por la deforestaci√≥n. ', 'Tras una constante presi√≥n militar ejercida por tropas del Ej√©rcito Nacional y de la Armada de Colombia, que inici√≥ en el departamento de Vichada, fue incautada m√°s de media tonelada de clorhidrato de coca√≠na, que era transportada a bordo de una embarcaci√≥n sobre el r√≠o Guain√≠a, en el municipio de In√≠rida.', 'La b√∫squeda por encontrar una gota de agua es algo que a los habitantes del departamento del Caquet√° cada vez se les hace m√°s dif√≠cil. El agua potable en esta parte del pa√≠s est√° ausente y ni√±os, j√≥venes, adultos e ind√≠genas tratan de hallar alguna soluci√≥n.',
        'Los acuerdos se dieron en una reuni√≥n entre gobernadores ind√≠genas de diferentes etnias, l√≠deres de Acilapp y funcionarios del Instituto Colombiano de Desarrollo Rural (Incoder), que los avalaron.                                                         M√°s pastos, menos selva. La invasi√≥n de tierras tambi√©n la sufren siete familias de la etnia coreguaje, que pertenecen al asentamiento Chaibaj√∫.', 'Seg√∫n la OPIAC, los menores fueron asesinados entre el Amazonas y el Caquet√°, al sur de Colombia.                    La matanza de 4 menores en colombia por la que el presidente petro suspendio el cese al fuego con las disidencias de las FARC . El hecho fue denunciado tres d√≠as despues por la organizacion Nacional Nacional de los pueblos ind√≠genas de la Amazon√≠a Colombia (OPIAC) en redes sociales. ', 'El bajo nivel del r√≠o afecta ya a todos los 62 municipios que componen el estado brasile√±o de Amazonia. En algunos puntos en los que el r√≠o todav√≠a fluye, el nivel de profundidad es de hasta 35 cent√≠metros, por lo que las im√°genes de pescadores arrastrando sus embarcaciones se torna bastante com√∫n. En la fotograf√≠a, un barco varado por las sequ√≠as en Lagoa da Francesa, en el municipio de Parintinis, el 21 de octubre de 2022.', 'Este ecosistema podr√≠a perder su capacidad de absorci√≥n de carbono, ha comenzado a emitir m√°s CO2 del que absorbe debido a la creciente deforestaci√≥n y los incendios, se debe principalmente a la actividad humana relacionada con la tala que ha enfrentado en los √∫ltimos a√±o, al menos tres cuartos de la Amazon√≠a han perdido la capacidad de recuperarse de fen√≥menos adverso.', 'El Igac dice que los suelos del Caquet√° y Putumayo son los m√°s afectados en la Amazonia colombiana. La degradaci√≥n de este recurso natural por la p√©rdida de bosque en las zonas monta√±osas intensifica los derrumbes y desbordamientos de los r√≠os.', 'Por un per√≠odo de diez a√±os, los investiga+A2:A32 ayudar a combatir el cambio clim√°tico con su capacidad de absorber carbono de la atm√≥sfera; y por otro, nos ayudar√° a entender c√≥mo la selva se ver√° impactada por esos cambios", dijo David Lapola, investigador de la Universidad de Campinas, que coordina el proyecto junto a Quesada.', 'IOHFVJSBD SJDFC SDFDCH DU UHSDF USDNS USB SJSF USF UWF USWOEQYEOW EYERP AUSNC QIANZCO DJSFHUWE QGRBKXX ANSAS IXBUABXJ SUZDBS', "                                    "
    ]

    etiquetas = ['CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'CONTAMINACION', 'MINERIA', 'MINERIA', 'MINERIA', 'MINERIA', 'MINERIA', 'MINERIA', 'MINERIA', 'MINERIA', 'MINERIA', 'MINERIA', 'MINERIA', 'MINERIA', 'MINERIA', 'MINERIA', 'MINERIA', 'MINERIA', 'MINERIA', 'MINERIA', 'MINERIA', 'MINERIA', 'MINERIA', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION',
                 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'DEFORESTACION', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO', 'NINGUNO']
    # Agregamos una lista de textos y sus correspondientes etiquetas de categor√≠a obtenidas de la base de datos dada.

    # 2. Extracci√≥n de caracter√≠sticas
    vectorizador = CountVectorizer()
    caracteristicas = vectorizador.fit_transform(textos)
    # Se crea un objeto CountVectorizer, que se utiliza para convertir los textos en caracter√≠sticas num√©ricas.
    # La funci√≥n fit_transform() ajusta el vectorizador a los datos de entrenamiento dados y luego transforma estos textos en una representaci√≥n num√©rica.

    # 3. Entrenamiento del modelo
    modelo = MultinomialNB()
    modelo.fit(caracteristicas, etiquetas)
    # Se crea un objeto de clasificador de Naive Bayes multinomial (MultinomialNB)
    # El objeto se entrena con las caracter√≠sticas y etiquetas de los datos dados anteriormente

    nuevos_textos = [text]

    # 5. Predicci√≥n de la categor√≠a:
    nuevas_caracteristicas = vectorizador.transform(nuevos_textos)
    # Utilizamos vectorizador (previamente ajustado), esto transforma los nuevos textos en caracter√≠sticas num√©ricas.
    # La funci√≥n transform() convierte los textos en la representaci√≥n num√©rica utilizada durante el entrenamiento del modelo.

    # 6. Predicci√≥n de las categor√≠as
    predicciones = modelo.predict(nuevas_caracteristicas)
    # Utilizando el modelo entrenado modelo, se realizan predicciones sobre las nuevas caracter√≠sticas.
    # El m√©todo predict() del modelo devuelve la categoria predichas para el texto dado.

    # 7. Resultados
    for texto, categoria in zip(nuevos_textos, predicciones):
        # Se utiliza for en combinaci√≥n con la funci√≥n zip() para iterar simult√°neamente sobre el texto y la prediccion.
        if categoria not in etiquetas:
            categoria = "Ninguno"
        # se verifica si la categor√≠a predicha se encuentra en la lista de etiquetas. Si no, se asigna la categor√≠a como "Ninguno".
        return categoria
        # se devuelve la categor√≠a predicha

Extracci√≥n de fechas con base al "string" enviado por el usuario

In [None]:
def get_dates(text: str) -> list:
    return re.findall('(19[89][0-9]|20[0-4][0-9]|2050)', text) + re.findall('([a-zA-Z]+) del (\d{4})', text)


La siguiente funci√≥n crea un diccionario con el texto y listas vac√≠as para las entidades nombradas, las fechas y el impacto. Llama a la funci√≥n get_impact para obtener la categor√≠a de impacto, fechas, identifica y claisifa entidades seg√∫n el tipo (persona, lugar, organizaci√≥n, u otro) del texto y la guarda en el diccionario. Posteriormente, se abre el archivo de salida en modo escritura y guarda el diccionario en formato JSON.


In [None]:
def ner_from_str(text: str, output_path: str) -> None:
    d = {"text": text,
         "org": [],
         "loc": [],
         "per": [],
         "dates": [],
         "misc": [],
         "impact": ""
         }
    d["impact"] = get_impact(text)
    d["dates"] = get_dates(text)
    sentence = Sentence(text)
    TAGGER.predict(sentence)
    for entity in sentence.get_spans('ner'):
        ent, clss, conf = entity_from_tagged_str(entity)
        if clss == 'PER':
            d["per"].append(ent)
        elif clss == 'LOC':
            d["loc"].append(ent)
        elif clss == 'ORG':
            d["org"].append(ent)
        elif clss == 'MISC':
            d["misc"].append(ent)
    with open(output_path, "w") as outfile:
        json.dump(d, outfile)

Esta funci√≥n lee un archivo de texto dado su ruta y devuelve su contenido como una cadena. Si el archivo no existe o hay alg√∫n otro error, imprime un mensaje de error y devuelve un mensaje de alerta.

In [None]:
def obtener_contenido_archivo(archivo_path: str) -> str:
    try:
        with open(archivo_path, "r") as file:
            contenido = file.read()
        return contenido
    except FileNotFoundError:
        print("Ingrese un archivo", archivo_path)
        return None
    except Exception as e:
        print("Ingrese un archivo", e)
        return None

In [None]:
def ner_from_file(text_path: str, output_path: str) -> None:
    text = obtener_contenido_archivo(text_path)
    ner_from_str(text, output_path)

Esta funci√≥n obtiene el texto de una p√°gina web dada su url, usando la librer√≠a requests para hacer la petici√≥n y la librer√≠a BeautifulSoup para analizar el contenido HTML.


In [None]:
def getdata(url: str) -> str:
    r = requests.get(url)
    htmldata = r.text
    soup = BeautifulSoup(htmldata, 'html.parser')
    data = ''
    text = ''
    for data in soup.find_all("p"):
        text += data.get_text()
    return text

In [None]:
def ner_from_url(url: str, output_path: str) -> None:
    text = getdata(url)
    ner_from_str(text, output_path)

#Funciones para procesar, categorizar y etiquetar noticias de diversas fuentes



In [None]:
import torch
torch.cuda.empty_cache()

In [None]:
ner_from_str("Bogot√° D.C., 16 de mayo de 2023 (@Minambienteco) ‚Äì La ministra de Ambiente y Desarrollo Sostenible, Susana Muhamad, revel√≥ que la deforestaci√≥n en la Amazon√≠a colombiana cay√≥ un 25% en el a√±o 2022 en comparaci√≥n con el a√±o 2021, seg√∫n las cifras preliminares de deforestaci√≥n reportadas por el Sistema de Monitoreo de Bosques y Carbono del Instituto de Hidrolog√≠a, Meteorolog√≠a y Estudios Ambientales (Ideam).", "salida.json") #-> None

In [None]:
ner_from_file("/content/noticias_formatocsv.csv", "salida_noticias_depuradas.json")

In [None]:
ner_from_url("https://elpais.com/america-colombia/2023-06-09/hallados-con-vida-los-cuatro-ninos-perdidos-hace-40-dias-en-la-selva-colombiana.html", "salida_de_url.json")

##üë©‚Äçüíªüåéüìùüìúüòä

