# Práctica de Laboratorio de Procesamiento del Lenguaje Natural (NLP)

Tema: Análisis Lingüístico y Procesamiento de Texto

## Contexto del Cliente

Eres parte de un equipo de analistas de datos en una agencia de inteligencia de mercado. Uno de tus clientes es una agencia de noticias que necesita analizar grandes volúmenes de artículos periodísticos relacionados con el medio ambiente. El cliente desea comprender la estructura gramatical, identificar las palabras clave y reducir la variabilidad de las palabras en estos textos para obtener insights más precisos y eficientes.

## Dataset de Artículos sobre Medio Ambiente

Para este ejercicio, utilizaremos un dataset ficticio de titulares de artículos sobre medio ambiente. Cada entrada en el dataset representa un título de artículo y contiene texto en lenguaje natural relacionado con cuestiones ambientales. 

In [1]:
articulos_medio_ambiente = [
    "El cambio climático es una amenaza global que requiere acción inmediata.",
    "La deforestación en la Amazonía está alcanzando niveles críticos.",
    "La biodiversidad es esencial para la salud de nuestro planeta.",
    "La contaminación del aire en las ciudades es un problema persistente.",
    "Los océanos están sufriendo un aumento de la acidificación debido al CO2.",
    "La conservación de los ecosistemas es crucial para proteger la vida silvestre.",
    "Las energías renovables son clave para reducir las emisiones de carbono.",
    "La escasez de agua es un desafío cada vez más apremiante en muchas regiones.",
    "La protección de los bosques tropicales es vital para frenar el cambio climático.",
    "Los esfuerzos de reciclaje pueden contribuir significativamente a la sostenibilidad.",
    "El aumento de las temperaturas globales está causando eventos climáticos extremos.",
    "La pérdida de hábitats naturales amenaza a numerosas especies en todo el mundo.",
    "La sobreexplotación de recursos naturales agota nuestros ecosistemas.",
    "La acidificación de los océanos afecta a la vida marina y los arrecifes de coral.",
    "La gestión de residuos electrónicos es un desafío creciente para el medio ambiente.",
    "Las energías renovables, como la solar y la eólica, son fuentes limpias de energía.",
    "La polución del agua afecta a la salud humana y la vida acuática.",
    "La agricultura sostenible es esencial para garantizar la seguridad alimentaria.",
    "La conservación de los humedales es fundamental para la biodiversidad.",
    "La pérdida de suelos fértiles amenaza la producción de alimentos.",
    "La caza furtiva pone en peligro a especies emblemáticas como los elefantes.",
    "La protección de los arrecifes de coral es esencial para los ecosistemas marinos.",
    "La contaminación lumínica afecta a la observación del cielo estrellado.",
    "La reforestación es una estrategia para combatir la pérdida de bosques.",
    "La educación ambiental promueve la conciencia sobre la naturaleza.",
    "La conservación de la capa de ozono es un éxito en la lucha contra el cambio climático.",
    "La urbanización descontrolada puede degradar los espacios naturales.",
    "La adopción de vehículos eléctricos reduce las emisiones de gases de efecto invernadero.",
    "La contaminación plástica es una amenaza para los océanos y la vida marina.",
    "La pérdida de glaciares es un indicador visible del cambio climático.",
    "La pesca sostenible es esencial para preservar las poblaciones de peces.",
    "La biodiversidad en los jardines urbanos beneficia a la fauna local.",
    "La energía nuclear plantea desafíos en cuanto a la gestión de residuos radiactivos.",
    "La conservación de las abejas es crucial para la polinización de cultivos.",
    "La reutilización de productos contribuye a la reducción de residuos.",
    "La migración de aves es un fenómeno natural que debe protegerse.",
    "La degradación del suelo afecta a la producción agrícola.",
    "La gestión de riesgos naturales es esencial para la seguridad de las comunidades.",
    "La contaminación del suelo por productos químicos tóxicos es un problema grave.",
    "La pérdida de glaciares es un indicador visible del cambio climático.",
    "La pesca sostenible es esencial para preservar las poblaciones de peces.",
    "La biodiversidad en los jardines urbanos beneficia a la fauna local.",
    "La energía nuclear plantea desafíos en cuanto a la gestión de residuos radiactivos.",
    "La conservación de las abejas es crucial para la polinización de cultivos.",
    "La reutilización de productos contribuye a la reducción de residuos.",
    "La migración de aves es un fenómeno natural que debe protegerse.",
    "La degradación del suelo afecta a la producción agrícola.",
    "La gestión de riesgos naturales es esencial para la seguridad de las comunidades.",
    "La contaminación del suelo por productos químicos tóxicos es un problema grave."
]


## Ejercicio 1: Análisis Gramatical (POS Tagging)
El primer paso en el análisis de texto es etiquetar cada palabra con su categoría gramatical (Part of Speech, POS). Utiliza una biblioteca de procesamiento de lenguaje natural como NLTK o SpaCy para realizar el análisis POS de los títulos de artículos sobre medio ambiente. Añade el análisis morfológico que ofrece SpaCy. 

In [2]:
import nltk
nltk.download('punkt')
from nltk import word_tokenize, pos_tag

# Realizar análisis POS para un artículo de ejemplo
articulo_ejemplo = "El cambio climático es una amenaza global que requiere acción inmediata."
palabras = word_tokenize(articulo_ejemplo)
categorias_gramaticales = pos_tag(palabras)
print(categorias_gramaticales)

[('El', 'NNP'), ('cambio', 'NN'), ('climático', 'NN'), ('es', 'NN'), ('una', 'JJ'), ('amenaza', 'NN'), ('global', 'JJ'), ('que', 'NN'), ('requiere', 'RB'), ('acción', 'JJ'), ('inmediata', 'NN'), ('.', '.')]


[nltk_data] Downloading package punkt to /Users/irene/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [3]:
import spacy

# Cargar modelo de lenguaje en español
nlp = spacy.load('es_core_news_sm')

# Realizar análisis morfológico para un artículo de ejemplo
doc = nlp(articulo_ejemplo)

print("\n")
# Encontrar el sujeto y el predicado
for token in doc:
    print("Token:", token.text, "|  Análisis morfológico:", token.tag_)
    


  from .autonotebook import tqdm as notebook_tqdm
2023-09-16 11:09:05.708380: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 AVX512F AVX512_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.




Token: El |  Análisis morfológico: Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Token: cambio |  Análisis morfológico: Gender=Masc|Number=Sing
Token: climático |  Análisis morfológico: Gender=Masc|Number=Sing
Token: es |  Análisis morfológico: Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
Token: una |  Análisis morfológico: Definite=Ind|Gender=Fem|Number=Sing|PronType=Art
Token: amenaza |  Análisis morfológico: Gender=Fem|Number=Sing
Token: global |  Análisis morfológico: Number=Sing
Token: que |  Análisis morfológico: PronType=Int,Rel
Token: requiere |  Análisis morfológico: Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
Token: acción |  Análisis morfológico: Gender=Fem|Number=Sing
Token: inmediata |  Análisis morfológico: Gender=Fem|Number=Sing
Token: . |  Análisis morfológico: PunctType=Peri


## Ejercicio 2: Análisis de Dependencias
El análisis de dependencias implica identificar las relaciones sintácticas entre las palabras en una oración. Utiliza SpaCy o alguna otra biblioteca para analizar las dependencias sintácticas en los artículos sobre medio ambiente y encuentra el sujeto y el verbo de cada título de artículo. Añade la visualización del árbol de dependencias completo, utilizando SpaCy.

Pregunta: ¿Puedes identificar las estructuras de sujeto-verbo en los artículos?

In [4]:
import spacy
from spacy import displacy

# Cargar el modelo de lenguaje de SpaCy en español
nlp = spacy.load("es_core_news_sm")

# Realizar análisis de dependencias para un artículo de ejemplo
articulo_ejemplo = "La deforestación en la Amazonía está alcanzando niveles críticos."
doc = nlp(articulo_ejemplo)

# Encontrar el sujeto y el predicado
sujeto = ""
predicado = ""
for token in doc:
    print(token.dep_, token.text)
    if "subj" in token.dep_:
        sujeto = token.text
    elif "ROOT" in token.dep_:
        predicado = token.text
print("\n")
print("Sujeto:", sujeto)
print("Núcleo verbo:", predicado)

# Observación: cuando el verbo es copulativo (ser, estar, parecer), la etiqueta no es "ROOT", sino "cop"
# Docu interesante: https://spacy.io/usage/linguistic-features


det La
nsubj deforestación
case en
det la
nmod Amazonía
aux está
ROOT alcanzando
obj niveles
amod críticos
punct .


Sujeto: deforestación
Núcleo verbo: alcanzando


In [5]:
displacy.render(doc, style='dep')

## Ejercicio 3: Shallow Parsing (Chunking)
El shallow parsing o chunking consiste en identificar frases nominales y verbales en un texto. SpaCy tiene una forma sencilla de identificar los noun chunks. Utiliza técnicas de shallow parsing para extraer frases nominales de los artículos sobre medio ambiente. ¿Se podría identificar cuál de estas frases nominales son el sujeto, complemento directo, etc? ¿Cómo?

In [52]:
import spacy
from spacy import displacy

# Cargar el modelo de lenguaje de SpaCy en español
nlp = spacy.load("es_core_news_sm")

# Realizar análisis de dependencias para un artículo de ejemplo
articulo_ejemplo = "La deforestación en la Amazonía está alcanzando niveles críticos."
doc = nlp(articulo_ejemplo)

lista_sintagmas_nominales = doc.noun_chunks
for x in lista_sintagmas_nominales:
    print(x) 


La deforestación
la Amazonía
niveles críticos


## Ejercicio 5: Desafío - Análisis Avanzado y Traducción
Dado un artículo en un idioma desconocido relacionado con el medio ambiente, debes realizar las siguientes tareas:

Identificar el idioma del artículo.
Realizar la traducción del artículo al español.
Realizar el análisis gramatical (POS tagging) del artículo traducido.
Realizar la lematización de las palabras en el artículo traducido.
Puedes utilizar bibliotecas como SpaCy, NLTK y una API de traducción (por ejemplo, Google Translate) para completar estas tareas.

Pregunta: ¿Qué idioma tiene el artículo? ¿Cuál es la traducción al español? ¿Cuáles son las categorías gramaticales de las palabras en el artículo traducido? ¿Cuáles son los lemas de las palabras?

In [71]:
pip install googletrans==4.0.0-rc1


Collecting googletrans==4.0.0-rc1
  Downloading googletrans-4.0.0rc1.tar.gz (20 kB)
Building wheels for collected packages: googletrans
  Building wheel for googletrans (setup.py) ... [?25ldone
[?25h  Created wheel for googletrans: filename=googletrans-4.0.0rc1-py3-none-any.whl size=17416 sha256=66051c18e8da540aa286576750926b72fcea464b74738659567540f120afe137
  Stored in directory: /Users/irene/Library/Caches/pip/wheels/60/b3/27/d8aff3e2d5c2d0d97a117cdf0d5f13cd121e2c2b5fb49b55a0
Successfully built googletrans
Installing collected packages: googletrans
  Attempting uninstall: googletrans
    Found existing installation: googletrans 3.0.0
    Uninstalling googletrans-3.0.0:
      Successfully uninstalled googletrans-3.0.0
Successfully installed googletrans-4.0.0rc1
Note: you may need to restart the kernel to use updated packages.


In [22]:
import langdetect
import requests
import spacy
from langdetect import detect
from bs4 import BeautifulSoup
from googletrans import Translator

# Ejemplo de artículo en un idioma desconocido (simulado)
url_articulo = "https://www.bbc.com/news/science-environment-58874518"
response = requests.get(url_articulo)

# Utilizaremos el codificador 'utf-8' para evitar problemas con los caracteres especiales
response.encoding = 'utf-8'
# Parsear el contenido del artículo
soup = BeautifulSoup(response.text, 'html.parser')
# Extraer el texto del artículo
articulo_desconocido = soup.get_text()

articulo_desconocido = articulo_desconocido.split("Image source,")[1]

In [24]:
# Detectar el idioma del artículo
idioma_detectado = detect(articulo_desconocido)

# Traducir el artículo al español con googletrans
translator = Translator()
articulo_traducido = translator.translate(articulo_desconocido, src=idioma_detectado, dest="es").text

print("Idioma Detectado:", idioma_detectado)
print("Traducción al Español:")
print(articulo_traducido)

#Realizar el análisis gramatical (POS tagging) en español
nlp = spacy.load("es_core_news_sm")
doc = nlp(articulo_traducido)

# Realizar la lematización de las palabras en español
lemmas = [token.lemma_ for token in doc if token.is_alpha]

print("Idioma Detectado:", idioma_detectado)
print("Traducción al Español:", articulo_traducido)
print("Categorías Gramaticales:", [(token.text, token.pos_) for token in doc])
print("Lemas de Palabras:", lemmas)

Idioma Detectado: en
Traducción al Español:
Getty ImageSthe UK corre el riesgo de quedarse atrás en sus esfuerzos por alcanzar "cero neto" para 2050 sin una acción mucho más rápida, según los asesores climáticos independientes del gobierno. El objetivo de 2050 es una parte clave de los compromisos internacionales del Reino Unido, que están diseñados para evitar los peoresImpactos del cambio climático. ¿Qué significa 'neto cero'? Cero neto significa que ya no se suma a la cantidad total de gases de efecto invernadero en la atmósfera.Los gases de efecto invernadero incluyen dióxido de carbono (CO2) y metano.El CO2 se libera cuando el petróleo, el gas y el carbón se queman en hogares, fábricas y transporte de energía.El metano se produce a través de la agricultura y el vertedero.Estos gases aumentan las temperaturas globales atrapando la energía del sol. Mandeando, mientras que la rápida deforestación en todo el mundo significa que hay menos árboles para absorber el CO2. Bajo el Acuerdo C