# Práctica de Laboratorio de Procesamiento del Lenguaje Natural (NLP)

Tema: Análisis Lingüístico y Procesamiento de Texto

## Contexto del Cliente

Eres parte de un equipo de analistas de datos en una agencia de inteligencia de mercado. Uno de tus clientes es una agencia de noticias que necesita analizar grandes volúmenes de artículos periodísticos relacionados con el medio ambiente. El cliente desea comprender la estructura gramatical, identificar las palabras clave y reducir la variabilidad de las palabras en estos textos para obtener insights más precisos y eficientes.

## Dataset de Artículos sobre Medio Ambiente

Para este ejercicio, utilizaremos un dataset ficticio de titulares de artículos sobre medio ambiente. Cada entrada en el dataset representa un título de artículo y contiene texto en lenguaje natural relacionado con cuestiones ambientales. 

In [1]:
articulos_medio_ambiente = [
    "El cambio climático es una amenaza global que requiere acción inmediata.",
    "La deforestación en la Amazonía está alcanzando niveles críticos.",
    "La biodiversidad es esencial para la salud de nuestro planeta.",
    "La contaminación del aire en las ciudades es un problema persistente.",
    "Los océanos están sufriendo un aumento de la acidificación debido al CO2.",
    "La conservación de los ecosistemas es crucial para proteger la vida silvestre.",
    "Las energías renovables son clave para reducir las emisiones de carbono.",
    "La escasez de agua es un desafío cada vez más apremiante en muchas regiones.",
    "La protección de los bosques tropicales es vital para frenar el cambio climático.",
    "Los esfuerzos de reciclaje pueden contribuir significativamente a la sostenibilidad.",
    "El aumento de las temperaturas globales está causando eventos climáticos extremos.",
    "La pérdida de hábitats naturales amenaza a numerosas especies en todo el mundo.",
    "La sobreexplotación de recursos naturales agota nuestros ecosistemas.",
    "La acidificación de los océanos afecta a la vida marina y los arrecifes de coral.",
    "La gestión de residuos electrónicos es un desafío creciente para el medio ambiente.",
    "Las energías renovables, como la solar y la eólica, son fuentes limpias de energía.",
    "La polución del agua afecta a la salud humana y la vida acuática.",
    "La agricultura sostenible es esencial para garantizar la seguridad alimentaria.",
    "La conservación de los humedales es fundamental para la biodiversidad.",
    "La pérdida de suelos fértiles amenaza la producción de alimentos.",
    "La caza furtiva pone en peligro a especies emblemáticas como los elefantes.",
    "La protección de los arrecifes de coral es esencial para los ecosistemas marinos.",
    "La contaminación lumínica afecta a la observación del cielo estrellado.",
    "La reforestación es una estrategia para combatir la pérdida de bosques.",
    "La educación ambiental promueve la conciencia sobre la naturaleza.",
    "La conservación de la capa de ozono es un éxito en la lucha contra el cambio climático.",
    "La urbanización descontrolada puede degradar los espacios naturales.",
    "La adopción de vehículos eléctricos reduce las emisiones de gases de efecto invernadero.",
    "La contaminación plástica es una amenaza para los océanos y la vida marina.",
    "La pérdida de glaciares es un indicador visible del cambio climático.",
    "La pesca sostenible es esencial para preservar las poblaciones de peces.",
    "La biodiversidad en los jardines urbanos beneficia a la fauna local.",
    "La energía nuclear plantea desafíos en cuanto a la gestión de residuos radiactivos.",
    "La conservación de las abejas es crucial para la polinización de cultivos.",
    "La reutilización de productos contribuye a la reducción de residuos.",
    "La migración de aves es un fenómeno natural que debe protegerse.",
    "La degradación del suelo afecta a la producción agrícola.",
    "La gestión de riesgos naturales es esencial para la seguridad de las comunidades.",
    "La contaminación del suelo por productos químicos tóxicos es un problema grave.",
    "La pérdida de glaciares es un indicador visible del cambio climático.",
    "La pesca sostenible es esencial para preservar las poblaciones de peces.",
    "La biodiversidad en los jardines urbanos beneficia a la fauna local.",
    "La energía nuclear plantea desafíos en cuanto a la gestión de residuos radiactivos.",
    "La conservación de las abejas es crucial para la polinización de cultivos.",
    "La reutilización de productos contribuye a la reducción de residuos.",
    "La migración de aves es un fenómeno natural que debe protegerse.",
    "La degradación del suelo afecta a la producción agrícola.",
    "La gestión de riesgos naturales es esencial para la seguridad de las comunidades.",
    "La contaminación del suelo por productos químicos tóxicos es un problema grave."
]


## Ejercicio 1: Análisis Gramatical (POS Tagging)
El primer paso en el análisis de texto es etiquetar cada palabra con su categoría gramatical (Part of Speech, POS). Utiliza una biblioteca de procesamiento de lenguaje natural como NLTK o SpaCy para realizar el análisis POS de los títulos de artículos sobre medio ambiente. Añade el análisis morfológico que ofrece SpaCy. 

In [2]:
import spacy

# Carga el modelo de lenguaje en español
nlp = spacy.load("es_core_news_lg")

In [6]:
# Procesa cada título
for titulo in articulos_medio_ambiente:
    doc = nlp(titulo)
    
    # Análisis POS
    print("Título:", titulo)
    for token in doc:
        print(f"{token.text}: {token.pos_}")
    
    # Análisis morfológico
    for token in doc:
        print(f"{token.text}: {token.morph}")
    
    print("\n")


Título: El cambio climático es una amenaza global que requiere acción inmediata.
El: DET
cambio: NOUN
climático: ADJ
es: AUX
una: DET
amenaza: NOUN
global: ADJ
que: PRON
requiere: VERB
acción: NOUN
inmediata: ADJ
.: PUNCT
El: Definite=Def|Gender=Masc|Number=Sing|PronType=Art
cambio: Gender=Masc|Number=Sing
climático: Gender=Masc|Number=Sing
es: Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
una: Definite=Ind|Gender=Fem|Number=Sing|PronType=Art
amenaza: Gender=Fem|Number=Sing
global: Number=Sing
que: PronType=Int,Rel
requiere: Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
acción: Gender=Fem|Number=Sing
inmediata: Gender=Fem|Number=Sing
.: PunctType=Peri


Título: La deforestación en la Amazonía está alcanzando niveles críticos.
La: DET
deforestación: NOUN
en: ADP
la: DET
Amazonía: PROPN
está: AUX
alcanzando: VERB
niveles: NOUN
críticos: ADJ
.: PUNCT
La: Definite=Def|Gender=Fem|Number=Sing|PronType=Art
deforestación: Gender=Fem|Number=Sing
en: 
la: Definite=Def|Gender=Fem|

## Ejercicio 2: Análisis de Dependencias
El análisis de dependencias implica identificar las relaciones sintácticas entre las palabras en una oración. Utiliza SpaCy o alguna otra biblioteca para analizar las dependencias sintácticas en los artículos sobre medio ambiente y encuentra el sujeto y el verbo de cada título de artículo. Añade la visualización del árbol de dependencias completo, utilizando SpaCy.

Pregunta: ¿Puedes identificar las estructuras de sujeto-verbo en los artículos?

In [13]:
for titulo in articulos_medio_ambiente:
    doc = nlp(titulo)
    
    # Visualización del árbol de dependencias
    print("Título:", titulo)
    spacy.displacy.render(doc, style="dep", jupyter=True)
    
    # Identificación del sujeto y el verbo
    sujeto = None
    verbo = None
    
    for token in doc:
        if "subj" in token.dep_:
            sujeto = token.text
        if "VERB" in token.pos_:
            verbo = token.text
    
    if sujeto and verbo:
        print(f"Sujeto: {sujeto}, Verbo: {verbo}\n")
    else:
        print("No se encontró un sujeto y un verbo en esta oración.\n")


Título: El cambio climático es una amenaza global que requiere acción inmediata.


Sujeto: que, Verbo: requiere

Título: La deforestación en la Amazonía está alcanzando niveles críticos.


Sujeto: deforestación, Verbo: alcanzando

Título: La biodiversidad es esencial para la salud de nuestro planeta.


No se encontró un sujeto y un verbo en esta oración.

Título: La contaminación del aire en las ciudades es un problema persistente.


No se encontró un sujeto y un verbo en esta oración.

Título: Los océanos están sufriendo un aumento de la acidificación debido al CO2.


Sujeto: océanos, Verbo: sufriendo

Título: La conservación de los ecosistemas es crucial para proteger la vida silvestre.


Sujeto: conservación, Verbo: proteger

Título: Las energías renovables son clave para reducir las emisiones de carbono.


Sujeto: energías, Verbo: reducir

Título: La escasez de agua es un desafío cada vez más apremiante en muchas regiones.


No se encontró un sujeto y un verbo en esta oración.

Título: La protección de los bosques tropicales es vital para frenar el cambio climático.


Sujeto: protección, Verbo: frenar

Título: Los esfuerzos de reciclaje pueden contribuir significativamente a la sostenibilidad.


Sujeto: esfuerzos, Verbo: contribuir

Título: El aumento de las temperaturas globales está causando eventos climáticos extremos.


Sujeto: aumento, Verbo: causando

Título: La pérdida de hábitats naturales amenaza a numerosas especies en todo el mundo.


Sujeto: pérdida, Verbo: amenaza

Título: La sobreexplotación de recursos naturales agota nuestros ecosistemas.


Sujeto: sobreexplotación, Verbo: agota

Título: La acidificación de los océanos afecta a la vida marina y los arrecifes de coral.


Sujeto: acidificación, Verbo: afecta

Título: La gestión de residuos electrónicos es un desafío creciente para el medio ambiente.


No se encontró un sujeto y un verbo en esta oración.

Título: Las energías renovables, como la solar y la eólica, son fuentes limpias de energía.


No se encontró un sujeto y un verbo en esta oración.

Título: La polución del agua afecta a la salud humana y la vida acuática.


Sujeto: polución, Verbo: afecta

Título: La agricultura sostenible es esencial para garantizar la seguridad alimentaria.


Sujeto: agricultura, Verbo: garantizar

Título: La conservación de los humedales es fundamental para la biodiversidad.


No se encontró un sujeto y un verbo en esta oración.

Título: La pérdida de suelos fértiles amenaza la producción de alimentos.


Sujeto: pérdida, Verbo: amenaza

Título: La caza furtiva pone en peligro a especies emblemáticas como los elefantes.


Sujeto: caza, Verbo: pone

Título: La protección de los arrecifes de coral es esencial para los ecosistemas marinos.


No se encontró un sujeto y un verbo en esta oración.

Título: La contaminación lumínica afecta a la observación del cielo estrellado.


Sujeto: contaminación, Verbo: afecta

Título: La reforestación es una estrategia para combatir la pérdida de bosques.


Sujeto: reforestación, Verbo: combatir

Título: La educación ambiental promueve la conciencia sobre la naturaleza.


Sujeto: educación, Verbo: promueve

Título: La conservación de la capa de ozono es un éxito en la lucha contra el cambio climático.


No se encontró un sujeto y un verbo en esta oración.

Título: La urbanización descontrolada puede degradar los espacios naturales.


Sujeto: urbanización, Verbo: degradar

Título: La adopción de vehículos eléctricos reduce las emisiones de gases de efecto invernadero.


Sujeto: adopción, Verbo: reduce

Título: La contaminación plástica es una amenaza para los océanos y la vida marina.


No se encontró un sujeto y un verbo en esta oración.

Título: La pérdida de glaciares es un indicador visible del cambio climático.


No se encontró un sujeto y un verbo en esta oración.

Título: La pesca sostenible es esencial para preservar las poblaciones de peces.


Sujeto: pesca, Verbo: preservar

Título: La biodiversidad en los jardines urbanos beneficia a la fauna local.


Sujeto: biodiversidad, Verbo: beneficia

Título: La energía nuclear plantea desafíos en cuanto a la gestión de residuos radiactivos.


Sujeto: energía, Verbo: plantea

Título: La conservación de las abejas es crucial para la polinización de cultivos.


No se encontró un sujeto y un verbo en esta oración.

Título: La reutilización de productos contribuye a la reducción de residuos.


Sujeto: reutilización, Verbo: contribuye

Título: La migración de aves es un fenómeno natural que debe protegerse.


Sujeto: que, Verbo: protegerse

Título: La degradación del suelo afecta a la producción agrícola.


Sujeto: degradación, Verbo: afecta

Título: La gestión de riesgos naturales es esencial para la seguridad de las comunidades.


No se encontró un sujeto y un verbo en esta oración.

Título: La contaminación del suelo por productos químicos tóxicos es un problema grave.


No se encontró un sujeto y un verbo en esta oración.

Título: La pérdida de glaciares es un indicador visible del cambio climático.


No se encontró un sujeto y un verbo en esta oración.

Título: La pesca sostenible es esencial para preservar las poblaciones de peces.


Sujeto: pesca, Verbo: preservar

Título: La biodiversidad en los jardines urbanos beneficia a la fauna local.


Sujeto: biodiversidad, Verbo: beneficia

Título: La energía nuclear plantea desafíos en cuanto a la gestión de residuos radiactivos.


Sujeto: energía, Verbo: plantea

Título: La conservación de las abejas es crucial para la polinización de cultivos.


No se encontró un sujeto y un verbo en esta oración.

Título: La reutilización de productos contribuye a la reducción de residuos.


Sujeto: reutilización, Verbo: contribuye

Título: La migración de aves es un fenómeno natural que debe protegerse.


Sujeto: que, Verbo: protegerse

Título: La degradación del suelo afecta a la producción agrícola.


Sujeto: degradación, Verbo: afecta

Título: La gestión de riesgos naturales es esencial para la seguridad de las comunidades.


No se encontró un sujeto y un verbo en esta oración.

Título: La contaminación del suelo por productos químicos tóxicos es un problema grave.


No se encontró un sujeto y un verbo en esta oración.



## Ejercicio 3: Shallow Parsing (Chunking)
El shallow parsing o chunking consiste en identificar frases nominales y verbales en un texto. SpaCy tiene una forma sencilla de identificar los noun chunks. Utiliza técnicas de shallow parsing para extraer frases nominales de los artículos sobre medio ambiente. ¿Se podría identificar cuál de estas frases nominales son el sujeto, complemento directo, etc? ¿Cómo?

## Ejercicio 5: Desafío - Análisis Avanzado y Traducción
Dado un artículo en un idioma desconocido relacionado con el medio ambiente, debes realizar las siguientes tareas:

Identificar el idioma del artículo.
Realizar la traducción del artículo al español.
Realizar el análisis gramatical (POS tagging) del artículo traducido.
Realizar la lematización de las palabras en el artículo traducido.
Puedes utilizar bibliotecas como SpaCy, NLTK y una API de traducción (por ejemplo, Google Translate) para completar estas tareas.

Pregunta: ¿Qué idioma tiene el artículo? ¿Cuál es la traducción al español? ¿Cuáles son las categorías gramaticales de las palabras en el artículo traducido? ¿Cuáles son los lemas de las palabras?

In [None]:
pip install googletrans==4.0.0-rc1


In [None]:
import langdetect
import requests
import spacy
from langdetect import detect
from bs4 import BeautifulSoup
from googletrans import Translator

# Ejemplo de artículo en un idioma desconocido (simulado)
url_articulo = "https://www.bbc.com/news/science-environment-58874518"
response = requests.get(url_articulo)

# Utilizaremos el codificador 'utf-8' para evitar problemas con los caracteres especiales
response.encoding = 'utf-8'
# Parsear el contenido del artículo
soup = BeautifulSoup(response.text, 'html.parser')
# Extraer el texto del artículo
articulo_desconocido = soup.get_text()

articulo_desconocido = articulo_desconocido.split("Image source,")[1]