*****Procesamiento de lenguaje Natural (NLP)*****


*Ejemplo spacy, BeautifulSoup*

In [3]:
!pip install -U spacy
# instalación el paquete español más simple (MB aproximadamente)
!python -m spacy download es_core_news_md


Collecting es-core-news-md==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.7.0/es_core_news_md-3.7.0-py3-none-any.whl (42.3 MB)
     ---------------------------------------- 0.0/42.3 MB ? eta -:--:--
     --------------------------------------- 0.0/42.3 MB 660.6 kB/s eta 0:01:04
     ---------------------------------------- 0.3/42.3 MB 3.5 MB/s eta 0:00:12
      --------------------------------------- 0.6/42.3 MB 4.3 MB/s eta 0:00:10
      --------------------------------------- 0.9/42.3 MB 5.4 MB/s eta 0:00:08
     - -------------------------------------- 1.3/42.3 MB 5.8 MB/s eta 0:00:08
     - -------------------------------------- 1.7/42.3 MB 6.5 MB/s eta 0:00:07
     - -------------------------------------- 2.1/42.3 MB 6.6 MB/s eta 0:00:07
     -- ------------------------------------- 2.4/42.3 MB 6.5 MB/s eta 0:00:07
     -- ------------------------------------- 2.9/42.3 MB 6.9 MB/s eta 0:00:06
     --- ----------------------------

In [4]:
import requests
from bs4 import BeautifulSoup
import spacy
import csv

In [7]:
#carga idioma español written text (news, media) 
nlp= spacy.load('es_core_news_md')

In [9]:
# Función para conseguir contenido página web
def get_webpage_content(url):
    response= requests.get(url)
    if response.status_code ==200:
        return response.text
    else:
        return None

In [13]:
#Función para limpiar , extraer texto de la web
def extract_text_from_html(html_content):
    soup=BeautifulSoup(html_content, 'html.parser')
    paragraphs = soup.find_all('p')
    return ''.join([para.get_text() for para in paragraphs])
    

In [19]:

# Función para análisis de texto
def analyze_text(url, csv_filename):
    html_content = get_webpage_content(url)
    if html_content:
        text = extract_text_from_html(html_content)
        doc = nlp(text)
        
        # Mostrar estadísticas básicas
        print(f"Texto extraído (primeros 500 caracteres):\n{text[:500]}")
        
        # Calcular el número de palabras
        word_list = [token.text for token in doc if token.is_alpha]
        num_words = len(word_list)
        print(f"Número de palabras: {num_words}")
        print(f"Número de entidades nombradas: {len(doc.ents)}\n")
        
        unique_entities = set()
        for ent in doc.ents:
            unique_entities.add((ent.text, ent.label_))
            
        # Guardar las entidades nombradas en un archivo CSV
        with open(csv_filename, mode="w", encoding="utf-8", newline='') as csv_file:
            writer = csv.writer(csv_file)
            writer.writerow(["Entidad", "Etiqueta"])
            
            # Escribir entidades únicas en el archivo CSV
            for entity in unique_entities:
                writer.writerow(entity)
    
    else:
        print("No se pudo obtener el contenido de la página")

# URL de ejemplo
url = "https://es.wikipedia.org/wiki/Inteligencia_artificial"
csv_filename = "entidades_text.csv"

if __name__ == "__main__":
    analyze_text(url, csv_filename)

Texto extraído (primeros 500 caracteres):
La inteligencia artificial  (IA), en el contexto de las ciencias de la computación, es una disciplina y un conjunto de capacidades cognoscitivas e intelectuales expresadas por sistemas informáticos o combinaciones de algoritmos cuyo propósito es la creación de máquinas que imiten la inteligencia humana para realizar tareas, y que pueden mejorar conforme recopilen información.[1]​[2]​ Se hizo presente poco después de la Segunda Guerra Mundial con el desarrollo de la «prueba de Turing», mientras q
Número de palabras: 7082
Número de entidades nombradas: 257

