# Proesamiento de lenguaje natural (PLN)

## Unidad 1: Introducción al Text Mining
### 1.1. ¿Qué es Text Mining?
Descripción: Text Mining se refiere al proceso de encontrar patrones en datos no estructurados utilizando técnicas como la minería de datos, el análisis de texto y el procesamiento de lenguaje natural (NLP).

Ejercicio 1: Explorar un corpus de datos no estructurados y realizar un preprocesamiento básico.

In [None]:
# Ejemplo de preprocesamiento de texto en Python
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Corpus de ejemplo
texto = "Text mining is the process of deriving meaningful information from natural language text."

# Tokenización
tokens = word_tokenize(texto.lower())

# Eliminación de stopwords
tokens_filtrados = [word for word in tokens if word not in stopwords.words('english')]

print(tokens_filtrados)

Ejercicio 2

In [None]:
# Ejemplo básico de conteo de palabras en un texto
from collections import Counter

# Texto de ejemplo
texto = """La minería de texto es una técnica utilizada para descubrir patrones
en datos no estructurados. Esta técnica es parte del campo de la inteligencia
artificial y el aprendizaje automático."""

# Preprocesamiento: Convertir a minúsculas y dividir en palabras
palabras = texto.lower().split()

# Contar las palabras
conteo = Counter(palabras)
conteo


### 1.2. Colección de Datos
Descripción: La colección de datos en Text Mining puede realizarse mediante técnicas como crawling, scraping, y el uso de APIs abiertas.

Ejercicio 2: Realizar web scraping para recopilar datos de una página web utilizando BeautifulSoup.

In [None]:
import requests
from bs4 import BeautifulSoup

# URL de ejemplo
url = "https://example.com"

# Realizar la solicitud GET
response = requests.get(url)

# Comprobar que el estado sea 200 (OK)
if response.status_code == 200:
    # Parsear el contenido con BeautifulSoup
    soup = BeautifulSoup(response.content, 'html.parser')
    # Extraer todos los párrafos
    parrafos = soup.find_all('p')
    for p in parrafos:
        print(p.get_text())
else:
    print("Error al acceder a la página web.")


Ejercicio 2

In [None]:
# Ejemplo de web scraping usando BeautifulSoup
import requests
from bs4 import BeautifulSoup

# URL de ejemplo
url = "https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos"

# Solicitar la página web
respuesta = requests.get(url)

# Si el estado es 200 (OK), proceder
if respuesta.status_code == 200:
    soup = BeautifulSoup(respuesta.text, 'html.parser')
    
    # Extraer todos los párrafos
    parrafos = soup.find_all('p')
    for parrafo in parrafos[:5]:  # Limitar a los primeros 5 párrafos
        print(parrafo.get_text())
else:
    print("No se pudo acceder a la página web.")


### 1.3. Manipulación de Strings 
Descripción: La manipulación de cadenas es fundamental en el preprocesamiento de datos textuales. Esto incluye técnicas como la tokenización, lematización, y la eliminación de stopwords.

Ejercicio 3: Convertir texto a minúsculas, eliminar signos de puntuación y tokenizar.

In [None]:
import string

# Texto de ejemplo
texto = "Natural Language Processing (NLP) is a fascinating field!"

# Convertir a minúsculas
texto = texto.lower()

# Eliminar signos de puntuación
texto = texto.translate(str.maketrans('', '', string.punctuation))

# Tokenización
tokens = texto.split()

print(tokens)


### 1.4. Procesamiento del Lenguaje Natural (NLP)
Descripción: El NLP permite a las máquinas entender y generar lenguaje humano. Ejemplos incluyen etiquetado POS, análisis de sentimiento, y modelado de tópicos.

Ejercicio 4: Realizar un análisis de sentimiento utilizando TextBlob.

In [None]:
from textblob import TextBlob

# Texto de ejemplo
texto = "I love programming in Python!"

# Análisis de sentimiento
blob = TextBlob(texto)
sentimiento = blob.sentiment

print(f"Polaridad: {sentimiento.polarity}, Subjetividad: {sentimiento.subjectivity}")

Ejercicio 2

In [None]:
# Ejemplo de análisis de sentimientos usando TextBlob
from textblob import TextBlob

# Texto de ejemplo
texto = "La minería de texto es increíble, pero también desafiante."

# Análisis de sentimiento
blob = TextBlob(texto)
sentimiento = blob.sentiment

sentimiento

### 1.5. Datos secuenciales


Descripción: Los datos secuenciales son aquellos donde el orden importa, como secuencias de texto, series de tiempo, etc.

Ejercicio 1

In [None]:
# Ejemplo de secuencias con modelos de NLP
from nltk.util import ngrams

# Texto de ejemplo
texto = "La minería de texto es fascinante."

# Generar bigramas
tokens = word_tokenize(texto)
bigramas = list(ngrams(tokens, 2))

bigramas

### 1.6. Corpus

Descripción: Un corpus es un conjunto de documentos que se utiliza para entrenar modelos en minería de texto.

Ejercicio 1

In [None]:
# Ejemplo básico de creación de un corpus usando NLTK
from nltk.corpus import PlaintextCorpusReader

# Definir el directorio donde están los textos
corpus_dir = './corpus/'

# Crear el corpus
corpus = PlaintextCorpusReader(corpus_dir, '.*')

# Ver los archivos en el corpus
corpus.fileids()
