# Proesamiento de lenguaje natural (PLN)

## Unidad 1: Introducción al Text Mining
### 1.1. ¿Qué es Text Mining?
Descripción: Text Mining se refiere al proceso de encontrar patrones en datos no estructurados utilizando técnicas como la minería de datos, el análisis de texto y el procesamiento de lenguaje natural (NLP).

Ejercicio 1: Explorar un corpus de datos no estructurados y realizar un preprocesamiento básico.

In [None]:
# Ejemplo de preprocesamiento de texto en Python
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Corpus de ejemplo
texto = "Text mining is the process of deriving meaningful information from natural language text."

# Tokenización
tokens = word_tokenize(texto.lower())

# Eliminación de stopwords
tokens_filtrados = [word for word in tokens if word not in stopwords.words('english')]

print(tokens_filtrados)

### 1.2. Colección de Datos
Descripción: La colección de datos en Text Mining puede realizarse mediante técnicas como crawling, scraping, y el uso de APIs abiertas.

Ejercicio 2: Realizar web scraping para recopilar datos de una página web utilizando BeautifulSoup.

In [None]:
import requests
from bs4 import BeautifulSoup

# URL de ejemplo
url = "https://example.com"

# Realizar la solicitud GET
response = requests.get(url)

# Comprobar que el estado sea 200 (OK)
if response.status_code == 200:
    # Parsear el contenido con BeautifulSoup
    soup = BeautifulSoup(response.content, 'html.parser')
    # Extraer todos los párrafos
    parrafos = soup.find_all('p')
    for p in parrafos:
        print(p.get_text())
else:
    print("Error al acceder a la página web.")


### 1.3. Manipulación de Strings 
Descripción: La manipulación de cadenas es fundamental en el preprocesamiento de datos textuales. Esto incluye técnicas como la tokenización, lematización, y la eliminación de stopwords.

Ejercicio 3: Convertir texto a minúsculas, eliminar signos de puntuación y tokenizar.

In [None]:
import string

# Texto de ejemplo
texto = "Natural Language Processing (NLP) is a fascinating field!"

# Convertir a minúsculas
texto = texto.lower()

# Eliminar signos de puntuación
texto = texto.translate(str.maketrans('', '', string.punctuation))

# Tokenización
tokens = texto.split()

print(tokens)


### 1.4. Procesamiento del Lenguaje Natural (NLP)
Descripción: El NLP permite a las máquinas entender y generar lenguaje humano. Ejemplos incluyen etiquetado POS, análisis de sentimiento, y modelado de tópicos.

Ejercicio 4: Realizar un análisis de sentimiento utilizando TextBlob.

In [None]:
from textblob import TextBlob

# Texto de ejemplo
texto = "I love programming in Python!"

# Análisis de sentimiento
blob = TextBlob(texto)
sentimiento = blob.sentiment

print(f"Polaridad: {sentimiento.polarity}, Subjetividad: {sentimiento.subjectivity}")