# Proesamiento de lenguaje natural (PLN)

### 1.4. Procesamiento del Lenguaje Natural (NLP)
Descripción: El NLP permite a las máquinas entender y generar lenguaje humano. Ejemplos incluyen etiquetado POS, análisis de sentimiento, y modelado de tópicos.

Ejercicio 4: Realizar un análisis de sentimiento utilizando TextBlob.

In [None]:
from textblob import TextBlob

# Texto de ejemplo
texto = "I love programming in Python!"

# Análisis de sentimiento
blob = TextBlob(texto)
sentimiento = blob.sentiment

print(f"Polaridad: {sentimiento.polarity}, Subjetividad: {sentimiento.subjectivity}")

Ejercicio 2

In [None]:
# Ejemplo de análisis de sentimientos usando TextBlob
from textblob import TextBlob

# Texto de ejemplo
texto = "La minería de texto es increíble, pero también desafiante."

# Análisis de sentimiento
blob = TextBlob(texto)
sentimiento = blob.sentiment

sentimiento

### 1.5. Datos secuenciales


Descripción: Los datos secuenciales son aquellos donde el orden importa, como secuencias de texto, series de tiempo, etc.

Ejercicio 1

In [None]:
# Ejemplo de secuencias con modelos de NLP
from nltk.util import ngrams

# Texto de ejemplo
texto = "La minería de texto es fascinante."

# Generar bigramas
tokens = word_tokenize(texto)
bigramas = list(ngrams(tokens, 2))

bigramas

### 1.6. Corpus

Descripción: Un corpus es un conjunto de documentos que se utiliza para entrenar modelos en minería de texto.

Ejercicio 1

In [None]:
# Ejemplo básico de creación de un corpus usando NLTK
from nltk.corpus import PlaintextCorpusReader

# Definir el directorio donde están los textos
corpus_dir = './corpus/'

# Crear el corpus
corpus = PlaintextCorpusReader(corpus_dir, '.*')

# Ver los archivos en el corpus
corpus.fileids()


## Expresiones regulares

In [1]:
import re

### Metacharacter: ^

In [2]:
x1 = "That is your book."
x2 = "This is my book."

In [3]:
# A regular expression.
my_exp = "^This"

In [4]:
if re.search(my_exp, x1):
    print("Yes!")
else:
    print("No")

No


In [8]:
if re.search(my_exp, x2):
    print("Yes!")
else:
    print("No")

Yes!


In [12]:
my_exp2 = "[^This]"

In [13]:
if re.search(my_exp2, x2):
    print("Yes!")
else:
    print("No")

Yes!


In [6]:
va1 = "a"
va2 = "a"

In [7]:
if va1 == va2:
    print("Yes!")
else:
    print("No")

Yes!


In [27]:
# Target strings.
x1 = "I don't like you"
x2 = "You are great"
x3 = "in case you forget, remember this"

In [28]:
my_exp = "^[Ii]"

In [29]:
if re.search(my_exp, x1):
    print("Yes!")
else:
    print("No")

Yes!


In [30]:
if re.search(my_exp, x2):
    print("Yes!")
else:
    print("No")

No


In [31]:
if re.search(my_exp, x3):
    print("Yes!")
else:
    print("No")

Yes!


### Metacharacter: Dot

In [14]:
# Target strings.
x1 = "ct"
x2 = "cat"
x3 = "caat"

In [15]:
# A regular expression.
my_expression = re.compile("c.t")

In [16]:
if my_expression.search(x1):
    print("Yes!")
else:
    print("No")

No


In [17]:
if my_expression.search(x2):
    print("Yes!")
else:
    print("No")

Yes!


In [18]:
if my_expression.search(x3):
    print("Yes!")
else:
    print("No")

No


In [19]:
my_expression2 = re.compile("C.t")

In [20]:
if my_expression2.search(x2):
    print("Yes!")
else:
    print("No")

No


In [21]:
x4 = "c4t"

In [22]:
if my_expression.search(x4):
    print("Yes!")
else:
    print("No")

Yes!


In [23]:
my_expression3 = re.compile("c..t")

In [25]:
if my_expression3.search(x4):
    print("Yes!")
else:
    print("No")

No


In [26]:
if my_expression3.search(x3):
    print("Yes!")
else:
    print("No")

Yes!


In [32]:
my_expression4 = re.compile("c*t")

In [33]:
if my_expression4.search(x1):
    print("Yes!")
else:
    print("No")

Yes!


In [34]:
if my_expression4.search(x2):
    print("Yes!")
else:
    print("No")

Yes!


In [35]:
if my_expression4.search(x3):
    print("Yes!")
else:
    print("No")

Yes!


In [37]:
my_expression5 = re.compile("ct*")

In [38]:
if my_expression5.search(x3):
    print("Yes!")
else:
    print("No")

Yes!


In [39]:
import re

# Ejercicio: Encuentra todas las ocurrencias de vocales en una cadena.
def encontrar_vocales(texto):
    patron = r'[aeiou]'
    return re.findall(patron, texto)

# Ejemplo de uso
texto = "El rápido zorro marrón salta sobre el perro perezoso."
print(encontrar_vocales(texto))  # Output: ['e', 'a', 'i', 'o', 'o', 'a', 'o', 'a', 'a', 'o', 'e', 'e', 'o', 'e', 'e', 'o']

['i', 'o', 'o', 'o', 'a', 'a', 'a', 'o', 'e', 'e', 'e', 'o', 'e', 'e', 'o', 'o']


In [40]:
texto2 = "hgt."
print(encontrar_vocales(texto2))

[]


In [41]:
def encontrar_expresiones(patron, texto):
    return re.findall(patron, texto)

In [42]:
patron3 = '[abc]'
texto3 = 'abc'
print(encontrar_expresiones(patron3, texto3))

['a', 'b', 'c']


In [43]:
patron4 = '[abc]'
texto4 = 'dude'
print(encontrar_expresiones(patron4, texto4))

[]


In [44]:
import re

# Ejercicio: Encuentra todas las secuencias de caracteres que no sean vocales.
def no_vocales(texto):
    patron = r'[^aeiouAEIOU]'
    return re.findall(patron, texto)

# Ejemplo de uso
texto = "Python es divertido"
print(no_vocales(texto))  # Output: ['P', 'y', 't', 'h', 'n', ' ', 's', ' ', 'd', 'v', 'r', 't', 'd', 'n']


['P', 'y', 't', 'h', 'n', ' ', 's', ' ', 'd', 'v', 'r', 't', 'd']


In [45]:
patron5 = '[^abc]'
texto5 = 'dude'
print(encontrar_expresiones(patron5, texto5))

['d', 'u', 'd', 'e']


In [46]:
patron6 = '[^abc]'
texto6 = 'abc'
print(encontrar_expresiones(patron6, texto6))

[]


# Ejercicio Desafiante: Scraping y Análisis de Texto en Wikipedia

## Objetivo

Realizar un scraping de un artículo de Wikipedia y luego utilizar expresiones regulares para extraer y analizar información específica del texto obtenido.

## Instrucciones

### Paso 1: Scraping del Artículo de Wikipedia

1. Utiliza la biblioteca `BeautifulSoup` en Python para hacer scraping de un artículo de Wikipedia. Por ejemplo, puedes elegir el artículo sobre "Python (programming language)".
2. Extrae el contenido principal del artículo (puedes concentrarte en el texto dentro de las etiquetas `<p>`).

### Paso 2: Expresiones Regulares para Extracción de Información

Usa expresiones regulares para realizar las siguientes tareas sobre el texto extraído:

1. **Extraer todas las fechas**: Encuentra todas las menciones de años (como "1991", "2000", etc.).
2. **Contar menciones de lenguajes de programación**: Busca todas las menciones de lenguajes de programación como "Java", "C++", "Python", etc.
3. **Extraer URLs**: Identifica y extrae todos los enlaces (URLs) presentes en el texto.

### Paso 3: Análisis Adicional

Usa las expresiones regulares para realizar algún análisis adicional que te interese. Por ejemplo, podrías contar cuántas veces aparece la palabra "Python" o extraer todas las oraciones que contienen la palabra "versión".

## Código de Ejemplo

```python
import re
import requests
from bs4 import BeautifulSoup

# Paso 1: Scraping del artículo de Wikipedia
def obtener_texto_wikipedia(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    parrafos = soup.find_all('p')
    texto = ' '.join([parrafo.text for parrafo in parrafos])
    return texto

# URL del artículo de Wikipedia
url = "https://en.wikipedia.org/wiki/Python_(programming_language)"
texto = obtener_texto_wikipedia(url)

# Paso 2: Uso de expresiones regulares

# 2.1 Extraer todas las fechas (años)
fechas = re.findall(r'\b\d{4}\b', texto)
print("Fechas encontradas:", fechas)

# 2.2 Contar menciones de lenguajes de programación
lenguajes = ['Python', 'Java', 'C++', 'JavaScript', 'Ruby']
conteo_lenguajes = {lenguaje: len(re.findall(rf'\b{lenguaje}\b', texto)) for lenguaje in lenguajes}
print("Conteo de menciones de lenguajes de programación:", conteo_lenguajes)

# 2.3 Extraer URLs
urls = re.findall(r'https?://[^\s]+', texto)
print("URLs encontradas:", urls)

# Paso 3: Análisis adicional (contar menciones de la palabra 'Python')
menciones_python = len(re.findall(r'\bPython\b', texto))
print(f"Menciones de 'Python': {menciones_python}")


In [49]:
import re
import requests
from bs4 import BeautifulSoup

# Paso 1: Scraping del artículo de Wikipedia
def obtener_texto_wikipedia(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    parrafos = soup.find_all('p')
    texto = ' '.join([parrafo.text for parrafo in parrafos])
    return texto

# URL del artículo de Wikipedia
url = "https://en.wikipedia.org/wiki/Python_(programming_language)"
texto = obtener_texto_wikipedia(url)

# Paso 2: Uso de expresiones regulares

# 2.1 Extraer todas las fechas (años)
fechas = re.findall(r'\b\d{4}\b', texto)
print("Fechas encontradas:", fechas)

# 2.2 Contar menciones de lenguajes de programación
lenguajes = ['Python', 'Java', 'C\\+\\+', 'JavaScript', 'Ruby']
conteo_lenguajes = {lenguaje: len(re.findall(rf'\b{re.escape(lenguaje)}\b', texto)) for lenguaje in lenguajes}
print("Conteo de menciones de lenguajes de programación:", conteo_lenguajes)

# Paso 3: Análisis adicional (contar menciones de la palabra 'Python')
menciones_python = len(re.findall(r'\bPython\b', texto))
print(f"Menciones de 'Python': {menciones_python}")

Fechas encontradas: ['1991', '2000', '2008', '2020', '1989', '2018', '2019', '2000', '2008', '2015', '2020', '2023', '2021', '2022', '2022', '2022', '2022', '2024', '2023', '2024', '2022', '2017', '2003', '2022', '2007', '2010', '2018', '2020', '2020', '2008', '2013']
Conteo de menciones de lenguajes de programación: {'Python': 166, 'Java': 4, 'C\\+\\+': 0, 'JavaScript': 0, 'Ruby': 2}
Menciones de 'Python': 166
