##**Módulo 1: Programación Funcional en Python**
---

###Clase 1: Programación Funcional en Python

* Conceptos de programación funcional: funciones de orden superior, lambda, map, filter, reduce.
* Aplicaciones en análisis de datos: transformación de datos, filtrado, agregación.

> Ejemplo de código:

```
# Ejemplo de uso de funciones de orden superior y lambda en Python
numbers = [1, 2, 3, 4, 5]
result = list(map(lambda x: x * 2, numbers))  # Duplicar cada número
print(result)  # Output: [2, 4, 6, 8, 10]

```


In [0]:
# Ejemplo de uso de funciones de orden superior y lambda en Python
numbers = [1, 2, 3, 4, 5]
result = list(map(lambda x: x * 2, numbers))  # Duplicar cada número
print(result)  # Output: [2, 4, 6, 8, 10]

[2, 4, 6, 8, 10]



# **▶ Conceptos de programación funcional**

---
#Funciones de Orden Superior
---
Las funciones de orden superior son aquellas que pueden tomar otras funciones como argumentos y/o devolver funciones como resultados.

>Ejemplo de una Función de Orden Superior



In [0]:
def aplicar_funcion(func, lista):
    return [func(x) for x in lista]

def cuadrado(x):
    return x ** 2

numeros = [1, 2, 3, 4, 5]
resultado = aplicar_funcion(cuadrado, numeros)
print(resultado)  # Output: [1, 4, 9, 16, 25]


[1, 4, 9, 16, 25]


---
#Funciones Lambda
---
Las funciones lambda son pequeñas funciones anónimas definidas con la palabra clave lambda. Se utilizan para crear funciones simples de manera concisa.

>Ejemplo de Función Lambda

In [0]:
cuadrado = lambda x: x ** 2
print(cuadrado(5))  # Output: 25

# Uso con map
numeros = [1, 2, 3, 4, 5]
resultado = list(map(lambda x: x ** 2, numeros))
print(resultado)  # Output: [1, 4, 9, 16, 25]


25
[1, 4, 9, 16, 25]


---
#Función map
---
La función map aplica una función a todos los elementos de una lista (u otro iterable) y devuelve un nuevo iterable con los resultados.

>Ejemplo de map

In [0]:
numeros = [1, 2, 3, 4, 5]
resultado = list(map(lambda x: x * 2, numeros))
print(resultado)  # Output: [2, 4, 6, 8, 10]


[2, 4, 6, 8, 10]


---
#Función filter
---
La función filter aplica una función a todos los elementos de una lista (u otro iterable) y devuelve un nuevo iterable con los elementos para los cuales la función devuelve True.

>Ejemplo de filter

In [0]:
numeros = [1, 2, 3, 4, 5]
resultado = list(filter(lambda x: x % 2 == 0, numeros))
print(resultado)  # Output: [2, 4]


[2, 4]


---
#Función reduce
---
La función reduce aplica una función de manera acumulativa a los elementos de una lista (u otro iterable), reduciéndola a un solo valor. Para usar reduce, debes importarla del módulo functools.

>Ejemplo de reduce

In [0]:
from functools import reduce

numeros = [1, 2, 3, 4, 5]
resultado = reduce(lambda x, y: x + y, numeros)
print(resultado)  # Output: 15


15


---
#Código Completo
---

In [0]:
from functools import reduce

# Función de orden superior
def aplicar_funcion(func, lista):
    return [func(x) for x in lista]

def cuadrado(x):
    return x ** 2

numeros = [1, 2, 3, 4, 5]
resultado_orden_superior = aplicar_funcion(cuadrado, numeros)
print("Función de Orden Superior:", resultado_orden_superior)  # Output: [1, 4, 9, 16, 25]

# Función lambda
cuadrado_lambda = lambda x: x ** 2
print("Lambda cuadrado:", cuadrado_lambda(5))  # Output: 25

# Uso de lambda con map
resultado_map = list(map(lambda x: x ** 2, numeros))
print("map con lambda:", resultado_map)  # Output: [1, 4, 9, 16, 25]

# Uso de filter
resultado_filter = list(filter(lambda x: x % 2 == 0, numeros))
print("filter con lambda:", resultado_filter)  # Output: [2, 4]

# Uso de reduce
resultado_reduce = reduce(lambda x, y: x + y, numeros)
print("reduce con lambda:", resultado_reduce)  # Output: 15


Función de Orden Superior: [1, 4, 9, 16, 25]
Lambda cuadrado: 25
map con lambda: [1, 4, 9, 16, 25]
filter con lambda: [2, 4]
reduce con lambda: 15


# **▶ Aplicaciones en análisis de datos**

---
#Transformación de Datos
---
Las transformaciones de datos implican cambiar la forma o el contenido de los datos. Aquí se muestra cómo crear nuevas columnas, cambiar tipos de datos y aplicar funciones a columnas.

>Ejemplo de Transformación de Datos

In [0]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Nombre': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Edad': [24, 27, 22, 32, 29],
    'Salario': [50000, 60000, 45000, 80000, 70000]
}
df = pd.DataFrame(data)

# Crear una nueva columna con un cálculo
df['Salario Anual'] = df['Salario'] * 12

# Convertir la columna 'Edad' a tipo float
df['Edad'] = df['Edad'].astype(float)

# Aplicar una función a una columna
df['Salario Incrementado'] = df['Salario'].apply(lambda x: x * 1.1)

print("Datos transformados:")
print(df)




Datos transformados:
    Nombre  Edad  Salario  Salario Anual  Salario Incrementado
0    Alice  24.0    50000         600000               55000.0
1      Bob  27.0    60000         720000               66000.0
2  Charlie  22.0    45000         540000               49500.0
3    David  32.0    80000         960000               88000.0
4      Eva  29.0    70000         840000               77000.0


---
#Filtrado de Datos
---
El filtrado de datos implica seleccionar filas que cumplen con ciertos criterios.

>Ejemplo de Filtrado de Datos

In [0]:
# Filtrar los datos para incluir solo filas donde la Edad es mayor de 25
filtro_edad = df[df['Edad'] > 25]

print("Filtrado por Edad > 25:")
print(filtro_edad)

# Filtrar los datos para incluir solo filas donde el Salario es mayor de 60000
filtro_salario = df[df['Salario'] > 60000]

print("Filtrado por Salario > 60000:")
print(filtro_salario)


Filtrado por Edad > 25:
  Nombre  Edad  Salario  Salario Anual  Salario Incrementado
1    Bob  27.0    60000         720000               66000.0
3  David  32.0    80000         960000               88000.0
4    Eva  29.0    70000         840000               77000.0
Filtrado por Salario > 60000:
  Nombre  Edad  Salario  Salario Anual  Salario Incrementado
3  David  32.0    80000         960000               88000.0
4    Eva  29.0    70000         840000               77000.0


---
#Agregación de Datos
---
La agregación de datos implica realizar cálculos sobre grupos de datos, como suma, promedio, conteo, etc.

>Ejemplo de Agregación de Datos

In [0]:
# Crear un DataFrame de ejemplo con una columna adicional para la agregación
data = {
    'Nombre': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank'],
    'Edad': [24, 27, 22, 32, 29, 24],
    'Salario': [50000, 60000, 45000, 80000, 70000, 50000],
    'Departamento': ['IT', 'HR', 'IT', 'HR', 'IT', 'HR']
}
df = pd.DataFrame(data)

# Agrupar los datos por 'Departamento' y calcular la media de 'Salario' y la suma de 'Edad'
agrupado = df.groupby('Departamento').agg({
    'Salario': 'mean',
    'Edad': 'sum'
})

print("Datos agregados por Departamento:")
print(agrupado)


Datos agregados por Departamento:
                   Salario  Edad
Departamento                    
HR            63333.333333    83
IT            55000.000000    75


---
#Código Completo
---

In [0]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Nombre': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Edad': [24, 27, 22, 32, 29],
    'Salario': [50000, 60000, 45000, 80000, 70000]
}
df = pd.DataFrame(data)

# Transformación de datos
df['Salario Anual'] = df['Salario'] * 12
df['Edad'] = df['Edad'].astype(float)
df['Salario Incrementado'] = df['Salario'].apply(lambda x: x * 1.1)

print("Datos transformados:")
print(df)

# Filtrado de datos
filtro_edad = df[df['Edad'] > 25]
print("\nFiltrado por Edad > 25:")
print(filtro_edad)

filtro_salario = df[df['Salario'] > 60000]
print("\nFiltrado por Salario > 60000:")
print(filtro_salario)

# Crear un DataFrame de ejemplo con una columna adicional para la agregación
data = {
    'Nombre': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank'],
    'Edad': [24, 27, 22, 32, 29, 24],
    'Salario': [50000, 60000, 45000, 80000, 70000, 50000],
    'Departamento': ['IT', 'HR', 'IT', 'HR', 'IT', 'HR']
}
df = pd.DataFrame(data)

# Agregación de datos
agrupado = df.groupby('Departamento').agg({
    'Salario': 'mean',
    'Edad': 'sum'
})

print("\nDatos agregados por Departamento:")
print(agrupado)


Datos transformados:
    Nombre  Edad  Salario  Salario Anual  Salario Incrementado
0    Alice  24.0    50000         600000               55000.0
1      Bob  27.0    60000         720000               66000.0
2  Charlie  22.0    45000         540000               49500.0
3    David  32.0    80000         960000               88000.0
4      Eva  29.0    70000         840000               77000.0

Filtrado por Edad > 25:
  Nombre  Edad  Salario  Salario Anual  Salario Incrementado
1    Bob  27.0    60000         720000               66000.0
3  David  32.0    80000         960000               88000.0
4    Eva  29.0    70000         840000               77000.0

Filtrado por Salario > 60000:
  Nombre  Edad  Salario  Salario Anual  Salario Incrementado
3  David  32.0    80000         960000               88000.0
4    Eva  29.0    70000         840000               77000.0

Datos agregados por Departamento:
                   Salario  Edad
Departamento                    
HR            633

###Clase 2: Manipulación Avanzada de Cadenas de Texto
* Expresiones regulares en Python.
* Uso de módulos avanzados como re y regex para manipular texto de manera eficiente.
* Aplicaciones en análisis de texto y minería de datos.

# **▶ Expresiones Regulares en Python**

Las expresiones regulares (regex o regexp) son una herramienta poderosa para la manipulación y búsqueda de cadenas de texto. Permiten definir patrones complejos para la coincidencia y manipulación de texto. En Python, el módulo re proporciona funciones para trabajar con expresiones regulares.

---
#1. Introducción a las Expresiones Regulares
---
Una expresión regular es una cadena que define un patrón de búsqueda. Este patrón puede ser utilizado para realizar búsquedas, reemplazos, y validaciones de texto.

**Conceptos Básicos:**

* **Literals:** Caracteres que coinciden consigo mismos. Ej. "a", "1", "b".
* **Metacaracteres:** Caracteres con significados especiales. Ej. . (cualquier carácter), ^ (inicio de la cadena), $ (fin de la cadena).

> Ejemplo Simple:

In [0]:
import re

# Patrón para buscar la palabra 'Python'
patron = r'Python'
texto = "Estoy aprendiendo Python y me gusta Python."

# Buscar todas las coincidencias
coincidencias = re.findall(patron, texto)
print(coincidencias)  # Salida: ['Python', 'Python']


['Python', 'Python']


---
#2. Funciones Comunes del Módulo re
---
* **re.search():** Busca el patrón en la cadena y devuelve el primer match.
* **re.match():** Comprueba si el patrón coincide al inicio de la cadena.
* **re.findall():** Devuelve una lista con todas las coincidencias del patrón en la cadena.
* **re.finditer():** Devuelve un iterador con todas las coincidencias del patrón en la cadena.
* **re.sub():** Reemplaza las coincidencias del patrón con otra cadena.

>Ejemplo de Uso:

In [0]:
import re

# Texto de ejemplo
texto = "El número de teléfono es 123-456-7890."

# Patrón para buscar un número de teléfono
patron = r'\d{3}-\d{3}-\d{4}'

# re.search
match = re.search(patron, texto)
if match:
    print("Número encontrado:", match.group())  # Salida: Número encontrado: 123-456-7890

# re.findall
numeros = re.findall(patron, texto)
print("Números encontrados:", numeros)  # Salida: Números encontrados: ['123-456-7890']

# re.sub
texto_modificado = re.sub(patron, 'XXX-XXX-XXXX', texto)
print("Texto modificado:", texto_modificado)  # Salida: Texto modificado: El número de teléfono es XXX-XXX-XXXX.


Número encontrado: 123-456-7890
Números encontrados: ['123-456-7890']
Texto modificado: El número de teléfono es XXX-XXX-XXXX.


---
#3. Metacaracteres y Cuantificadores
---

**Metacaracteres:**

* **.:** Cualquier carácter excepto el salto de línea.
* **^:** Inicio de la cadena.
* **$:** Fin de la cadena.
* **\:** Escapa un metacarácter (por ejemplo, \. para buscar un punto literal).

**Cuantificadores:**

* ***:** 0 o más repeticiones.
* **+:** 1 o más repeticiones.
* **?:** 0 o 1 repetición.
* **{n}:** Exactamente n repeticiones.
* **{n,m}:** Entre n y m repeticiones.

>Ejemplo de Metacaracteres y Cuantificadores:

In [0]:
import re

# Texto de ejemplo
texto = "Hola mundo! Hola Python! Hola regex!"

# Patrón para buscar 'Hola' seguido de cualquier carácter 0 o más veces
patron = r'Hola.*'

coincidencias = re.findall(patron, texto)
print(coincidencias)  # Salida: ['Hola mundo! Hola Python! Hola regex!']


['Hola mundo! Hola Python! Hola regex!']


---
#4. Grupos y Backreferences
---

**Grupos:** Permiten capturar partes de la coincidencia que luego pueden ser referenciadas o manipuladas.

**Backreferences:** Referencias a los grupos capturados.

>Ejemplo de Grupos y Backreferences:

In [0]:
import re

# Texto de ejemplo
texto = "Mi correo es ejemplo@example.com y tu correo es otro@ejemplo.com."

# Patrón para capturar correos electrónicos
patron = r'(\w+)@(\w+\.\w+)'

# Buscar y capturar grupos
coincidencias = re.findall(patron, texto)
print(coincidencias)  # Salida: [('ejemplo', 'example.com'), ('otro', 'ejemplo.com')]

# Reemplazar dominios en correos electrónicos
texto_modificado = re.sub(patron, r'\1@dominio.com', texto)
print("Texto modificado:", texto_modificado)  # Salida: Mi correo es ejemplo@dominio.com y tu correo es otro@dominio.com.


[('ejemplo', 'example.com'), ('otro', 'ejemplo.com')]
Texto modificado: Mi correo es ejemplo@dominio.com y tu correo es otro@dominio.com.


---
#5. Uso de Flags
---
Los flags permiten modificar el comportamiento de las expresiones regulares.

**Flags Comunes:**

* **re.IGNORECASE o re.I:** Ignora mayúsculas y minúsculas.
* **re.MULTILINE o re.M:** Trata la cadena como múltiples líneas.
* **re.DOTALL o re.S:** Hace que . coincida con cualquier carácter, incluido el salto de línea.

>Ejemplo de Uso de Flags:

In [0]:
import re

# Texto de ejemplo
texto = "Hola mundo!\nHola Python!"

# Patrón para buscar 'Hola' ignorando mayúsculas y minúsculas
patron = r'hola'

# Buscar con flag re.IGNORECASE
coincidencias = re.findall(patron, texto, flags=re.IGNORECASE)
print(coincidencias)  # Salida: ['Hola', 'Hola']

# Buscar 'Hola' en modo multilínea
coincidencias = re.findall(r'^Hola', texto, flags=re.MULTILINE)
print(coincidencias)  # Salida: ['Hola', 'Hola']


['Hola', 'Hola']
['Hola', 'Hola']


# **Resumen**

Las expresiones regulares son una herramienta esencial para la manipulación de texto en Python. Con el módulo **re**, puedes definir patrones de búsqueda complejos, realizar validaciones y transformaciones de texto de manera eficiente. La comprensión y el uso adecuado de metacaracteres, cuantificadores, grupos, y flags pueden facilitar enormemente el trabajo con cadenas de texto.

# **▶ Uso de Módulos Avanzados como re y regex para Manipular Texto de Manera Eficiente**
Python proporciona herramientas poderosas para la manipulación de texto, especialmente mediante el uso de expresiones regulares. Los módulos **re** y **regex** permiten realizar operaciones avanzadas y eficientes en cadenas de texto. Aunque **re** es el módulo estándar, **regex** es una biblioteca externa que ofrece funcionalidades adicionales y una sintaxis más avanzada.

---
#1. Módulo re
---
El módulo re es parte de la biblioteca estándar de Python y permite trabajar con expresiones regulares.

**Funciones Comunes del Módulo re:**

* **re.search():** Busca el primer patrón que coincide en la cadena.
* **re.match():** Verifica si el patrón coincide al inicio de la cadena.
* **re.findall():** Encuentra todas las coincidencias del patrón en la cadena.
* **re.finditer():** Encuentra todas las coincidencias y devuelve un iterador.
* **re.sub():** Reemplaza las coincidencias del patrón con otra cadena.
* **re.split():** Divide la cadena utilizando el patrón como delimitador.

>Ejemplo de Uso del Módulo re:

In [0]:
import re

texto = "El precio es $100.50 y el descuento es del 20%."

# Buscar precios en el texto
patron_precio = r'\$\d+\.\d{2}'
precios = re.findall(patron_precio, texto)
print("Precios encontrados:", precios)  # Salida: Precios encontrados: ['$100.50']

# Reemplazar precios por un valor genérico
texto_modificado = re.sub(patron_precio, '$XXX.XX', texto)
print("Texto modificado:", texto_modificado)  # Salida: El precio es $XXX.XX y el descuento es del 20%.


Precios encontrados: ['$100.50']
Texto modificado: El precio es $XXX.XX y el descuento es del 20%.


---
#2. Módulo regex
---
El módulo **regex** es una biblioteca externa que se puede instalar mediante pip install **regex**. Ofrece funcionalidades adicionales como:

* Mayor compatibilidad con Unicode.
* Soporte para coincidencias recursivas.
* Mayor control sobre los límites de repetición.
* Coincidencias fuzzy (difusas).

**Funciones y Características del Módulo regex:**

* **regex.search(), regex.match(), regex.findall(), regex.finditer(), regex.sub(), regex.split():** Funcionan de manera similar a las del módulo re, pero con mejoras y características adicionales.
* **Coincidencias Recursivas:** Permiten patrones que pueden referenciarse a sí mismos.
* **Coincidencias Fuzzy:** Permiten coincidencias aproximadas.

>Ejemplo de Uso del Módulo regex:

In [0]:
import regex as re

# Texto de ejemplo con emojis y caracteres especiales
texto = "Python es divertido 🐍. Programar en Python3 es aún más divertido! 🥳"

# Patrón para buscar la palabra 'Python' seguida de un dígito opcional
patron = r'Python\d?'

# Buscar todas las coincidencias
coincidencias = re.findall(patron, texto)
print("Coincidencias encontradas:", coincidencias)  # Salida: Coincidencias encontradas: ['Python', 'Python3']

# Coincidencias fuzzy (difusas)
patron_fuzzy = r'Python{e<=1}'
coincidencias_fuzzy = re.findall(patron_fuzzy, texto)
print("Coincidencias fuzzy encontradas:", coincidencias_fuzzy)  # Salida: Coincidencias fuzzy encontradas: ['Python', 'Python3']


[0;31m---------------------------------------------------------------------------[0m
[0;31mModuleNotFoundError[0m                       Traceback (most recent call last)
File [0;32m<command-42324771517049>:1[0m
[0;32m----> 1[0m [38;5;28;01mimport[39;00m [38;5;21;01mregex[39;00m [38;5;28;01mas[39;00m [38;5;21;01mre[39;00m
[1;32m      3[0m [38;5;66;03m# Texto de ejemplo con emojis y caracteres especiales[39;00m
[1;32m      4[0m texto [38;5;241m=[39m [38;5;124m"[39m[38;5;124mPython es divertido 🐍. Programar en Python3 es aún más divertido! 🥳[39m[38;5;124m"[39m

File [0;32m/databricks/python_shell/dbruntime/PythonPackageImportsInstrumentation/__init__.py:171[0m, in [0;36m_create_import_patch.<locals>.import_patch[0;34m(name, globals, locals, fromlist, level)[0m
[1;32m    166[0m thread_local[38;5;241m.[39m_nest_level [38;5;241m+[39m[38;5;241m=[39m [38;5;241m1[39m
[1;32m    168[0m [38;5;28;01mtry[39;00m:
[1;32m    169[0m     [38;5;66;03m# I

---
#3. Manipulación Avanzada de Texto
---
>**Ejemplo Avanzado: Extracción y Formateo de Datos de un Archivo de Registro**

Supongamos que tenemos un archivo de registro con múltiples líneas de texto, cada una con una marca de tiempo, un nivel de log, y un mensaje.

**Archivo de Log de Ejemplo (log.txt):**

In [0]:
2024-05-30 10:00:00 INFO Inicio del sistema.
2024-05-30 10:05:23 WARNING Memoria disponible baja.
2024-05-30 10:10:45 ERROR Fallo en el módulo de red.
2024-05-30 10:15:50 INFO Proceso completado.




##**Código para Extraer y Formatear Datos del Archivo de Registro:**

In [0]:
import re

# Leer el archivo de log
with open('log.txt', 'r') as file:
    logs = file.readlines()

# Patrón para extraer marca de tiempo, nivel de log, y mensaje
patron = r'(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}) (\w+) (.*)'

# Procesar cada línea del archivo de log
for linea in logs:
    match = re.match(patron, linea)
    if match:
        timestamp, nivel, mensaje = match.groups()
        print(f"Timestamp: {timestamp}, Nivel: {nivel}, Mensaje: {mensaje}")

# Salida:
# Timestamp: 2024-05-30 10:00:00, Nivel: INFO, Mensaje: Inicio del sistema.
# Timestamp: 2024-05-30 10:05:23, Nivel: WARNING, Mensaje: Memoria disponible baja.
# Timestamp: 2024-05-30 10:10:45, Nivel: ERROR, Mensaje: Fallo en el módulo de red.
# Timestamp: 2024-05-30 10:15:50, Nivel: INFO, Mensaje: Proceso completado.




>**Ejemplo Avanzado: Coincidencias Recursivas con regex**

In [0]:
import regex as re

# Patrón para buscar etiquetas HTML anidadas
patron = r'<(\w+)(?:[^>]*>.*?</\1>|[^>]*?/)>'

# Texto de ejemplo con etiquetas HTML anidadas
texto_html = "<div><p>Hola <b>mundo</b></p></div>"

# Buscar coincidencias recursivas
coincidencias = re.findall(patron, texto_html)
print("Coincidencias de etiquetas:", coincidencias)  # Salida: Coincidencias de etiquetas: ['div', 'p', 'b']




In [0]:
import re

def encontrar_etiquetas_anidadas(texto_html):
    # Patrón para buscar etiquetas HTML anidadas
    patron = r'<(\w+)(?:[^>]*>.*?</\1>|[^>]*?/)>'

    # Buscar coincidencias de etiquetas HTML de nivel superior
    coincidencias = re.findall(patron, texto_html)

    return coincidencias

# Texto de ejemplo con etiquetas HTML anidadas
texto_html = "<div><p>Hola <b>mundo</b></p></div>"

# Llamar a la función y obtener las coincidencias
coincidencias = encontrar_etiquetas_anidadas(texto_html)

print("Coincidencias de etiquetas:", coincidencias)  # Salida esperada: ['div', 'p', 'b']




In [0]:
from bs4 import BeautifulSoup

# Texto de ejemplo con etiquetas HTML anidadas
texto_html = "<div><p>Hola <b>mundo</b></p></div>"

# Crear un objeto BeautifulSoup
soup = BeautifulSoup(texto_html, 'html.parser')

# Encontrar todas las etiquetas
etiquetas = [tag.name for tag in soup.find_all()]

print("Coincidencias de etiquetas:", etiquetas)  # Salida: ['div', 'p', 'b']




#Resumen

El uso de módulos avanzados como re y regex en Python permite manipular texto de manera eficiente y con gran flexibilidad. Estas herramientas son esenciales para tareas como la búsqueda y reemplazo de patrones complejos, la validación de entradas, y la extracción de datos estructurados de texto no estructurado. Mientras que el módulo re es suficiente para muchas tareas comunes, regex proporciona funcionalidades adicionales para necesidades más avanzadas.

# **▶ Aplicaciones en Análisis de Texto y Minería de Datos**

El análisis de texto y la minería de datos son áreas fundamentales en ciencia de datos y aprendizaje automático. Estas técnicas se utilizan para extraer información útil y patrones de grandes volúmenes de texto. Aquí exploraremos algunas aplicaciones comunes y herramientas en Python que facilitan estas tareas.

---
#1. Preprocesamiento de Texto
---
El primer paso en cualquier análisis de texto es el preprocesamiento, que incluye limpieza y normalización de datos. Esto asegura que los datos estén en un formato adecuado para el análisis posterior.

**Tareas Comunes de Preprocesamiento:**

* **Limpieza:** Eliminación de caracteres especiales, números, y puntuación innecesaria.
* **Tokenización:** División del texto en palabras o frases.
* **Lematización y Stemming:** Reducción de las palabras a su forma base o raíz.
* **Eliminación de Stop Words:** Eliminación de palabras comunes que no aportan mucho significado (como "el", "y", "de").

>Ejemplo de Preprocesamiento con nltk y re:

In [0]:
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# Descargar recursos necesarios de nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

def preprocesar_texto(texto):
    # Convertir a minúsculas
    texto = texto.lower()

    # Eliminar caracteres especiales y números
    texto = re.sub(r'[^a-z\s]', '', texto)

    # Tokenizar
    tokens = nltk.word_tokenize(texto)

    # Eliminar stop words
    stop_words = set(stopwords.words('english'))
    tokens = [word for word in tokens if word not in stop_words]

    # Lematizar
    lemmatizer = WordNetLemmatizer()
    tokens = [lemmatizer.lemmatize(word) for word in tokens]

    return tokens

# Ejemplo de uso
texto = "This is a sample text for preprocessing. It includes numbers like 123 and punctuation!"
tokens = preprocesar_texto(texto)
print(tokens)
# Salida: ['sample', 'text', 'preprocessing', 'includes', 'number', 'like', 'punctuation']




---
#2. Análisis de Frecuencia
---
Contar la frecuencia de palabras o frases es una técnica básica pero poderosa para entender la importancia y el contenido del texto.

>Ejemplo de Análisis de Frecuencia con Counter:

In [0]:
from collections import Counter

# Texto preprocesado de ejemplo
tokens = ['sample', 'text', 'preprocessing', 'includes', 'number', 'like', 'punctuation']

# Contar la frecuencia de las palabras
frecuencia = Counter(tokens)
print(frecuencia)
# Salida: Counter({'sample': 1, 'text': 1, 'preprocessing': 1, 'includes': 1, 'number': 1, 'like': 1, 'punctuation': 1})




---
#3. Análisis de Sentimientos
---
El análisis de sentimientos implica determinar la actitud o emoción expresada en un fragmento de texto. Es ampliamente utilizado en análisis de redes sociales, encuestas, y comentarios de productos.

>Ejemplo de Análisis de Sentimientos con TextBlob:

In [0]:
from textblob import TextBlob

# Texto de ejemplo
texto = "I love programming. It is so exciting and fulfilling!"

# Análisis de sentimientos
blob = TextBlob(texto)
sentimiento = blob.sentiment
print(sentimiento)
# Salida: Sentiment(polarity=0.4375, subjectivity=0.7)




---
#4. Extracción de Información
---
La extracción de información implica identificar y extraer datos estructurados de texto no estructurado, como nombres, fechas, y entidades.

>Ejemplo de Extracción de Entidades con spacy:

In [0]:
import spacy

# Cargar el modelo de lenguaje en inglés de spaCy
nlp = spacy.load('en_core_web_sm')

# Texto de ejemplo
texto = "Apple is looking at buying U.K. startup for $1 billion."

# Procesar el texto
doc = nlp(texto)

# Extraer entidades nombradas
for entidad in doc.ents:
    print(entidad.text, entidad.label_)
# Salida:
# Apple ORG
# U.K. GPE
# $1 billion MONEY




---
#5. Modelado de Temas
---
El modelado de temas es una técnica de minería de textos que permite descubrir automáticamente los temas o tópicos presentes en un conjunto de documentos.

>Ejemplo de Modelado de Temas con gensim:

In [0]:
import gensim
from gensim import corpora

# Documentos de ejemplo
documentos = [
    "Human machine interface for lab abc computer applications",
    "A survey of user opinion of computer system response time",
    "The EPS user interface management system",
    "System and human system engineering testing of EPS",
    "Relation of user perceived response time to error measurement"
]

# Preprocesar los documentos
textos = [preprocesar_texto(doc) for doc in documentos]

# Crear un diccionario
diccionario = corpora.Dictionary(textos)

# Crear un corpus
corpus = [diccionario.doc2bow(texto) for texto in textos]

# Aplicar LDA para el modelado de temas
lda_model = gensim.models.LdaModel(corpus, num_topics=2, id2word=diccionario, passes=10)

# Mostrar los temas
temas = lda_model.print_topics(num_words=4)
for tema in temas:
    print(tema)
# Salida: Lista de temas con palabras clave




---
#6. Clasificación de Texto
---
La clasificación de texto consiste en asignar etiquetas o categorías a fragmentos de texto. Es útil en la categorización de correos electrónicos, análisis de spam, y etiquetado de documentos.

>Ejemplo de Clasificación de Texto con sklearn:

In [0]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Datos de ejemplo
documentos = [
    "I love this movie, it is amazing!",
    "This film is terrible, I hate it.",
    "What a fantastic performance!",
    "Awful experience, will not watch again.",
    "Great plot and excellent acting."
]
etiquetas = [1, 0, 1, 0, 1]  # 1: Positivo, 0: Negativo

# Preprocesar y vectorizar los documentos
vectorizer = TfidfVectorizer(preprocessor=preprocesar_texto, tokenizer=lambda x: x)
X = vectorizer.fit_transform(documentos)
y = etiquetas

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar el clasificador
clf = MultinomialNB()
clf.fit(X_train, y_train)

# Predecir y evaluar
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Precisión:", accuracy)
# Salida: Precisión: 1.0 (puede variar)




# Resumen

Las aplicaciones de análisis de texto y minería de datos son diversas y poderosas. Con herramientas y bibliotecas como nltk, TextBlob, spacy, gensim, y sklearn, es posible realizar tareas complejas de preprocesamiento, análisis de sentimientos, extracción de información, modelado de temas y clasificación de texto de manera eficiente y efectiva. Estas técnicas son fundamentales para extraer información valiosa y patrones de grandes volúmenes de texto no estructurado.