\# 🎯 Talle 01: Introducción a Python para NLP
Bienvenidos al **Taller Introductorio de NLP**.
En esta clase aprenderemos:
- Configurar el entorno usando Google Colab.
- Conceptos básicos de Python: variables, tipos de datos y operaciones.
- Manipulación de cadenas de texto para análisis lingüístico.
---

## 🔥 1. Instalación y Configuración del Entorno
Accede a [Google Colab](https://colab.research.google.com) y sigue estas instrucciones:
1. Crea un nuevo notebook (`File -> New Notebook`).
2. Ejecuta la celda siguiente para verificar que Python funciona.

In [None]:
# Ejecuta esta celda
print("¡Hola, mundo! Bienvenidos al análisis computacional de lenguas amerindias.")

## 🔥 Manejo Avanzado de Cadenas en Python
Algunos métodos útiles para manipulación de cadenas:
- `split()`: Divide una cadena en una lista.
- `join()`: Une una lista de cadenas en una sola cadena.
- `replace()`: Reemplaza partes de una cadena.
- `strip()`: Elimina espacios en blanco al inicio y final.
- `lower()` y `upper()`: Convierte a minúsculas o mayúsculas.


In [None]:
# Ejemplo de manipulación de cadenas
texto = "Quechua es una lengua ancestral."
palabras = texto.split()
print("Lista de palabras:", palabras)

# Unir palabras en una nueva oración
nueva_frase = " ".join(palabras)
print("Nueva frase:", nueva_frase)

# Reemplazar palabra
texto_modificado = texto.replace("Quechua", "Aymara")
print("Texto modificado:", texto_modificado)

# Eliminar espacios
texto_con_espacios = "  Bienvenidos al análisis de lenguas  "
print("Texto sin espacios:", texto_con_espacios.strip())

## 🔎 Expresiones Regulares en Python
Las expresiones regulares son útiles para encontrar, analizar y modificar texto. Algunas funciones comunes de `re` son:
- `re.match()`: Comprueba si el patrón coincide al inicio.
- `re.search()`: Busca la primera coincidencia.
- `re.findall()`: Encuentra todas las coincidencias.
- `re.sub()`: Reemplaza coincidencias.


In [None]:
import re

# Buscar palabras que comiencen con 'a'
texto = "aymara quechua amazonas andes"
patron = r'\ba\w*'
resultado = re.findall(patron, texto)
print("Palabras que empiezan con 'a':", resultado)

# Validar si una palabra contiene solo letras
palabra = "aymara123"
if re.match(r'^[a-zA-Z]+$', palabra):
    print("Palabra válida")
else:
    print("Palabra inválida")

# Reemplazar vocales por '*'
texto_modificado = re.sub(r'[aeiouAEIOU]', '*', texto)
print("Texto modificado:", texto_modificado)

## 🧩 Manejo Avanzado de Cadenas: Más Ejemplos
Algunas operaciones adicionales para manipulación de texto:
- `startswith()` y `endswith()`: Verifica si una cadena comienza o termina con una subcadena.
- `find()` y `index()`: Encuentra la posición de una subcadena.
- `count()`: Cuenta las ocurrencias de una subcadena.


In [None]:
# Ejemplos avanzados de cadenas
texto = "Shipibo-konibo es una lengua amazónica."
print("¿Empieza con 'Shipibo'?", texto.startswith("Shipibo"))
print("Posición de 'lengua':", texto.find("lengua"))
print("Cantidad de 'o':", texto.count("o"))


## ✂️ Eliminación de Stopwords
Las **stopwords** son palabras comunes que suelen eliminarse en tareas de procesamiento de lenguaje.
Ejemplo de stopwords para **Quechua** y **Shipibo-konibo**.

In [None]:
# Stopwords personalizadas
stopwords_quechua = ["hina", "kama", "manta", "paq"]
stopwords_shipibo = ["jiai", "xeati", "japa", "non"]

# Texto de ejemplo
texto_quechua = "Runakuna hina rimaykuna manta ñawpaq"
texto_shipibo = "Jiai non keati xobo ibo japa"

# Eliminar stopwords
limpio_quechua = " ".join([palabra for palabra in texto_quechua.split() if palabra not in stopwords_quechua])
limpio_shipibo = " ".join([palabra for palabra in texto_shipibo.split() if palabra not in stopwords_shipibo])

print("Texto Quechua sin stopwords:", limpio_quechua)
print("Texto Shipibo sin stopwords:", limpio_shipibo)

## ⚡ Preprocesamiento de Textos
El preprocesamiento incluye varias tareas:
- Conversión a minúsculas.
- Eliminación de puntuación.
- Tokenización y eliminación de stopwords.


In [None]:
import re

# Función para preprocesamiento
def preprocesar(texto, stopwords):
    # Convertir a minúsculas
    texto = texto.lower()

    # Eliminar puntuación
    texto = re.sub(r'[^\w\s]', '', texto)

    # Tokenizar y eliminar stopwords
    tokens = texto.split()
    tokens_limpios = [palabra for palabra in tokens if palabra not in stopwords]

    return " ".join(tokens_limpios)

# Texto en Shipibo para análisis
texto_shipibo_original = "Jiai, xeati xobo ibo, japa nox"

# Preprocesar texto
resultado_shipibo = preprocesar(texto_shipibo_original, stopwords_shipibo)
print("Texto preprocesado en Shipibo:", resultado_shipibo)