\# üéØ Talle 01: Introducci√≥n a Python para NLP
Bienvenidos al **Taller Introductorio de NLP**.
En esta clase aprenderemos:
- Configurar el entorno usando Google Colab.
- Conceptos b√°sicos de Python: variables, tipos de datos y operaciones.
- Manipulaci√≥n de cadenas de texto para an√°lisis ling√º√≠stico.
---

## üî• 1. Instalaci√≥n y Configuraci√≥n del Entorno
Accede a [Google Colab](https://colab.research.google.com) y sigue estas instrucciones:
1. Crea un nuevo notebook (`File -> New Notebook`).
2. Ejecuta la celda siguiente para verificar que Python funciona.

In [None]:
# Ejecuta esta celda
print("¬°Hola, mundo! Bienvenidos al an√°lisis computacional de lenguas amerindias.")

## üî• Manejo Avanzado de Cadenas en Python
Algunos m√©todos √∫tiles para manipulaci√≥n de cadenas:
- `split()`: Divide una cadena en una lista.
- `join()`: Une una lista de cadenas en una sola cadena.
- `replace()`: Reemplaza partes de una cadena.
- `strip()`: Elimina espacios en blanco al inicio y final.
- `lower()` y `upper()`: Convierte a min√∫sculas o may√∫sculas.


In [None]:
# Ejemplo de manipulaci√≥n de cadenas
texto = "Quechua es una lengua ancestral."
palabras = texto.split()
print("Lista de palabras:", palabras)

# Unir palabras en una nueva oraci√≥n
nueva_frase = " ".join(palabras)
print("Nueva frase:", nueva_frase)

# Reemplazar palabra
texto_modificado = texto.replace("Quechua", "Aymara")
print("Texto modificado:", texto_modificado)

# Eliminar espacios
texto_con_espacios = "  Bienvenidos al an√°lisis de lenguas  "
print("Texto sin espacios:", texto_con_espacios.strip())

## üîé Expresiones Regulares en Python
Las expresiones regulares son √∫tiles para encontrar, analizar y modificar texto. Algunas funciones comunes de `re` son:
- `re.match()`: Comprueba si el patr√≥n coincide al inicio.
- `re.search()`: Busca la primera coincidencia.
- `re.findall()`: Encuentra todas las coincidencias.
- `re.sub()`: Reemplaza coincidencias.


In [None]:
import re

# Buscar palabras que comiencen con 'a'
texto = "aymara quechua amazonas andes"
patron = r'\ba\w*'
resultado = re.findall(patron, texto)
print("Palabras que empiezan con 'a':", resultado)

# Validar si una palabra contiene solo letras
palabra = "aymara123"
if re.match(r'^[a-zA-Z]+$', palabra):
    print("Palabra v√°lida")
else:
    print("Palabra inv√°lida")

# Reemplazar vocales por '*'
texto_modificado = re.sub(r'[aeiouAEIOU]', '*', texto)
print("Texto modificado:", texto_modificado)

## üß© Manejo Avanzado de Cadenas: M√°s Ejemplos
Algunas operaciones adicionales para manipulaci√≥n de texto:
- `startswith()` y `endswith()`: Verifica si una cadena comienza o termina con una subcadena.
- `find()` y `index()`: Encuentra la posici√≥n de una subcadena.
- `count()`: Cuenta las ocurrencias de una subcadena.


In [None]:
# Ejemplos avanzados de cadenas
texto = "Shipibo-konibo es una lengua amaz√≥nica."
print("¬øEmpieza con 'Shipibo'?", texto.startswith("Shipibo"))
print("Posici√≥n de 'lengua':", texto.find("lengua"))
print("Cantidad de 'o':", texto.count("o"))


## ‚úÇÔ∏è Eliminaci√≥n de Stopwords
Las **stopwords** son palabras comunes que suelen eliminarse en tareas de procesamiento de lenguaje.
Ejemplo de stopwords para **Quechua** y **Shipibo-konibo**.

In [None]:
# Stopwords personalizadas
stopwords_quechua = ["hina", "kama", "manta", "paq"]
stopwords_shipibo = ["jiai", "xeati", "japa", "non"]

# Texto de ejemplo
texto_quechua = "Runakuna hina rimaykuna manta √±awpaq"
texto_shipibo = "Jiai non keati xobo ibo japa"

# Eliminar stopwords
limpio_quechua = " ".join([palabra for palabra in texto_quechua.split() if palabra not in stopwords_quechua])
limpio_shipibo = " ".join([palabra for palabra in texto_shipibo.split() if palabra not in stopwords_shipibo])

print("Texto Quechua sin stopwords:", limpio_quechua)
print("Texto Shipibo sin stopwords:", limpio_shipibo)

## ‚ö° Preprocesamiento de Textos
El preprocesamiento incluye varias tareas:
- Conversi√≥n a min√∫sculas.
- Eliminaci√≥n de puntuaci√≥n.
- Tokenizaci√≥n y eliminaci√≥n de stopwords.


In [None]:
import re

# Funci√≥n para preprocesamiento
def preprocesar(texto, stopwords):
    # Convertir a min√∫sculas
    texto = texto.lower()

    # Eliminar puntuaci√≥n
    texto = re.sub(r'[^\w\s]', '', texto)

    # Tokenizar y eliminar stopwords
    tokens = texto.split()
    tokens_limpios = [palabra for palabra in tokens if palabra not in stopwords]

    return " ".join(tokens_limpios)

# Texto en Shipibo para an√°lisis
texto_shipibo_original = "Jiai, xeati xobo ibo, japa nox"

# Preprocesar texto
resultado_shipibo = preprocesar(texto_shipibo_original, stopwords_shipibo)
print("Texto preprocesado en Shipibo:", resultado_shipibo)