# Manejo de Cadenas (Strings) en Python

Los **strings** (cadenas de texto) son uno de los tipos de datos más importantes en Python. Entender cómo manipularlos es una habilidad fundamental para cualquier científico de datos, ya que gran parte de los datos del mundo real vienen en formato de texto.

Su uso es clave en áreas como la **limpieza de datos**, **ingeniería de características (feature engineering)** y, por supuesto, el **Procesamiento del Lenguaje Natural (NLP)**.

## 1. Creación y Representación de Strings

Para crear un string, puedes usar comillas simples (`'...'`), dobles (`"..."`) o triples (`'''...'''` o `"""..."""`).

* **Simples y dobles:** Son las más comunes para texto en una sola línea.
* **Triples:** Permiten escribir texto que abarca múltiples líneas, respetando los saltos de línea.

In [None]:
# Comillas simples
name_simple = 'Anderson'
print(f"Simple: {name_simple}")

# Comillas dobles
name_doble = "Anderson Rubio"
print(f"Doble: {name_doble}")

# Comillas triples para múltiples líneas
bio = """Científico de Datos en formación.
Apasionado por el Machine Learning y la IA.
"""
print(f"Triple:\n{bio}")

# Puedes verificar el tipo de dato con la función type()
print(f"El tipo de dato es: {type(name_simple)}")

## 2. Operaciones Fundamentales

Las operaciones más básicas que puedes realizar son unir (concatenar) y repetir strings.

* **Concatenación (`+`):** Une dos o más strings en uno solo.
* **Repetición (`*`):** Crea una nueva cadena repitiendo la original un número específico de veces.


In [None]:
nombre = "Anderson"
apellido = "Rubio"

# Concatenación (¡Ojo con los espacios!)
nombre_completo = nombre + " " + apellido
print(f"Nombre completo: {nombre_completo}")

# Repetición
linea_divisoria = "-" * 30
print(linea_divisoria)

## 3. Acceso a Caracteres: Indexación y Slicing

Los strings son secuencias ordenadas, lo que significa que puedes acceder a sus partes usando índices.

### Indexación
Permite obtener un solo carácter.
* **Índices positivos:** Empiezan en `0` desde la izquierda.
* **Índices negativos:** Empiezan en `-1` desde la derecha.

Si intentas acceder a un índice que no existe, Python arrojará un error `IndexError`.

### Slicing (Rebanado)
Permite obtener una sub-cadena (un trozo del string). La sintaxis es `[inicio:fin:paso]`.
* `inicio`: El índice donde empieza el trozo (incluido). Si se omite, es desde el principio.
* `fin`: El índice donde termina el trozo (NO incluido). Si se omite, es hasta el final.
* `paso`: El intervalo para tomar caracteres. Si se omite, es 1.

In [None]:
frase = "Python para Data Science"

# Indexación
print(f"Primer carácter (índice 0): {frase[0]}")
print(f"Último carácter (índice -1): {frase[-1]}")

# Slicing
print(f"Del índice 0 al 5: {frase[0:6]}") # Llega hasta el índice 5
print(f"Desde el índice 7 hasta el final: {frase[7:]}")
print(f"Toda la frase, de 2 en 2 caracteres: {frase[::2]}")
print(f"Frase invertida: {frase[::-1]}")

## 4. Métodos de Strings Esenciales para Ciencia de Datos

Los strings tienen "métodos", que son funciones especiales que pertenecen al objeto string. La sintaxis siempre es `variable.metodo()`. Son tu principal herramienta para la limpieza de datos.

A continuación, los más usados:

### .lower() y .upper()
* **Descripción:** `lower()` convierte todo el texto a minúsculas y `upper()` a mayúsculas.
* **Uso en DS:** **Normalización de texto**. Es el primer paso en casi cualquier tarea de NLP o limpieza de datos categóricos para asegurar que "Python", "python" y "PYTHON" se traten como la misma palabra.
* **Ejemplo:**

In [None]:
texto_original = "Machine Learning es FASCINANTE."
print(texto_original.lower())
print(texto_original.upper())


### .strip()
* **Descripción:** Elimina los espacios en blanco (o caracteres especificados) al principio y al final del string.
* **Uso en DS:** Limpieza de datos que provienen de formularios, web scraping o archivos CSV, donde es común tener espacios extra que pueden corromper los datos.
* **Ejemplo:**


In [None]:
entrada_usuario = "  Ciencia de Datos  "
print(f"Original: '{entrada_usuario}'")
print(f"Limpio: '{entrada_usuario.strip()}'")

### .replace(valor_viejo, valor_nuevo)
* **Descripción:** Reemplaza todas las ocurrencias de una sub-cadena (`valor_viejo`) por otra (`valor_nuevo`).
* **Uso en DS:** Corregir errores, estandarizar términos o eliminar caracteres no deseados. Por ejemplo, reemplazar "N/A" por un valor nulo, o eliminar el símbolo "$" de los precios.
* **Ejemplo:**

In [None]:
precio = "$1,500.00"
precio_numerico = precio.replace("$", "").replace(",", "")
print(f"Precio numérico: {precio_numerico}")

### .split(separador)
* **Descripción:** Divide el string en una **lista** de sub-cadenas, usando el `separador` como punto de corte. Si no se especifica un separador, divide por los espacios en blanco.
* **Uso en DS:** **Tokenización**. Es uno de los métodos más importantes. Permite separar frases en palabras, dividir datos de un CSV (ej. separar por comas), o procesar logs.
* **Ejemplo:**

In [None]:
tags = "python,data-science,machine-learning"
lista_tags = tags.split(',')
print(f"La lista de tags es: {lista_tags}")

frase = "El análisis de datos es clave"
palabras = frase.split()
print(f"Las palabras son: {palabras}")

### .join(iterable)
* **Descripción:** Es la operación inversa a `.split()`. Une los elementos de un iterable (como una lista) en un solo string, usando el string original como pegamento.
* **Uso en DS:** Reconstruir texto después de haberlo procesado (por ejemplo, después de eliminar ciertas palabras de una lista).
* **Ejemplo:**

In [None]:
lista_palabras = ['El', 'modelo', 'fue', 'entrenado']
frase_reconstruida = " ".join(lista_palabras)
print(frase_reconstruida)

### .count(subcadena)
* **Descripción:** Cuenta cuántas veces aparece una `subcadena` dentro del string. Es sensible a mayúsculas y minúsculas.
* **Uso en DS:** **Ingeniería de características básica**. Puede ayudar a crear una nueva variable, como "número de veces que se menciona la palabra 'oferta' en un email" para un modelo de detección de spam. Para un conteo robusto, primero se normaliza el texto.
* **Ejemplos:**

In [51]:
# Ejemplo 1
texto = "El modelo del modelo es un modelo predictivo."
# Normalizamos a minúsculas para contar todas las ocurrencias
conteo = texto.lower().count("modelo")
print(f"La palabra 'modelo' aparece {conteo} veces.")

La palabra 'modelo' aparece 3 veces.


In [57]:
# Ejemplo 2
numero_buscado = 9
mi_lista = [1, 5, 3, 5, 7, 5, 9]
cantidad_numero_buscado = mi_lista.count(numero_buscado)
print(f"el número {numero_buscado} aparece: {cantidad_numero_buscado} veces en la lista")

el número 9 aparece: 1 veces en la lista
