# Introducción a la Manipulación de Datos en Python

A lo largo de esta sesión, se abordarán métodos fundamentales para el manejo eficaz de datos, incluyendo la manipulación de cadenas, operaciones de entrada/salida de archivos y conversiones de tipos de datos. Estas competencias son cruciales en el ámbito de la investigación y el análisis de datos, facilitando el procesamiento avanzado y la manipulación de conjuntos de datos complejos.

## Temas:

1. **Lectura y Escritura de Archivos**: Profundizaremos en las operaciones de archivos en Python, una habilidad esencial para la fundamentación en la manipulación de datos.
2. **Manipulación de Cadenas**: Se explorarán las capacidades de Python para la manipulación de cadenas, incluyendo operaciones como la división, el recorte y el formateo de las mismas.
3. **Conversión de Tipos**: Se estudiará cómo convertir entre diferentes tipos de datos en Python, una habilidad crucial para la limpieza y transformación de datos.
4. **Expresiones Regulares**: Se introducirán técnicas avanzadas de procesamiento de cadenas mediante expresiones regulares, ideales para la coincidencia de patrones y la extracción de datos complejos.

Cada tema incluirá una base teórica sólida, aplicaciones prácticas, ejemplos ilustrativos y una serie de ejercicios diseñados para reforzar el aprendizaje adquirido.

---

## 1. Lectura y Escritura de Archivos

La capacidad de leer y escribir archivos es fundamental en la programación y es especialmente relevante en el ámbito académico y de investigación, donde la manipulación de datos juega un papel crucial. Python ofrece una interfaz potente y flexible para el manejo de archivos, permitiendo a los usuarios leer, procesar y almacenar datos de manera eficiente.

### El Patrón `with open`

En el manejo de archivos con Python, el patrón `with open` se presenta como la metodología preferida debido a su eficiencia en la gestión de recursos y su elegancia sintáctica:

- **Gestión de Contexto**: La instrucción `with` garantiza una gestión automática de los recursos, encapsulando la ejecución de un bloque de código con métodos definidos por un gestor de contexto, lo que simplifica el manejo de archivos.
- **Gestión Automática de Recursos**: Al emplear `with open`, Python asegura el cierre automático del archivo al finalizar el bloque de código, incluso en casos de excepciones, previniendo así posibles corrupciones de archivos o fugas de recursos.
- **Simplificación del Código**: Este patrón abstrae la necesidad de invocar explícitamente a `file.close()`, contribuyendo a un código más limpio y legible.
- **Robustez en el Manejo de Errores**: Facilita un manejo de errores más robusto al garantizar que las acciones de limpieza se completen adecuadamente antes de propagar cualquier excepción.

### Leyendo Archivos

- **`.read()`**: Extrae el contenido completo del archivo en una cadena de texto.
- **`.readline()`**: Lee la siguiente línea del archivo, incluyendo el carácter de fin de línea, lo cual es idóneo para la lectura secuencial sin necesidad de cargar el archivo completo en memoria.
- **`.readlines()`**: Recupera todas las líneas del archivo y las devuelve como una lista de cadenas, adecuado para el procesamiento individualizado de cada línea.

### Escribiendo Archivos

- **`.write(cadena)`**: Inserta la cadena especificada en el archivo.
- **`.writelines(lista_de_cadenas)`**: Introduce una secuencia de cadenas en el archivo.

### Ejemplos Prácticos

#### Lectura de un Archivo

```python
# Lectura del contenido completo
with open('ejemplo.txt', 'r') as archivo:
    contenido = archivo.read()
    print(contenido)

# Lectura secuencial línea por línea
with open('ejemplo.txt', 'r') as archivo:
    for línea in

 archivo:
        print(línea, end='')  # Utilizando end='' para evitar la adición de nuevas líneas
```

#### Escritura en un Archivo

```python
# Inserción de una única cadena
with open('salida.txt', 'w') as archivo:
    archivo.write('Saludos desde Python.')

# Inserción de múltiples líneas
with open('salida.txt', 'w') as archivo:
    líneas = ['Primera línea\n', 'Segunda línea\n']
    archivo.writelines(líneas)
```

### Ejercicios Propuestos

- Lea un archivo y determine el número total de líneas que contiene.
- Desarrolle un programa que lea un archivo e imprima las líneas que contengan un término específico, como "Python".
- Lea un archivo y genere un nuevo archivo en el que cada línea esté precedida por su número de línea correspondiente, por ejemplo, "1: Primera línea".

El empleo del patrón `with open` en las operaciones de manejo de archivos no solo optimiza la claridad del código sino que también asegura una gestión de recursos más fiable y segura, constituyendo una práctica recomendada en la programación en Python, especialmente para operaciones de entrada/salida de archivos.

---

In [3]:
# Incluir soluciones aqui

## 2. Manipulación de Cadenas en Python

### Introducción a la Manipulación de Cadenas

La manipulación de cadenas es esencial en la programación de Python, especialmente en el manejo de datos, donde los datos textuales necesitan ser limpiados, analizados o transformados. Las cadenas en Python son inmutables, lo que significa que cualquier operación que modifique una cadena resulta en un nuevo objeto de cadena.

### Resumen de Métodos de Cadenas

A continuación, se presenta una tabla que resume algunos de los métodos de cadenas más utilizados, su uso y una breve descripción:

| Método          | Ejemplo de Uso                  | Descripción                                                   |
|-----------------|---------------------------------|---------------------------------------------------------------|
| `split()`       | `"a,b,c".split(",")`            | Divide una cadena en una lista de subcadenas basado en un delimitador. |
| `strip()`       | `"  hola  ".strip()`            | Elimina los espacios en blanco iniciales y finales de una cadena.    |
| `replace()`     | `"perros".replace("p", "g")`    | Reemplaza las ocurrencias de una subcadena dentro de la cadena.    |
| `upper()`       | `"abc".upper()`                 | Convierte todos los caracteres de una cadena a mayúsculas.         |
| `lower()`       | `"ABC".lower()`                 | Convierte todos los caracteres de una cadena a minúsculas.         |
| `title()`       | `"hola mundo".title()`          | Convierte el primer carácter de cada palabra a mayúscula.   |
| `join()`        | `", ".join(["a", "b", "c"])`    | Une los elementos de un iterable a una cadena usando una cadena como separador. |
| `find()`        | `"hola".find("e")`              | Devuelve el índice más bajo de una subcadena (si se encuentra) en la cadena. |
| `capitalize()`  | `"hola".capitalize()`           | Pone en mayúscula la primera letra de la cadena.               |

#### Transición de Cadenas a Listas y Viceversa

##### Dividiendo Cadenas

Dividir una cadena usando `.split(delimitador)` la convierte en una lista de subcadenas. Esto permite la aplicación de operaciones de lista, como el slicing:

In [4]:
texto = "Python es divertido"
palabras = texto.split(" ")  # Dividir por espacio
print(palabras)  # ['Python', 'es', 'divertido']
print(palabras[:2])  # ['Python', 'es'] - Slicing de lista

['Python', 'es', 'divertido']
['Python', 'es']


##### Uniendo Listas

Para convertir una lista de cadenas de nuevo en una única cadena, se utiliza el método `.join()`:

In [5]:
palabras = ['Python', 'es', 'divertido']
oracion = " ".join(palabras)  # Uniendo con un espacio como separador
print(oracion)  # 'Python es divertido'

Python es divertido


### Ejemplos de Métodos Comunes

#### Dividiendo y Uniendo

In [7]:
# Dividiendo
datos = "manzana,plátano,cereza"
frutas = datos.split(",")
print(frutas)  # ['manzana', 'plátano', 'cereza']

# Uniendo
frutas_cadena = ", ".join(frutas)
print(frutas_cadena)  # 'manzana, plátano, cereza'

['manzana', 'plátano', 'cereza']
manzana, plátano, cereza


#### Recortando

In [8]:
# Eliminando espacios iniciales y finales
entrada_usuario = "   Python   "
entrada_limpia = entrada_usuario.strip()
print(entrada_limpia)  # 'Python'

Python


#### Reemplazando y Conversión de Mayúsculas y Minúsculas

In [9]:
texto = "Hola, Mundo!"
nuevo_texto = texto.replace("Mundo", "Python").upper()
print(nuevo_texto)  # 'HOLA, PYTHON!'

HOLA, PYTHON!


### Problemas

1. **De Cadena a Lista y Viceversa**: Dada la cadena `"Juan, Doe, 30, Desarrollador de Software"`, divídela por comas, recorta cada elemento y luego únelos de nuevo con un punto y coma como separador.
2. **Formateando una Fecha**: Convierte la cadena `"2023-12-01"` a una forma más legible, `"1 de diciembre de 2023"`, usando la división de cadenas, indexación de listas y formateo de cadenas.
3. **Manipulación de Listas**: Dada una lista de nombres de archivos, `["reporte.docx", "datos.csv", "presentación.pptx"]`, crea una cadena separada por comas de las extensiones de archivo (por ejemplo, `"docx, csv, pptx"`). Sugerencia: Utiliza la división de cadenas y la comprensión de listas.
4. **Reemplazo Avanzado**: Dado un párrafo, reemplaza cada instancia de `"Python"` por `"Python (un poderoso lenguaje de programación)"` sin cambiar la "P" inicial de Python, ya sea que esté en mayúscula o minúscula.

## 3.Conversión de Tipos en Python

### Antecedentes

La conversión de tipos, o casting de tipos, es un aspecto fundamental de la manipulación de datos en Python, especialmente cuando se trabaja con datos provenientes de diversas fuentes como archivos de texto, entradas de usuario o APIs. Implica convertir datos de un tipo a otro para asegurar compatibilidad y prevenir errores en tiempo de ejecución.

### Importancia

La conversión de tipos adecuada es esencial para el análisis y la manipulación de datos, ya que permite el manejo correcto y el procesamiento de datos, asegurando la precisión en los cálculos y operaciones.

### Tipos Comunes y Funciones de Conversión

- **int()**: Para convertir a un entero.
- **float()**: Para convertir a un número con punto flotante.
- **str()**: Para convertir a una cadena de texto.
- **list()**: Para convertir a una lista, especialmente útil para cadenas de texto u otros objetos iterables.

### Incluyendo Listas en la Conversión

Después de leer datos de un archivo, a menudo terminas con una lista de cadenas de texto. Antes del análisis, es crucial convertir estas cadenas a los tipos de datos correctos.

#### Ejemplo:

In [14]:
# Lista de cadenas representando números
str_numeros = ["1", "2", "3"]

# Convertir cada cadena en la lista a un entero
int_numeros = [int(num) for num in str_numeros]
print(int_numeros)

[1, 2, 3]


### Manejo de Excepciones en la Conversión de Tipos

Usar manejo de excepciones con la conversión de tipos es crucial para manejar errores de forma elegante que surgen de conversiones inapropiadas.

#### Ejemplo:

In [13]:
# Intento de convertir una cadena no numérica a un entero
try:
    num = int("abc")
except ValueError:
    print("Error de conversión: Cadena no numérica a int")

Error de conversión: Cadena no numérica a int


#### Ejemplos Básicos de Conversión

In [11]:
# Cadena a Entero
try:
    num_int = int("10")
except ValueError:
    print("Error convirtiendo cadena a entero")

# Flotante a Entero (truncamiento)
try:
    num_int = int(10.75)
except ValueError:
    print("Error convirtiendo flotante a entero")

# Entero a Cadena
num_str = str(25)

#### Ejemplos de Conversión de Listas

In [10]:
# Cadena de números a lista de enteros
lista_str_num = ["4", "5", "6"]
lista_int_num = [int(num) for num in lista_str_num]

# Manejo de conversión con excepción
for num in lista_str_num:
    try:
        print(int(num))
    except ValueError:
        print(f"Error convirtiendo {num} a entero")

4
5
6


### Conjunto de Problemas

1. Convierte la lista de cadenas `["10", "20", "30"]` a una lista de enteros.
2. Dada la lista `["100", "sin datos", "200", "300"]`, convierte todos los elementos posibles a enteros, y maneja cualquier excepción reemplazando los elementos no convertibles con `None`.
3. Convierte la lista `["1.1", "2.2", "3.3"]` a una lista de flotantes, y luego a una lista de enteros. Observa cómo cambian los datos en cada paso.
4. Crea una lista de tipos de datos mixtos `[1, "2", 3.0, "cuatro"]`, y escribe una función para convertir esta lista a una lista de cadenas, manejando las excepciones de forma elegante.
5. Dada una lista de cadenas que representan valores booleanos `["True", "False", "true", "false"]`, escribe una función para convertirlas a una lista de valores Booleanos. Considera la sensibilidad a mayúsculas y minúsculas en la conversión.
6. Escribe una función para convertir una cadena separada por comas `"1,2,3,4,5"` en una lista de enteros. Maneja el caso donde la cadena pueda contener valores no numéricos, y usa el manejo de excepciones para omitirlos.

---
### 4. Expresiones Regulares

#### Introducción a las Expresiones Regulares:
Las expresiones regulares (regex) son patrones utilizados para buscar, coincidir y manipular texto. Ofrecen capacidades poderosas para el análisis y la manipulación de cadenas de texto.

#### Conceptos Básicos de Expresiones Regulares:
- **Metacaracteres**: Caracteres con significados especiales en regex, como `.` (coincide con cualquier carácter) y `*` (coincide con cero o más ocurrencias).
- **Clases de Caracteres**: Representan grupos de caracteres, como `\d` (dígito), `\w` (carácter de palabra) y `\s` (espacio en blanco).
- **Anclas**: Indican posiciones dentro de la cadena, como `^` (inicio de la cadena) y `$` (fin de la cadena).
- **Cuantificadores**: Determinan el número de ocurrencias, como `+` (una o más) y `{}` (número exacto).

#### Formación de Patrones y Estrategias de Expresiones Regulares:
- **Identificar el Patrón**: Determinar el patrón específico que se desea buscar o extraer del texto.
- **Descomponerlo**: Dividir el patrón en componentes más pequeños según la estructura del texto.
- **Usar Clases de Caracteres**: Utilizar clases de caracteres (`\d`, `\w`, `\s`, etc.) para coincidir con tipos específicos de caracteres.
- **Cuantificadores para Repetición**: Usar cuantificadores (`+`, `*`, `{}`, etc.) para especificar el número de ocurrencias de un patrón.
- **Anclas para Posicionamiento**: Emplear anclas (`^`, `$`, `\b`, etc.) para especificar la posición de un patrón dentro de la cadena.
- **Agrupación con Paréntesis**: Utilizar paréntesis para agrupar partes del patrón y aplicar cuantificadores o modificadores a todo el grupo.
- **Pruebas y Depuración**: Probar el patrón de regex en texto de muestra usando herramientas en línea de regex o el módulo `re` de Python para asegurarse de que coincida con el texto deseado.

#### Uso de Expresiones Regulares para Análisis de Cadenas de Texto:
1. **Verificar si una Cadena Comienza con un Texto Específico**:
   - Usar el ancla `^` para coincidir con el inicio de la cadena.
   - Ejemplo: `re.match(r'^Hola', texto)` para verificar si `texto` comienza con "Hola".

2. **Verificar si una Palabra está en la Cadena**:
   - Utilizar límites de palabra (`\b`) para coincidir con palabras completas.
   - Ejemplo: `re.search(r'\bejemplo\b', texto)` para verificar si "ejemplo" está en `texto`.

#### Ejemplos Adicionales en Ciencia e Ingeniería:

3. **Extracción de Números en Notación Científica**:
   - **Caso de Uso**: Extraer números representados en notación científica (por ejemplo, 1.23e-04) de datos de texto.
   - **Patrón de Regex**: `r'[-+]?\b\d+\.\d+(?:[eE][-+]?\d+)?\b'`
   - **Explicación**: Coincide con números con signo opcional, parte decimal y parte exponencial opcional.
   - **Código en Python**:

In [15]:
import re

def extraer_numeros_cientificos(texto):
    return re.findall(r'[-+]?\b\d+\.\d+(?:[eE][-+]?\d+)?\b', texto)

# Uso del ejemplo
texto = "Números científicos: 1.23e-04, -5.67e+08, 9.876E+02"
numeros_cientificos = extraer_numeros_cientificos(texto)
print("Números científicos extraídos:", numeros_cientificos)

Números científicos extraídos: ['1.23e-04', '-5.67e+08', '9.876E+02']


4. **Análisis de Datos de Texto con Formato CSV**:
   - **Caso de Uso**: Extraer campos de datos de texto con formato similar a un archivo CSV.
   - **Patrón de Regex**: `r'([^,\n]+)(?:,|$)'`
   - **Explicación**: Coincide con caracteres que no son coma seguidos de una coma o fin de línea.
   - **Código en Python**:

In [16]:
import re

def analizar_csv(texto):
    return [coincidencia.group(1) for coincidencia in re.finditer(r'([^,\n]+)(?:,|$)', texto)]

# Uso del ejemplo
texto = "Nombre,Edad,Ubicación\nAlice,30,Nueva York\nBob,25,Los Ángeles"
datos_csv = analizar_csv(texto)
print("Datos CSV analizados:", datos_csv)


Datos CSV analizados: ['Nombre', 'Edad', 'Alice', '30', 'Bob', '25', 'Los Ángeles']


5. **Identificación de Fórmulas Químicas**:
   - **Caso de Uso**: Extraer fórmulas químicas (por ejemplo, H2O, CO2) de datos de texto.
   - **Patrón de Regex**: `r'\b[A-Z][a-z]?\d*(?:[+-]\d+)?\b'`
   - **Explicación**: Coincide con una letra mayúscula seguida opcionalmente de una letra minúscula, dígitos opcionales y carga opcional.
   - **Código en Python**:

In [17]:
import re

def extraer_formulas_quimicas(texto):
    return re.findall(r'\b[A-Z][a-z]?\d*(?:[+-]\d+)?\b', texto)

# Uso del ejemplo
texto = "Fórmulas químicas: H2O, CO2, NaCl, FeSO4"
formulas = extraer_formulas_quimicas(texto)
print("Fórmulas químicas extraídas:", formulas)

Fórmulas químicas extraídas: []


6. **Análisis de Fechas en Formato ISO 8601**:
   - **Caso de Uso**: Extraer fechas en formato ISO 8601 (AAAA-MM-DD) de datos de texto.
   - **Patrón de Regex**: `r'\b\d{4}-\d{2}-\d{2}\b'`
   - **Explicación**: Coincide con cadenas en formato AAAA-MM-DD.
   - **Código en Python**:

In [18]:
import re

def extraer_fechas_iso(texto):
    return re.findall(r'\b\d{4}-\d{2}-\d{2}\b', texto)

# Uso del ejemplo
texto = "Fechas ISO 8601: 2022-01-31, 2023-12-15"
fechas_iso = extraer_fechas_iso(texto)
print("Fechas ISO 8601 extraídas:", fechas_iso)

Fechas ISO 8601 extraídas: ['2022-01-31', '2023-12-15']


7. **Extracción de Mediciones Numéricas con Unidades**:
   - **Caso de Uso**: Extraer mediciones numéricas con unidades (por ejemplo, 10 cm, 5.6 kg) de datos de texto.
   - **Patrón de Regex**: `r'\b\d+(?:\.\d+)?\s*[a-zA-Z]+\b'`
   - **Explicación**: Coincide con números (con parte decimal opcional) seguidos de espacios en blanco opcionales y caracteres alfabéticos.
   - **Código en Python**:

In [19]:
import re

def extraer_mediciones(texto):
    return re.findall(r'\b\d+(?:\.\d+)?\s*[a-zA-Z]+\b', texto)

# Uso del ejemplo
texto = "Mediciones: 10 cm, 5.6 kg, 3.2 m"
mediciones = extraer_mediciones(texto)
print("Mediciones extraídas:", mediciones)

Mediciones extraídas: ['10 cm', '5.6 kg', '3.2 m']
