# Principios de Inform√°tica: Manipulaci√≥n de Archivos üíæ

### Guardando y cargando datos para que perduren

**Curso:** Principios de Inform√°tica

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://githubtocolab.com/EnriqueVilchezL/principios_de_info/blob/main/11_manipulacion_de_archivos/manipulacion_de_archivos.ipynb)

---

## üó∫Ô∏è Objetivos y Contenidos

Este notebook es una gu√≠a interactiva para dominar la **manipualci√≥n de archivos** en Python, enfoc√°ndose en las estructuras clave de la biblioteca **Pandas**: **Series** y **DataFrames**. Se explorar√°n las operaciones b√°sicas y avanzadas para la manipulaci√≥n, limpieza y resumen de datos tabulares, as√≠ como las t√©cnicas esenciales para la **persistencia** (carga y exportaci√≥n) de datos en diversos formatos de archivo.

> "Dominar Pandas es el paso fundamental para convertir datos crudos en informaci√≥n √∫til y estructurada."

**Importancia:**
* **Pandas** es la herramienta *de facto* en Python para la limpieza, transformaci√≥n y an√°lisis exploratorio de datos estructurados, esencial en el campo de la Ciencia de Datos.
* Aprender a manejar diferentes formatos de **persistencia de datos** (CSV, XLSX, TXT) es crucial para interactuar con el mundo real, donde los datos se almacenan en m√∫ltiples fuentes.
* Permite a los analistas y cient√≠ficos de datos manipular grandes conjuntos de informaci√≥n de manera eficiente y escalable.

**Contenidos:**
1.  Concepto de archivo para la persistencia de datos.
2.  Estructuras de datos de Pandas y operaciones b√°sicas
3.  Carga y exportaci√≥n de datos (TXT, CSV, XLSX, JPEG.).

---

## 1. Concepto de archivo para la persistencia de datos

---

### ¬øQu√© es un Archivo y Por Qu√© es Importante? üóÇÔ∏è

Hasta este punto, todos los datos con los que se ha trabajado (variables, listas, etc.) residen en la **memoria RAM**. Esta memoria es **vol√°til**, lo que significa que cuando el programa termina o se apaga la computadora, toda la informaci√≥n se pierde.

Un **archivo** es un contenedor de informaci√≥n en un dispositivo de almacenamiento **no vol√°til** (como un disco duro, un SSD o una memoria USB). Permite la **persistencia de datos**: guardar el estado de un programa, los resultados de c√°lculos o cualquier informaci√≥n para poder utilizarla en el futuro.

**Analog√≠a**: La memoria RAM es como una memoria a corto plazo para pensar en un problema. Un archivo es como un cuaderno donde se anota la soluci√≥n para que no se olvide. üìì

---

### Trabajar con Archivos de Texto (.txt) üìù

Los archivos de texto plano son la forma m√°s simple de persistencia. No tienen formato, solo caracteres.

---

#### Leer archivos de texto en Python con `open()`

Para leer archivos de texto en Python, se utiliza la funci√≥n incorporada `open()`. Esta funci√≥n permite abrir un archivo y obtener un objeto que se puede usar para leer su contenido.

**Sintaxis b√°sica:**
```python
archivo = open('ruta/al/archivo.txt', 'modo')
```

- `'ruta/al/archivo.txt'`: Es la ruta al archivo que se desea abrir. Puede ser una ruta relativa (por ejemplo, `'datos.txt'`) o una ruta absoluta (por ejemplo, `'/home/usuario/documentos/datos.txt'`).
- `'modo'`: Especifica c√≥mo se abrir√° el archivo. Los modos m√°s comunes son:
    - `'r'`: Solo lectura (por defecto). El archivo debe existir.
    - `'w'`: Escritura. Si el archivo existe, se sobreescribe; si no existe, se crea uno nuevo.
    - `'a'`: A√±adir (append). Si el archivo existe, se a√±ade al final; si no existe, se crea uno nuevo.
    - `'x'`: Creaci√≥n exclusiva. Falla si el archivo ya existe.
    - `'b'`: Modo binario (por ejemplo, `'rb'` para leer en binario).
    - `'t'`: Modo texto (por ejemplo, `'rt'` para leer en texto, es el valor por defecto).



**Sobre las rutas:**
- Cada `/` representa una carpeta en el sistema de archivos. Por ejemplo, `ruta/al/archivo.txt` indica que hay una carpeta llamada `ruta`, dentro de ella otra llamada `al`, y dentro de `al` est√° el archivo.
- Si el archivo est√° en la misma carpeta que el notebook, basta con poner el nombre del archivo.
- Si est√° en otra carpeta, se debe especificar la ruta relativa o absoluta.
- En Windows, se recomienda usar doble barra invertida (`\\`) o una barra normal (`/`).

---

En Colab, se pueden subir archivos temporalmente usando el widget de subida de archivos o en el men√∫ de la izquierda, donde se encuentra el explorador de archivos.

---

In [None]:
# Subir archivos a Colab usando widgets
from google.colab import files

# Esto abrir√° un bot√≥n para seleccionar archivos desde tu computadora
uploaded = files.upload()

In [None]:
# Abrir el archivo en modo lectura ('r')
archivo = open('ejemplo.txt', 'r')
contenido = archivo.read()  # Lee todo el contenido como una sola cadena
archivo.close()  # ¬°Recuerde cerrar el archivo!
print(contenido)

**Recomendaci√≥n:** Es mejor usar la instrucci√≥n `with` para abrir archivos, ya que as√≠ se cierran autom√°ticamente:

---

In [None]:
with open('ejemplo.txt', 'r') as archivo:
    for linea in archivo:
        print(linea.strip())

En Python, cuando se abre un archivo con `open()` sin usar with, el archivo no se cierra autom√°ticamente al salir del bloque de c√≥digo, lo que puede traer varios problemas:

1.	Fugas de recursos: El archivo queda abierto en el sistema operativo hasta que se cierre manualmente con `archivo.close()`. Si se abren muchos archivos sin cerrarlos, se puede alcanzar el l√≠mite de descriptores de archivo del sistema.

2.	Datos no escritos correctamente: Si se abre un archivo en modo escritura ('w', 'a' o 'r+') y no lo se cierra, el contenido en el archivo podr√≠a no guardarse en disco, lo que puede causar p√©rdida de datos.

3.	Bloqueo de archivos: Algunos sistemas mantienen bloqueos sobre archivos abiertos, lo que puede impedir que otros procesos (o incluso el mismo programa) los accedan correctamente hasta que se liberen.

---

#### Escribir en un archivo .txt

Se utiliza la funci√≥n `open()` con el modo `'w'` (write/escribir).

**¬°Cuidado!** El modo `'w'` **sobrescribe** el archivo si ya existe. Si se desea a√±adir al final, se debe usar el modo `'a'` (append/a√±adir).

---

In [None]:
def guardar_log(mensaje: str, nombre_archivo: str = "log.txt") -> None:
    """
    Guarda un mensaje en un archivo de log con una marca de tiempo.

    Args:
        mensaje (str): El mensaje a guardar en el log.
        nombre_archivo (str): El nombre del archivo de log. Por defecto es 'log.txt'.
    """
    import datetime
    # 'with' se asegura de que el archivo se cierre autom√°ticamente
    with open(nombre_archivo, 'a') as archivo:
        timestamp = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        archivo.write(f"[{timestamp}] - {mensaje}\n")

# Escribimos varias l√≠neas en nuestro log

guardar_log("Inicio del proceso de simulaci√≥n.")
guardar_log("Cargando par√°metros iniciales.")
guardar_log("Simulaci√≥n completada con √©xito.")
print("Se ha escrito en el archivo 'log.txt'")

#### üìã Ejercicio: Registro de mol√©culas

Escriba un programa en Python que permita **registrar informaci√≥n de mol√©culas** en un archivo de texto (`moleculas.txt`).  

1. El programa debe pedir al usuario, mediante `input()`, los siguientes datos de cada mol√©cula:  
   - **Nombre de la mol√©cula**  
   - **F√≥rmula qu√≠mica**  
   - **Masa molecular (g/mol)**  

2. Una vez introducidos los datos, deben guardarse en el archivo `moleculas.txt` en el siguiente formato (una mol√©cula por l√≠nea):  

```txt
Nombre | F√≥rmula | Masa
```

Ejemplo:  

```txt
Agua | H2O | 18.015
Di√≥xido de carbono | CO2 | 44.01
```

3. El programa debe permitir **registrar varias mol√©culas de manera consecutiva**, hasta que el usuario indique que no quiere continuar (por ejemplo, escribiendo `"no"` cuando se le pregunte si desea ingresar otra mol√©cula).  

4. Al terminar, el archivo `moleculas.txt` debe contener todas las mol√©culas registradas.  

---

In [None]:
def pedir_datos() -> tuple[str, str, str]:
    """
    Pide los datos de una mol√©cula al usuario y los retorna como una tupla.

    Returns:
        tuple[str, str, str]: Una tupla con (nombre, f√≥rmula, masa).
    """
    nombre = input("Ingrese el nombre de la mol√©cula: ")
    formula = input("Ingrese la f√≥rmula qu√≠mica: ")
    masa = input("Ingrese la masa molecular (g/mol): ")
    return nombre, formula, masa


def guardar_datos(archivo: str, datos: tuple[str, str, str]) -> None:
    """
    Guarda los datos de una mol√©cula en un archivo de texto.

    Args:
        archivo (str): La ruta del archivo donde se guardar√°n los datos.
        datos (tuple[str, str, str]): Una tupla con (nombre, f√≥rmula, masa).
    """
    with open(archivo, "a", encoding="utf-8") as f:
        nombre, formula, masa = datos
        f.write(f"{nombre} | {formula} | {masa}\n")

archivo = "moleculas.txt"
while True:
    datos = pedir_datos()
    guardar_datos(archivo, datos)

    continuar = input("¬øDesea registrar otra mol√©cula? (s√≠/no): ").strip().lower()
    if continuar == "no":
        break

print(f"\nRegistro completado. Los datos se guardaron en '{archivo}'.")

---

## 2. Bibliotecas para el An√°lisis de Datos

---

Aunque Python puede manejar archivos de texto b√°sicos por s√≠ mismo, para tareas m√°s complejas como trabajar con hojas de c√°lculo o grandes conjuntos de datos, usamos bibliotecas especializadas.

La biblioteca m√°s importante para el an√°lisis de datos en Python es **Pandas**.

**Pandas** introduce dos estructuras de datos s√∫per poderosas:

  * **`Series`**: Es como una columna de una tabla. Un arreglo de una dimensi√≥n con etiquetas (un √≠ndice).
  * **`DataFrame`**: Es una tabla completa, con filas y columnas. Es la estructura de datos principal en Pandas y se puede pensar en ella como una hoja de Excel o una tabla de SQL.

Para instalar pandas (si no lo tienes), abra su terminal y escriba: `pip install pandas`

---

In [None]:
!pip install pandas

In [None]:
import pandas as pd

### Creando un DataFrame

Para crear un DataFrame, se puede iniciar con un diccionario que tenga las columnas y los datos de cada columna:

```python
datos = {
    "columna_1": [valor_1_1, valor_1_2, valor_1_3, ..., valor_1_n],
    "columna_2": [valor_2_1, valor_2_2, valor_2_3, ..., valor_2_n],
    "columna_3": [valor_3_1, valor_3_2, valor_3_3, ..., valor_3_n],
    # ... m√°s columnas si las hay
}

df_datos = pd.DataFrame(datos)
```

Esta sintaxis permite crear un DataFrame que se ver√° como una tabla de la siguiente forma:


| columna_1    | columna_2    | columna_3    | ... |
|--------------|--------------|--------------|-----|
| valor_1_1    | valor_2_1    | valor_3_1    | ... |
| valor_1_2    | valor_2_2    | valor_3_2    | ... |
| valor_1_3    | valor_2_3    | valor_3_3    | ... |
| ...          | ...          | ...          | ... |
| valor_1_n    | valor_2_n    | valor_3_n    | ... |

---

In [None]:
# Creamos un diccionario con los datos
datos_sensores = {
    'tiempo_seg': [0, 1, 2, 3, 4],
    'temperatura_C': [25.1, 25.3, 25.2, 25.4, 25.5],
    'humedad_pct': [45, 46, 45, 47, 48],
    'sensor_id': ['A1', 'A2', 'A3', 'A4', 'A5']
}

# Creamos el DataFrame
df_sensores = pd.DataFrame(datos_sensores)

print("--- Nuestro DataFrame ---")
print(df_sensores)

Tambi√©n, se puede pasar una lista de diccionarios, en donde cada diccionario tenga un valor por cada columna del DataFrame. Esto ser√≠a equivalente a decir que cada diccionario en la lista es una fila.

In [None]:
datos_sensores = [
    {'tiempo_seg': 0, 'temperatura_C': 25.1, 'humedad_pct': 45, 'sensor_id': 'A1'},
    {'tiempo_seg': 1, 'temperatura_C': 25.3, 'humedad_pct': 46, 'sensor_id': 'A2'},
    {'tiempo_seg': 2, 'temperatura_C': 25.2, 'humedad_pct': 45, 'sensor_id': 'A3'},
    {'tiempo_seg': 3, 'temperatura_C': 25.4, 'humedad_pct': 47, 'sensor_id': 'A4'},
    {'tiempo_seg': 4, 'temperatura_C': 25.5, 'humedad_pct': 48, 'sensor_id': 'A5'}
]

df_sensores = pd.DataFrame(datos_sensores)

print("--- Nuestro DataFrame ---")
print(df_sensores)

Para ver datos generales del conjunto de datos:

In [None]:
df_sensores.info()

In [None]:
# Para ver estad√≠sticas
df_sensores.describe()

In [None]:
# Para ver las primeras 3 filas
df_sensores.head(3)

In [None]:
# Para ver las √∫ltimas 3 filas
df_sensores.tail(3)

### Trabajando con Archivos CSV y Excel üìä

Para datos tabulares (como hojas de c√°lculo), Pandas es la herramienta ideal.

  * **CSV (Comma-Separated Values)**: Un formato de texto simple donde los valores de las columnas se separan por comas. Es universal y ligero.
  * **XLSX (Excel)**: El formato nativo de Microsoft Excel. Puede contener m√∫ltiples hojas, f√≥rmulas y formato.

---

#### CSVs

Se puede usar el m√©todo `.to_csv()` para guardar un DataFrame como un archivo CSV.

Se puede usar el argumento `index`, que toma un `bool` para indicar su se quiere guardar el √≠ndice del DataFrame en el archivo o no. El valor por defecto es `True`.

---

In [None]:
df_sensores.to_csv("datos_sensores_sin_indice.csv", index=False)
df_sensores.to_csv("datos_sensores.csv", index=True)

Para cargar los datos, se usa la funci√≥n `pd.read_csv()`.

---

In [None]:
df_csv = pd.read_csv("datos_sensores.csv")
print(df_csv)

#### XLSX

Es casi id√©ntico a trabajar con CSV, pero se usa `.to_excel()` para leer los datos.

Se puede especificar un nombre de una hoja de c√°lculo, con el par√°metro `sheet_name`.

---

In [None]:
df_sensores.to_excel("datos_sensores.xlsx", sheet_name="Lecturas", index=False)

Para cargar los datos, se usa la funci√≥n `pd.read_excel()`.

---

In [None]:
df_excel = pd.read_excel("datos_sensores.xlsx", sheet_name="Lecturas")
print(df_excel)

#### üë®‚Äçüéì Ejercicio: Estudiantes

Cree un programa que permita ingresar los datos de varios estudiantes y los guarde en un archivo CSV. Cada estudiante debe tener las siguientes columnas:  
- **Nombre** ‚Üí string  
- **Edad** ‚Üí entero  
- **Nota_Matematicas** ‚Üí float  
- **Ciudad** ‚Üí string  

El programa debe:  
1. Pedir al usuario que ingrese los datos un estudiante hasta que ya no quiera ingresar m√°s datos.  
2. Permitir ingresar tantos estudiantes como el usuario desee, hasta que indique que no quiere agregar m√°s.  
3. Validar que la **edad** sea un n√∫mero entero y la **nota de matem√°ticas** un n√∫mero decimal v√°lido.  
4. Guardar todos los estudiantes ingresados en un **DataFrame de pandas**.  
5. Exportar el DataFrame a un archivo llamado `estudiantes.csv`.

---

In [None]:
# Lista vac√≠a para almacenar los estudiantes
estudiantes = []

# Variable de control para el bucle principal
continuar = 's'

while continuar.lower() == 's':
    print("\nIngrese los datos del estudiante:")

    nombre = input("Nombre: ")

    # Validar que la edad sea un entero
    edad_valida = False
    while not edad_valida:
        try:
            edad = int(input("Edad: "))
            edad_valida = True
        except ValueError:
            print("Por favor, ingrese un n√∫mero entero para la edad.")

    # Validar que la nota sea un n√∫mero flotante
    nota_valida = False
    while not nota_valida:
        try:
            nota = float(input("Nota de Matem√°ticas: "))
            nota_valida = True
        except ValueError:
            print("Por favor, ingrese un n√∫mero v√°lido para la nota.")

    ciudad = input("Ciudad: ")

    # Agregar el estudiante a la lista
    estudiantes.append({
        "Nombre": nombre,
        "Edad": edad,
        "Nota_Matematicas": nota,
        "Ciudad": ciudad
    })

    continuar_valida = False
    while not continuar_valida:
        continuar = input("¬øDesea ingresar otro estudiante? (s/n): ").strip().lower()
        if continuar in ['s', 'n']:
            continuar_valida = True
        else:
            print("Por favor, ingrese 's' para s√≠ o 'n' para no.")

# Crear el DataFrame
df = pd.DataFrame(estudiantes)

# Mostrar el DataFrame
print("\nDataFrame de Estudiantes:")
print(df)

# Guardar en CSV
df.to_csv("estudiantes.csv", index=False)
print("\nArchivo 'estudiantes.csv' creado correctamente.")

### Operaciones b√°sicas con DataFrames

A continuaci√≥n se presentan algunas de las operaciones m√°s comunes que se pueden realizar con DataFrames.

---

#### Ver los primeros datos

Para ver los primeros datos de un DataFrame se usa `.head()`. Como par√°metro se le puede indicar la cantidad de filas que se quieren ver.

---

In [None]:
# Mostrar las primeras filas de un DataFrame
print(df_sensores.head())

#### Seleccionar una columna del DataFrame

Para seleccionar una columna espec√≠fica, se puede usar el nombre de la columna entre corchetes.

---

In [None]:
# Seleccionar la columna de temperatura
print(df_sensores['temperatura_C'])
print(type(df_sensores['temperatura_C']))

N√≥tese que esto devuelve un objeto de tipo `Series`, que en Pandas representa a una sola columna.

Adem√°s, se pueden seleccionar varias columnas a la vez, pasando una lista de `str`. Si se seleccionan varias columnas, se devuelve un objeto de tipo `DataFrame`.

---

In [None]:
# Seleccionar varias columnas
print(df_sensores[['tiempo_seg', 'humedad_pct']])
print(type(df_sensores[['tiempo_seg', 'humedad_pct']]))

#### Filtrar filas seg√∫n una condici√≥n

Se pueden seleccionar solo las filas que cumplen una condici√≥n l√≥gica.

Las filas de los DataFrames se pueden filtrar por medio de **indexaci√≥n booleana**, similar a los arreglos de NumPy.

Pero, existe una diferencia: los DataFrames aceptan una lista de `bool`, o un objeto `Series` que tenga un booleano por fila.

---

In [None]:
print(df_sensores['temperatura_C'] > 25.3)
print(type(df_sensores['temperatura_C'] > 25.3))

In [None]:
# Filtrar filas donde la temperatura sea mayor a 25.3
condicion_serie = df_sensores['temperatura_C'] > 25.3
condicion_lista = condicion_serie.tolist()

print(df_sensores[condicion_serie])
print(df_sensores[condicion_lista])
print(df_sensores[df_sensores['temperatura_C'] > 25.3])

Tambi√©n, se pueden combinar condiciones

In [None]:
print(df_sensores[(df_sensores['humedad_pct'] < 47) & (df_sensores['temperatura_C'] > 25.2)])

print(df_sensores[(df_sensores['humedad_pct'] < 47) | (df_sensores['temperatura_C'] > 25.2)])

print(df_sensores[~(df_sensores['humedad_pct'] < 47)])

#### Cambiar el valor de una columna

Se pueden seleccionar solo las filas que cumplen una condici√≥n l√≥gica y luego cambiar el valor de estas filas en el DataFrame original.  

Para esto se utiliza `.loc`, que sirve para **acceder y modificar filas y columnas por sus etiquetas (nombres)**.  
La sintaxis m√°s com√∫n en este caso es:  

```python
# Para acceder a un dato en una fila y una columna
df.loc[fila, columna]

# Para acceder a los datos con varias filas y columnas
df.loc[[filas], [columnas]]

# Para cambiar este dato
df.loc[fila, columna] = nuevo_valor

# Para cambiar esos datos
df.loc[[filas], [columnas]] = nuevo_valor
```



---

In [None]:
# Acceder a la fila 2 y la columna 'temperatura_C'
print(df_sensores.loc[2, 'temperatura_C'])

# Acceder a las filas 1 y 3 de la columna 'temperatura_C'
print(df_sensores.loc[[1, 3], 'temperatura_C'])

# Acceder a varias filas y columnas (obtener una submatriz)
print(df_sensores.loc[1:3, ['tiempo_seg', 'humedad_pct']])

# Cambiar el valor en la fila 2 y la columna 'temperatura_C' a 26.0
df_sensores.loc[2, 'temperatura_C'] = 26.0

# Cambiar los valores en las filas 1 y 3 de la columna 'humedad_pct' a 50
df_sensores.loc[[1, 3], 'humedad_pct'] = 50

# Cambiar los valores en varias filas y columnas
df_sensores.loc[1:3, ['temperatura_C', 'humedad_pct']] = [[26.1, 51], [26.2, 52], [26.3, 53]]

N√≥tese que al hacer 1:3 en las filas, se est√°n obteniendo 3 filas. Es decir, el l√≠mite superior (3) est√° siendo incluido, a diferencia del slicing normal. Esto es porque este slicing se hace a partir de etiquetas, y no posiciones num√©ricas. Las etiquetas son los n√∫meros del √≠ndice.

Si se quisiera filtrar a las filas que cumplen cierta condici√≥n se puede hacer as√≠:

```python
# Para acceder a los datos
df.loc[condici√≥n, nombre_columna]

# Para cambiar esos datos
df.loc[condici√≥n, nombre_columna] = nuevo_valor
```

---

In [None]:
condicion = df_sensores['humedad_pct'] < 45.2
columna = 'humedad_pct'

print(df_sensores.loc[condicion, [columna]])
# Reemplazar los valores en la columna 'humedad_pct' donde la condici√≥n es verdadera
df_sensores.loc[condicion, [columna]] = 0
print(df_sensores['humedad_pct'])

Tambi√©n se puede usar `.iloc`. El m√©todo `.iloc` funciona igual que `.loc`, pero en vez de etiquetas usa √≠ndices num√©ricos (posici√≥n de filas y columnas).

La sintaxis es:
```python
# Para acceder a los datos
df.iloc[rango_num_fila, rango_num_columna]

# Para cambiar esos datos
df.iloc[rango_num_fila, rango_num_columna] = nuevo_valor
```

---

In [None]:
# Obtener las primeras dos filas y la primera columna usando iloc
print(df_sensores.iloc[0:2, 0])

A diferencia del `loc`, en el `iloc`, el l√≠mite superior del slicing se excluye. Es decir, el (2) queda excluido, por tratarse de posiciones y no etiquetas.

Finalmente, algo interesante que se puede hacer es cambiar el √≠ndice por los valores de una columna. Por ejemplo, quiz√°s nos gustar√≠a accesar a las filas no por su n√∫mero de √≠ndice, si no por su `id`. Para esto:



In [None]:
df_sensores_indice_cambiado = df_sensores.set_index('sensor_id')
df_sensores_indice_cambiado

In [None]:
print(df_sensores_indice_cambiado.loc['A3'])

In [None]:
print(df_sensores_indice_cambiado.iloc[2])

In [None]:
# OJO: No se puede mezclar las filas y columnas con esta sintaxis:
print(df_sensores_indice_cambiado['A3'])

# Esto sigue funcionando solo para columnas
# Si se quiere acceder a la fila, hay que usar .loc o .iloc

#### Reemplazar los valores nulos

En ocasiones, los DataFrames tienen datos nulos (vac√≠os o inv√°lidos) en sus columnas. Se pueden reemplazar estos datos buscando cu√°les son nulos. Se puede usar el m√©todo `.isna` o `.isnull` para obtener una DataFrame o un objecto Series con booleanos indicando si el dato es nulo.

---

In [None]:
df = pd.DataFrame({
    "Nombre": ["Ana", None, "Carlos", "Marta"],  # None se convierte en NA
    "Edad": [25, 30, None, 28]                   # None en n√∫meros ‚Üí NaN
})

print(df.isnull())
print(df.isna())

df['Edad'].fillna(0, inplace=True)  # Reemplaza NaN con 0

Se puede usar el m√©todo `.fillna` para reemplazar los valores nulos con cierto valor.

Se usa el par√°metro `inplace` con un `bool` para indicar si el cambio se hace sobre la referencia original, en vez de devolver una copia.

In [None]:
df['Nombre'].fillna("Desconocido", inplace=True)  # Reemplaza None con "Desconocido"
print(df)

df['Edad'] = df['Edad'].fillna(0)  # Reemplaza NaN con 0

#### Crear nuevas columnas

Se pueden crear nuevas columnas poniendo entre `[]` el nombre de la nueva columna, junto a la asignaci√≥n deseada.

---

Una forma de crearla es igualando la columna a un valor constante:

In [None]:
df['Ciudad'] = 'San Jos√©'  # Nueva columna con valor constante
print(df)

Otra forma es crearla por medio de una lista de valores que tenga la misma cantidad de valores que la cantidad de filas:

In [None]:
df['Puntaje'] = [85, 90, 78, 92]  # Nueva columna con una lista de valores

# Nueva columna indicando si la persona es mayor de 25
df["Mayor_25"] = df["Edad"] > 25

print(df)

Otra es usar una funci√≥n que procese cierta columna, usando `apply` y pasando de par√°metro la funci√≥n deseada:

In [None]:
# Crear columna con longitud del nombre
df["Longitud_Nombre"] = df["Nombre"].apply(len)

print(df)

Finalmente, se puede usar `np.where` para soluciones m√°s complejas:

In [None]:
import numpy as np

df["Categoria"] = np.where(df["Edad"] > 25, "Adulto", "Joven")
print(df)

#### Calcular estad√≠sticas b√°sicas

Pandas permite calcular estad√≠sticas como promedio, m√°ximo, m√≠nimo, etc., de manera sencilla.

---

In [None]:
print(df["Edad"].mean()) # Promedio
print(df["Edad"].median()) # Promedio

print(df["Edad"].var()) # Varianza
print(df["Edad"].mode()) # Moda
print(df["Edad"].std()) # Desviacion

print(df["Edad"].min()) # Minimo
print(df["Edad"].max()) # Maximo

#### Describir estad√≠sticamente los datos

El m√©todo `.describe()` entrega un resumen estad√≠stico de las columnas num√©ricas del DataFrame.

---

In [None]:
# Resumen estad√≠stico de las columnas num√©ricas
print(df_sensores.describe())

Otras operaciones se pueden consultar en la documentaci√≥n oficial de [pandas](https://pandas.pydata.org/docs/reference/index.html).

#### üìä Ejercicio: Kaggle

Viaje a [Kaggle](https://www.kaggle.com), y busque en el apartado de `datasets`. Kaggle es una plataforma de conjuntos de datos de muchos dominios. Descargue el conjunto de datos [Iris](https://www.kaggle.com/datasets/himanshunakrani/iris-dataset). Realice las siguientes operaciones:

1. Cargue el conjunto de datos `.csv` a un `DataFrame`. Debe subir el archivo a `Colab` antes si est√° trabajando con `Colab`.
2. Despliegue informaci√≥n de las columnas que tiene.
3. Filtre y muestre las flores de la especie `setosa`.
4. Muestre el promedio del `sepal_length` de la especie `versicolor` y comp√°relo visualmente con el promedio de la especie `setosa`. ¬øHay una especie que tiende a tener el s√©palo m√°s largo?
5. Obtenga una matriz de datos num√©ricos en NumPy a partir de los datos del `DataFrame`, con los datos de las columnas `sepal_length`, `sepal_width`, `petal_length`, `petal_width`.

---

In [None]:
import pandas as pd
import numpy as np

# Paso 1
iris = pd.read_csv("iris.csv")

In [None]:
# Paso 2
iris.info()

In [None]:
# Paso 3
especie_setosa = iris[iris['species'] == 'setosa']
especie_setosa

In [None]:
# Paso 4

# Promedio del sepal_length
especie_versicolor = iris[iris['species'] == 'veriscolor']
especie_setosa = iris[iris['species'] == 'setosa']

promedio_versicolor = especie_versicolor['sepal_length'].mean()
promedio_setosa = especie_setosa['sepal_length'].mean()

print(f"El promedio de la versicolor es: {promedio_versicolor}")
print(f"El promedio de la setosa es: {promedio_setosa}")

In [None]:
# Paso 5

# Filtrar por las columnas deseadas en la matriz
iris_filtrado = iris[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]
print("Dataframe filtrado")
print(iris_filtrado)

In [None]:
matriz = iris_filtrado.to_numpy()
print(matriz)

---

### üñºÔ∏è Manipulaci√≥n de Im√°genes (JPEG)

Para manipular im√°genes, una de las bibliotecas m√°s populares es **Pillow**, una continuaci√≥n del proyecto PIL (Python Imaging Library).

Para instalarla: `pip install Pillow`

---

Vamos a abrir una imagen, ver sus propiedades b√°sicas y crear una versi√≥n en escala de grises. (Nota: se tiene que tener un archivo de imagen llamado "robot.jpg" en la misma carpeta).

---

In [None]:
from PIL import Image

try:
    # Abrir la imagen
    img = Image.open("robot.jpg")

    # Mostrar informaci√≥n b√°sica
    print(f"Formato de la imagen: {img.format}")
    print(f"Tama√±o de la imagen (ancho x alto): {img.size}")
    print(f"Modo de color: {img.mode}") # RGB, L (escala de grises), etc.

    # Convertir a escala de grises
    img_gris = img.convert("L")

    # Guardar la nueva imagen
    img_gris.save("robot_gris.jpg")

    print("Imagen convertida a escala de grises y guardada como 'robot_gris.jpg'")

    # Opcional: mostrar la imagen (puede no funcionar en todos los entornos)
    # img.show()
    # img_gris.show()

except FileNotFoundError:
    print("Error: Aseg√∫rate de tener un archivo 'robot.jpg' en la misma carpeta.")

Para mostrar la imagen, se pueden usar varias opciones. Si se est√° usando un cuaderno `.ipynb`, se debe usar la funci√≥n `display`, de `IPython.display`. Si se est√° trabajando localmente con archivos `.py`, se puede usar el m√©todo `.show()` de la imagen PIL.

---

In [None]:
img = Image.open("robot_gris.jpg")
img.show()

In [None]:
from IPython.display import display

display(img)

En el fondo, una imagen se puede ver como una o varias matrices de valores entre 0 y 255.

<img src="https://raw.githubusercontent.com/EnriqueVilchezL/principios_de_info/main/11_manipulacion_de_archivos/imgs/gray.png" alt="Imagen en escala de grises" width="400">

> Si es una imagen a color (RGB) se puede ver como 3D, pues hay 3 matrices con valores entre 0 y 255. Cada matriz representa un canal de color del RGB (red, green, blue). Al combinar estas tres matrices visualmente, se logra ver la imagen original.

<img src="https://raw.githubusercontent.com/EnriqueVilchezL/principios_de_info/main/11_manipulacion_de_archivos/imgs/rgb.png" alt="Imagen en color RGB" width="400">


In [None]:
# Convertir a array de NumPy
img = Image.open("robot_gris.jpg")
img_array = np.array(img)

print(img_array)

In [None]:
print(type(img_array))   # <class 'numpy.ndarray'>
print(img_array.shape)   # (alto, ancho)

In [None]:
# Convertir a array de NumPy
img = Image.open("robot.jpg")
img_array = np.array(img)

print(img_array)

In [None]:
print(type(img_array))   # <class 'numpy.ndarray'>
print(img_array.shape)   # (alto, ancho, canales)

Por convenci√≥n, en PIL se cargan los canales como la √∫ltima dimensi√≥n, por ello es que no se ve que los arreglos tengan 3 matrices de altura por anchura. Para verlo de esta forma, se puede usar el m√©todo `transpose`, que adem√°s de transponer, puede reordenar las dimensiones si se pasan de par√°metro.

In [None]:
img_array = img_array.transpose(2, 0, 1)
img_array

In [None]:
print(type(img_array))   # <class 'numpy.ndarray'>
print(img_array.shape)   # (alto, ancho, canales)

## Ejercicios Adicionales

---

**1. Agenda de Contactos (CSV):**
Cree un programa que solicite al usuario un nombre y un n√∫mero de tel√©fono, y lo guarde en un archivo `contactos.csv`. Si el archivo ya existe, debe a√±adir el nuevo contacto sin borrar los anteriores.

---

In [None]:
import pandas as pd
import os

nombre = input("Ingresa el nombre del contacto: ")
telefono = input("Ingresa el n√∫mero de tel√©fono: ")

nuevo_contacto = pd.DataFrame([{'nombre': nombre, 'telefono': telefono}])

# 'a' para append (a√±adir), header=False para no escribir el encabezado de nuevo

nuevo_contacto.to_csv('contactos.csv', mode='a', header=not os.path.exists('contactos.csv'), index=False)

print(f"Contacto '{nombre}' guardado.")

---

**2. Operaciones b√°sicas con DataFrames**: Cree un archivo Excel llamado `calificaciones.xlsx` con columnas "Estudiante", "Nota1", "Nota2". Luego, escriba un programa que lea el archivo, calcule una nueva columna "Promedio" y guarde el resultado en una nueva hoja llamada "Resultados Finales" dentro del mismo archivo.

---

In [None]:
import pandas as pd

# Crear el DataFrame inicial y guardarlo

datos_calificaciones = {
    "Estudiante": ["Ana", "Juan", "Pedro"],
    "Nota1": [85, 90, 78],
    "Nota2": [92, 88, 80]
}
df_calif = pd.DataFrame(datos_calificaciones)
df_calif.to_excel("calificaciones.xlsx", sheet_name="Notas Parciales", index=False)

# Leer el archivo

df_leido = pd.read_excel("calificaciones.xlsx", sheet_name="Notas Parciales")

# Calcular el promedio

df_leido['Promedio'] = df_leido[['Nota1', 'Nota2']].mean(axis=1)

# Guardar en una nueva hoja

with pd.ExcelWriter('calificaciones.xlsx', mode='a', engine='openpyxl') as writer:
    df_leido.to_excel(writer, sheet_name='Resultados Finales', index=False)

print("Archivo 'calificaciones.xlsx' actualizado con la hoja 'Resultados Finales'.")

---

**3. Rotar una Imagen:**
Utilice la biblioteca Pillow para abrir una imagen y guardarla rotada 90 grados.

---

In [None]:
from PIL import Image

try:
    img = Image.open("robot.jpg")
    img_rotada = img.rotate(90)
    img_rotada.save("robot_rotado.jpg")
    print("Imagen rotada y guardada como 'robot_rotado.jpg'")
except FileNotFoundError:
    print("Error: No se encontr√≥ el archivo 'robot.jpg'")

---

**4. Filtrar Datos de CSV:**
Lee el archivo `datos_sensores.csv`. Filtra y muestra solo las filas donde la temperatura sea mayor a 25.3.

---

In [None]:
import pandas as pd

try:
    df = pd.read_csv("datos_sensores.csv")
    temperaturas_altas = df[df['temperatura_C'] > 25.3]
    print("--- Filas con temperatura mayor a 25.3¬∞C ---")
    print(temperaturas_altas)
except FileNotFoundError:
    print("Error: Ejecuta primero la celda que crea 'datos_sensores.csv'")

---

**5. Contar L√≠neas de un Archivo:**
Escriba una funci√≥n que reciba el nombre de un archivo de texto y devuelva el n√∫mero de l√≠neas que contiene. Util√≠cela para contar las l√≠neas del archivo `log.txt`.

---

In [None]:
def contar_lineas(nombre_archivo: str) -> int:
    """Cuenta el n√∫mero de l√≠neas en un archivo de texto."""
    try:
        with open(nombre_archivo, 'r') as archivo:
            return len(archivo.readlines())
    except FileNotFoundError:
        return 0

num_lineas = contar_lineas("log.txt")
print(f"El archivo 'log.txt' tiene {num_lineas} l√≠neas.")

## üìù Ejercicios de Pr√°ctica

A continuaci√≥n se proponen ejercicios avanzados y m√°s complejos para consolidar los conceptos de manipulaci√≥n de datos con **Pandas** y manejo de archivos.

-----

### 1Ô∏è‚É£ **Ejercicios: Series y DataFrames - Creaci√≥n y manipulaci√≥n b√°sica**

**Ejercicio 1.1 - Creaci√≥n de Series con √çndices y Operaciones**

 Importe la biblioteca Pandas.
 1. Cree una Serie de Pandas llamada 'temperaturas_ciudades' a partir de un diccionario.
    Las claves deben ser los nombres de las ciudades (ej: 'Madrid', 'Par√≠s', 'Berl√≠n', 'Roma') y los valores
    las temperaturas promedio (valores flotantes aleatorios entre 10.0 y 30.0).
 2. Asigne un nombre al √≠ndice: 'Ciudad' y un nombre a la Serie: 'Temperatura_Promedio_C'.
 3. Use indexaci√≥n booleana para filtrar y mostrar solo las ciudades con temperaturas mayores a 20.0 grados.
 4. Calcule la temperatura promedio general de todas las ciudades.
 5. Agregue un valor a la Serie para una nueva ciudad ('Londres', temperatura 15.5) y muestre la Serie actualizada.

In [None]:
# Ejercicio 1.1 - Creaci√≥n de Series con √çndices y Operaciones

import pandas as pd
import numpy as np

def ejercicio_1_1():
    """
    Cree una Serie de temperaturas de ciudades y realice operaciones sobre ella.

    Returns:
        tuple: (temperaturas_ciudades, ciudades_calidas, temp_promedio, temperaturas_actualizada)
            - temperaturas_ciudades: Serie original con temperaturas
            - ciudades_calidas: Serie filtrada con temperaturas > 20.0
            - temp_promedio: float con la temperatura promedio
            - temperaturas_actualizada: Serie con Londres a√±adida
    """
    raise NotImplementedError("Complete el c√≥digo para el ejercicio 1.1")
    # TODO: 1. Cree un diccionario con 4 ciudades y temperaturas aleatorias entre 10.0 y 30.0
    datos = {}  # Reemplace esto

    # TODO: 2. Cree la Serie a partir del diccionario
    temperaturas_ciudades = None  # Reemplace esto

    # TODO: 3. Asigne nombre al √≠ndice y a la Serie

    # TODO: 4. Filtre ciudades con temperatura > 20.0
    ciudades_calidas = None  # Reemplace esto

    # TODO: 5. Calcule la temperatura promedio
    temp_promedio = None  # Reemplace esto

    # TODO: 6. Agregue Londres con temperatura 15.5
    temperaturas_actualizada = None  # Reemplace esto

    return temperaturas_ciudades, ciudades_calidas, temp_promedio, temperaturas_actualizada


In [None]:
# Tests para Ejercicio 1.1
def test_ejercicio_1_1():
    temps, calidas, promedio, actualizada = ejercicio_1_1()

    # Verificar que es una Serie
    assert isinstance(temps, pd.Series), "temperaturas_ciudades debe ser una Serie"

    # Verificar que tiene 4 ciudades originalmente
    assert len(temps) == 4, "La Serie debe tener 4 ciudades"

    # Verificar nombres asignados
    assert temps.index.name == 'Ciudad', "El √≠ndice debe llamarse 'Ciudad'"
    assert temps.name == 'Temperatura_Promedio_C', "La Serie debe llamarse 'Temperatura_Promedio_C'"

    # Verificar que todas las temperaturas est√°n en el rango correcto
    assert all(temps >= 10.0) and all(temps <= 30.0), "Temperaturas deben estar entre 10.0 y 30.0"

    # Verificar filtrado
    assert all(calidas > 20.0), "Todas las ciudades filtradas deben tener temp > 20.0"

    # Verificar promedio
    assert isinstance(promedio, (float, np.floating)), "El promedio debe ser un float"
    assert 10.0 <= promedio <= 30.0, "El promedio debe estar en rango v√°lido"

    # Verificar que Londres fue a√±adida
    assert 'Londres' in actualizada.index, "Londres debe estar en la Serie actualizada"
    assert actualizada['Londres'] == 15.5, "La temperatura de Londres debe ser 15.5"
    assert len(actualizada) == 5, "La Serie actualizada debe tener 5 ciudades"

    print("‚úÖ Ejercicio 1.1 - Todos los tests pasaron!")

try:
# Ejecutar tests
    test_ejercicio_1_1()
except NotImplementedError as e:
    print(f"üõë Error: {e}")
except AssertionError as e:
    print(f"‚ùå Error en los tests: {e}")


**Ejercicio 1.2 - Creaci√≥n y Resumen de DataFrame**

 Importe Pandas y NumPy.
 1. Cree un DataFrame llamado 'datos_empleados' con 5 filas y 4 columnas ('Nombre', 'Edad', 'Salario', 'Departamento').
    - Use una lista de diccionarios o un diccionario de listas para la creaci√≥n.
    - 'Nombre' y 'Departamento' deben ser cadenas de texto.
    - 'Edad' y 'Salario' deben ser valores enteros aleatorios (Edad entre 25-60, Salario entre 30000-80000).
 2. Establezca la columna 'Nombre' como el √≠ndice del DataFrame.
 3. Imprima las primeras 3 filas y un resumen estad√≠stico de las columnas num√©ricas ('describe()').
 4. Use '.loc[]' para acceder y mostrar el 'Salario' del empleado con el nombre en la tercera fila.


In [None]:
# Ejercicio 1.2 - Creaci√≥n y Resumen de DataFrame

def ejercicio_1_2() -> tuple[pd.DataFrame, float]:
    """
    Cree un DataFrame de empleados y realice operaciones sobre √©l.

    Returns:
        tuple: (datos_empleados, salario_tercera_fila)
            - datos_empleados: DataFrame con √≠ndice en 'Nombre'
            - salario_tercera_fila: int/float del salario del empleado en la tercera fila
    """
    raise NotImplementedError("Complete el c√≥digo para el ejercicio 1.2")
    # TODO: 1. Cree un DataFrame con 5 empleados
    # Use np.random.randint para generar edades (25-60) y salarios (30000-80000)
    datos_empleados = None  # Reemplace esto

    # TODO: 2. Establezca 'Nombre' como √≠ndice

    # TODO: 3. (No retornar, solo imprimir) Mostrar las primeras 3 filas y describe()

    # TODO: 4. Obtenga el salario del empleado en la tercera fila (√≠ndice 2 de la posici√≥n original)
    salario_tercera_fila = None  # Reemplace esto

    return datos_empleados, salario_tercera_fila


In [None]:

# Tests para Ejercicio 1.2
def test_ejercicio_1_2() -> None:
    df, salario = ejercicio_1_2()

    # Verificar que es un DataFrame
    assert isinstance(df, pd.DataFrame), "datos_empleados debe ser un DataFrame"

    # Verificar dimensiones
    assert df.shape[0] == 5, "Debe haber 5 empleados"
    assert len(df.columns) == 3, "Debe haber 3 columnas (Edad, Salario, Departamento)"

    # Verificar que 'Nombre' es el √≠ndice
    assert df.index.name == 'Nombre', "El √≠ndice debe ser 'Nombre'"

    # Verificar columnas
    assert 'Edad' in df.columns, "Debe existir la columna 'Edad'"
    assert 'Salario' in df.columns, "Debe existir la columna 'Salario'"
    assert 'Departamento' in df.columns, "Debe existir la columna 'Departamento'"

    # Verificar rangos
    assert all(df['Edad'] >= 25) and all(df['Edad'] <= 60), "Edades deben estar entre 25-60"
    assert all(df['Salario'] >= 30000) and all(df['Salario'] <= 80000), "Salarios deben estar entre 30000-80000"

    # Verificar tipos
    assert df['Departamento'].dtype == 'object', "Departamento debe ser string"

    # Verificar salario obtenido
    assert isinstance(salario, (int, np.integer, float, np.floating)), "El salario debe ser num√©rico"

    print("‚úÖ Ejercicio 1.2 - Todos los tests pasaron!")
try:
    # Ejecutar tests
    test_ejercicio_1_2()
except NotImplementedError as e:
    print(f"üõë Error: {e}")
except AssertionError as e:
    print(f"‚ùå Error en los tests: {e}")


-----

### 2Ô∏è‚É£ **Ejercicios: Filtrado, Indexaci√≥n y Limpieza de Datos**

**Ejercicio 2.1 - Filtrado avanzado con condiciones m√∫ltiples**

Contin√∫e con el DataFrame 'datos_empleados' del Ejercicio 1.2.
1. Filtre y muestre solo los empleados que cumplen ambas condiciones:
    a) Tienen un 'Salario' mayor a 50000.
    b) Pertenecen al 'Departamento' 'Ventas' (o un departamento que haya usado en la creaci√≥n).
2. Seleccione y muestre solo las columnas 'Edad' y 'Salario' para los empleados que tienen una 'Edad' menor a 40.
3. Cuente cu√°ntos empleados hay por cada 'Departamento' y muestre el resultado (use value_counts()).


In [None]:
# Ejercicio 2.1 - Filtrado avanzado con condiciones m√∫ltiples

def ejercicio_2_1(datos_empleados) -> tuple[pd.DataFrame, pd.DataFrame, pd.Series]:
    """
    Realice filtrados avanzados sobre el DataFrame de empleados.

    Args:
        datos_empleados: DataFrame del ejercicio 1.2

    Returns:
        tuple: (empleados_filtrados, jovenes_filtrados, conteo_departamentos)
            - empleados_filtrados: DataFrame con Salario > 50000 y Departamento espec√≠fico
            - jovenes_filtrados: DataFrame con solo columnas Edad y Salario para Edad < 40
            - conteo_departamentos: Series con conteo por departamento
    """
    raise NotImplementedError("Complete el c√≥digo para el ejercicio 2.1")
    # TODO: 1. Filtre empleados con Salario > 50000 y de un departamento espec√≠fico
    # (Use el departamento que aparezca en sus datos)
    empleados_filtrados = None  # Reemplace esto

    # TODO: 2. Seleccione solo Edad y Salario donde Edad < 40
    jovenes_filtrados = None  # Reemplace esto

    # TODO: 3. Cuente empleados por Departamento
    conteo_departamentos = None  # Reemplace esto

    return empleados_filtrados, jovenes_filtrados, conteo_departamentos


In [None]:
# Tests para Ejercicio 2.1
def test_ejercicio_2_1() -> None:
    # Crear datos de prueba
    df_test = pd.DataFrame({
        'Nombre': ['Ana', 'Juan', 'Pedro', 'Mar√≠a', 'Luis'],
        'Edad': [28, 35, 42, 30, 55],
        'Salario': [45000, 60000, 52000, 48000, 75000],
        'Departamento': ['Ventas', 'Ventas', 'IT', 'Ventas', 'IT']
    }).set_index('Nombre')

    filtrados, jovenes, conteo = ejercicio_2_1(df_test)

    # Verificar filtrado m√∫ltiple
    assert isinstance(filtrados, pd.DataFrame), "empleados_filtrados debe ser DataFrame"
    assert all(filtrados['Salario'] > 50000), "Todos deben tener Salario > 50000"

    # Verificar filtrado de j√≥venes
    assert isinstance(jovenes, pd.DataFrame), "jovenes_filtrados debe ser DataFrame"
    assert list(jovenes.columns) == ['Edad', 'Salario'], "Solo debe tener columnas Edad y Salario"
    assert all(jovenes['Edad'] < 40), "Todos deben tener Edad < 40"

    # Verificar conteo
    assert isinstance(conteo, pd.Series), "conteo_departamentos debe ser Series"
    assert conteo.sum() == 5, "La suma del conteo debe ser 5 (total de empleados)"

    print("‚úÖ Ejercicio 2.1 - Todos los tests pasaron!")

try:
    # Ejecutar tests
    test_ejercicio_2_1()
except AssertionError as e:
    print(f"‚ùå Error en los tests: {e}")
except NotImplementedError as e:
    print(f"üõë Error: {e}")


**Ejercicio 2.2 - Manejo de datos faltantes (NaN)**

Importe Pandas y NumPy.
 1. Cree un DataFrame 5x3 llamado 'datos_medicos' con columnas ('Paciente', 'Peso_kg', 'Altura_cm').
 2. Introduzca intencionalmente valores NaN (np.nan) en algunas celdas de las columnas 'Peso_kg' y 'Altura_cm'.
    Por ejemplo, use .loc para asignar np.nan a 2 celdas.
3. Calcule cu√°ntos valores faltantes hay por columna y el total de valores faltantes en todo el DataFrame.
4. Rellene los valores NaN en 'Peso_kg' con la **media** de esa columna.
5. Elimine las filas restantes que todav√≠a contengan alg√∫n valor NaN.
6. Imprima el DataFrame resultante.

In [None]:
# Ejercicio 2.2 - Manejo de datos faltantes (NaN)

def ejercicio_2_2() -> tuple[pd.DataFrame, pd.Series, int, pd.DataFrame]:
    """
    Cree un DataFrame con valores NaN y l√≠mpielo.

    Returns:
        tuple: (datos_medicos_original, nulos_por_columna, total_nulos, datos_medicos_limpio)
            - datos_medicos_original: DataFrame 5x3 con NaN
            - nulos_por_columna: Series con conteo de NaN por columna
            - total_nulos: int con total de valores NaN
            - datos_medicos_limpio: DataFrame sin NaN
    """
    raise NotImplementedError("Complete el c√≥digo para el ejercicio 2.2")
    # TODO: 1. Cree DataFrame 5x3 con columnas Paciente, Peso_kg, Altura_cm
    datos_medicos = None  # Reemplace esto

    # TODO: 2. Introduzca valores NaN en Peso_kg y Altura_cm (al menos 2 celdas)
    # Use .loc[indice, columna] = np.nan

    # Guarde una copia del original
    datos_medicos_original = datos_medicos.copy()

    # TODO: 3. Calcule valores faltantes por columna y total
    nulos_por_columna = None  # Reemplace esto
    total_nulos = None  # Reemplace esto

    # TODO: 4. Rellene NaN en Peso_kg con la media

    # TODO: 5. Elimine filas que a√∫n tengan NaN
    datos_medicos_limpio = None  # Reemplace esto

    return datos_medicos_original, nulos_por_columna, total_nulos, datos_medicos_limpio


In [None]:
# Tests para Ejercicio 2.2
def test_ejercicio_2_2() -> None:
    original, nulos_col, total, limpio = ejercicio_2_2()

    # Verificar DataFrame original
    assert isinstance(original, pd.DataFrame), "datos_medicos_original debe ser DataFrame"
    assert original.shape == (5, 3), "Debe ser 5x3"
    assert list(original.columns) == ['Paciente', 'Peso_kg', 'Altura_cm'], "Columnas incorrectas"

    # Verificar que hay NaN en el original
    assert original.isnull().sum().sum() >= 2, "Debe haber al menos 2 valores NaN"

    # Verificar conteo de nulos
    assert isinstance(nulos_col, pd.Series), "nulos_por_columna debe ser Series"
    assert isinstance(total, (int, np.integer)), "total_nulos debe ser int"
    assert total == original.isnull().sum().sum(), "El total debe coincidir"

    # Verificar DataFrame limpio
    assert isinstance(limpio, pd.DataFrame), "datos_medicos_limpio debe ser DataFrame"
    assert limpio.isnull().sum().sum() == 0, "No debe haber valores NaN en el DataFrame limpio"
    assert len(limpio) <= 5, "Debe tener 5 o menos filas"

    print("‚úÖ Ejercicio 2.2 - Todos los tests pasaron!")
try:
    # Ejecutar tests
    test_ejercicio_2_2()
except AssertionError as e:
    print(f"‚ùå Error en los tests: {e}")
except NotImplementedError as e:
    print(f"üõë Error: {e}")


-----

### 3Ô∏è‚É£ **Ejercicios: Agregaci√≥n, Agrupaci√≥n y Persistencia (CSV/TXT)**

**Ejercicio 3.1 - Agrupaci√≥n y Agregaci√≥n de Datos**

Cree un DataFrame llamado 'pedidos' con 10 filas y columnas ('Cliente', 'Producto', 'Cantidad', 'Precio_Unitario').
Los valores deben ser aleatorios, 'Cliente' debe tener 3 o 4 categor√≠as (ej: 'A', 'B', 'C'), 'Producto' 3 categor√≠as.
1. Cree una nueva columna llamada 'Total_Venta' que sea el resultado de 'Cantidad' * 'Precio_Unitario'.
2. Agrupe los datos por 'Cliente' y calcule la **suma** del 'Total_Venta' para cada cliente.
3. Agrupe los datos por 'Producto' y calcule la **media** de 'Cantidad' y la **m√°xima** 'Precio_Unitario' para cada producto.
4. Muestre los resultados de las agrupaciones.


In [None]:
# Ejercicio 3.1 - Agrupaci√≥n y Agregaci√≥n de Datos

def ejercicio_3_1() -> tuple[pd.DataFrame, pd.Series, pd.DataFrame]:
    """
    Cree un DataFrame de pedidos y realice agrupaciones.

    Returns:
        tuple: (pedidos, total_por_cliente, stats_por_producto)
            - pedidos: DataFrame con columna Total_Venta a√±adida
            - total_por_cliente: Series con suma de Total_Venta por Cliente
            - stats_por_producto: DataFrame con media de Cantidad y max de Precio_Unitario por Producto
    """
    raise NotImplementedError("Complete el c√≥digo para el ejercicio 3.1")
    # TODO: 1. Cree DataFrame con 10 filas y columnas Cliente, Producto, Cantidad, Precio_Unitario
    # Cliente: 3-4 categor√≠as (ej: 'A', 'B', 'C')
    # Producto: 3 categor√≠as (ej: 'P1', 'P2', 'P3')
    # Cantidad: valores aleatorios entre 1-10
    # Precio_Unitario: valores aleatorios entre 10.0-100.0
    pedidos = None  # Reemplace esto

    # TODO: 2. Cree columna Total_Venta = Cantidad * Precio_Unitario

    # TODO: 3. Agrupe por Cliente y sume Total_Venta
    total_por_cliente = None  # Reemplace esto

    # TODO: 4. Agrupe por Producto y calcule media de Cantidad y max de Precio_Unitario
    stats_por_producto = None  # Reemplace esto

    return pedidos, total_por_cliente, stats_por_producto


In [None]:
# Tests para Ejercicio 3.1
def test_ejercicio_3_1() -> None:
    pedidos, total_cliente, stats_producto = ejercicio_3_1()

    # Verificar DataFrame pedidos
    assert isinstance(pedidos, pd.DataFrame), "pedidos debe ser DataFrame"
    assert pedidos.shape[0] == 10, "Debe tener 10 filas"
    assert 'Total_Venta' in pedidos.columns, "Debe tener columna Total_Venta"

    # Verificar que Total_Venta est√° bien calculada
    assert all(pedidos['Total_Venta'] == pedidos['Cantidad'] * pedidos['Precio_Unitario']), \
        "Total_Venta debe ser Cantidad * Precio_Unitario"

    # Verificar agrupaci√≥n por cliente
    assert isinstance(total_cliente, (pd.Series, pd.DataFrame)), "total_por_cliente debe ser Series o DataFrame"
    assert len(total_cliente) <= 4, "Debe haber 3-4 clientes"

    # Verificar stats por producto
    assert isinstance(stats_producto, pd.DataFrame), "stats_por_producto debe ser DataFrame"
    assert len(stats_producto) == 3, "Debe haber 3 productos"
    assert 'Cantidad' in stats_producto.columns, "Debe incluir estad√≠sticas de Cantidad"
    assert 'Precio_Unitario' in stats_producto.columns, "Debe incluir estad√≠sticas de Precio_Unitario"

    print("‚úÖ Ejercicio 3.1 - Todos los tests pasaron!")
try:

# Ejecutar tests
    test_ejercicio_3_1()
except AssertionError as e:
    print(f"‚ùå Error en los tests: {e}")
except NotImplementedError as e:
    print(f"üõë Error: {e}")


**Ejercicio 3.2 - Carga y Exportaci√≥n de datos**

Utilice el DataFrame 'pedidos' del Ejercicio 3.1.
1. Exporte el DataFrame 'pedidos' a un archivo CSV llamado 'pedidos_mensuales.csv' **sin incluir el √≠ndice del DataFrame**.
2. Exporte el DataFrame 'pedidos' a un archivo TXT llamado 'pedidos_mensuales.txt', usando el pipe '|' como separador y **sin incluir el encabezado**.
3. Use Pandas para leer ('read_csv') el archivo 'pedidos_mensuales.csv' que acaba de crear y almac√©nelo en un nuevo DataFrame llamado 'pedidos_cargados'.
4. Imprima los primeros 5 elementos de 'pedidos_cargados' para verificar la carga correcta.


In [None]:
# Ejercicio 3.2 - Carga y Exportaci√≥n de datos

import os

def ejercicio_3_2(pedidos: pd.DataFrame) -> pd.DataFrame:
    """
    Exporte y cargue el DataFrame de pedidos.

    Args:
        pedidos: DataFrame del ejercicio 3.1

    Returns:
        pd.DataFrame: pedidos_cargados desde el archivo CSV
    """
    raise NotImplementedError("Complete el c√≥digo para el ejercicio 3.2")
    # TODO: 1. Exporte a 'pedidos_mensuales.csv' sin √≠ndice

    # TODO: 2. Exporte a 'pedidos_mensuales.txt' con separador '|' y sin encabezado

    # TODO: 3. Cargue desde 'pedidos_mensuales.csv'
    pedidos_cargados = None  # Reemplace esto

    # TODO: 4. (No retornar, solo imprimir) Mostrar primeras 5 filas

    return pedidos_cargados


In [None]:
import os
# Tests para Ejercicio 3.2
def test_ejercicio_3_2() -> None:
    # Crear DataFrame de prueba
    df_test = pd.DataFrame({
        'Cliente': ['A', 'B', 'A', 'C'],
        'Producto': ['P1', 'P2', 'P1', 'P3'],
        'Cantidad': [5, 3, 2, 4],
        'Precio_Unitario': [10.0, 20.0, 10.0, 15.0],
        'Total_Venta': [50.0, 60.0, 20.0, 60.0]
    })

    cargados = ejercicio_3_2(df_test)

    # Verificar que los archivos se crearon
    assert os.path.exists('pedidos_mensuales.csv'), "Debe crear pedidos_mensuales.csv"
    assert os.path.exists('pedidos_mensuales.txt'), "Debe crear pedidos_mensuales.txt"

    # Verificar DataFrame cargado
    assert isinstance(cargados, pd.DataFrame), "pedidos_cargados debe ser DataFrame"
    assert cargados.shape == df_test.shape, "Debe tener las mismas dimensiones"
    assert list(cargados.columns) == list(df_test.columns), "Debe tener las mismas columnas"

    # Limpiar archivos de prueba
    if os.path.exists('pedidos_mensuales.csv'):
        os.remove('pedidos_mensuales.csv')
    if os.path.exists('pedidos_mensuales.txt'):
        os.remove('pedidos_mensuales.txt')

    print("‚úÖ Ejercicio 3.2 - Todos los tests pasaron!")
try:
    # Ejecutar tests
    test_ejercicio_3_2()
except AssertionError as e:
    print(f"‚ùå Error en los tests: {e}")
except NotImplementedError as e:
    print(f"üõë Error: {e}")


-----

### 4Ô∏è‚É£ **Ejercicios: Ejercicios Integrados - An√°lisis de Registros**

**Ejercicio 4.1 - An√°lisis de registros de actividad**

Importe Pandas.
Cree un DataFrame 'registros_web' con 15 filas y columnas:
('Usuario', 'Tipo_Actividad', 'Duracion_Segundos').
Use 4 categor√≠as para 'Usuario' y 3 para 'Tipo_Actividad' (ej: 'Login', 'Compra', 'Navegaci√≥n').
 'Duracion_Segundos' debe ser un valor aleatorio entre 5 y 300.
 1. Agrupe por 'Tipo_Actividad' y calcule la duraci√≥n total (suma) y la duraci√≥n promedio (media) de cada tipo de actividad.
 2. Filtre para quedarse solo con los registros donde la 'Duracion_Segundos' sea mayor que la media general de toda la columna.
 3. Del resultado filtrado en el paso 2, agrupe por 'Usuario' y cuente cu√°ntos registros tuvo cada uno (use size()).
 4. Imprima todos los resultados por separado.


In [None]:
# Ejercicio 4.1 - An√°lisis de registros de actividad

def ejercicio_4_1() -> tuple[pd.DataFrame, pd.DataFrame, pd.DataFrame, pd.Series]:
    """
    Cree un DataFrame de registros web y realice an√°lisis.

    Returns:
        tuple: (registros_web, duracion_por_actividad, registros_sobre_media, conteo_usuarios)
            - registros_web: DataFrame original con 15 filas
            - duracion_por_actividad: DataFrame con sum y mean de Duracion_Segundos por Tipo_Actividad
            - registros_sobre_media: DataFrame filtrado con Duracion_Segundos > media
            - conteo_usuarios: Series con conteo de registros por Usuario (del DataFrame filtrado)
    """
    raise NotImplementedError("Complete el c√≥digo para el ejercicio 4.1")
    # TODO: 1. Cree DataFrame con 15 filas y columnas Usuario, Tipo_Actividad, Duracion_Segundos
    # Usuario: 4 categor√≠as (ej: 'U1', 'U2', 'U3', 'U4')
    # Tipo_Actividad: 3 categor√≠as (ej: 'Login', 'Compra', 'Navegaci√≥n')
    # Duracion_Segundos: valores aleatorios entre 5-300
    registros_web = None  # Reemplace esto

    # TODO: 2. Agrupe por Tipo_Actividad y calcule suma y media de Duracion_Segundos
    duracion_por_actividad = None  # Reemplace esto

    # TODO: 3. Filtre registros donde Duracion_Segundos > media general
    registros_sobre_media = None  # Reemplace esto

    # TODO: 4. Del resultado filtrado, agrupe por Usuario y cuente
    conteo_usuarios = None  # Reemplace esto

    return registros_web, duracion_por_actividad, registros_sobre_media, conteo_usuarios


In [None]:

# Tests para Ejercicio 4.1
def test_ejercicio_4_1() -> None:
    registros, duracion_act, sobre_media, conteo = ejercicio_4_1()

    # Verificar DataFrame original
    assert isinstance(registros, pd.DataFrame), "registros_web debe ser DataFrame"
    assert registros.shape[0] == 15, "Debe tener 15 filas"
    assert set(registros.columns) == {'Usuario', 'Tipo_Actividad', 'Duracion_Segundos'}, \
        "Debe tener las columnas correctas"

    # Verificar rangos
    assert all(registros['Duracion_Segundos'] >= 5) and all(registros['Duracion_Segundos'] <= 300), \
        "Duracion_Segundos debe estar entre 5-300"

    # Verificar agrupaci√≥n por actividad
    assert isinstance(duracion_act, (pd.DataFrame, pd.Series)), \
        "duracion_por_actividad debe ser DataFrame o Series"
    assert len(duracion_act) == 3, "Debe haber 3 tipos de actividad"

    # Verificar filtrado sobre media
    assert isinstance(sobre_media, pd.DataFrame), "registros_sobre_media debe ser DataFrame"
    media_general = registros['Duracion_Segundos'].mean()
    assert all(sobre_media['Duracion_Segundos'] > media_general), \
        "Todos los registros deben tener duraci√≥n > media"

    # Verificar conteo de usuarios
    assert isinstance(conteo, (pd.Series, pd.DataFrame)), "conteo_usuarios debe ser Series o DataFrame"
    assert conteo.sum() == len(sobre_media), "La suma del conteo debe coincidir con filas filtradas"

    print("‚úÖ Ejercicio 4.1 - Todos los tests pasaron!")
try:
    # Ejecutar tests
    test_ejercicio_4_1()
except AssertionError as e:
    print(f"‚ùå Error en los tests: {e}")
except NotImplementedError as e:
    print(f"üõë Error: {e}")


-----

### üìã **Instrucciones para resolver:**

1.  Copie cada ejercicio en una nueva celda de c√≥digo.
2.  Resuelva paso a paso y comente su razonamiento, especialmente en la aplicaci√≥n de las funciones de Pandas.
3.  Ejecute para verificar sus respuestas.
4.  Si tiene dudas, puede preguntar.