# Módulo 2: Guardado de DataFrames en Archivos CSV con Polars

Una vez que hemos trabajado con nuestros datos y hemos obtenido un DataFrame resultante, a menudo necesitamos guardarlo en un archivo. El formato CSV es uno de los más comunes para esta tarea.

Polars ofrece el método `DataFrame.write_csv()` para guardar DataFrames en formato CSV, permitiendo controlar diversos aspectos del archivo de salida.

In [None]:
import polars as pl
import os # Para verificar la existencia de archivos y eliminarlos

# Crear un DataFrame de ejemplo
data_ejemplo = {
    "ID": [1, 2, 3, 4],
    "Nombre": ["Ana", "Luis", "Eva", "Juan"],
    "Edad": [28, 34, None, 45],
    "Puntuacion": [85.5, 90.0, 78.3, None],
    "Activo": [True, False, True, False]
}
df_ejemplo = pl.DataFrame(data_ejemplo)

print("DataFrame de Ejemplo:")
print(df_ejemplo)

## Guardado Básico con `write_csv()`

La forma más simple de usar `write_csv()` es proporcionar la ruta del archivo donde se guardará el DataFrame. Por defecto:
- Se usa una coma (`,`) como separador.
- Se incluye la fila de encabezado (nombres de las columnas).
- Los valores nulos se escriben como cadenas vacías (`""`).

In [None]:
file_path_basico = "df_guardado_basico.csv"

print(f"Guardando DataFrame en: {file_path_basico}")
df_ejemplo.write_csv(file_path_basico)

# Verificar leyendo el archivo guardado
if os.path.exists(file_path_basico):
    df_leido_basico = pl.read_csv(file_path_basico)
    print("\nContenido del CSV guardado (básico) y releído:")
    print(df_leido_basico)
    # Los nulos en Polars se leen por defecto como nulos si son cadenas vacías
    print("\nValores nulos en el DataFrame releído:")
    print(df_leido_basico.is_null())
    # os.remove(file_path_basico) # Comentado para que el archivo persista para otros ejemplos si es necesario
else:
    print(f"Error: El archivo {file_path_basico} no fue creado.")

## Especificar el Separador (`separator`)

Podemos especificar un delimitador diferente usando el parámetro `separator`. Por ejemplo, para usar punto y coma (`;`) o tabuladores (`\t`).

In [None]:
file_path_separador = "df_guardado_separador.csv"

print(f"\nGuardando DataFrame en: {file_path_separador} con separador ';'...")
df_ejemplo.write_csv(file_path_separador, separator=';')

# Verificar leyendo el archivo guardado
if os.path.exists(file_path_separador):
    df_leido_separador = pl.read_csv(file_path_separador, separator=';')
    print("\nContenido del CSV guardado (separador ';') y releído:")
    print(df_leido_separador)
    # os.remove(file_path_separador)
else:
    print(f"Error: El archivo {file_path_separador} no fue creado.")

## Excluir el Encabezado (`has_header=False`)

Si no deseamos incluir la fila de encabezado en el archivo CSV de salida, podemos establecer `has_header=False`.

In [None]:
file_path_sin_header = "df_guardado_sin_header.csv"

print(f"\nGuardando DataFrame en: {file_path_sin_header} sin encabezado...")
df_ejemplo.write_csv(file_path_sin_header, has_header=False)

# Verificar leyendo el archivo guardado
if os.path.exists(file_path_sin_header):
    # Al leer, debemos indicar que no tiene encabezado y, opcionalmente, proporcionar los nombres de columna
    df_leido_sin_header = pl.read_csv(
        file_path_sin_header, 
        has_header=False, 
        new_columns=df_ejemplo.columns # Usamos los nombres originales para una comparación fácil
    )
    print("\nContenido del CSV guardado (sin encabezado) y releído:")
    print(df_leido_sin_header)
    # os.remove(file_path_sin_header)
else:
    print(f"Error: El archivo {file_path_sin_header} no fue creado.")

## Manejo de Valores Nulos (`null_value`)

Por defecto, Polars escribe los valores nulos (`None` en Python, o `null` en Polars) como cadenas vacías (`""`) en el archivo CSV.
Podemos cambiar este comportamiento usando el parámetro `null_value` para especificar una cadena de texto diferente que represente los nulos.

In [None]:
# df_ejemplo ya contiene nulos. Si no, crearíamos uno como:
# data_con_nulos = {'colA': [1, None, 3], 'colB': [None, 'b', 'c'], 'colC': [True, False, None]}
# df_con_nulos = pl.DataFrame(data_con_nulos)

file_path_nulos = "df_guardado_nulos.csv"
null_representation = "N/A"

print(f"\nGuardando DataFrame en: {file_path_nulos} con null_value='{null_representation}'...")
df_ejemplo.write_csv(file_path_nulos, null_value=null_representation)

# Verificar leyendo el archivo guardado
if os.path.exists(file_path_nulos):
    # Al leer, debemos especificar cómo se representaron los nulos
    df_leido_nulos = pl.read_csv(file_path_nulos, null_values=null_representation)
    print("\nContenido del CSV guardado (null_value='N/A') y releído:")
    print(df_leido_nulos)
    print("\nValores nulos en el DataFrame releído:")
    print(df_leido_nulos.is_null())
    # os.remove(file_path_nulos)
else:
    print(f"Error: El archivo {file_path_nulos} no fue creado.")

## Otros Parámetros (Breve Mención)

El método `write_csv()` ofrece otros parámetros para un control más fino sobre la salida, tales como:

- `date_format`: String para formatear columnas de tipo `Date` (e.g., `"%Y-%m-%d"`).
- `datetime_format`: String para formatear columnas de tipo `Datetime` (e.g., `"%Y-%m-%d %H:%M:%S"`).
- `float_precision`: Número de dígitos de precisión para números de punto flotante.
- `quote_char`: Carácter usado para entrecomillar campos (por defecto `"`).
- `batch_size`: Número de filas a escribir a la vez; puede afectar el rendimiento y uso de memoria para DataFrames muy grandes.

Estos parámetros son útiles en escenarios más específicos donde se requiere un formato de salida particular.

## Limpieza de Archivos Creados

Finalmente, eliminamos los archivos CSV que hemos creado durante este notebook para mantener limpio el directorio.

In [None]:
archivos_creados = [
    file_path_basico,
    file_path_separador,
    file_path_sin_header,
    file_path_nulos
]

print("\nLimpiando archivos generados...")
for f_path in archivos_creados:
    if os.path.exists(f_path):
        os.remove(f_path)
        print(f"Archivo '{f_path}' eliminado.")
    else:
        print(f"Archivo '{f_path}' no encontrado (posiblemente ya eliminado o no creado).")