# Lectura 14: CSV

### Leer un archivo CSV: `read_csv`

La función `read_csv` tiene un parámetro llamado `has_header` que por defecto está establecido como `True`. Con esto indicamos que la primera fila del archivo contiene los nombres de columnas. En caso de que no sea así podemos establecer este parámetro igual a `False` y los nombres de columnas serán generados de forma automática por Polars.

In [None]:
import polars as pl

df = pl.read_csv('./dataCSV.csv', has_header=False)

In [None]:
df

In [None]:
df = pl.read_csv('./dataCSV.csv')

print(df)

El parámetro `separator` lo podemos utilizar para indicar el separador del archivo que estamos leyendo, por defecto es la coma. Por ejemplo, tratemos de leer un archivo cuyo separador es un pip.

In [None]:
df1 = pl.read_csv('./dataTab.txt')

print(df1)

In [None]:
df1 = pl.read_csv('./dataTab.txt', separator='|')

print(df1)

Veamos ahora como podemos seleccionar las columnas que deseamos leer solamente del archivo con el parámetro `columns`. Por ejemplo, vamos a leer el archivo dataCSV.csv y solo deseamos las columnas:
- video_id
- trending_date
- title

In [None]:
df2 = pl.read_csv('./dataCSV.csv', columns=['video_id', 'trending_date', 'title'])

print(df2)

La función `read_csv` tiene muchos más parámetros que nos permiten flexibilizar la lectura de los archivos csv. Para mayor información consultar la documentación al respecto.

[Ver documentación](https://pola-rs.github.io/polars/py-polars/html/reference/api/polars.read_csv.html#polars.read_csv)

### Leer un archivo CSV de forma perezosa(Lazily): `scan_csv`

La función `scan_csv` lee de forma perezosa(lazily) un archivo CSV. Esto permite que el optimizador de consultas baje los predicados y las proyecciones al nivel de escaneo, lo que reduce potencialmente la sobrecarga de memoria.

In [None]:
from polars import col

df3 = (
    pl.scan_csv('./dataCSV.csv') # lectura lazily no hace nada
    .select(col('video_id'), col('likes'), col('dislikes'))
    .filter(col('likes') > 50000) # el filtro se realiza durante el escaneo, por lo que se leen menos datos en la memoria
)

df3.collect()

La función `scan_csv` también posee una gran variedad de parámetros que se pueden consultar en su docuemntación.

[Ver documentación](https://pola-rs.github.io/polars/py-polars/html/reference/api/polars.scan_csv.html#polars.scan_csv)

### Escribir un CSV: `write_csv`

La función `write_csv` nos permite escribir nuestro DataFrame como un archivo CSV. Por ejemplo, escribamos el df2 creado con anterioridad e indiquémosle que el separador será un pip.

In [None]:
df2.write_csv('./df2.csv', separator='|')

In [None]:
pl.read_csv('./df2.csv', separator='|')

El resto de parámetros que admite la función `read_csv` se pueden encontrar en su documentación.

[Ver documentación](https://pola-rs.github.io/polars/py-polars/html/reference/api/polars.DataFrame.write_csv.html#polars.DataFrame.write_csv)