# IO #
IO en polars, hace referencia a la entrada y salida (Input/Output) para leer y escribir datos en diferentes formatos.
Tales como CSV, JSON, Parquet y más. Tal como se mostrarán líneas abajo. Los métodos de IO de Polars se pueden utilizar para cargar datos desde archivos en diferentes formatos y también para escribir los resultados de tus operaciones en un formato deseado.
![](https://raw.githubusercontent.com/pola-rs/polars-static/master/logos/polars_github_logo_rect_dark_name.svg)

 # 1. CSV #
Un archivo CSV (Comma-Separated Values) es un formato que se utiliza para almacenar datos tabulares, donde cada línea del archivo representa una fila y los valores de cada fila están separados por comas u otros delimitadores. Este tipo de formato se utiliza ampliamente para intercambiar datos entre diferentes aplicaciones, ya que fácilmente legible y fácil de procesar.

## 1.1 Lectura, Escritura y Escaneo ##
En polars tenemos tres métodos de lectura y escritura de archivos CSV.



### 1.1.1 Lectura ###
Para leer un archivo CSV se usa el método *read_csv*. Tal como se ve en el siguiente ejemplo, usando el data sets *iris*

In [2]:
import polars as pl
lecturairis = pl.read_csv('iris.csv')


### 1.1.2 Escritura ###
Para escribir un DataFrame en un archivo CSV utilizando Polars, puedes utilizar el método *write_csv*. Tal como se ve en el siguiente ejemplo:

In [9]:
notas_estudiantes = pl.DataFrame({"notas": [0, 1, 2, 3,4,5,6], "Estudiantes": ["Ana", "Beto", "Carla", "Dante", "Elena", "Franck", "Galia"]})
notas_estudiantes.write_csv("relacion2.csv")

### 1.1.3 Escanear ###
Escanear un archivo CSV, permite una manipulación más avanzada de los datos antes de convertirlos en un DataFrame. Para esto usamos el método *scan_csv*. Como en el siguiente ejemplo:

In [8]:
scanIris = pl.scan_csv("iris.csv")

# 2. Parquet #
Parquet es un formato de archivo columnar diseñado para el almacenamiento eficiente y el procesamiento de datos. En Polars, se puede trabajar con archivos  de este tipo utilizando las funciones proporcionadas por la biblioteca.

## 2.1 Lectura, Escritura y Escaneo ##

En Polars, se puede leer, escribir y escanear archivos Parquet utilizando las funciones proporcionadas por la biblioteca.

### 2.1.1 Lectura ###
Lee un archivo Parquet utilizando la función *read_parquet*. Como en el siguiente ejemplo: En el cuál usaremos un archivo test con extensión parquet. Obtenida de Kaggle, en la siguiente dirección web https://www.kaggle.com/datasets/alvinleenh/tps-rocket-league-data-float16-parquet-format

In [21]:
test_parquet = pl.read_parquet('test.parquet')

### 2.1.2 Escritura ###
Para escribir un DataFrame en un archivo Parquet, utilizamos el método *write_parquet*. Tal como se ve en el siguiente ejemplo.

In [22]:
notas_parquet = pl.DataFrame({"notas": [0, 1, 2, 3,4,5,6], "Estudiantes": ["Ana", "Beto", "Carla", "Dante", "Elena", "Franck", "Galia"]})
notas_parquet.write_parquet("test2.parquet")

### 2.1.3 Escaneo ###
Para escanear y manipular un archivo Parquet sin cargarlo en un DataFrame, se puede utilizar el método *scan_parquet*. La forma de usarse, se puede ver con el siguiente ejemplo.

In [23]:
test_parquet = pl.scan_parquet("test.parquet")

# 3. Archivos JSON #
Los archivos JSON (JavaScript Object Notation) son un formato de almacenamiento y transmisión de datos basado en texto. Son ampliamente utilizados para representar y transmitir datos estructurados en aplicaciones web y sistemas de intercambio de datos.

En un archivo JSON, los datos se organizan en una estructura jerárquica de pares clave-valor. Estos pares clave-valor pueden contener diferentes tipos de datos, como cadenas de texto, números, booleanos, objetos anidados y listas.

## 3.1 Lectura, Escritura y Escaneo
Aunque Polars no tiene un formato de archivo JSON específico, puedes leer y escribir datos en formato JSON utilizando las funciones proporcionadas por la biblioteca. 

### 3.1.1 Lectura ###
Para leer un archivo JSON, se utiliza el método "read_json". Cabe señalar que el archivo json debe tener un formato array para ser leído.

In [29]:
prueba_json = pl.read_json("jsonprueba.json")

### 3.1.2 Escritura ###
Para escribir un DataFrame en un archivo JSON, utiliza el método *write_json*. Tal como se puede ver en el siguiente ejemplo.

In [3]:
df = pl.DataFrame({"notas": [0, 1, 2, 3,4,5,6], "Estudiantes": ["Ana", "Beto", "Carla", "Dante", "Elena", "Franck", "Galia"]})
# guardando en formato json
df.write_json("relacion2.json")
# guardando en formato ndjson
df.write_ndjson("relacion2.json")

### 3.1.3 Escaneo ###
Polars permite escanear una entrada JSON, solo para json delimitado por saltos de línea . El escaneo retrasa el análisis real del archivo y, en su lugar, devuelve un contenedor de cálculo diferido llamado *LazyFrame*.

In [9]:
relacion_ndjson = pl.scan_ndjson("relacion2.json")

# 4. Múltiple #
En Polars, el término "multiple" se utiliza para referirse a varias operaciones o funciones aplicadas a múltiples columnas o filas de un DataFrame al mismo tiempo. Esto puede incluir operaciones matemáticas, transformaciones, filtrado de datos, agregación, entre otros.

## 4.1 Manejo de varios archivos ##
En Polars, puedes manejar varios archivos utilizando las funciones proporcionadas para lectura y escritura de datos. Considerando las necesidades y capacidad de la memoria. En el siguiente ejemplo se tiene un código el cuál a partir de un dataframe, se puede obtener cinco archivos en formato csv, cada cuál con su respectivo nombre.

In [10]:
notas_estudiantes = pl.DataFrame({"notas": [0, 1, 2, 3,4,5,6], "Estudiantes": ["Ana", "Beto", "Carla", "Dante", "Elena", "Franck", "Galia"]})

for i in range(5):
    notas_estudiantes.write_csv(f"archivo{i}.csv")

## 4.2 Lectura de un solo *DataFrame* ##
Se puede leer varios archivos en un solo DataFrame, para esto se hace uso de patrones globales:


In [34]:
leer_archivos = pl.read_csv("archivo*.csv")

In [35]:
print(leer_archivos)

shape: (35, 2)
┌───────┬─────────────┐
│ notas ┆ Estudiantes │
│ ---   ┆ ---         │
│ i64   ┆ str         │
╞═══════╪═════════════╡
│ 0     ┆ Ana         │
│ 1     ┆ Beto        │
│ 2     ┆ Carla       │
│ 3     ┆ Dante       │
│ …     ┆ …           │
│ 3     ┆ Dante       │
│ 4     ┆ Elena       │
│ 5     ┆ Franck      │
│ 6     ┆ Galia       │
└───────┴─────────────┘


In [5]:
#import graphviz
#pl.scan_csv("archivo*.csv").show_graph()

## 4.3 Lectura y procesamiento paralelo
Si el objetivo es que los archivos no tengan que estar en una sola tabla, también se puede crear un plan de consulta para cada archivo y ejecutarlos en paralelo como grupos de subprocesos.

Toda la ejecución del plan de consulta es paralela y no requiere ninguna comunicación.

In [3]:
import glob

queries = []
for file in glob.glob("archivo*.csv"):
    q = pl.scan_csv(file).groupby("notas").agg([pl.count(), pl.sum("Estudiantes")])
    queries.append(q)

dataframes = pl.collect_all(queries)
print(dataframes)

[shape: (7, 3)
┌───────┬───────┬─────────────┐
│ notas ┆ count ┆ Estudiantes │
│ ---   ┆ ---   ┆ ---         │
│ i64   ┆ u32   ┆ str         │
╞═══════╪═══════╪═════════════╡
│ 5     ┆ 1     ┆ null        │
│ 6     ┆ 1     ┆ null        │
│ 0     ┆ 1     ┆ null        │
│ 1     ┆ 1     ┆ null        │
│ 3     ┆ 1     ┆ null        │
│ 2     ┆ 1     ┆ null        │
│ 4     ┆ 1     ┆ null        │
└───────┴───────┴─────────────┘, shape: (7, 3)
┌───────┬───────┬─────────────┐
│ notas ┆ count ┆ Estudiantes │
│ ---   ┆ ---   ┆ ---         │
│ i64   ┆ u32   ┆ str         │
╞═══════╪═══════╪═════════════╡
│ 4     ┆ 1     ┆ null        │
│ 5     ┆ 1     ┆ null        │
│ 1     ┆ 1     ┆ null        │
│ 2     ┆ 1     ┆ null        │
│ 3     ┆ 1     ┆ null        │
│ 6     ┆ 1     ┆ null        │
│ 0     ┆ 1     ┆ null        │
└───────┴───────┴─────────────┘, shape: (7, 3)
┌───────┬───────┬─────────────┐
│ notas ┆ count ┆ Estudiantes │
│ ---   ┆ ---   ┆ ---         │
│ i64   ┆ u32   ┆ str      

# 5. Leer de una base de datos #
Se puede leer de una base de datos con Polars usando pl.read_databasefunción. Para usar esta función, necesita una cadena de consulta SQL y una cadena de conexión llamada connection_uri.

Por ejemplo, en el siguiente código se muestra los patrones generales para leer todas las columnas de una tabla en una base de datos de Postgres:

```python
connection_uri = "postgres://username:password@server:port/database"
query = "SELECT * FROM foo"

pl.read_database(query=query, connection_uri=connection_uri)
```

## 5.1 Motores ##
Polars no gestiona las conexiones y la transferencia de datos desde las bases de datos por sí mismo. En cambio, las bibliotecas externas (conocidas como motores ) manejan esto. En la actualidad Polars puede utilizar dos motores para leer bases de datos:    1. ConectorX y
2. ADBC

### 5.1.1 Conector - x ###
ConnectorX es una biblioteca para Python que le permite cargar datos de bases de datos de forma muy eficiente. Se puede usar junto con otras bibliotecas como Polars para procesar y analizar los datos cargados de manera más eficiente.
Para leer desde una de las bases de datos compatibles, *ConnectorX* debe activar la dependencia adicional *ConnectorX* al instalar Polars o instalarla manualmente en CMD con el siguiente comando:
$  pip install connectorx

### 5.1.2 ADBC ###
ADBC (Arrow Database Connectivity) es un motor compatible con el proyecto Apache Arrow. ADBC pretende ser un estándar API para conectarse a bases de datos y bibliotecas que implementen este estándar en una variedad de idiomas.

Todavía es pronto para ADBC, por lo que el soporte para diferentes bases de datos aún es limitado. Actualmente, los controladores para ADBC ​​solo están disponibles para Postgres y SQLite . 

# 6. Google Big Query #
Google BigQuery es un servicio de análisis de datos en la nube de Google que permite almacenar, consultar y analizar grandes conjuntos de datos utilizando el poder del procesamiento distribuido. Para leer o escribir desde Google Big Query en polars se necesitan dependencias adicionales:
$ pip install google-cloud-bigquery

```python
import polars as pl
from google.cloud import bigquery

client = bigquery.Client()

# Perform a query.
QUERY = (
    'SELECT name FROM `bigquery-public-data.usa_names.usa_1910_2013` '
    'WHERE state = "TX" '
    'LIMIT 100')
query_job = client.query(QUERY)  # API request
rows = query_job.result()  # Waits for query to finish

df = pl.from_arrow(rows.to_arrow())
```

