# Apache Arrow

<img src="images/apache_arrow.png" alt="Drawing" style="width: 750px;"/> 

<a href="https://colab.research.google.com/github/milocortes/diplomado_ciencia_datos_mide/blob/edicion-2024/notebooks/arrow_mide_2024.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


*  Apache Arrow (o Arrow por prevedad) es un proyecto open source de la Fundación Apache.
*  Fue creado por Dremio y Wes McKinney, el creador de Pandas, y fue lanzado por primera vez en 2016.
*  Arrow es una colección de bibliotecas relacionadas al **procesamiento de datos en memoria** que permite construir software de alto desempeño para el procesamiento y transporte de datasets grandes.
*  **Procesamiento de datos en memoria** involucra procesamiento de datos en memoria RAM y excluye accesos (lentos) a datos **on-disk**. Cuando los datos son almacenados en disco, los principales problemas consisten en el tamaño de los datos y al costo de las operaciones de **input/output (IO)** de lectura en memoria previos a operar con los datos.
*  Los formatos de datos en disco, como **Parquet**, optimizan el throughput de las operaciones I/O mediante la compresión de los datos para hacerlos más pequeños y más rápidos de leer en la memoria.
*  Arrow se enfoca en el formato **en memoria**, colocando como objetivo mejorar la eficiencia del CPU mediante estrategias como la localidad de caché y las operaciones vectorizadas.
*  Arrow utiliza un modelo de memoria que mejora la eficiencia al compartir datos al eliminar los costos de serialización.
*  Arrow utiliza una organización columnar (contigua) de las estructuras de datos en memoria. Esta organización facilita las operaciones vectorizadas del tipo SIMD (single instruction, multiple data)

## Descarga de Arrow
* El proyecto Arrow contiene una variedad de bibliotecas para múltiples lenguajes de programación.
* <code>pyarrow</code> es la API (Application Programming Interface) de Apache Arrow en Python.

### Instalación de <code>pyarrow</code>

Podemos usar <code>pip</code> para instalar <code>pyarrow</code> con la siguiente instrucción:


In [1]:
!pip install pyarrow



Verificamos si el paquete fue instalado correctamente importándolo:

In [3]:
import pyarrow as pa

arr = pa.array([1,2,3,4])
arr?

## Carga de datos

La siguiente figura muestra algunos formatos que son soportados por Arrow:

Arrow permite acceder a archivos en distintos sistemas de archivos. La siguiente figura presenta algunas implementaciones a sistemas de archivos:

<img src="images/arrow_files_format.png" alt="Drawing" style="width: 750px;"/> 


Haremos uso de la implementación para el acceso a archivos del sistema de archivos local


In [19]:
from pyarrow import fs

local = fs.LocalFileSystem() # create local file system instance
f, p = fs.FileSystem.from_uri('file:///home/milo/Documents/mide/diplomado_2024/diplomado_ciencia_datos_mide/')
p

'/home/milo/Documents/mide/diplomado_2024/diplomado_ciencia_datos_mide/'

### Carga de archivos CSV en <code>pyarrow</code>

In [17]:
import pyarrow as pa
import pyarrow.csv

table = pa.csv.read_csv('../datos/flights.csv')
table.schema

YEAR: int64
MONTH: int64
DAY: int64
DAY_OF_WEEK: int64
AIRLINE: string
FLIGHT_NUMBER: int64
TAIL_NUMBER: string
ORIGIN_AIRPORT: string
DESTINATION_AIRPORT: string
SCHEDULED_DEPARTURE: int64
DEPARTURE_TIME: int64
DEPARTURE_DELAY: int64
TAXI_OUT: int64
WHEELS_OFF: int64
SCHEDULED_TIME: int64
ELAPSED_TIME: int64
AIR_TIME: int64
DISTANCE: int64
WHEELS_ON: int64
TAXI_IN: int64
SCHEDULED_ARRIVAL: int64
ARRIVAL_TIME: int64
ARRIVAL_DELAY: int64
DIVERTED: int64
CANCELLED: int64
CANCELLATION_REASON: string
AIR_SYSTEM_DELAY: int64
SECURITY_DELAY: int64
AIRLINE_DELAY: int64
LATE_AIRCRAFT_DELAY: int64
WEATHER_DELAY: int64

La lectura de un archivo CSV regresa un objeto del tipo <code>pyarrow.Table</code> que contiene una lista de objetos <code>pyarrow.lib.ChunkedArray</code>. 

Cuando se está leyendo el archivo CSV se puede paralelizar la carga de datos al leer grupos de filas de forma paralela y posteriormente integrar los chunks de las columnas. El proceso se muestra en la siguiente figura:

<img src="images/arrow_files_format.png" alt="Drawing" style="width: 750px;"/> 


## Integración entre Arrow y Pandas

El DataFrame de Pandas es equivalente a una Tabla de Arrow. En ambos casos, representan un grupo de columnas con nombre que tienen la misma longitud.

In [18]:
import pandas as pd

df = pd.DataFrame({"a": [1,2,3]})

table = pa.Table.from_pandas(df) # convert to arrow

df_new = table.to_pandas() # convert back to pandas

Existen opciones para controlar las conversiones entre Pandas y Arrow, como si usar threads, administrar el uso de memoria o los tipos de datos. Los objetos de Pandas tienen índices que puede contener etiquetas de fila para los datos en lugar de simplemente usar un índice de fila basado en enteros. Cuando se realiza la conversión de un DataFrame a Table, las funciones <code>from_pandas</code> tienen una opción llamada <code>preserve_index</code> que se usa para controlar si se almacenan los datos del índice y cómo almacenarlos.
