# Pandas

Algunas pildoras sobre el uso optimizado de Pandas

Pandas se basa en NumPy (operaciones matematicas) de forma optimizada

Que desventajas tenemos en **Pandas** ?
- **Tipos de datos**: int64, string, datetime, etc : pero **Numpy** no trabaja optimamente con **string** y **datetime**
    - Lo que hace python es crear un tipo de dato **Object** -> esto consume mucha memoria


- **Numpy** trabaja con arreglos de datos del mismo tipo, pero como en la vida real no todas las columnas son del mismo tipo de dato.

Lo que hace **Pandas** es trabajarlo como: cada **columna** del dataframe es un arreglo unidimesional -> El **almacenamiento** se realiza de manera COLUMNAR

Por ejemplo tirarle un SUM a total de ventas en ambos casos

En este caso es mas eficiente la lectura COLUMNAR a ir recorriendo FILA por FILA

Pandas frente a esto quiere intrudicr Pyarrow


TALLER

NYC Yellow Taxi Trip Data
Descargamos este CSV

Puede ser desde Kaggle

Este Dataset pesa 1.6 GB

In [1]:
import pandas as pd

Demora un poquito porque tiene que leer los datos, **inferir** su tipo de dato y almacenar todo eso en memoria

In [3]:
df = pd.read_csv("C:/Users/GIANPIER/Downloads/yellow_tripdata_2016-01.csv")

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10906858 entries, 0 to 10906857
Data columns (total 19 columns):
 #   Column                 Dtype  
---  ------                 -----  
 0   VendorID               int64  
 1   tpep_pickup_datetime   object 
 2   tpep_dropoff_datetime  object 
 3   passenger_count        int64  
 4   trip_distance          float64
 5   pickup_longitude       float64
 6   pickup_latitude        float64
 7   RatecodeID             int64  
 8   store_and_fwd_flag     object 
 9   dropoff_longitude      float64
 10  dropoff_latitude       float64
 11  payment_type           int64  
 12  fare_amount            float64
 13  extra                  float64
 14  mta_tax                float64
 15  tip_amount             float64
 16  tolls_amount           float64
 17  improvement_surcharge  float64
 18  total_amount           float64
dtypes: float64(12), int64(4), object(3)
memory usage: 1.5+ GB


Notemos los tipos de datos **object** (Objetos Python)

Ademas notemos la ultima marte que menciona *memory usage* pero no cuenta los punteros de los **object**

Si queremos saber el real usamos la opcion **deep**.

In [5]:
df.info(memory_usage="deep")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10906858 entries, 0 to 10906857
Data columns (total 19 columns):
 #   Column                 Dtype  
---  ------                 -----  
 0   VendorID               int64  
 1   tpep_pickup_datetime   object 
 2   tpep_dropoff_datetime  object 
 3   passenger_count        int64  
 4   trip_distance          float64
 5   pickup_longitude       float64
 6   pickup_latitude        float64
 7   RatecodeID             int64  
 8   store_and_fwd_flag     object 
 9   dropoff_longitude      float64
 10  dropoff_latitude       float64
 11  payment_type           int64  
 12  fare_amount            float64
 13  extra                  float64
 14  mta_tax                float64
 15  tip_amount             float64
 16  tolls_amount           float64
 17  improvement_surcharge  float64
 18  total_amount           float64
dtypes: float64(12), int64(4), object(3)
memory usage: 3.4 GB


Como vemos verdaderamente ocupa mucho espacio en memoria.

Entre al administrador de tareas y lo comprobe el visual se esta comiendo 3 GB de memoria ram

Ahora vamos a implementar pyarrow

## Requisitos

pandas (>=2.0) , verifica y si no lo tienes actualiza tu version con :

``pip install --upgrade pandas``

In [2]:
import pandas as pd
print(pd.__version__)

2.0.3


In [3]:
import pyarrow

In [4]:
df = pd.read_csv("C:/Users/GIANPIER/Downloads/yellow_tripdata_2016-01.csv", dtype_backend="pyarrow")

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10906858 entries, 0 to 10906857
Data columns (total 19 columns):
 #   Column                 Dtype          
---  ------                 -----          
 0   VendorID               int64[pyarrow] 
 1   tpep_pickup_datetime   string[pyarrow]
 2   tpep_dropoff_datetime  string[pyarrow]
 3   passenger_count        int64[pyarrow] 
 4   trip_distance          double[pyarrow]
 5   pickup_longitude       double[pyarrow]
 6   pickup_latitude        double[pyarrow]
 7   RatecodeID             int64[pyarrow] 
 8   store_and_fwd_flag     string[pyarrow]
 9   dropoff_longitude      double[pyarrow]
 10  dropoff_latitude       double[pyarrow]
 11  payment_type           int64[pyarrow] 
 12  fare_amount            double[pyarrow]
 13  extra                  double[pyarrow]
 14  mta_tax                double[pyarrow]
 15  tip_amount             double[pyarrow]
 16  tolls_amount           double[pyarrow]
 17  improvement_surcharge  double[pyarrow]
 18  

Ahora no estamos creando un objeto Python (Object) por cada string, si no que ahora usamos el tipo de dato definido por *pyarrow*

Lo cual va a disminuit el consumor de memoria

In [7]:
df.info(memory_usage="deep")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10906858 entries, 0 to 10906857
Data columns (total 19 columns):
 #   Column                 Dtype          
---  ------                 -----          
 0   VendorID               int64[pyarrow] 
 1   tpep_pickup_datetime   string[pyarrow]
 2   tpep_dropoff_datetime  string[pyarrow]
 3   passenger_count        int64[pyarrow] 
 4   trip_distance          double[pyarrow]
 5   pickup_longitude       double[pyarrow]
 6   pickup_latitude        double[pyarrow]
 7   RatecodeID             int64[pyarrow] 
 8   store_and_fwd_flag     string[pyarrow]
 9   dropoff_longitude      double[pyarrow]
 10  dropoff_latitude       double[pyarrow]
 11  payment_type           int64[pyarrow] 
 12  fare_amount            double[pyarrow]
 13  extra                  double[pyarrow]
 14  mta_tax                double[pyarrow]
 15  tip_amount             double[pyarrow]
 16  tolls_amount           double[pyarrow]
 17  improvement_surcharge  double[pyarrow]
 18  