In [None]:
import pandas as pd
import polars as pl
import time
import numpy as np

## Creación de DF

In [None]:
data = {'col1': [1, 2, 3, 4, 5],
        'col2': ['A', 'B', 'C', 'D', 'E'],
        'col3': [1.1, 2.2, 3.3, 4.4, 5.5]}

data_num_enteros = {'a': [1, 2, 3], 'b': [4, 5, 6]}

# Crear un DataFrame con Pandas
df_pd = pd.DataFrame(data)
df_pd_num_enteros = pd.DataFrame(data_num_enteros)

# Crear un DataFrame con Polars
df_pl = pl.DataFrame(data)
df_pl_num_enteros = pl.DataFrame(data_num_enteros)

## Selección de columnas

In [None]:
print("Columna 'col1' con Pandas:\n", df_pd['col1'])
print("Columna 'col1' con Polars:\n", df_pl['col1'])

# Seleccionar múltiples columnas
print("Selección de columnas con Pandas:\n", df_pd[['col1', 'col2']])
print("Selección de columnas con Polars:\n", df_pl['col1', 'col2'])

'''
En Polars se utiliza una sintaxis diferente para seleccionar múltiples columnas, sin necesidad de 
utilizar una lista de nombres de columna dentro de una lista.
'''

## FIltrado de columnas

In [None]:
print("Filtrado con Pandas:\n", df_pd[df_pd['col1'] > 2])
print("Filtrado con Polars:\n", df_pl[df_pl['col1'] > 2])

## Operación entre una columna numérica y una categórica

In [None]:
print("Suma con Pandas:\n", df_pd['col1'] + df_pd['col2'])
print("Suma con Polars:\n", df_pl['col1'] + df_pl['col2'])

''' 
En este caso, Pandas genera un error porque no se pueden sumar una columna numérica y una categórica, 
mientras que Polars simplemente cambia el tipo de dato de la columna categórica a numérica y suma los valores.
'''

## Aplicación de funciones a una columna y la agrupación y agregación de datos en pandas y polars.

In [None]:
df_pandas_filtered = df_pd_num_enteros[(df_pd_num_enteros['a'] > 1) & (df_pd_num_enteros['b'] == 6)][['a', 'b']]
df_polars_filtered = df_pd_num_enteros.filter(pl.col('a') > 1).filter(pl.col('b') == 6)[['a', 'b']]

# Operaciones entre columnas
df_pd_num_enteros['c'] = df_pd_num_enteros['a'] + df_pd_num_enteros['b'] * 2
df_pl_num_enteros = df_pl_num_enteros.with_column(pl.col('a') + pl.col('b') * 2, 'c')

# Aplicación de funciones a una columna
df_pd_num_enteros['d'] = df_pd_num_enteros['b'].apply(lambda x: np.sqrt(x))
df_pl_num_enteros = df_pl_num_enteros.with_column(pl.sqrt(pl.col('b')), 'd')

# Agrupación y agregación
df_pd_num_enteros_grouped = df_pd_num_enteros.groupby('a').agg({'b': 'sum'})
df_pl_num_enteros_grouped = df_pl_num_enteros.groupby('a').agg(pl.sum('b'))

## Operaciones con columnas nulas

In [None]:
datos_con_nulos = {'col1': [1, 2, 3, None, 5],
        'col2': [6, 7, None, 9, 10]}

# Crear un DataFrame con Pandas
df_pd_con_nulos = pd.DataFrame(datos_con_nulos)

# Crear un DataFrame con Polars
df_pl_con_nulos = pl.DataFrame(datos_con_nulos)

# Sumar columnas con valores nulos
print("Suma con Pandas:\n", df_pd_con_nulos['col1'] + df_pd_con_nulos['col2'])
print("Suma con Polars:\n", df_pl_con_nulos['col1'] + df_pl_con_nulos['col2'])

'''
En este caso, Polars maneja los valores nulos de manera más eficiente que Pandas. Mientras que Pandas genera 
un resultado nulo en la posición donde hay un valor nulo en alguna de las columnas, Polars simplemente omite 
esa posición en el resultado.
'''

## Manipulación de datos con valores nulos

In [None]:
# Verificar valores nulos
print("Valores nulos en Pandas:\n", df_pd_con_nulos.isnull())
print("Valores nulos en Polars:\n", df_pl_con_nulos.is_null())

'''
Polars utiliza un tipo de datos especial llamado NullValue, que se utiliza para representar valores nulos en una columna. 
Además, Polars proporciona funciones especiales para trabajar con valores nulos, como is_null(), is_not_null(), fillna(), 
'''

In [None]:
# Crear un DataFrame de prueba con 10 millones de filas y 10 columnas
df_pd = pd.DataFrame({'col{}'.format(i): range(10000000) for i in range(10)})
df_pl = pl.DataFrame(df_pd)

In [None]:
# Realizar una operación simple de suma de columna y medir el tiempo de ejecución
start_time = time.time()
sum_pd = df_pd['col0'].sum()
end_time = time.time()
print('Tiempo de ejecución de Pandas:', end_time - start_time)

start_time = time.time()
sum_pl = df_pl['col0'].sum()
end_time = time.time()
print('Tiempo de ejecución de Polars:', end_time - start_time)

In [None]:
# Realizar una operación simple de suma de columna en paralelo
start_time = time.time()
sum_pd = df_pd['col0'].apply(lambda x: x**2).sum()
end_time = time.time()
print('Tiempo de ejecución de Pandas:', end_time - start_time)

start_time = time.time()
sum_pl = df_pl['col0'].map(lambda x: x**2).sum()
end_time = time.time()
print('Tiempo de ejecución de Polars:', end_time - start_time)

Fin hola