## «*Quien se empeña en darle una pedrada a la Luna no lo conseguirá, pero terminará sabiendo manejar la honda.*»
### Provervio árabe

# Taller 16 Polars
En este taller aprenderá los conceptos básicos de la librería Polars.

Polars **no es una librería nativa** de Python por lo que **requiere ser instalada antes de ser invocada**.

Puede consultar más información en: [Polars](https://www.pola.rs/).

## Características principales de Polars

Polars es una librería muy parecida a Pandas, su propósito es aumentar la velocidad de procesamiento de grandes conjuntos de datos.

Polars utiliza los mismos conceptos de Series y DataFrame que utiliza Pandas.

La principal diferencia entre Polars y Pandas es que Polars no utiliza índices, sino que cada fila es indexada con el entero correspondiente a su posición en el DataFrame.

Los valores faltantes se representan con **null** en Polars, mientras que en Pandas se uiliza **NaN**.

# Referencias
Este taller se basa en información e ideas recopiladas de las siguientes fuentes:

* [Polars API Reference](https://pola-rs.github.io/polars/py-polars/html/reference/)
* [Polars User Guide](https://pola-rs.github.io/polars-book/user-guide/introduction.html)
* [Polars GitHub](https://github.com/pola-rs/polars)
* [Alternatives to Pandas: Python Polars](https://codesolid.com/alternatives-to-pandas-python-polars/)
* [Pandas vs. Polars: A Syntax and Speed Comparison](https://towardsdatascience.com/pandas-vs-polars-a-syntax-and-speed-comparison-5aa54e27497e#:~:text=The%20main%20advantage%20of%20Polars,switch%20from%20Pandas%20to%20Polars.)
* [Replacing Pandas with Polars. A Practical Guide.](https://www.confessionsofadataguy.com/replacing-pandas-with-polars-a-practical-guide/)
* [Pandas vs. Polars códigos](https://www.kaggle.com/code/iamleonie/pandas-vs-polars)
* [Using the Polars DataFrame Library](https://www.codemag.com/Article/2212051/Using-the-Polars-DataFrame-Library)
* [Polars vs Pandas : A new era for Python DataFrames](https://www.sicara.fr/blog-technique/polars-vs-pandas)
* [Polars vs. Pandas: Polars DataFrame Tutorial](https://lazyprogrammer.me/polars-vs-pandas-polars-dataframe-tutorial/)

# Instalar Polars

Polars no es una librería nativa de Python por lo que **requiere ser instalada antes de ser invocada**.


In [None]:
# Instalar Polars
!pip install polars

# Importar la librería requerida
import polars as pl

# Verificar la versión instalada
print("La versión instalada de Polars es: ", pl.__version__)

La versión instalada de Polars es:  0.17.3


# Habilitar el acceso a los archivos del Drive

In [None]:
# Habilitar el acceso a los archivos del Drive
import google.colab as gc
gc.drive.mount('/content/drive')

# Crear un DataFrame de Polars desde NumPy

In [None]:
# Importar las librerías requeridas
import numpy as np
import polars as pl

# Crear un arreglo de NumPy
arreglo_np_0 = np.arange(1, 41).reshape(8, 5)

# Crear un DataFrame de Polars
df_polar_0 = pl.DataFrame(arreglo_np_0)

# Mostrar el DataFrame de Polars
print("DataFrame de Polars creado a partir de arreglo de NumPy: ", df_polar_0)

# Crear un DataFrame de Polars desde un diccionario

In [None]:
# Importar las librerías necesarias
import numpy as np
import pandas as pd
import polars as pl

# Crear un DataFrame a partir de un diccionario
# las claves del diccionario se convierten en las etiquetas de las columnas del DataFrame
df_pl_dict = pl.DataFrame(
    {'codigo' : np.random.randn(10),
     'fecha' : pd.date_range('20230410', periods=10, freq='D'),
     'nota' : pd.Series([1, 1, 5, 3, 2, 3, 1, 4, 3, 5], dtype ='float32'),
     'intento' : np.array([3,2] * 5),
     'comentario' : 'Texto' })
print(f"DataFrame creado a partir de un diccionario:\n {df_pl_dict}")

# Leer el archivo desde una url


Ejemplo tomado de: [Lionel Messi | All Club Goals](https://www.kaggle.com/datasets/azminetoushikwasi/-lionel-messi-all-club-goals)

In [None]:
# Importar las librerías requeridas
import polars as pl

# Establecer la ubicación del archivo en el Drive
ruta = "https://raw.githubusercontent.com/azminewasi/Lionel-Messi-Club-Goals/main/data.csv"

# Cargar el archivo
messi_df = pl.read_csv(ruta, separator=',')

# Verificar la lectura del archivo
print(messi_df)

# Otro ensayo desde otra url

In [None]:
# Importar las librerías requeridas
import polars as pl

# Establecer la ubicación del archivo en el Drive
ruta = "https://docs.google.com/spreadsheets/d/e/2PACX-1vQ3ZylJpgq_83sdqJcRTV1ci1RYBkfuL7yjqlNl8-Yj1oYUS8GNZxghZ0pPRL5nf9ZeGmyr9lBlfbVR/pub?output=csv"

# Cargar el archivo
casas_usadas_df_pl = pl.read_csv(ruta, separator=',')

# Verificar la lectura del archivo
print(casas_usadas_df_pl)

# Leer el archivo desde el drive

In [None]:
# Importar las librerías requeridas
import polars as pl

# Establecer la ubicación del archivo en el Drive
ruta = "/content/drive/MyDrive/Colab Notebooks/Programación/Archivos_datos/saber11_20162.csv"

# Cargar el archivo
saber_2016_df_pl = pl.read_csv(ruta, separator=';')

# Verificar la lectura del archivo
print(saber_2016_df_pl)

# Características básicas del DataFrame

In [None]:
# Mostrar la forma del DataFrame
print("La forma del DataFrame es: ", saber_2016_df_pl.shape, "\n")


# Mostrar las características de las columnas
print("Características de las columnas del DataFrame", saber_2016_df_pl.dtypes, "\n")

# Mostrar el contenido del DataFrame
print("Contenido del DataFrame", saber_2016_df_pl.describe, "\n")

# Mostrar el nombre de las columnas
print("Nombres de las columnas del DataFrame", saber_2016_df_pl.columns, "\n")

# Mostrar las primeras tres filas del DataFrame
print("Primeras tres filas del DataFrame", saber_2016_df_pl.head(3), "\n")

# Mostrar las últimas tres filas del DataFrame
print("Últimas tres filas del DataFrame", saber_2016_df_pl.tail(3), "\n")

# identificar valores únicos por columna
print("Nombres únicos por columna:", saber_2016_df_pl['NOMBREMUNICIPIO'].unique(), sep = "\n")

# Modificar las características del DataFrame


In [None]:
# Cambiar el nombre de las columnas
saber_2016_df_pl_0 = saber_2016_df_pl.rename({"CODINST": "Código", "NOMBREINSTITUCION": "Institución"})

# Mostrar el nombre de las columnas modificadas del DataFrame modificado
print("Nombres de las columnas del DataFrame modificado: ", saber_2016_df_pl_0.columns, "\n")

# Seleccionar tres columnas del DataFrame
saber_2016_df_pl_1 = saber_2016_df_pl.select(pl.col(['CODIGOMUNICIPIO',
                                                     'NOMBREMUNICIPIO',
                                                     'DEPARTAMENTO']))
print("DataFrame con tres columnas:", saber_2016_df_pl_1, "\n")

# Seleccionar un contenido específico del DataFrame
saber_2016_df_pl_2 = saber_2016_df_pl.select(['NOMBREINSTITUCION',
                                              'CODIGOMUNICIPIO',
                                              'NOMBREMUNICIPIO',
                                              'EVALUADOS']).filter(
                                                  pl.col('EVALUADOS') > 200)
print("Instituciones por municipio con más de 200 estudiantes evaluados", saber_2016_df_pl_2, "\n")

# Agregar una columna
df_polar_1 = df_polar_0.with_columns([(pl.col("column_4") * 5).alias("Nueva")])
print("DataFrame con una columna adicional: ", df_polar_1, "\n")

# Agregar tres columnas
df_polar_2 = df_polar_0.with_columns([(pl.col("column_0") * 1).alias("Nueva_0"),
                                      (pl.col("column_1") * 2).alias("Nueva_1"),
                                      (pl.col("column_2") * 3).alias("Nueva_2")])
print("DataFrame con tres columnas adicionales: ", df_polar_2, "\n")

# Resumir la información del DataFrame por grupos

In [None]:
# Resumir por grupos

# Contar la cantidad de establecimientos por municipio
saber_2016_df_pl_4 = saber_2016_df_pl.groupby(pl.col("NOMBREMUNICIPIO")).agg(pl.count())
print("La cantidad de municipios es: ", len(saber_2016_df_pl_4), "\n")
print("La cantidad de establecimientos por municipios es: ", saber_2016_df_pl_4, "\n")

# Promedios de evaluados por municipio
saber_2016_df_pl_5 = saber_2016_df_pl.groupby('NOMBREMUNICIPIO').agg(
    [pl.col('EVALUADOS').mean()])
print("El promedio de evaluados por municipios es: ", saber_2016_df_pl_5, "\n")

# Eager vs. Lazy

Polars tiene dos APIs diferentes: **eager** and **lazy**.

La ejecución **eager** es similar a Pandas (el código se corre directamente y los resultados se calculan de inmediato).

La ejecución **lazy** no se ejecuta hasta que se necesiten los resultados. Dado que se evita ejecutar código de manera innecesaria, puede ser más eficiente que la ejecución **eager**.

La ejecución lazy requiere el método **.lazy()** al inicio, seguido del código que se quiere ejecutar. Para mostrar los resultados se debe escribir al final el método **.collect()**.

In [None]:
# Método lazy sin collect
df_pl_dict.lazy().with_columns([(pl.col("nota") * 10).alias("nota_2")])

In [None]:
# Metodo lazy con método collect
df_pl_dict.lazy().with_columns([(pl.col("nota") * 10).alias("nota_2")]).collect()

# Aplicaciones

# Medir el tiempo de ejecución



In [None]:
# Importar la librería requerida
import time as tm

# Establecer el tiempo inicial de ejecución
ini_tiempo = tm.time()

# Ejemplo de código al que se le va a medir el tiempo de ejecución
factorial = 1
for i in range(1,100):
  factorial *= i
print("factorial: ", factorial)

# Establecer el tiempo final de ejecución
fin_tiempo = tm.time()

# Calcular el tiempo de ejecución
duracion = fin_tiempo - ini_tiempo

# Mostrar resultados
print(f"El código se empezó a ejecutar a las {ini_tiempo} y terminó de ejecutar"
      f"a las {fin_tiempo}. \nLa duración de la ejecución fue de {duracion}.")

# Ejercicios
Resuelva los siguientes ejercicios según lo solicitado en cada casillas. Los códigos deben cumplir con las normas de estilo del PEP8.

Cada ejercicio se compone de **tres partes**: código en Polars, código en Pandas, diferencia entre los tiempos de ejecución de Polars y Pandas.

## 00.
Utilizando NumPy cree un DataFrame con 100 filas y cuatro columnas. La primera columna debe tener números aleatorios entre cero y uno. La segunda columna debe tener números aleatorios enteros entre 1 y 100. La tercera columna debe contener números enteros en el rango 1 a 500 generados con la función **arange(**). La cuarta columna debe contener ceros y unos generados de forma aleatoria. Muestre las características del DataFrame.

In [2]:
import numpy as np
import polars as pl
import time as tm


def print_polars_features(polars_dataframe):
    """
    Imprime diversas características de un DataFrame de Polars.

    Parameters:
        polars_dataframe (pl.DataFrame): El DataFrame de Polars a analizar.

    Prints:
        - La forma (número de filas y columnas) del DataFrame.
        - Las características de las columnas del DataFrame.
        - El contenido del DataFrame.
        - Los nombres de las columnas del DataFrame.
    """

    # Se muestra la forma del DataFrame
    print("La forma del DataFrame es: ", polars_dataframe.shape, "\n")

    # Se muestra las características de las columnas
    print("Características de las columnas del DataFrame:\n",
          polars_dataframe.dtypes, "\n")

    # Se muestra el contenido del DataFrame
    print("Contenido del DataFrame:\n", polars_dataframe.describe, "\n")

    # Se muestra el nombre de las columnas
    print("Nombres de las columnas del DataFrame:\n",
          polars_dataframe.columns, "\n")


# Se establece el tiempo inicial de ejecución.
po_i_time_00 = tm.time()

# Se genera una columa con números aleatorios entre cero y uno.
po_columna1_00 = np.random.rand(100)

# Se genera una columna con números aleatorios entre 1 y 100.
po_columna2_00 = np.random.randint(1, 101, 100)

# Se genera una columna con números enteros en el rango 1 a 500\
# con la función arange().
po_columna3_00 = np.random.choice(
    np.arange(1, 501), 100, replace=False
    )

# Se genera una columna de 0 y 1 aleatorios.
po_columna4_00 = np.random.randint(0, 2, 100)

# Se genera el arreglo con numpy.
po_array_00 = np.column_stack((
    po_columna1_00,
    po_columna2_00,
    po_columna3_00,
    po_columna4_00
))

# Se genera el dataframe con polars.
po_dtframe_00 = pl.DataFrame(po_array_00)

# Se imprimen las características del dataframe.
print_polars_features(po_dtframe_00)

# Se establece el tiempo final de ejecución.
po_f_time_00 = tm.time()


La forma del DataFrame es:  (100, 4) 

Características de las columnas del DataFrame:
 [Float64, Float64, Float64, Float64] 

Contenido del DataFrame:
 <bound method DataFrame.describe of shape: (100, 4)
┌──────────┬──────────┬──────────┬──────────┐
│ column_0 ┆ column_1 ┆ column_2 ┆ column_3 │
│ ---      ┆ ---      ┆ ---      ┆ ---      │
│ f64      ┆ f64      ┆ f64      ┆ f64      │
╞══════════╪══════════╪══════════╪══════════╡
│ 0.926789 ┆ 14.0     ┆ 361.0    ┆ 0.0      │
│ 0.778683 ┆ 24.0     ┆ 280.0    ┆ 0.0      │
│ 0.280943 ┆ 12.0     ┆ 323.0    ┆ 1.0      │
│ 0.016741 ┆ 69.0     ┆ 345.0    ┆ 1.0      │
│ …        ┆ …        ┆ …        ┆ …        │
│ 0.61749  ┆ 94.0     ┆ 45.0     ┆ 1.0      │
│ 0.761862 ┆ 30.0     ┆ 92.0     ┆ 1.0      │
│ 0.317156 ┆ 21.0     ┆ 156.0    ┆ 1.0      │
│ 0.32236  ┆ 8.0      ┆ 272.0    ┆ 1.0      │
└──────────┴──────────┴──────────┴──────────┘> 

Nombres de las columnas del DataFrame:
 ['column_0', 'column_1', 'column_2', 'column_3'] 



In [3]:
import numpy as np
import pandas as pd
import time as tm


def print_pandas_features(pandas_dataframe):
    """
    Imprime diversas características de un DataFrame de Pandas.

    Parameters:
        pandas_dataframe (pd.DataFrame): El DataFrame de Pandas a analizar.

    Prints:
        - La forma (número de filas y columnas) del DataFrame.
        - Las características de las columnas del DataFrame.
        - El resumen estadístico del contenido del DataFrame.
        - Los nombres de las columnas del DataFrame.
    """

    # Se muestra la forma del DataFrame
    print("La forma del DataFrame es:\n", pandas_dataframe.shape, "\n")

    # Se muestra las características de las columnas
    print("Características de las columnas del DataFrame:\n",
          pandas_dataframe.dtypes, "\n")

    # Se muestra el contenido del DataFrame
    print("Contenido del DataFrame:\n", pandas_dataframe, "\n")

    # Se muestra el nombre de las columnas
    print("Nombres de las columnas del DataFrame:\n",
          pandas_dataframe.columns, "\n")


# Se establece el tiempo inicial de ejecución.
pa_i_time_00 = tm.time()

# Se genera una columa con números aleatorios entre cero y uno.
pa_columna1_00 = np.random.rand(100)

# Se genera una columna con números aleatorios entre 1 y 100.
pa_columna2_00 = np.random.randint(1, 101, 100)

# Se genera una columna con números enteros en el rango 1 a 500\
# con la función arange().
pa_columna3_00 = np.random.choice(
    np.arange(1, 501), 100, replace=False
    )

# Se genera una columna de 0 y 1 aleatorios.
pa_columna4_00 = np.random.randint(0, 2, 100)

# Se genera el arreglo con numpy.
pa_array_00 = np.column_stack((
    pa_columna1_00,
    pa_columna2_00,
    pa_columna3_00,
    pa_columna4_00
))

# Se genera el dataframe con pandas.
pa_dtframe_00 = pd.DataFrame(
    pa_array_00,
    columns=['column_0', 'column_1', 'column_2', 'column_3']
    )

# Se imprimen las características del dataframe.
print_pandas_features(pa_dtframe_00)

# Se establece el tiempo final de ejecución.
pa_f_time_00 = tm.time()


La forma del DataFrame es:
 (100, 4) 

Características de las columnas del DataFrame:
 column_0    float64
column_1    float64
column_2    float64
column_3    float64
dtype: object 

Contenido del DataFrame:
     column_0  column_1  column_2  column_3
0   0.093948      64.0     490.0       0.0
1   0.883011      31.0      77.0       0.0
2   0.373039      36.0     425.0       0.0
3   0.679631      39.0     113.0       1.0
4   0.103216      78.0     335.0       0.0
..       ...       ...       ...       ...
95  0.814791      46.0     491.0       1.0
96  0.175676      15.0      78.0       0.0
97  0.630146      49.0     337.0       0.0
98  0.978493      81.0     398.0       0.0
99  0.135787      92.0     388.0       1.0

[100 rows x 4 columns] 

Nombres de las columnas del DataFrame:
 Index(['column_0', 'column_1', 'column_2', 'column_3'], dtype='object') 



In [4]:
def calculate_performance(polaris_times, pandas_times) -> None:
    """
    Calcula y compara el desempeño entre las librerías Polars y Pandas.

    Parameters:
        polaris_times (list): Lista con dos elementos de tiempo para Polars.
        pandas_times (list): Lista con dos elementos de tiempo para Pandas.

    Prints:
        - La duración de Polars y Pandas.
        - La conclusión sobre cuál librería tuvo mejor desempeño.
    """

    # Se calculan las duraciones
    polars_duration = polaris_times[0] - polaris_times[1]
    pandas_duration = pandas_times[0] - pandas_times[1]

    # Se impimen las duraciones de las librerías.
    print("La duración de polars fué:", polars_duration)
    print("La duración de pandas fué:", pandas_duration)

    # Se determina cuál librería tuvo mejor desempeño.
    if polars_duration < pandas_duration:
        print('La librería polars obtuvo un mejor desempeño.')
    elif pandas_duration < polars_duration:
        print('La librería pandas obtuvo un mejor desempeño.')
    else:
        print('Ambas librerías tuvieron el mismo desempeño.')


# Se calcula el rendimiento de las librerías.
calculate_performance(
    [po_f_time_00, po_i_time_00],
    [pa_f_time_00, pa_i_time_00]
)


La duración de polars fué: 0.04329705238342285
La duración de pandas fué: 0.022140026092529297
La librería pandas obtuvo un mejor desempeño.


## 01.
Agregue una columna, con números aleatorios racionales entre 13 y 14, al DataFrame generado en el ejercicio anterior. Muestre las características del DataFrame.

In [None]:
import numpy as np
import polars as pl
import time as tm

# Se establece el tiempo inicial de ejecución.
po_i_time_01 = tm.time()

# Se crea una copia del dataframe.
po_dtframe_01 = po_dtframe_00.clone()

# Se genera la nueva columna.
po_newcolumn_01 = pl.DataFrame({
    'NuevaColumna': np.random.uniform(13, 14, 100)
    })['NuevaColumna']


# Se agrega la nueva columna.
po_dtframe_01 = po_dtframe_01.with_columns(po_newcolumn_01)

# Se imprimen las características del dataframe.
print_polars_features(po_dtframe_01)

# Se establece el tiempo final de ejecución.
po_f_time_01 = tm.time()


In [None]:
import numpy as np
import pandas as pd
import time as tm

# Se establece el tiempo inicial de ejecución.
pa_i_time_01 = tm.time()

# Se crea una copia del dataframe.
pa_dtframe_01 = pa_dtframe_00.copy()

# Se genera la nueva columna.
pa_newcolumn_01 = np.random.uniform(13, 14, 100)

# Se agrega la nueva columna.
pa_dtframe_01['NuevaColumna'] = pa_newcolumn_01

# Se imprimen las características del dataframe.
print_pandas_features(pa_dtframe_01)

# Se establece el tiempo final de ejecución.
pa_f_time_01 = tm.time()


In [None]:
# Se calcula el rendimiento de las librerías.
calculate_performance(
    [po_f_time_01, po_i_time_01],
    [pa_f_time_01, pa_i_time_01],
)


## 02.
Cambie los nombres de las columnas del DataFrame modificado en el ejercicio anterior a Primera, Segunda, Tercera, Cuarta y Quinta. Muestre las características del DataFrame.

In [None]:
import numpy as np
import polars as pl
import time as tm

# Se establece el tiempo inicial de ejecución.
po_i_time_02 = tm.time()

# Se crea una copia del dataframe.
po_dtframe_02 = po_dtframe_01.clone()

# Se cambian los nombres de las columnas
po_dtframe_02 = po_dtframe_02.rename({
    "column_0": "Primera",
    "column_1": "Segunda",
    "column_2": "Tercera",
    "column_3": "Cuarta",
    "NuevaColumna": "Quinta"
    })

# Se imprimen las características del dataframe.
print_polars_features(po_dtframe_02)

# Se establece el tiempo final de ejecución.
po_f_time_02 = tm.time()


In [None]:
import numpy as np
import pandas as pd
import time as tm

# Se establece el tiempo inicial de ejecución.
pa_i_time_02 = tm.time()

# Se crea una copia del dataframe.
pa_dtframe_02 = pa_dtframe_01.copy()

# Se cambian los nombres de las columnas
pa_dtframe_02.columns = [
    'Primera', 'Segunda', 'Tercera', 'Cuarta', 'Quinta'
]

# Se imprimen las características del dataframe.
print_pandas_features(pa_dtframe_02)

# Se establece el tiempo final de ejecución.
pa_f_time_02 = tm.time()


In [None]:
# Se calcula el rendimiento de las librerías.
calculate_performance(
    [po_f_time_02, po_i_time_02],
    [pa_f_time_02, pa_i_time_02],
)


## 03.
A partir del DataFrame modificado en el ejercicio anterior genere un nuevo DataFrame de cinco columnas en el que todos los valores de la primera columna estén entre 0.25 y 0.75 (ambos extremos excluidos). Muestre las características del DataFrame.

In [None]:
import numpy as np
import polars as pl
import time as tm

# Se establece el tiempo inicial de ejecución.
po_i_time_03 = tm.time()

# Se crea una copia del dataframe.
po_dtframe_03 = po_dtframe_02.clone()

# Se filtran las tuplas que cumplan con las condiciones\
# requeridas.
po_dtframe_03 = po_dtframe_03.filter(
    (po_dtframe_03['Primera'] >= 0.25) &
    (po_dtframe_03['Primera'] <= 0.75))

# Se imprimen las características del dataframe.
print_polars_features(po_dtframe_03)

# Se establece el tiempo final de ejecución.
po_f_time_03 = tm.time()


In [None]:
import numpy as np
import pandas as pd
import time as tm

# Se establece el tiempo inicial de ejecución.
pa_i_time_03 = tm.time()

# Se crea una copia del dataframe.
pa_dtframe_03 = pa_dtframe_02.copy()

# Se filtran las tuplas que cumplan con las condiciones\
# requeridas.
pa_dtframe_03 = pa_dtframe_03.loc[
    (pa_dtframe_03['Primera'] >= 0.25) &
    (pa_dtframe_03['Primera'] <= 0.75)]

# Se imprimen las características del dataframe.
print_pandas_features(pa_dtframe_03)

# Se establece el tiempo final de ejecución.
pa_f_time_03 = tm.time()


In [None]:
# Se calcula el rendimiento de las librerías.
calculate_performance(
    [po_f_time_03, po_i_time_03],
    [pa_f_time_03, pa_i_time_03],
)


## 04.
A partir del DataFrame modificado en el ejercicio anterior calcule el promedio de los valores de la tercera columna que corresponden a un valor de 1 en la cuarta columna. Muestre el resultado.

In [None]:
import numpy as np
import polars as pl
import time as tm

# Se establece el tiempo inicial de ejecución.
po_i_time_04 = tm.time()

# Se crea una copia del dataframe.
po_dtframe_04 = po_dtframe_03.clone()

# Se filtran las tuplas que cumplan con las condiciones\
# requeridas.
po_dtframe_04 = po_dtframe_04.filter(po_dtframe_04['Cuarta'] == 1)

# Se calcula el promedio.
po_average_04 = po_dtframe_04['Tercera'].mean()

# Se imprime el promedio.
print('El promedio de la tercera columna es:', po_average_04)

# Se establece el tiempo final de ejecución.
po_f_time_04 = tm.time()


In [None]:
import numpy as np
import pandas as pd
import time as tm

# Se establece el tiempo inicial de ejecución.
pa_i_time_04 = tm.time()

# Se crea una copia del dataframe.
pa_dtframe_04 = pa_dtframe_03.copy()

# Se filtran las tuplas que cumplan con las condiciones\
# requeridas.
pa_dtframe_04 = pa_dtframe_04.loc[pa_dtframe_03['Cuarta'] == 1]

# Se calcula el promedio.
pa_dtframe_04 = pa_dtframe_04['Tercera'].mean()

# Se imprime el promedio.
print('El promedio de la tercera columna es:', pa_dtframe_04)

# Se establece el tiempo final de ejecución.
pa_f_time_04 = tm.time()


In [None]:
# Se calcula el rendimiento de las librerías.
calculate_performance(
    [po_f_time_04, po_i_time_04],
    [pa_f_time_04, pa_i_time_04],
)


# Exportaciones agrícolas no tradicionales y tradicionales
Para los ejercicios 05 a 09 utilice los datos de [Exportaciones agrícolas no tradicionales y tradicionales](https://www.datos.gov.co/Agricultura-y-Desarrollo-Rural/Exportaciones-agr-colas-no-tradicionales-y-tradici/h7mi-sbxb)

Lea el archivo desde el siguiente enlace:

https://docs.google.com/spreadsheets/d/e/2PACX-1vReTcFIzhR6gH1R09L4HrhSpgnu01t6k4WaHpGQwxiERYp5DJXeesM__JZ5bKlMkDS6oUb-9dNE32yQ/pub?output=csv

## 05.
Lea el archivo, genere un DataFrame y muestre las características del DataFrame.

In [5]:
import numpy as np
import polars as pl
import time as tm

# Se establece el tiempo inicial de ejecución.
po_i_time_05 = tm.time()

# Se establece la ruta del dataframe.
po_ruta_05 = ('https://docs.google.com/spreadsheets/d/e/'
              '2PACX-1vReTcFIzhR6gH1R09L4HrhSpgnu01t6k4W'
              'aHpGQwxiERYp5DJXeesM__JZ5bKlMkDS6oUb-9dNE'
              '32yQ/pub?output=csv')

# Se lee el dataframe.
po_dtframe_05 = pl.read_csv(po_ruta_05, separator=',')

# Se cambia el tipo de las columnas.
po_dtframe_05 = po_dtframe_05.with_columns(
    pl.col(
        'Exportaciones en valor (Miles USD FOB)'
    ).str.replace(',', '.').cast(pl.Float64)
)
po_dtframe_05 = po_dtframe_05.with_columns(
    pl.col(
        'Exportaciones en volumen (toneladas)'
        ).str.replace(',', '.').cast(pl.Float64)
)

# Se imprimen las características del dataframe.
print_polars_features(po_dtframe_05)

# Se establece el tiempo final de ejecución.
po_f_time_05 = tm.time()


La forma del DataFrame es:  (1332, 9) 

Características de las columnas del DataFrame:
 [Utf8, Utf8, Utf8, Utf8, Utf8, Utf8, Utf8, Float64, Float64] 

Contenido del DataFrame:
 <bound method DataFrame.describe of shape: (1_332, 9)
┌───────┬──────────┬────────────┬────────────┬───┬──────────┬────────────┬────────────┬────────────┐
│ Año   ┆ Mes      ┆ Departamen ┆ Producto   ┆ … ┆ Partida  ┆ Descripcio ┆ Exportacio ┆ Exportacio │
│ ---   ┆ ---      ┆ to         ┆ General    ┆   ┆ ---      ┆ n          ┆ nes en     ┆ nes en     │
│ str   ┆ str      ┆ ---        ┆ ---        ┆   ┆ str      ┆ Partida10  ┆ valor      ┆ volumen    │
│       ┆          ┆ str        ┆ str        ┆   ┆          ┆ Digitos    ┆ (Miles US… ┆ (tonela…   │
│       ┆          ┆            ┆            ┆   ┆          ┆ ---        ┆ ---        ┆ ---        │
│       ┆          ┆            ┆            ┆   ┆          ┆ str        ┆ f64        ┆ f64        │
╞═══════╪══════════╪════════════╪════════════╪═══╪══════════╪═

In [6]:
import numpy as np
import pandas as pd
import time as tm

# Se establece el tiempo inicial de ejecución.
pa_i_time_05 = tm.time()

# Se establece la ruta del dataframe.
pa_ruta_05 = ('https://docs.google.com/spreadsheets/d/e/'
              '2PACX-1vReTcFIzhR6gH1R09L4HrhSpgnu01t6k4W'
              'aHpGQwxiERYp5DJXeesM__JZ5bKlMkDS6oUb-9dNE'
              '32yQ/pub?output=csv')

# Se crea una copia del dataframe.
pa_dtframe_05 = pd.read_csv(pa_ruta_05, sep=',')

# Se cambia el tipo de las columnas.
pa_c105 = 'Exportaciones en valor (Miles USD FOB)'
pa_c205 = 'Exportaciones en volumen (toneladas)'
pa_dtframe_05[pa_c105] = pa_dtframe_05[pa_c105].str.replace(
    ',', '.').astype('float64')
pa_dtframe_05[pa_c205] = pa_dtframe_05[pa_c205].str.replace(
    ',', '.').astype('float64')

# Se imprimen las características del dataframe.
print_pandas_features(pa_dtframe_05)

# Se establece el tiempo final de ejecución.
pa_f_time_05 = tm.time()


La forma del DataFrame es:
 (1332, 9) 

Características de las columnas del DataFrame:
 Año                                        object
Mes                                        object
Departamento                               object
Producto General                           object
Descripcion Partida 4 Digitos              object
Partida                                    object
Descripcion Partida10 Digitos              object
Exportaciones en valor (Miles USD FOB)    float64
Exportaciones en volumen (toneladas)      float64
dtype: object 

Contenido del DataFrame:
         Año         Mes     Departamento  \
0     2,022  Septiembre        Antioquia   
1     2,022  Septiembre        Antioquia   
2     2,022  Septiembre        Antioquia   
3     2,022  Septiembre        Antioquia   
4     2,022  Septiembre        Antioquia   
...     ...         ...              ...   
1327  2,022  Septiembre  Valle del Cauca   
1328  2,022  Septiembre  Valle del Cauca   
1329  2,022  Septiembre 

In [None]:
# Se calcula el rendimiento de las librerías.
calculate_performance(
    [po_f_time_05, po_i_time_05],
    [pa_f_time_05, pa_i_time_05],
)


## 06.
Calcule las exportaciones en valor (miles US FOB) y en volumen (toneladas) por departamento. Muestre los resultados.

In [7]:
import numpy as np
import polars as pl
import time as tm

# Se establece el tiempo inicial de ejecución.
po_i_time_06 = tm.time()

# Se crea una copia del dataframe.
po_dtframe_06 = po_dtframe_05.clone()

# Se calculan los datos agrupados.
po_dtframe_06_group = po_dtframe_06.groupby('Departamento').agg(
    pl.sum('Exportaciones en valor (Miles USD FOB)'),
    pl.sum('Exportaciones en volumen (toneladas)'),
    )

# Se imprimen los resultados.
print("El total de exportaciones es:\n", po_dtframe_06_group)

# Se establece el tiempo final de ejecución.
po_f_time_06 = tm.time()


El total de exportaciones es:
 shape: (22, 3)
┌────────────────────┬───────────────────────────────────┬───────────────────────────────────┐
│ Departamento       ┆ Exportaciones en valor (Miles US… ┆ Exportaciones en volumen (tonela… │
│ ---                ┆ ---                               ┆ ---                               │
│ str                ┆ f64                               ┆ f64                               │
╞════════════════════╪═══════════════════════════════════╪═══════════════════════════════════╡
│ Norte de Santander ┆ 2739.426                          ┆ 1941.0                            │
│ Nariño             ┆ 785.292                           ┆ 1043.412                          │
│ Tolima             ┆ 1208.401                          ┆ 503.0                             │
│ Huila              ┆ 3699.69                           ┆ 1745.395                          │
│ …                  ┆ …                                 ┆ …                                 │
│ Ma

In [None]:
import numpy as np
import pandas as pd
import time as tm

# Se establece el tiempo inicial de ejecución.
pa_i_time_06 = tm.time()

# Se crea una copia del dataframe.
pa_dtframe_06 = pa_dtframe_05.copy()

# Se calculan los datos agrupados.
pa_dtframe_06_group = pa_dtframe_06.groupby('Departamento').agg({
    'Exportaciones en valor (Miles USD FOB)': 'sum',
    'Exportaciones en volumen (toneladas)': 'sum'
})

# Se imprimen los resultados.
print("El total de exportaciones es:\n", pa_dtframe_06_group)

# Se establece el tiempo final de ejecución.
pa_f_time_06 = tm.time()


In [None]:
# Se calcula el rendimiento de las librerías.
calculate_performance(
    [po_f_time_06, po_i_time_06],
    [pa_f_time_06, pa_i_time_06],
)


## 07.
Genere un DataFrame con las exportaciones en valor (miles US FOB) y en volumen (toneladas) para los productos que en la columna 'Producto general' estén clasificados como 'Cacao'. Muestre las características del DataFrame.

In [None]:
import numpy as np
import polars as pl
import time as tm

# Se establece el tiempo inicial de ejecución.
po_i_time_07 = tm.time()

# Se crea una copia del dataframe.
po_dtframe_07 = po_dtframe_05.clone()

# Se filtran las tuplas que cumplan con las condiciones\
# requeridas.
po_dtframe_07 = po_dtframe_07.filter(
    po_dtframe_07['Producto General'] == 'Cacao'
    )

# Se genera el dataframe solicitado
po_dtframe_07 = po_dtframe_07[[
    'Exportaciones en valor (Miles USD FOB)',
    'Exportaciones en volumen (toneladas)'
    ]]

# Se imprimen las características del dataframe.
print_polars_features(po_dtframe_07)

# Se establece el tiempo final de ejecución.
po_f_time_07 = tm.time()


In [None]:
import numpy as np
import pandas as pd
import time as tm

# Se establece el tiempo inicial de ejecución.
pa_i_time_07 = tm.time()

# Se crea una copia del dataframe.
pa_dtframe_07 = pa_dtframe_05.copy()

# Se filtran las tuplas que cumplan con las condiciones\
# requeridas.
pa_dtframe_07 = pa_dtframe_07.loc[
    pa_dtframe_07['Producto General'] == 'Cacao'
]

# Se genera el dataframe solicitado
pa_dtframe_07 = pa_dtframe_07[[
    'Exportaciones en valor (Miles USD FOB)',
    'Exportaciones en volumen (toneladas)'
    ]]

# Se imprimen las características del dataframe.
print_pandas_features(pa_dtframe_07)

# Se establece el tiempo final de ejecución.
pa_f_time_07 = tm.time()


In [None]:
# Se calcula el rendimiento de las librerías.
calculate_performance(
    [po_f_time_07, po_i_time_07],
    [pa_f_time_07, pa_i_time_07],
)


## 08.
Genere un DataFrame con las exportaciones que en valor (miles US FOB) superen los dos mil dólares. Muestre las características del DataFrame.

In [None]:
import numpy as np
import polars as pl
import time as tm

# Se establece el tiempo inicial de ejecución.
po_i_time_08 = tm.time()

# Se crea una copia del dataframe.
po_dtframe_08 = po_dtframe_05.clone()

# Se filtran las tuplas que cumplan con las condiciones\
# requeridas.
po_dtframe_08 = po_dtframe_08.filter(
    po_dtframe_08['Exportaciones en valor (Miles USD FOB)'] > 2
    )


# Se imprimen las características del dataframe.
print_polars_features(po_dtframe_08)

# Se establece el tiempo final de ejecución.
po_f_time_08 = tm.time()


In [None]:
import numpy as np
import pandas as pd
import time as tm

# Se establece el tiempo inicial de ejecución.
pa_i_time_08 = tm.time()

# Se crea una copia del dataframe.
pa_dtframe_08 = pa_dtframe_05.copy()

# Se filtran las tuplas que cumplan con las condiciones\
# requeridas.
pa_dtframe_08 = pa_dtframe_08.loc[
     pa_dtframe_08['Exportaciones en valor (Miles USD FOB)'] > 2
]

# Se imprimen las características del dataframe.
print_pandas_features(pa_dtframe_08)

# Se establece el tiempo final de ejecución.
pa_f_time_08 = tm.time()


In [None]:
# Se calcula el rendimiento de las librerías.
calculate_performance(
    [po_f_time_08, po_i_time_08],
    [pa_f_time_08, pa_i_time_08],
)


La duración de polars fué: 0.010987281799316406
La duración de pandas fué: 0.01376485824584961
La librería polars obtuvo un mejor desempeño.


## 09.
Genere un DataFrame con las exportaciones que en volumen (toneladas) superen las mil toneladas. Muestre las características del DataFrame.

In [None]:
import numpy as np
import polars as pl
import time as tm

# Se establece el tiempo inicial de ejecución.
po_i_time_09 = tm.time()

# Se crea una copia del dataframe.
po_dtframe_09 = po_dtframe_05.clone()

# Se filtran las tuplas que cumplan con las condiciones\
# requeridas.
po_dtframe_09 = po_dtframe_09.filter(
    po_dtframe_09['Exportaciones en volumen (toneladas)'] > 1000
    )


# Se imprimen las características del dataframe.
print_polars_features(po_dtframe_09)

# Se establece el tiempo final de ejecución.
po_f_time_09 = tm.time()


In [None]:
import numpy as np
import pandas as pd
import time as tm

# Se establece el tiempo inicial de ejecución.
pa_i_time_09 = tm.time()

# Se crea una copia del dataframe.
pa_dtframe_09 = pa_dtframe_05.copy()

# Se filtran las tuplas que cumplan con las condiciones\
# requeridas.
pa_dtframe_09 = pa_dtframe_09.loc[
     pa_dtframe_09['Exportaciones en volumen (toneladas)'] > 1000
]

# Se imprimen las características del dataframe.
print_pandas_features(pa_dtframe_09)

# Se establece el tiempo final de ejecución.
pa_f_time_09 = tm.time()


In [None]:
# Se calcula el rendimiento de las librerías.
calculate_performance(
    [po_f_time_09, po_i_time_09],
    [pa_f_time_09, pa_i_time_09],
)
