## «*Quien se empeña en darle una pedrada a la Luna no lo conseguirá, pero terminará sabiendo manejar la honda.*»
### Provervio árabe

## Notas

*   Todos los ejercicios se realizaron a partir de funciones para poder hacer de manera más eficiente el cálculo de los tiempos de ejecución.
*   En el ejercicio 05 se realizó una modificación al dataset de entrada ya que este tenía "," en todos los datos numéricos lo cual causaba errores en las operaciones de los demás ejercicios, por ello se le quitó dicha "," y se convirtieron los datos en números.



# Taller 16 Polars
En este taller aprenderá los conceptos básicos de la librería Polars.

Polars **no es una librería nativa** de Python por lo que **requiere ser instalada antes de ser invocada**.

Puede consultar más información en: [Polars](https://www.pola.rs/).

## Características principales de Polars

Polars es una librería muy parecida a Pandas, su propósito es aumentar la velocidad de procesamiento de grandes conjuntos de datos.

Polars utiliza los mismos conceptos de Series y DataFrame que utiliza Pandas.

La principal diferencia entre Polars y Pandas es que Polars no utiliza índices, sino que cada fila es indexada con el entero correspondiente a su posición en el DataFrame.

Los valores faltantes se representan con **null** en Polars, mientras que en Pandas se uiliza **NaN**.

# Referencias
Este taller se basa en información e ideas recopiladas de las siguientes fuentes:

* [Polars API Reference](https://pola-rs.github.io/polars/py-polars/html/reference/)
* [Polars User Guide](https://pola-rs.github.io/polars-book/user-guide/introduction.html)
* [Polars GitHub](https://github.com/pola-rs/polars)
* [Alternatives to Pandas: Python Polars](https://codesolid.com/alternatives-to-pandas-python-polars/)
* [Pandas vs. Polars: A Syntax and Speed Comparison](https://towardsdatascience.com/pandas-vs-polars-a-syntax-and-speed-comparison-5aa54e27497e#:~:text=The%20main%20advantage%20of%20Polars,switch%20from%20Pandas%20to%20Polars.)
* [Replacing Pandas with Polars. A Practical Guide.](https://www.confessionsofadataguy.com/replacing-pandas-with-polars-a-practical-guide/)
* [Pandas vs. Polars códigos](https://www.kaggle.com/code/iamleonie/pandas-vs-polars)
* [Using the Polars DataFrame Library](https://www.codemag.com/Article/2212051/Using-the-Polars-DataFrame-Library)
* [Polars vs Pandas : A new era for Python DataFrames](https://www.sicara.fr/blog-technique/polars-vs-pandas)
* [Polars vs. Pandas: Polars DataFrame Tutorial](https://lazyprogrammer.me/polars-vs-pandas-polars-dataframe-tutorial/)

# Instalar Polars

Polars no es una librería nativa de Python por lo que **requiere ser instalada antes de ser invocada**.


In [None]:
# Instalar Polars
!pip install polars

# Importar la librería requerida
import polars as pl

# Instalar pep8
!pip install pycodestyle
!pip install --index-url https://test.pypi.org/simple/ nbpep8

# Verificar la versión instalada
print("La versión instalada de Polars es: ", pl.__version__)

Collecting pycodestyle
  Downloading pycodestyle-2.11.1-py2.py3-none-any.whl (31 kB)
Installing collected packages: pycodestyle
Successfully installed pycodestyle-2.11.1
Looking in indexes: https://test.pypi.org/simple/
Collecting nbpep8
  Downloading https://test-files.pythonhosted.org/packages/c1/07/6b91c986efe7c3adac9e2ec061037f0cc4307925819d37277c3802c2d117/nbpep8-0.0.15-py3-none-any.whl (3.2 kB)
Installing collected packages: nbpep8
Successfully installed nbpep8-0.0.15
La versión instalada de Polars es:  0.17.3


# Habilitar el acceso a los archivos del Drive

In [None]:
# Habilitar el acceso a los archivos del Drive
import google.colab as gc
gc.drive.mount('/content/drive')

Mounted at /content/drive


# Crear un DataFrame de Polars desde NumPy

In [None]:
# Importar las librerías requeridas
import numpy as np
import polars as pl

# Crear un arreglo de NumPy
arreglo_np_0 = np.arange(1, 41).reshape(8, 5)

# Crear un DataFrame de Polars
df_polar_0 = pl.DataFrame(arreglo_np_0)

# Mostrar el DataFrame de Polars
print("DataFrame de Polars creado a partir de arreglo de NumPy: ", df_polar_0)

DataFrame de Polars creado a partir de arreglo de NumPy:  shape: (8, 5)
┌──────────┬──────────┬──────────┬──────────┬──────────┐
│ column_0 ┆ column_1 ┆ column_2 ┆ column_3 ┆ column_4 │
│ ---      ┆ ---      ┆ ---      ┆ ---      ┆ ---      │
│ i64      ┆ i64      ┆ i64      ┆ i64      ┆ i64      │
╞══════════╪══════════╪══════════╪══════════╪══════════╡
│ 1        ┆ 2        ┆ 3        ┆ 4        ┆ 5        │
│ 6        ┆ 7        ┆ 8        ┆ 9        ┆ 10       │
│ 11       ┆ 12       ┆ 13       ┆ 14       ┆ 15       │
│ 16       ┆ 17       ┆ 18       ┆ 19       ┆ 20       │
│ 21       ┆ 22       ┆ 23       ┆ 24       ┆ 25       │
│ 26       ┆ 27       ┆ 28       ┆ 29       ┆ 30       │
│ 31       ┆ 32       ┆ 33       ┆ 34       ┆ 35       │
│ 36       ┆ 37       ┆ 38       ┆ 39       ┆ 40       │
└──────────┴──────────┴──────────┴──────────┴──────────┘


# Crear un DataFrame de Polars desde un diccionario

In [None]:
# Importar las librerías necesarias
import numpy as np
import pandas as pd
import polars as pl

# Crear un DataFrame a partir de un diccionario
# las claves del diccionario se convierten en las etiquetas de las columnas
# del DataFrame
df_pl_dict = pl.DataFrame(
    {'codigo' : np.random.randn(10),
     'fecha' : pd.date_range('20230410', periods=10, freq='D'),
     'nota' : pd.Series([1, 1, 5, 3, 2, 3, 1, 4, 3, 5], dtype ='float32'),
     'intento' : np.array([3,2] * 5),
     'comentario' : 'Texto' })
print(f"DataFrame creado a partir de un diccionario:\n {df_pl_dict}")

DataFrame creado a partir de un diccionario:
 shape: (10, 5)
┌───────────┬─────────────────────┬──────┬─────────┬────────────┐
│ codigo    ┆ fecha               ┆ nota ┆ intento ┆ comentario │
│ ---       ┆ ---                 ┆ ---  ┆ ---     ┆ ---        │
│ f64       ┆ datetime[ns]        ┆ f32  ┆ i64     ┆ str        │
╞═══════════╪═════════════════════╪══════╪═════════╪════════════╡
│ -0.640144 ┆ 2023-04-10 00:00:00 ┆ 1.0  ┆ 3       ┆ Texto      │
│ -0.507901 ┆ 2023-04-11 00:00:00 ┆ 1.0  ┆ 2       ┆ Texto      │
│ -1.277077 ┆ 2023-04-12 00:00:00 ┆ 5.0  ┆ 3       ┆ Texto      │
│ -0.256515 ┆ 2023-04-13 00:00:00 ┆ 3.0  ┆ 2       ┆ Texto      │
│ …         ┆ …                   ┆ …    ┆ …       ┆ …          │
│ -2.754093 ┆ 2023-04-16 00:00:00 ┆ 1.0  ┆ 3       ┆ Texto      │
│ 0.130662  ┆ 2023-04-17 00:00:00 ┆ 4.0  ┆ 2       ┆ Texto      │
│ 0.431097  ┆ 2023-04-18 00:00:00 ┆ 3.0  ┆ 3       ┆ Texto      │
│ -0.07282  ┆ 2023-04-19 00:00:00 ┆ 5.0  ┆ 2       ┆ Texto      │
└───────────┴──

# Leer el archivo desde una url


Ejemplo tomado de: [Lionel Messi | All Club Goals](https://www.kaggle.com/datasets/azminetoushikwasi/-lionel-messi-all-club-goals)

In [None]:
# Importar las librerías requeridas
import polars as pl

# Establecer la ubicación del archivo en el Drive
ruta = "https://raw.githubusercontent.com/azminewasi/Lionel-Messi-Club-Goals\
/main/data.csv"

# Cargar el archivo
messi_df = pl.read_csv(ruta, separator=',')

# Verificar la lectura del archivo
print(messi_df)

shape: (704, 13)
┌────────┬───────────┬──────────────┬──────────┬───┬────────┬──────────┬─────────────┬─────────────┐
│ Season ┆ Competiti ┆ Matchday     ┆ Date     ┆ … ┆ Minute ┆ At_score ┆ Type        ┆ Goal_assist │
│ ---    ┆ on        ┆ ---          ┆ ---      ┆   ┆ ---    ┆ ---      ┆ ---         ┆ ---         │
│ str    ┆ ---       ┆ str          ┆ str      ┆   ┆ str    ┆ str      ┆ str         ┆ str         │
│        ┆ str       ┆              ┆          ┆   ┆        ┆          ┆             ┆             │
╞════════╪═══════════╪══════════════╪══════════╪═══╪════════╪══════════╪═════════════╪═════════════╡
│ 04/05  ┆ LaLiga    ┆ 34           ┆ 05-01/05 ┆ … ┆ 90+1   ┆ 2:00     ┆ Left-footed ┆ Ronaldinho  │
│        ┆           ┆              ┆          ┆   ┆        ┆          ┆ shot        ┆ Gaacho      │
│ 05/06  ┆ UEFA      ┆ Group Stage  ┆ 11-02/05 ┆ … ┆ 34     ┆ 3:00     ┆ Left-footed ┆ null        │
│        ┆ Champions ┆              ┆          ┆   ┆        ┆          ┆ s

# Otro ensayo desde otra url

In [None]:
# Importar las librerías requeridas
import polars as pl

# Establecer la ubicación del archivo en el Drive
ruta = "https://docs.google.com/spreadsheets/d/e/2PACX-1vQ3ZylJpgq_83sdqJc\
RTV1ci1RYBkfuL7yjqlNl8-Yj1oYUS8GNZxghZ0pPRL5nf9ZeGmyr9lBlfbVR/pub?output=csv"

# Cargar el archivo
casas_usadas_df_pl = pl.read_csv(ruta, separator=',')

# Verificar la lectura del archivo
print(casas_usadas_df_pl)

shape: (1_139, 7)
┌───────────────┬────────────────┬─────────┬───────────────┬───────────────┬───────────────┬───────┐
│ Tipo_Vivienda ┆ N_Habitaciones ┆ N_Baños ┆ N_Estacionami ┆ Total_Superfi ┆ Superficie_Co ┆ Valor │
│ ---           ┆ ---            ┆ ---     ┆ entos         ┆ cie_M2        ┆ nstruida_M2   ┆ ---   │
│ str           ┆ i64            ┆ i64     ┆ ---           ┆ ---           ┆ ---           ┆ i64   │
│               ┆                ┆         ┆ str           ┆ str           ┆ str           ┆       │
╞═══════════════╪════════════════╪═════════╪═══════════════╪═══════════════╪═══════════════╪═══════╡
│ Casa          ┆ 5              ┆ 6       ┆ 3             ┆ 5000          ┆ 440           ┆ 35136 │
│ Casa          ┆ 6              ┆ 6       ┆ 6             ┆ 5000          ┆ 430           ┆ 37440 │
│ Casa          ┆ 3              ┆ 3       ┆ No            ┆ 2027          ┆ 140           ┆ 29664 │
│ Casa          ┆ 8              ┆ 6       ┆ No            ┆ 5000        

# Leer el archivo desde el drive

In [None]:
# Importar las librerías requeridas
import polars as pl

# Establecer la ubicación del archivo en el Drive
ruta = "/content/drive/MyDrive/Colab Notebooks/saber11_20162.csv"

# Cargar el archivo
saber_2016_df_pl = pl.read_csv(ruta, separator=',')

# Verificar la lectura del archivo
print(saber_2016_df_pl)

shape: (12_217, 19)
┌────────┬────────────┬────────────┬────────────┬───┬────────────┬────────────┬────────────┬────────────┐
│        ┆ _duplicate ┆ _duplicate ┆ _duplicate ┆ … ┆ _duplicate ┆ _duplicate ┆ _duplicate ┆ _duplicate │
│ ---    ┆ d_0        ┆ d_1        ┆ d_2        ┆   ┆ d_14       ┆ d_15       ┆ d_16       ┆ d_17       │
│ str    ┆ ---        ┆ ---        ┆ ---        ┆   ┆ ---        ┆ ---        ┆ ---        ┆ ---        │
│        ┆ str        ┆ str        ┆ str        ┆   ┆ str        ┆ str        ┆ str        ┆ str        │
╞════════╪════════════╪════════════╪════════════╪═══╪════════════╪════════════╪════════════╪════════════╡
│ null   ┆ null       ┆ null       ┆ ESTADISTIC ┆ … ┆ null       ┆ null       ┆ null       ┆ null       │
│        ┆            ┆            ┆ AS POR INS ┆   ┆            ┆            ┆            ┆            │
│        ┆            ┆            ┆ TITUCION   ┆   ┆            ┆            ┆            ┆            │
│        ┆            ┆   

# Características básicas del DataFrame

In [None]:
# Mostrar la forma del DataFrame
print("La forma del DataFrame es: ", saber_2016_df_pl.shape, "\n")


# Mostrar las características de las columnas
print("Características de las columnas del DataFrame", saber_2016_df_pl.dtypes,
      "\n")

# Mostrar el contenido del DataFrame
print("Contenido del DataFrame", saber_2016_df_pl.describe, "\n")

# Mostrar el nombre de las columnas
print("Nombres de las columnas del DataFrame", saber_2016_df_pl.columns, "\n")

# Mostrar las primeras tres filas del DataFrame
print("Primeras tres filas del DataFrame", saber_2016_df_pl.head(3), "\n")

# Mostrar las últimas tres filas del DataFrame
print("Últimas tres filas del DataFrame", saber_2016_df_pl.tail(3), "\n")

# Identificar valores únicos por columna
#print("Nombres únicos por columna:",
#      saber_2016_df_pl['NOMBREMUNICIPIO'].unique(), sep = "\n")

# Modificar las características del DataFrame


In [None]:
# Cambiar el nombre de las columnas
saber_2016_df_pl_0 = saber_2016_df_pl.rename({"CODINST": "Código",
                                              "NOMBREINSTITUCION": "Institución"})

# Mostrar el nombre de las columnas modificadas del DataFrame modificado
print("Nombres de las columnas del DataFrame modificado: ",
      saber_2016_df_pl_0.columns, "\n")

# Seleccionar tres columnas del DataFrame
saber_2016_df_pl_1 = saber_2016_df_pl.select(pl.col(['CODIGOMUNICIPIO',
                                                     'NOMBREMUNICIPIO',
                                                     'DEPARTAMENTO']))
print("DataFrame con tres columnas:", saber_2016_df_pl_1, "\n")

# Seleccionar un contenido específico del DataFrame
saber_2016_df_pl_2 = saber_2016_df_pl.select(['NOMBREINSTITUCION',
                                              'CODIGOMUNICIPIO',
                                              'NOMBREMUNICIPIO',
                                              'EVALUADOS']).filter(
                                                  pl.col('EVALUADOS') > 200)
print("Instituciones por municipio con más de 200 estudiantes evaluados",
      saber_2016_df_pl_2, "\n")

# Agregar una columna
df_polar_1 = df_polar_0.with_columns([(pl.col("column_4") * 5).alias("Nueva")])
print("DataFrame con una columna adicional: ", df_polar_1, "\n")

# Agregar tres columnas
df_polar_2 = df_polar_0.with_columns([(pl.col("column_0") * 1).alias("Nueva_0"),
                                      (pl.col("column_1") * 2).alias("Nueva_1"),
                                      (pl.col("column_2") * 3).alias("Nueva_2")])
print("DataFrame con tres columnas adicionales: ", df_polar_2, "\n")

# Resumir la información del DataFrame por grupos

In [None]:
# Resumir por grupos

# Contar la cantidad de establecimientos por municipio
saber_2016_df_pl_4 = saber_2016_df_pl.groupby(pl.col("NOMBREMUNICIPIO")).\
agg(pl.count())
print("La cantidad de municipios es: ", len(saber_2016_df_pl_4), "\n")
print("La cantidad de establecimientos por municipios es: ",
      saber_2016_df_pl_4, "\n")

# Promedios de evaluados por municipio
saber_2016_df_pl_5 = saber_2016_df_pl.groupby('NOMBREMUNICIPIO').agg(
    [pl.col('EVALUADOS').mean()])
print("El promedio de evaluados por municipios es: ", saber_2016_df_pl_5, "\n")

# Eager vs. Lazy

Polars tiene dos APIs diferentes: **eager** and **lazy**.

La ejecución **eager** es similar a Pandas (el código se corre directamente y los resultados se calculan de inmediato).

La ejecución **lazy** no se ejecuta hasta que se necesiten los resultados. Dado que se evita ejecutar código de manera innecesaria, puede ser más eficiente que la ejecución **eager**.

La ejecución lazy requiere el método **.lazy()** al inicio, seguido del código que se quiere ejecutar. Para mostrar los resultados se debe escribir al final el método **.collect()**.

In [None]:
# Método lazy sin collect
df_pl_dict.lazy().with_columns([(pl.col("nota") * 10).alias("nota_2")])

In [None]:
# Metodo lazy con método collect
df_pl_dict.lazy().with_columns([(pl.col("nota") * 10).alias("nota_2")]).collect()

# Aplicaciones

# Medir el tiempo de ejecución



In [None]:
# Importar la librería requerida
import time as tm

# Establecer el tiempo inicial de ejecución
ini_tiempo = tm.time()

# Ejemplo de código al que se le va a medir el tiempo de ejecución
factorial = 1
for i in range(1,100):
  factorial *= i
print("factorial: ", factorial)

# Establecer el tiempo final de ejecución
fin_tiempo = tm.time()

# Calcular el tiempo de ejecución
duracion = fin_tiempo - ini_tiempo

# Mostrar resultados
print(f"El código se empezó a ejecutar a las {ini_tiempo} y terminó de ejecutar"
      f"a las {fin_tiempo}. \nLa duración de la ejecución fue de {duracion}.")

factorial:  933262154439441526816992388562667004907159682643816214685929638952175999932299156089414639761565182862536979208272237582511852109168640000000000000000000000
El código se empezó a ejecutar a las 1698370469.2223308 y terminó de ejecutara las 1698370469.2229815. 
La duración de la ejecución fue de 0.0006506443023681641.


# Ejercicios
Resuelva los siguientes ejercicios según lo solicitado en cada casillas. Los códigos deben cumplir con las normas de estilo del PEP8.

Cada ejercicio se compone de **tres partes**: código en Polars, código en Pandas, diferencia entre los tiempos de ejecución de Polars y Pandas.

## 00.
Utilizando NumPy cree un DataFrame con 100 filas y cuatro columnas. La primera columna debe tener números aleatorios entre cero y uno. La segunda columna debe tener números aleatorios enteros entre 1 y 100. La tercera columna debe contener números enteros en el rango 1 a 500 generados con la función **arange(**). La cuarta columna debe contener ceros y unos generados de forma aleatoria. Muestre las características del DataFrame.

In [None]:
# Código en Polars
# Importar librerías
import polars as pl
import numpy as np
from nbpep8.nbpep8 import pep8


def crear_dataframe_polars():
    """
    Crea y devuelve un DataFrame utilizando la biblioteca Polars.

    Returns:
        pl.DataFrame: DataFrame con columnas 'Columna1', 'Columna2',
        'Columna3','Columna4'.
    """
    np.random.seed(0)
    data_polars = {
        'Columna1': np.random.uniform(0, 1, 100),
        'Columna2': np.random.randint(1, 101, 100),
        'Columna3': np.arange(1, 501)[:100],
        'Columna4': np.random.randint(0, 2, 100)
    }
    return pl.DataFrame(data_polars)


# Llamado a la función
df_polars = crear_dataframe_polars()

# Mostrar los resultados en polars
print(f'\nResultado en polars:\n {df_polars}')
print("\nCaracterísticas del DataFrame en Polars:")
print(f"Número de filas: {df_polars.height}")
print(f"Número de columnas: {df_polars.width}")
print(f"Nombres de las columnas:\n{df_polars.columns}")
print(f"\nTipos de datos de las columnas:\n{df_polars.dtypes}")
pep8(_ih)


Resultado en polars:
 shape: (100, 4)
┌──────────┬──────────┬──────────┬──────────┐
│ Columna1 ┆ Columna2 ┆ Columna3 ┆ Columna4 │
│ ---      ┆ ---      ┆ ---      ┆ ---      │
│ f64      ┆ i64      ┆ i64      ┆ i64      │
╞══════════╪══════════╪══════════╪══════════╡
│ 0.548814 ┆ 3        ┆ 1        ┆ 1        │
│ 0.715189 ┆ 4        ┆ 2        ┆ 1        │
│ 0.602763 ┆ 95       ┆ 3        ┆ 1        │
│ 0.544883 ┆ 99       ┆ 4        ┆ 1        │
│ …        ┆ …        ┆ …        ┆ …        │
│ 0.586513 ┆ 32       ┆ 97       ┆ 0        │
│ 0.020108 ┆ 10       ┆ 98       ┆ 0        │
│ 0.82894  ┆ 11       ┆ 99       ┆ 0        │
│ 0.004695 ┆ 28       ┆ 100      ┆ 1        │
└──────────┴──────────┴──────────┴──────────┘

Características del DataFrame en Polars:
Número de filas: 100
Número de columnas: 4
Nombres de las columnas:
['Columna1', 'Columna2', 'Columna3', 'Columna4']

Tipos de datos de las columnas:
[Float64, Int64, Int64, Int64]



In [None]:
# Código en Pandas
# Importar librerías
import numpy as np
import pandas as pd


def crear_dataframe_pandas():
    """
    Crea y devuelve un DataFrame utilizando la biblioteca Pandas.

    Returns:
        pd.DataFrame: DataFrame con columnas 'Columna1', 'Columna2',
        'Columna3', 'Columna4'.
    """
    np.random.seed(0)
    data_pandas = {
        'Columna1': np.random.uniform(0, 1, 100),
        'Columna2': np.random.randint(1, 101, 100),
        'Columna3': np.arange(1, 501)[:100],
        'Columna4': np.random.randint(0, 2, 100)
    }
    return pd.DataFrame(data_pandas)


# Llamado a la función
df_pandas = crear_dataframe_pandas()

# Mostrar los resultados en pandas
print(f'Resultado en en pandas:\n {df_pandas}')
print("\n Características del DataFrame en Pandas:")
print(f"Número de filas: {df_pandas.shape[0]}")
print(f"Número de columnas: {df_pandas.shape[1]}")
print(f"Nombres de las columnas:\n{df_pandas.columns}")
print(f"\nTipos de datos de las columnas:\n{df_pandas.dtypes}")
pep8(_ih)

Resultado en en pandas:
     Columna1  Columna2  Columna3  Columna4
0   0.548814         3         1         1
1   0.715189         4         2         1
2   0.602763        95         3         1
3   0.544883        99         4         1
4   0.423655        14         5         1
..       ...       ...       ...       ...
95  0.183191         4        96         0
96  0.586513        32        97         0
97  0.020108        10        98         0
98  0.828940        11        99         0
99  0.004695        28       100         1

[100 rows x 4 columns]

 Características del DataFrame en Pandas:
Número de filas: 100
Número de columnas: 4
Nombres de las columnas:
Index(['Columna1', 'Columna2', 'Columna3', 'Columna4'], dtype='object')

Tipos de datos de las columnas:
Columna1    float64
Columna2      int64
Columna3      int64
Columna4      int64
dtype: object



In [None]:
# Muestre los tiempos de ejecución en Polars y Pandas, calcule la
# diferencia e indique cuál librería obtuvo mejor desempeño en esta tarea.

# Importar librería time
import time

# Calcular tiempo en polars
inicio1 = time.time()
crear_dataframe_polars()
fin1 = time.time()
tiempo_polars = fin1 - inicio1

# Calcular tiempo en pandas
inicio2 = time.time()
crear_dataframe_pandas()
fin2 = time.time()
tiempo_pandas = fin2 - inicio2

# Mostrar los resultados
print(f'Tiempo de ejecución en pandas: {tiempo_pandas} segundos')
print(f'Tiempo de ejecución en polars: {tiempo_polars} segundos')

# Diferencia de tiempos
diferencia_tiempos = abs(tiempo_pandas-tiempo_polars)
print(f'Diferencia de tiempo: {diferencia_tiempos} segundos')

# ¿Cuál librería fue mejor?
if tiempo_pandas < tiempo_polars:
    print("La librería con mayor desempeño fue pandas.")
elif tiempo_pandas > tiempo_polars:
    print("La librería con mayor desempeño fue polars.")
elif diferencia_tiempos == 0:
    print("Ambas librerías fueron igual de eficientes.")
pep8(_ih)

Tiempo de ejecución en pandas: 0.0007357597351074219 segundos
Tiempo de ejecución en polars: 0.0011916160583496094 segundos
Diferencia de tiempo: 0.0004558563232421875 segundos
La librería con mayor desempeño fue pandas.



## 01.
Agregue una columna, con números aleatorios racionales entre 13 y 14, al DataFrame generado en el ejercicio anterior. Muestre las características del DataFrame.

In [None]:
# Código en Polars
# Importar librerías
import polars as pl
import numpy as np


def agregar_columna_polars(dataframe):
    """
    Agrega una nueva columna con números aleatorios racionales entre 13 y
    14 al DataFrame en Polars.

    Args:
        dataframe (pl.DataFrame): El DataFrame al que se le agregará la
        nueva columna.

    Returns:
        pl.DataFrame: El DataFrame actualizado con la nueva columna.
    """
    # Crear una columna con números aleatorios racionales entre 13 y 14
    nueva_columna = pl.col("Columna1").apply(
        lambda x: np.random.uniform(13, 14.01)
    )
    # Agregar la nueva columna al DataFrame existente
    dataframe = dataframe.with_columns(
        nueva_columna.alias("NuevaColumna")
    )
    return dataframe


# Llamado a la función
df_polars_01 = agregar_columna_polars(df_polars)

# Mostrar los resultados en polars
print(f'\nResultado en polars: \n{df_polars_01}')
print("\nCaracterísticas del DataFrame en Polars:")
print(f"Número de filas: {df_polars_01.height}")
print(f"Número de columnas: {df_polars_01.width}")
print(f"Nombres de las columnas:\n{df_polars_01.columns}")
print(f"\nTipos de datos de las columnas:\n{df_polars_01.dtypes}")
pep8(_ih)


Resultado en polars: 
shape: (100, 5)
┌──────────┬──────────┬──────────┬──────────┬──────────────┐
│ Columna1 ┆ Columna2 ┆ Columna3 ┆ Columna4 ┆ NuevaColumna │
│ ---      ┆ ---      ┆ ---      ┆ ---      ┆ ---          │
│ f64      ┆ i64      ┆ i64      ┆ i64      ┆ f64          │
╞══════════╪══════════╪══════════╪══════════╪══════════════╡
│ 0.548814 ┆ 3        ┆ 1        ┆ 1        ┆ 13.323217    │
│ 0.715189 ┆ 4        ┆ 2        ┆ 1        ┆ 13.387299    │
│ 0.602763 ┆ 95       ┆ 3        ┆ 1        ┆ 13.5942      │
│ 0.544883 ┆ 99       ┆ 4        ┆ 1        ┆ 13.839359    │
│ …        ┆ …        ┆ …        ┆ …        ┆ …            │
│ 0.586513 ┆ 32       ┆ 97       ┆ 0        ┆ 13.080317    │
│ 0.020108 ┆ 10       ┆ 98       ┆ 0        ┆ 13.090499    │
│ 0.82894  ┆ 11       ┆ 99       ┆ 0        ┆ 13.678768    │
│ 0.004695 ┆ 28       ┆ 100      ┆ 1        ┆ 13.247821    │
└──────────┴──────────┴──────────┴──────────┴──────────────┘

Características del DataFrame en Polars:
Núme

In [None]:
# Código en Pandas
# Importar librerías
import pandas as pd
import numpy as np


def agregar_columna_pandas(dataframe):
    """
    Agrega una nueva columna con números aleatorios racionales entre 13 y
    14 al DataFrame en Pandas.

    Args:
        dataframe (pd.DataFrame): El DataFrame al que se le agregará la
        nueva columna.

    Returns:
        pd.DataFrame: El DataFrame actualizado con la nueva columna.
    """
    # Generar números aleatorios racionales entre 13 y 14 para la nueva
    # columna
    dataframe['NuevaColumna'] = np.random.uniform(13, 14.01,
                                                  len(dataframe))

    return dataframe


# Llamado a la función
df_pandas_01 = agregar_columna_pandas(df_pandas)

# Mostrar los resultados en pandas
print(f'Resultado en en pandas: \n{df_pandas_01}')
print("\n Características del DataFrame en Pandas:")
print(f"Número de filas: {df_pandas_01.shape[0]}")
print(f"Número de columnas: {df_pandas_01.shape[1]}")
print(f"Nombres de las columnas:\n{df_pandas_01.columns}")
print(f"\nTipos de datos de las columnas:\n{df_pandas_01.dtypes}")
pep8(_ih)

Resultado en en pandas: 
    Columna1  Columna2  Columna3  Columna4  NuevaColumna
0   0.548814         3         1         1     13.424745
1   0.715189         4         2         1     13.562942
2   0.602763        95         3         1     13.869157
3   0.544883        99         4         1     13.734315
4   0.423655        14         5         1     13.273031
..       ...       ...       ...       ...           ...
95  0.183191         4        96         0     13.433084
96  0.586513        32        97         0     13.068755
97  0.020108        10        98         0     13.254460
98  0.828940        11        99         0     13.223373
99  0.004695        28       100         1     13.255723

[100 rows x 5 columns]

 Características del DataFrame en Pandas:
Número de filas: 100
Número de columnas: 5
Nombres de las columnas:
Index(['Columna1', 'Columna2', 'Columna3', 'Columna4', 'NuevaColumna'], dtype='object')

Tipos de datos de las columnas:
Columna1        float64
Columna2   

In [None]:
# Muestre los tiempos de ejecución en Polar y Pandas, calcule la
# diferencia e indique cuál librería obtuvo mejor desempeño en esta tarea.

# Calcular tiempo en polars
inicio1 = time.time()
agregar_columna_polars(df_polars)
fin1 = time.time()
tiempo_polars = fin1 - inicio1

# Calcular tiempo en pandas
inicio2 = time.time()
agregar_columna_pandas(df_pandas)
fin2 = time.time()
tiempo_pandas = fin2 - inicio2

# Mostrar los resultados
print(f'Tiempo de ejecución en pandas: {tiempo_pandas} segundos')
print(f'Tiempo de ejecución en polars: {tiempo_polars} segundos')

# Diferencia de tiempos
diferencia_tiempos = abs(tiempo_pandas-tiempo_polars)
print(f'Diferencia de tiempo: {diferencia_tiempos} segundos')

# ¿Cuál librería fue mejor?
if tiempo_pandas < tiempo_polars:
    print("La librería con mayor desempeño fue pandas.")
elif tiempo_pandas > tiempo_polars:
    print("La librería con mayor desempeño fue polars.")
elif diferencia_tiempos == 0:
    print("Ambas librerías fueron igual de eficientes.")
pep8(_ih)

Tiempo de ejecución en pandas: 0.0003056526184082031 segundos
Tiempo de ejecución en polars: 0.0016818046569824219 segundos
Diferencia de tiempo: 0.0013761520385742188 segundos
La librería con mayor desempeño fue pandas.



## 02.
Cambie los nombres de las columnas del DataFrame modificado en el ejercicio anterior a Primera, Segunda, Tercera, Cuarta y Quinta. Muestre las características del DataFrame.

In [None]:
# Código en Polars
# Importar librerías
import polars as pl


def cambiar_nombres_polars(df):
    """
    Cambia los nombres de las columnas en un DataFrame de Polars.

    Args:
        df (pl.DataFrame): DataFrame de Polars al que se le cambiarán los
        nombres de las columnas.

    Returns:
        pl.DataFrame: DataFrame de Polars con los nombres de las columnas
        cambiados.
    """
    df = df.select([
        pl.col("Columna1").alias("Primera"),
        pl.col("Columna2").alias("Segunda"),
        pl.col("Columna3").alias("Tercera"),
        pl.col("Columna4").alias("Cuarta"),
        pl.col("NuevaColumna").alias("Quinta")
    ])
    return df


# Llamado a la función
df_polars_02 = cambiar_nombres_polars(df_polars_01)

# Mostrar los resultados en polars
print(f'\nResultado en polars:\n{df_polars_02}')
print("\nCaracterísticas del DataFrame en Polars:")
print(f"Número de filas: {df_polars_02.height}")
print(f"Número de columnas: {df_polars_02.width}")
print(f"Nombres de las columnas:\n{df_polars_02.columns}")
print(f"\nTipos de datos de las columnas:\n{df_polars_02.dtypes}")
pep8(_ih)


Resultado en polars:
shape: (100, 5)
┌──────────┬─────────┬─────────┬────────┬───────────┐
│ Primera  ┆ Segunda ┆ Tercera ┆ Cuarta ┆ Quinta    │
│ ---      ┆ ---     ┆ ---     ┆ ---    ┆ ---       │
│ f64      ┆ i64     ┆ i64     ┆ i64    ┆ f64       │
╞══════════╪═════════╪═════════╪════════╪═══════════╡
│ 0.548814 ┆ 3       ┆ 1       ┆ 1      ┆ 13.323217 │
│ 0.715189 ┆ 4       ┆ 2       ┆ 1      ┆ 13.387299 │
│ 0.602763 ┆ 95      ┆ 3       ┆ 1      ┆ 13.5942   │
│ 0.544883 ┆ 99      ┆ 4       ┆ 1      ┆ 13.839359 │
│ …        ┆ …       ┆ …       ┆ …      ┆ …         │
│ 0.586513 ┆ 32      ┆ 97      ┆ 0      ┆ 13.080317 │
│ 0.020108 ┆ 10      ┆ 98      ┆ 0      ┆ 13.090499 │
│ 0.82894  ┆ 11      ┆ 99      ┆ 0      ┆ 13.678768 │
│ 0.004695 ┆ 28      ┆ 100     ┆ 1      ┆ 13.247821 │
└──────────┴─────────┴─────────┴────────┴───────────┘

Características del DataFrame en Polars:
Número de filas: 100
Número de columnas: 5
Nombres de las columnas:
['Primera', 'Segunda', 'Tercera', 'Cuarta'

In [None]:
# Código en Pandas
# Importar librerías
import pandas as pd


def cambiar_nombres_pandas(df):
    """
    Cambia los nombres de las columnas en un DataFrame de Pandas.

    Args:
        df (pd.DataFrame): DataFrame de Pandas al que se le cambiarán los
        nombres de las columnas.

    Returns:
        pd.DataFrame: DataFrame de Pandas con los nombres de las columnas
        cambiados.
    """
    df.rename(columns={
        'Columna1': 'Primera',
        'Columna2': 'Segunda',
        'Columna3': 'Tercera',
        'Columna4': 'Cuarta',
        'NuevaColumna': 'Quinta'
    }, inplace=True)
    return df


# Llamado a la función
df_pandas_02 = cambiar_nombres_pandas(df_pandas_01)

# Mostrar los resultados en pandas
print(f'Resultado en en pandas:\n{df_pandas_02}')
print("\n Características del DataFrame en Pandas:")
print(f"Número de filas: {df_pandas_02.shape[0]}")
print(f"Número de columnas: {df_pandas_02.shape[1]}")
print(f"Nombres de las columnas:\n{df_pandas_02.columns}")
print(f"\nTipos de datos de las columnas:\n{df_pandas_02.dtypes}")
pep8(_ih)

Resultado en en pandas:
     Primera  Segunda  Tercera  Cuarta     Quinta
0   0.548814        3        1       1  13.184864
1   0.715189        4        2       1  13.407056
2   0.602763       95        3       1  13.752685
3   0.544883       99        4       1  13.532177
4   0.423655       14        5       1  13.492553
..       ...      ...      ...     ...        ...
95  0.183191        4       96       0  13.057446
96  0.586513       32       97       0  13.990291
97  0.020108       10       98       0  13.097415
98  0.828940       11       99       0  13.872105
99  0.004695       28      100       1  13.572171

[100 rows x 5 columns]

 Características del DataFrame en Pandas:
Número de filas: 100
Número de columnas: 5
Nombres de las columnas:
Index(['Primera', 'Segunda', 'Tercera', 'Cuarta', 'Quinta'], dtype='object')

Tipos de datos de las columnas:
Primera    float64
Segunda      int64
Tercera      int64
Cuarta       int64
Quinta     float64
dtype: object



In [None]:
# Muestre los tiempos de ejecución en Polar y Pandas, calcule la
# diferencia e indique cuál librería obtuvo mejor desempeño en esta tarea.

# Calcular tiempo en polars
inicio1 = time.time()
cambiar_nombres_polars(df_polars_01)
fin1 = time.time()
tiempo_polars = fin1 - inicio1

# Calcular tiempo en pandas
inicio2 = time.time()
cambiar_nombres_pandas(df_pandas_01)
fin2 = time.time()
tiempo_pandas = fin2 - inicio2

# Mostrar los resultados
print(f'Tiempo de ejecución en pandas: {tiempo_pandas} segundos')
print(f'Tiempo de ejecución en polars: {tiempo_polars} segundos')

# Diferencia de tiempos
diferencia_tiempos = abs(tiempo_pandas-tiempo_polars)
print(f'Diferencia de tiempo: {diferencia_tiempos} segundos')

# ¿Cuál librería fue mejor?
if tiempo_pandas < tiempo_polars:
    print("La librería con mayor desempeño fue pandas.")
elif tiempo_pandas > tiempo_polars:
    print("La librería con mayor desempeño fue polars.")
elif diferencia_tiempos == 0:
    print("Ambas librerías fueron igual de eficientes.")
pep8(_ih)

Tiempo de ejecución en pandas: 0.0008184909820556641 segundos
Tiempo de ejecución en polars: 0.001115560531616211 segundos
Diferencia de tiempo: 0.0002970695495605469 segundos
La librería con mayor desempeño fue pandas.



## 03.
A partir del DataFrame modificado en el ejercicio anterior genere un nuevo DataFrame de cinco columnas en el que todos los valores de la primera columna estén entre 0.25 y 0.75 (ambos extremos excluidos). Muestre las características del DataFrame.

In [None]:
# Código en Polars
# Importar librerías
import polars as pl
import numpy as np


def generar_nuevo_dataframe_polars(df):
    """
    Modifica la columna "Primera" del DataFrame de Polars con valores
    entre 0.25 y 0.75.

    Args:
        df (pl.DataFrame): DataFrame de Polars existente con las columnas
        modificadas.

    Returns:
        pl.DataFrame: DataFrame de Polars con la columna "Primera"
        modificada.
    """
    df = df.with_columns(
        pl.col("Primera").apply(lambda x: round(np.random.uniform(0.2501,
                                                                  0.7499),
                                                5))
    )
    return df


# Llamado a la función
df_polars_03 = generar_nuevo_dataframe_polars(df_polars_02)

# Mostrar los resultados en polars
print(f'\nResultado en polars: \n {df_polars_03}')
print("\nCaracterísticas del DataFrame en Polars:")
print(f"La forma del df_polars_03 es: {df_polars_03.shape}")
print(f"Número de filas: {df_polars_03.height}")
print(f"Número de columnas: {df_polars_03.width}")
pep8(_ih)


Resultado en polars: 
 shape: (100, 5)
┌─────────┬─────────┬─────────┬────────┬───────────┐
│ Primera ┆ Segunda ┆ Tercera ┆ Cuarta ┆ Quinta    │
│ ---     ┆ ---     ┆ ---     ┆ ---    ┆ ---       │
│ f64     ┆ i64     ┆ i64     ┆ i64    ┆ f64       │
╞═════════╪═════════╪═════════╪════════╪═══════════╡
│ 0.49473 ┆ 3       ┆ 1       ┆ 1      ┆ 13.323217 │
│ 0.37189 ┆ 4       ┆ 2       ┆ 1      ┆ 13.387299 │
│ 0.5443  ┆ 95      ┆ 3       ┆ 1      ┆ 13.5942   │
│ 0.62657 ┆ 99      ┆ 4       ┆ 1      ┆ 13.839359 │
│ …       ┆ …       ┆ …       ┆ …      ┆ …         │
│ 0.42891 ┆ 32      ┆ 97      ┆ 0      ┆ 13.080317 │
│ 0.33191 ┆ 10      ┆ 98      ┆ 0      ┆ 13.090499 │
│ 0.4707  ┆ 11      ┆ 99      ┆ 0      ┆ 13.678768 │
│ 0.38145 ┆ 28      ┆ 100     ┆ 1      ┆ 13.247821 │
└─────────┴─────────┴─────────┴────────┴───────────┘

Características del DataFrame en Polars:
La forma del df_polars_03 es: (100, 5)
Número de filas: 100
Número de columnas: 5



In [None]:
# Código en Pandas
# Importar librerías
import pandas as pd
import numpy as np


def generar_nuevo_dataframe_pandas(df):
    """
    Modifica la columna "Primera" del DataFrame de Pandas con valores
    entre 0.25 y 0.75.

    Args:
        df (pd.DataFrame): DataFrame de Pandas existente con las columnas
        modificadas.

    Returns:
        pd.DataFrame: DataFrame de Pandas con la columna "Primera"
        modificada.
    """
    df['Primera'] = np.random.uniform(0.2501, 0.7499, len(df))
    return df


# Llamado a la función
df_pandas_03 = generar_nuevo_dataframe_pandas(df_pandas_02)

# Mostrar los resultados en pandas
print(f'Resultado en en pandas:\n{df_pandas_03}')
print("\n Características del DataFrame en Pandas:")
print(f"La forma del df_pandas_03 es: {df_pandas_03.shape}")
print(f"Número de filas: {df_pandas_03.shape[0]}")
print(f"Número de columnas: {df_pandas_03.shape[1]}")
pep8(_ih)

Resultado en en pandas:
     Primera  Segunda  Tercera  Cuarta     Quinta
0   0.511027        3        1       1  13.184864
1   0.267673        4        2       1  13.407056
2   0.703034       95        3       1  13.752685
3   0.658119       99        4       1  13.532177
4   0.526280       14        5       1  13.492553
..       ...      ...      ...     ...        ...
95  0.658147        4       96       0  13.057446
96  0.653720       32       97       0  13.990291
97  0.275593       10       98       0  13.097415
98  0.563555       11       99       0  13.872105
99  0.501226       28      100       1  13.572171

[100 rows x 5 columns]

 Características del DataFrame en Pandas:
La forma del df_pandas_03 es: (100, 5)
Número de filas: 100
Número de columnas: 5



In [None]:
# Muestre los tiempos de ejecución en Polar y Pandas, calcule la
# diferencia e indique cuál librería obtuvo mejor desempeño en esta tarea.

# Calcular tiempo en polars
inicio1 = time.time()
generar_nuevo_dataframe_polars(df_polars_02)
fin1 = time.time()
tiempo_polars = fin1 - inicio1

# Calcular tiempo en pandas
inicio2 = time.time()
generar_nuevo_dataframe_pandas(df_pandas_02)
fin2 = time.time()
tiempo_pandas = fin2 - inicio2

# Mostrar los resultados
print(f'Tiempo de ejecución en pandas: {tiempo_pandas} segundos')
print(f'Tiempo de ejecución en polars: {tiempo_polars} segundos')

# Diferencia de tiempos
diferencia_tiempos = abs(tiempo_pandas-tiempo_polars)
print(f'Diferencia de tiempo: {diferencia_tiempos} segundos')

# ¿Cuál librería fue mejor?
if tiempo_pandas < tiempo_polars:
    print("La librería con mayor desempeño fue pandas.")
elif tiempo_pandas > tiempo_polars:
    print("La librería con mayor desempeño fue polars.")
elif diferencia_tiempos == 0:
    print("Ambas librerías fueron igual de eficientes.")
pep8(_ih)

Tiempo de ejecución en pandas: 0.0009357929229736328 segundos
Tiempo de ejecución en polars: 0.00335693359375 segundos
Diferencia de tiempo: 0.002421140670776367 segundos
La librería con mayor desempeño fue pandas.



## 04.
A partir del DataFrame modificado en el ejercicio anterior calcule el promedio de los valores de la tercera columna que corresponden a un valor de 1 en la cuarta columna. Muestre el resultado.

In [None]:
# Código en Polars
# Importar librerías
import polars as pl


def calcular_promedio_polars(df):
    """
    Calcula el promedio de los valores en la tercera columna donde la
    cuarta columna es igual a 1 en un DataFrame de Polars.

    Args:
        df (pl.DataFrame): DataFrame de Polars.

    Returns:
        float: Promedio de los valores en la tercera columna donde la
        cuarta columna es igual a 1.
    """
    df_filtrado = df.filter(pl.col("Cuarta") == 1)
    promedio = df_filtrado["Tercera"].mean()
    return promedio


# Llamado a la función
prom_polars_04 = calcular_promedio_polars(df_polars_03)

# Mostrar los resultados en polars
print(f'\nResultado en polars: {prom_polars_04}')
pep8(_ih)


Resultado en polars: 49.48148148148148



In [None]:
# Código en Pandas
# Importar librerías
import polars as pl


def calcular_promedio_pandas(df):
    """
    Calcula el promedio de los valores en la tercera columna donde la
    cuarta columna es igual a 1 en un DataFrame de Pandas.

    Args:
        df (pd.DataFrame): DataFrame de Pandas.

    Returns:
        float: Promedio de los valores en la tercera columna donde la
        cuarta columna es igual a 1.
    """
    promedio = df.loc[df['Cuarta'] == 1, 'Tercera'].mean()
    return promedio


# Llamado a la función
prom_pandas_04 = calcular_promedio_pandas(df_pandas_03)

# Mostrar los resultados en pandas
print(f'Resultado en en pandas: {prom_pandas_04}')
pep8(_ih)

Resultado en en pandas: 49.48148148148148



In [None]:
# Muestre los tiempos de ejecución en Polar y Pandas, calcule la
# diferencia e indique cuál librería obtuvo mejor desempeño en esta tarea.

# Calcular tiempo en polars
inicio1 = time.time()
calcular_promedio_polars(df_polars_03)
fin1 = time.time()
tiempo_polars = fin1 - inicio1

# Calcular tiempo en pandas
inicio2 = time.time()
calcular_promedio_pandas(df_pandas_03)
fin2 = time.time()
tiempo_pandas = fin2 - inicio2

# Mostrar los resultados
print(f'Tiempo de ejecución en pandas: {tiempo_pandas} segundos')
print(f'Tiempo de ejecución en polars: {tiempo_polars} segundos')

# Diferencia de tiempos
diferencia_tiempos = abs(tiempo_pandas-tiempo_polars)
print(f'Diferencia de tiempo: {diferencia_tiempos} segundos')

# ¿Cuál librería fue mejor?
if tiempo_pandas < tiempo_polars:
    print("La librería con mayor desempeño fue pandas.")
elif tiempo_pandas > tiempo_polars:
    print("La librería con mayor desempeño fue polars.")
elif diferencia_tiempos == 0:
    print("Ambas librerías fueron igual de eficientes.")
pep8(_ih)

Tiempo de ejecución en pandas: 0.0011363029479980469 segundos
Tiempo de ejecución en polars: 0.002955198287963867 segundos
Diferencia de tiempo: 0.0018188953399658203 segundos
La librería con mayor desempeño fue pandas.



# Exportaciones agrícolas no tradicionales y tradicionales
Para los ejercicios 05 a 09 utilice los datos de [Exportaciones agrícolas no tradicionales y tradicionales](https://www.datos.gov.co/Agricultura-y-Desarrollo-Rural/Exportaciones-agr-colas-no-tradicionales-y-tradici/h7mi-sbxb)

Lea el archivo desde el siguiente enlace:

https://docs.google.com/spreadsheets/d/e/2PACX-1vReTcFIzhR6gH1R09L4HrhSpgnu01t6k4WaHpGQwxiERYp5DJXeesM__JZ5bKlMkDS6oUb-9dNE32yQ/pub?output=csv

## 05.
Lea el archivo, genere un DataFrame y muestre las características del DataFrame.

In [None]:
# Código en Polars
# Importar librerías
import polars as pl


def cargar_archivo_polars():
    """
    Carga un archivo CSV desde una URL en un DataFrame de Polars y realiza
    la limpieza de las columnas numéricas.

    Returns:
        pl.DataFrame: DataFrame de Polars con los datos cargados y columnas
        numéricas limpias.
    """
    # Leer el archivo CSV
    agricolas_pl = pl.read_csv("https://docs.google.com/spreadsheets/d/e/2PACX-1vReTcFIzhR6gH1R09L4HrhSpgnu01t6k4WaHpGQwxiERYp5DJXeesM__JZ5bKlMkDS6oUb-9dNE32yQ/pub?output=csv")

    # Especificar las columnas que no deseas modificar
    columnas_no_modificar = ['Descripcion Partida 4 Digitos',
                             'Descripcion Partida10 Digitos',
                             'Producto General', 'Mes', 'Departamento']

    # Obtener todas las columnas del DataFrame
    todas_las_columnas = agricolas_pl.columns

    # Obtener las columnas numéricas que no están en columnas_no_modificar
    columnas_numericas = [col for col in todas_las_columnas if col
                          not in columnas_no_modificar]

    # Realizar el reemplazo de comas en las columnas numéricas
    for columna in columnas_numericas:
        agricolas_pl = agricolas_pl.with_columns(
            pl.col(columna).apply(lambda x: x.replace(",", ""))
        )

    # Convertir las columnas numéricas a tipo Int64
    for columna in columnas_numericas:
        agricolas_pl = agricolas_pl.with_columns(
          pl.col(columna).cast(pl.Int64)
          )

    return agricolas_pl


# Llamado a la función
agricolas_pl_05 = cargar_archivo_polars()

# Mostrar los resultados en polars
print(f'\nResultado en polars:\n{agricolas_pl_05}')
print("\nCaracterísticas del DataFrame en Polars:")
print(f"Número de filas: {agricolas_pl_05.height}")
print(f"Número de columnas: {agricolas_pl_05.width}")
print(f"Nombres de las columnas:\n{agricolas_pl_05.columns}")
print(f"\nTipos de datos de las columnas:\n{agricolas_pl_05.dtypes}")
pep8(_ih)


Resultado en polars:
shape: (1_332, 9)
┌──────┬───────────┬────────────┬────────────┬───┬──────────┬────────────┬────────────┬────────────┐
│ Año  ┆ Mes       ┆ Departamen ┆ Producto   ┆ … ┆ Partida  ┆ Descripcio ┆ Exportacio ┆ Exportacio │
│ ---  ┆ ---       ┆ to         ┆ General    ┆   ┆ ---      ┆ n          ┆ nes en     ┆ nes en     │
│ i64  ┆ str       ┆ ---        ┆ ---        ┆   ┆ i64      ┆ Partida10  ┆ valor      ┆ volumen    │
│      ┆           ┆ str        ┆ str        ┆   ┆          ┆ Digitos    ┆ (Miles US… ┆ (tonela…   │
│      ┆           ┆            ┆            ┆   ┆          ┆ ---        ┆ ---        ┆ ---        │
│      ┆           ┆            ┆            ┆   ┆          ┆ str        ┆ i64        ┆ i64        │
╞══════╪═══════════╪════════════╪════════════╪═══╪══════════╪════════════╪════════════╪════════════╡
│ 2022 ┆ Septiembr ┆ Antioquia  ┆ Animales   ┆ … ┆ 10619000 ┆ Los demás  ┆ 0          ┆ 0          │
│      ┆ e         ┆            ┆ vivos      ┆   ┆ 

In [None]:
# Código en Pandas
# Importar librerías
import pandas as pd


def cargar_archivo_pandas():
    """
    Carga un archivo CSV desde una URL en un DataFrame de Pandas y realiza
    la limpieza de las columnas numéricas.

    Returns:
        pd.DataFrame: DataFrame de Pandas con los datos cargados y columnas
        numéricas limpias.
    """
    agricolas_pd = pd.read_csv("https://docs.google.com/spreadsheets/d/e/2PACX-1vReTcFIzhR6gH1R09L4HrhSpgnu01t6k4WaHpGQwxiERYp5DJXeesM__JZ5bKlMkDS6oUb-9dNE32yQ/pub?output=csv")

    # Eliminar comas de columnas numéricas
    columnas_numericas = agricolas_pd.columns.difference(
       ['Descripcion Partida 4 Digitos', 'Descripcion Partida10 Digitos',
        'Producto General', 'Mes', 'Departamento'])

    agricolas_pd[columnas_numericas] = (
        agricolas_pd[columnas_numericas].replace(
                                                {',': ''}, regex=True
                                                ).apply(pd.to_numeric))

    return agricolas_pd


# Llamado a la función
agricolas_pd_05 = cargar_archivo_pandas()

# Mostrar los resultados en pandas
print(f'Resultado en en pandas:\n{agricolas_pd_05}')
print("\n Características del DataFrame en Pandas:")
print(f"Número de filas: {agricolas_pd_05.shape[0]}")
print(f"Número de columnas: {agricolas_pd_05.shape[1]}")
print(f"Nombres de las columnas:\n{agricolas_pd_05.columns}")
print(f"\nTipos de datos de las columnas:\n{agricolas_pd_05.dtypes}")
pep8(_ih)

Resultado en en pandas:
       Año         Mes     Departamento  \
0     2022  Septiembre        Antioquia   
1     2022  Septiembre        Antioquia   
2     2022  Septiembre        Antioquia   
3     2022  Septiembre        Antioquia   
4     2022  Septiembre        Antioquia   
...    ...         ...              ...   
1327  2022  Septiembre  Valle del Cauca   
1328  2022  Septiembre  Valle del Cauca   
1329  2022  Septiembre  Valle del Cauca   
1330  2022  Septiembre  Valle del Cauca   
1331  2022  Septiembre  Valle del Cauca   

                                       Producto General  \
0                                        Animales vivos   
1                                      Carne de bovinos   
2                                      Carne de bovinos   
3                                      Carne de bovinos   
4                                               Truchas   
...                                                 ...   
1327  Preparaciones utilizadas para la aliment

In [None]:
# Muestre los tiempos de ejecución en Polar y Pandas, calcule la
# diferencia e indique cuál librería obtuvo mejor desempeño en esta tarea.

# Calcular tiempo en polars
inicio1 = time.time()
cargar_archivo_polars()
fin1 = time.time()
tiempo_polars = fin1 - inicio1

# Calcular tiempo en pandas
inicio2 = time.time()
cargar_archivo_pandas()
fin2 = time.time()
tiempo_pandas = fin2 - inicio2

# Mostrar los resultados
print(f'Tiempo de ejecución en pandas: {tiempo_pandas} segundos')
print(f'Tiempo de ejecución en polars: {tiempo_polars} segundos')

# Diferencia de tiempos
diferencia_tiempos = abs(tiempo_pandas-tiempo_polars)
print(f'Diferencia de tiempo: {diferencia_tiempos} segundos')

# ¿Cuál librería fue mejor?
if tiempo_pandas < tiempo_polars:
    print("La librería con mayor desempeño fue pandas.")
elif tiempo_pandas > tiempo_polars:
    print("La librería con mayor desempeño fue polars.")
elif diferencia_tiempos == 0:
    print("Ambas librerías fueron igual de eficientes.")
pep8(_ih)

Tiempo de ejecución en pandas: 0.9057073593139648 segundos
Tiempo de ejecución en polars: 1.194732427597046 segundos
Diferencia de tiempo: 0.28902506828308105 segundos
La librería con mayor desempeño fue pandas.



## 06.
Calcule las exportaciones en valor (miles US FOB) y en volumen (toneladas) por departamento. Muestre los resultados.

In [None]:
# Código en Polars
# Importar librerías
import polars as pl


def calcular_exportaciones_polars(exportaciones_polars):
    """
    Calcula las exportaciones en valor y volumen por departamento en un
    DataFrame de Polars.

    Args:
        exportaciones_polars (pl.DataFrame): DataFrame de Polars con datos
        de exportaciones.

    Returns:
        pl.DataFrame: Resultados de las exportaciones por departamento.
    """
    resultados = exportaciones_polars.groupby('Departamento').agg(
        pl.sum('Exportaciones en valor (Miles USD FOB)').alias(
            'Total Exportaciones en valor (Miles USD FOB)'
        ),
        pl.sum('Exportaciones en volumen (toneladas)').alias(
            'Total Exportaciones en volumen (toneladas)'
        )
    )

    return resultados


# Llamado a la función
agricolas_pl_06 = calcular_exportaciones_polars(agricolas_pl_05)

# Mostrar los resultados en polars
print(f'\nResultado en polars:\n{agricolas_pl_06}')
print("\nCaracterísticas del DataFrame en Polars:")
print(f"Número de filas: {agricolas_pl_06.height}")
print(f"Número de columnas: {agricolas_pl_06.width}")
print(f"Nombres de las columnas:\n{agricolas_pl_06.columns}")
print(f"\nTipos de datos de las columnas:\n{agricolas_pl_06.dtypes}")
pep8(_ih)


Resultado en polars:
shape: (22, 3)
┌──────────────┬───────────────────────────────────┬───────────────────────────────────┐
│ Departamento ┆ Total Exportaciones en valor (Mi… ┆ Total Exportaciones en volumen (… │
│ ---          ┆ ---                               ┆ ---                               │
│ str          ┆ i64                               ┆ i64                               │
╞══════════════╪═══════════════════════════════════╪═══════════════════════════════════╡
│ Bolívar      ┆ 28436                             ┆ 13205                             │
│ Magdalena    ┆ 83128                             ┆ 120927                            │
│ Caldas       ┆ 76196                             ┆ 12190                             │
│ Quindío      ┆ 57866                             ┆ 9518                              │
│ …            ┆ …                                 ┆ …                                 │
│ Boyacá       ┆ 845                               ┆ 313                 

In [None]:
# Código en Pandas
# Importar librerías
import pandas as pd


def calcular_exportaciones_pandas(exportaciones_pandas):
    """
    Calcula las exportaciones en valor y volumen por departamento en un
    DataFrame de Pandas.

    Args:
        exportaciones_pandas (pd.DataFrame): DataFrame de Pandas con datos
        de exportaciones.

    Returns:
        pd.DataFrame: Resultados de las exportaciones por departamento.
    """

    resultados = exportaciones_pandas.groupby('Departamento').agg({
        'Exportaciones en valor (Miles USD FOB)': 'sum',
        'Exportaciones en volumen (toneladas)': 'sum'
    }).reset_index()
    return resultados


# Llamado a la función
agricolas_pd_06 = calcular_exportaciones_pandas(agricolas_pd_05)

# Mostrar los resultados en pandas
print(f'Resultado en en pandas:\n{agricolas_pd_06}')
print("\n Características del DataFrame en Pandas:")
print(f"Número de filas: {agricolas_pd_06.shape[0]}")
print(f"Número de columnas: {agricolas_pd_06.shape[1]}")
print(f"Nombres de las columnas:\n{agricolas_pd_06.columns}")
print(f"\nTipos de datos de las columnas:\n{agricolas_pd_06.dtypes}")
pep8(_ih)

Resultado en en pandas:
          Departamento  Exportaciones en valor (Miles USD FOB)  \
0            Antioquia                                  203700   
1            Atlántico                                   22585   
2               Bogotá                                  143533   
3              Bolívar                                   28436   
4               Boyacá                                     845   
5               Caldas                                   76196   
6                Cauca                                   21635   
7                Cesar                                    2382   
8         Cundinamarca                                   76684   
9              Córdoba                                   16579   
10               Huila                                   86307   
11          La Guajira                                     807   
12           Magdalena                                   83128   
13                Meta                              

In [None]:
# Muestre los tiempos de ejecución en Polar y Pandas, calcule la
# diferencia e indique cuál librería obtuvo mejor desempeño en esta tarea.

# Calcular tiempo en polars
inicio1 = time.time()
calcular_exportaciones_polars(agricolas_pl_05)
fin1 = time.time()
tiempo_polars = fin1 - inicio1

# Calcular tiempo en pandas
inicio2 = time.time()
calcular_exportaciones_pandas(agricolas_pd_05)
fin2 = time.time()
tiempo_pandas = fin2 - inicio2

# Mostrar los resultados
print(f'Tiempo de ejecución en pandas: {tiempo_pandas} segundos')
print(f'Tiempo de ejecución en polars: {tiempo_polars} segundos')

# Diferencia de tiempos
diferencia_tiempos = abs(tiempo_pandas-tiempo_polars)
print(f'Diferencia de tiempo: {diferencia_tiempos} segundos')

# ¿Cuál librería fue mejor?
if tiempo_pandas < tiempo_polars:
    print("La librería con mayor desempeño fue pandas.")
elif tiempo_pandas > tiempo_polars:
    print("La librería con mayor desempeño fue polars.")
elif diferencia_tiempos == 0:
    print("Ambas librerías fueron igual de eficientes.")
pep8(_ih)

Tiempo de ejecución en pandas: 0.002624988555908203 segundos
Tiempo de ejecución en polars: 0.005359649658203125 segundos
Diferencia de tiempo: 0.002734661102294922 segundos
La librería con mayor desempeño fue pandas.



## 07.
Genere un DataFrame con las exportaciones en valor (miles US FOB) y en volumen (toneladas) para los productos que en la columna 'Producto general' estén clasificados como 'Cacao'. Muestre las características del DataFrame.

In [None]:
# Código en Polars
# Importar librerías
import polars as pl


def generar_dataframe_cacao_polars(exportaciones_polars):
    """
    Genera un DataFrame con las exportaciones en valor y volumen para
    productos clasificados como 'Cacao' en Polars.

    Args:
        exportaciones_polars (pl.DataFrame): DataFrame de Polars con
        datos de exportaciones.

    Returns:
        pl.DataFrame: DataFrame con exportaciones de productos 'Cacao'.
    """
    cacao_df = exportaciones_polars.filter(
        pl.col('Producto General') == 'Cacao'
    )
    cacao_df = cacao_df.select(['Exportaciones en valor (Miles USD FOB)',
                                'Exportaciones en volumen (toneladas)'])
    return cacao_df


# Llamado a la función
agricolas_pl_07 = generar_dataframe_cacao_polars(agricolas_pl_05)

# Mostrar los resultados en polars
print(f'\nResultado en polars:\n{agricolas_pl_07}')
print("\nCaracterísticas del DataFrame en Polars:")
print(f"Número de filas: {agricolas_pl_07.height}")
print(f"Número de columnas: {agricolas_pl_07.width}")
print(f"Nombres de las columnas:\n{agricolas_pl_07.columns}")
print(f"\nTipos de datos de las columnas:\n{agricolas_pl_07.dtypes}")
pep8(_ih)


Resultado en polars:
shape: (29, 2)
┌───────────────────────────────────┬───────────────────────────────────┐
│ Exportaciones en valor (Miles US… ┆ Exportaciones en volumen (tonela… │
│ ---                               ┆ ---                               │
│ i64                               ┆ i64                               │
╞═══════════════════════════════════╪═══════════════════════════════════╡
│ 74                                ┆ 20                                │
│ 100                               ┆ 40                                │
│ 1089                              ┆ 263                               │
│ 308                               ┆ 115                               │
│ …                                 ┆ …                                 │
│ 6                                 ┆ 1                                 │
│ 69                                ┆ 20                                │
│ 3                                 ┆ 0                                 │
│

In [None]:
# Código en Pandas
# Importar liberías
import pandas as pd


def generar_dataframe_cacao_pandas(exportaciones_pandas):
    """
    Genera un DataFrame con las exportaciones en valor y volumen para
    productos clasificados como 'Cacao' en Pandas.

    Args:
        exportaciones_pandas (pd.DataFrame): DataFrame de Pandas con datos
        de exportaciones.

    Returns:
        pd.DataFrame: DataFrame con exportaciones de productos 'Cacao'.
    """
    cacao_df = exportaciones_pandas[
        exportaciones_pandas['Producto General'] == 'Cacao'
    ]
    cacao_df = cacao_df[['Exportaciones en valor (Miles USD FOB)',
                         'Exportaciones en volumen (toneladas)']]
    return cacao_df


# Llamado a la función
agricolas_pd_07 = generar_dataframe_cacao_pandas(agricolas_pd_05)

# Mostrar los resultados en pandas
print(f'Resultado en en pandas:\n{agricolas_pd_07}')
print("\n Características del DataFrame en Pandas:")
print(f"Número de filas: {agricolas_pd_07.shape[0]}")
print(f"Número de columnas: {agricolas_pd_07.shape[1]}")
print(f"Nombres de las columnas:\n{agricolas_pd_07.columns}")
print(f"\nTipos de datos de las columnas:\n{agricolas_pd_07.dtypes}")
pep8(_ih)

Resultado en en pandas:
      Exportaciones en valor (Miles USD FOB)  \
113                                       74   
114                                      100   
115                                     1089   
116                                      308   
117                                       12   
118                                      154   
488                                       91   
489                                       19   
490                                       17   
491                                      688   
492                                       67   
493                                      748   
494                                      195   
495                                       35   
496                                      930   
690                                       34   
829                                        0   
830                                       38   
886                                      494   
967             

In [None]:
# Muestre los tiempos de ejecución en Polar y Pandas, calcule la
# diferencia e indique cuál librería obtuvo mejor desempeño en esta tarea.

# Calcular tiempo en polars
inicio1 = time.time()
generar_dataframe_cacao_polars(agricolas_pl_05)
fin1 = time.time()
tiempo_polars = fin1 - inicio1

# Calcular tiempo en pandas
inicio2 = time.time()
generar_dataframe_cacao_pandas(agricolas_pd_05)
fin2 = time.time()
tiempo_pandas = fin2 - inicio2

# Mostrar los resultados
print(f'Tiempo de ejecución en pandas: {tiempo_pandas} segundos')
print(f'Tiempo de ejecución en polars: {tiempo_polars} segundos')

# Diferencia de tiempos
diferencia_tiempos = abs(tiempo_pandas-tiempo_polars)
print(f'Diferencia de tiempo: {diferencia_tiempos} segundos')

# ¿Cuál librería fue mejor?
if tiempo_pandas < tiempo_polars:
    print("La librería con mayor desempeño fue pandas.")
elif tiempo_pandas > tiempo_polars:
    print("La librería con mayor desempeño fue polars.")
elif diferencia_tiempos == 0:
    print("Ambas librerías fueron igual de eficientes.")
pep8(_ih)

Tiempo de ejecución en pandas: 0.0018067359924316406 segundos
Tiempo de ejecución en polars: 0.0010700225830078125 segundos
Diferencia de tiempo: 0.0007367134094238281 segundos
La librería con mayor desempeño fue polars.



## 08.
Genere un DataFrame con las exportaciones que en valor (miles US FOB) superen los dos mil dólares. Muestre las características del DataFrame.

In [None]:
# Código en Polars
# Importar librerías
import polars as pl


def exportaciones_mayor_a_2000_polars(exportaciones_polars):
    """
    Genera un DataFrame con exportaciones en valor (miles USD FOB)
    superiores a 2000 en Polars.

    Args:
        exportaciones_polars (pl.DataFrame): DataFrame de Polars con datos
        de exportaciones.

    Returns:
        pl.DataFrame: DataFrame con exportaciones superiores a 2000 en
        valor.
    """
    exportaciones_mayor_a_2000 = exportaciones_polars.filter(
     pl.col('Exportaciones en valor (Miles USD FOB)') > 2000
    )

    return exportaciones_mayor_a_2000


# Llamado a la función
agricolas_pl_08 = exportaciones_mayor_a_2000_polars(agricolas_pl_05)

# Mostrar los resultados en polars
print(f'\nResultado en polars:\n{agricolas_pl_08}')
print("\nCaracterísticas del DataFrame en Polars:")
print(f"Número de filas: {agricolas_pl_08.height}")
print(f"Número de columnas: {agricolas_pl_08.width}")
print(f"Nombres de las columnas:\n{agricolas_pl_08.columns}")
print(f"\nTipos de datos de las columnas:\n{agricolas_pl_08.dtypes}")
pep8(_ih)


Resultado en polars:
shape: (57, 9)
┌──────┬───────────┬────────────┬────────────┬───┬──────────┬────────────┬────────────┬────────────┐
│ Año  ┆ Mes       ┆ Departamen ┆ Producto   ┆ … ┆ Partida  ┆ Descripcio ┆ Exportacio ┆ Exportacio │
│ ---  ┆ ---       ┆ to         ┆ General    ┆   ┆ ---      ┆ n          ┆ nes en     ┆ nes en     │
│ i64  ┆ str       ┆ ---        ┆ ---        ┆   ┆ i64      ┆ Partida10  ┆ valor      ┆ volumen    │
│      ┆           ┆ str        ┆ str        ┆   ┆          ┆ Digitos    ┆ (Miles US… ┆ (tonela…   │
│      ┆           ┆            ┆            ┆   ┆          ┆ ---        ┆ ---        ┆ ---        │
│      ┆           ┆            ┆            ┆   ┆          ┆ str        ┆ i64        ┆ i64        │
╞══════╪═══════════╪════════════╪════════════╪═══╪══════════╪════════════╪════════════╪════════════╡
│ 2022 ┆ Septiembr ┆ Antioquia  ┆ Flores     ┆ … ┆ 60314100 ┆ Pompones   ┆ 7285       ┆ 2186       │
│      ┆ e         ┆            ┆            ┆   ┆ 0  

In [None]:
# Código en Pandas
# Importar librerías
import pandas as pd


def exportaciones_mayor_a_2000_pandas(exportaciones_pandas):
    """
    Genera un DataFrame con exportaciones en valor (miles USD FOB)
    superiores a 2000 en Pandas.

    Args:
        exportaciones_pandas (pd.DataFrame): DataFrame de Pandas con datos
        de exportaciones.

    Returns:
        pd.DataFrame: DataFrame con exportaciones superiores a 2000 en valor.
    """
    exportaciones_mayor_a_2000 = exportaciones_pandas[
     exportaciones_pandas['Exportaciones en valor (Miles USD FOB)'] > 2000
    ]

    return exportaciones_mayor_a_2000


# Llamado a la función
agricolas_pd_08 = exportaciones_mayor_a_2000_pandas(agricolas_pd_05)

# Mostrar los resultados en pandas
print(f'Resultado en en pandas:\n{agricolas_pd_08}')
print("\n Características del DataFrame en Pandas:")
print(f"Número de filas: {agricolas_pd_08.shape[0]}")
print(f"Número de columnas: {agricolas_pd_08.shape[1]}")
print(f"Nombres de las columnas:\n{agricolas_pd_08.columns}")
print(f"\nTipos de datos de las columnas:\n{agricolas_pd_08.dtypes}")
pep8(_ih)

Resultado en en pandas:
       Año         Mes     Departamento  \
21    2022  Septiembre        Antioquia   
28    2022  Septiembre        Antioquia   
29    2022  Septiembre        Antioquia   
48    2022  Septiembre        Antioquia   
49    2022  Septiembre        Antioquia   
53    2022  Septiembre        Antioquia   
82    2022  Septiembre        Antioquia   
84    2022  Septiembre        Antioquia   
85    2022  Septiembre        Antioquia   
133   2022  Septiembre        Antioquia   
136   2022  Septiembre        Antioquia   
157   2022  Septiembre        Antioquia   
161   2022  Septiembre        Antioquia   
261   2022  Septiembre        Atlántico   
262   2022  Septiembre        Atlántico   
356   2022  Septiembre           Bogotá   
358   2022  Septiembre           Bogotá   
364   2022  Septiembre           Bogotá   
367   2022  Septiembre           Bogotá   
437   2022  Septiembre           Bogotá   
582   2022  Septiembre          Bolívar   
655   2022  Septiembre        

In [None]:
# Muestre los tiempos de ejecución en Polar y Pandas, calcule la
# diferencia e indique cuál librería obtuvo mejor desempeño en esta tarea.

# Calcular tiempo en polars
inicio1 = time.time()
exportaciones_mayor_a_2000_polars(agricolas_pl_05)
fin1 = time.time()
tiempo_polars = fin1 - inicio1

# Calcular tiempo en pandas
inicio2 = time.time()
exportaciones_mayor_a_2000_pandas(agricolas_pd_05)
fin2 = time.time()
tiempo_pandas = fin2 - inicio2

# Mostrar los resultados
print(f'Tiempo de ejecución en pandas: {tiempo_pandas} segundos')
print(f'Tiempo de ejecución en polars: {tiempo_polars} segundos')

# Diferencia de tiempos
diferencia_tiempos = abs(tiempo_pandas-tiempo_polars)
print(f'Diferencia de tiempo: {diferencia_tiempos} segundos')

# ¿Cuál librería fue mejor?
if tiempo_pandas < tiempo_polars:
    print("La librería con mayor desempeño fue pandas.")
elif tiempo_pandas > tiempo_polars:
    print("La librería con mayor desempeño fue polars.")
elif diferencia_tiempos == 0:
    print("Ambas librerías fueron igual de eficientes.")
pep8(_ih)

Tiempo de ejecución en pandas: 0.0009465217590332031 segundos
Tiempo de ejecución en polars: 0.0033020973205566406 segundos
Diferencia de tiempo: 0.0023555755615234375 segundos
La librería con mayor desempeño fue pandas.



## 09.
Genere un DataFrame con las exportaciones que en volumen (toneladas) superen las mil toneladas. Muestre las características del DataFrame.

In [None]:
# Código en Polars
# Importar librerías
import polars as pl


def exportaciones_mayor_a_1000_polars(exportaciones_polars):
    """
    Genera un DataFrame con exportaciones en volumen (toneladas)
    superiores a 1000 en Polars.

    Args:
        exportaciones_polars (pl.DataFrame): DataFrame de Polars con datos
        de exportaciones.

    Returns:
        pl.DataFrame: DataFrame con exportaciones superiores a 1000
        toneladas en volumen.
    """
    exportaciones_mayor_a_1000_toneladas = exportaciones_polars.filter(
     pl.col('Exportaciones en volumen (toneladas)') > 1000
    )

    return exportaciones_mayor_a_1000_toneladas


# Llamado a la función
agricolas_pl_09 = exportaciones_mayor_a_1000_polars(agricolas_pl_05)

# Mostrar los resultados en polars
print(f'\nResultado en polars:\n{agricolas_pl_09}')
print("\nCaracterísticas del DataFrame en Polars:")
print(f"Número de filas: {agricolas_pl_09.height}")
print(f"Número de columnas: {agricolas_pl_09.width}")
print(f"Nombres de las columnas:\n{agricolas_pl_09.columns}")
print(f"\nTipos de datos de las columnas:\n{agricolas_pl_09.dtypes}")
pep8(_ih)


Resultado en polars:
shape: (46, 9)
┌──────┬───────────┬────────────┬────────────┬───┬──────────┬────────────┬────────────┬────────────┐
│ Año  ┆ Mes       ┆ Departamen ┆ Producto   ┆ … ┆ Partida  ┆ Descripcio ┆ Exportacio ┆ Exportacio │
│ ---  ┆ ---       ┆ to         ┆ General    ┆   ┆ ---      ┆ n          ┆ nes en     ┆ nes en     │
│ i64  ┆ str       ┆ ---        ┆ ---        ┆   ┆ i64      ┆ Partida10  ┆ valor      ┆ volumen    │
│      ┆           ┆ str        ┆ str        ┆   ┆          ┆ Digitos    ┆ (Miles US… ┆ (tonela…   │
│      ┆           ┆            ┆            ┆   ┆          ┆ ---        ┆ ---        ┆ ---        │
│      ┆           ┆            ┆            ┆   ┆          ┆ str        ┆ i64        ┆ i64        │
╞══════╪═══════════╪════════════╪════════════╪═══╪══════════╪════════════╪════════════╪════════════╡
│ 2022 ┆ Septiembr ┆ Antioquia  ┆ Flores     ┆ … ┆ 60314100 ┆ Pompones   ┆ 7285       ┆ 2186       │
│      ┆ e         ┆            ┆            ┆   ┆ 0  

In [None]:
# Código en Pandas
# Importar librerías
import pandas as pd


def exportaciones_mayor_a_1000_pandas(exportaciones_pandas):
    """
    Genera un DataFrame con exportaciones en volumen (toneladas)
    superiores a 1000 en Pandas.

    Args:
        exportaciones_pandas (pd.DataFrame): DataFrame de Pandas con datos
        de exportaciones.

    Returns:
        pd.DataFrame: DataFrame con exportaciones superiores a 1000
        toneladas en volumen.
    """
    exportaciones_mayor_a_1000_toneladas = exportaciones_pandas[
     exportaciones_pandas['Exportaciones en volumen (toneladas)'] > 1000
    ]

    return exportaciones_mayor_a_1000_toneladas


# Llamado a la función
agricolas_pd_09 = exportaciones_mayor_a_1000_pandas(agricolas_pd_05)

# Mostrar los resultados en pandas
print(f'Resultado en en pandas:\n{agricolas_pd_09}')
print("\n Características del DataFrame en Pandas:")
print(f"Número de filas: {agricolas_pd_09.shape[0]}")
print(f"Número de columnas: {agricolas_pd_09.shape[1]}")
print(f"Nombres de las columnas:\n{agricolas_pd_09.columns}")
print(f"\nTipos de datos de las columnas:\n{agricolas_pd_09.dtypes}")
pep8(_ih)

Resultado en en pandas:
       Año         Mes     Departamento  \
21    2022  Septiembre        Antioquia   
28    2022  Septiembre        Antioquia   
48    2022  Septiembre        Antioquia   
49    2022  Septiembre        Antioquia   
53    2022  Septiembre        Antioquia   
82    2022  Septiembre        Antioquia   
136   2022  Septiembre        Antioquia   
256   2022  Septiembre        Atlántico   
261   2022  Septiembre        Atlántico   
262   2022  Septiembre        Atlántico   
324   2022  Septiembre        Atlántico   
356   2022  Septiembre           Bogotá   
367   2022  Septiembre           Bogotá   
437   2022  Septiembre           Bogotá   
562   2022  Septiembre           Bogotá   
582   2022  Septiembre          Bolívar   
655   2022  Septiembre           Caldas   
660   2022  Septiembre           Caldas   
687   2022  Septiembre            Cauca   
688   2022  Septiembre            Cauca   
712   2022  Septiembre          Córdoba   
746   2022  Septiembre     Cun

In [None]:
# Muestre los tiempos de ejecución en Polar y Pandas, calcule la
# diferencia e indique cuál librería obtuvo mejor desempeño en esta tarea.

# Calcular tiempo en polars
inicio1 = time.time()
exportaciones_mayor_a_1000_polars(agricolas_pl_05)
fin1 = time.time()
tiempo_polars = fin1 - inicio1

# Calcular tiempo en pandas
inicio2 = time.time()
exportaciones_mayor_a_1000_pandas(agricolas_pd_05)
fin2 = time.time()
tiempo_pandas = fin2 - inicio2

# Mostrar los resultados
print(f'Tiempo de ejecución en pandas: {tiempo_pandas} segundos')
print(f'Tiempo de ejecución en polars: {tiempo_polars} segundos')

# Diferencia de tiempos
diferencia_tiempos = abs(tiempo_pandas-tiempo_polars)
print(f'Diferencia de tiempo: {diferencia_tiempos} segundos')

# ¿Cuál librería fue mejor?
if tiempo_pandas < tiempo_polars:
    print("La librería con mayor desempeño fue pandas.")
elif tiempo_pandas > tiempo_polars:
    print("La librería con mayor desempeño fue polars.")
elif diferencia_tiempos == 0:
    print("Ambas librerías fueron igual de eficientes.")
pep8(_ih)

Tiempo de ejecución en pandas: 0.0009379386901855469 segundos
Tiempo de ejecución en polars: 0.0010178089141845703 segundos
Diferencia de tiempo: 7.987022399902344e-05 segundos
La librería con mayor desempeño fue pandas.

