<a href="https://colab.research.google.com/github/gabrielawad/talleresGoogleColab/blob/main/Taller_16_Polars.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## «*Quien se empeña en darle una pedrada a la Luna no lo conseguirá, pero terminará sabiendo manejar la honda.*»
### Provervio árabe

# Taller 16 Polars
En este taller aprenderá los conceptos básicos de la librería Polars.

Polars **no es una librería nativa** de Python por lo que **requiere ser instalada antes de ser invocada**. 

Puede consultar más información en: [Polars](https://www.pola.rs/).

## Características principales de Polars

Polars es una librería muy parecida a Pandas, su propósito es aumentar la velocidad de procesamiento de grandes conjuntos de datos.

Polars utiliza los mismos conceptos de Series y DataFrame que utiliza Pandas.

La principal diferencia entre Polars y Pandas es que Polars no utiliza índices, sino que cada fila es indexada con el entero correspondiente a su posición en el DataFrame.

Los valores faltantes se representan con **null** en Polars, mientras que en Pandas se uiliza **NaN**.

# Referencias
Este taller se basa en información e ideas recopiladas de las siguientes fuentes:

* [Polars API Reference](https://pola-rs.github.io/polars/py-polars/html/reference/)
* [Polars User Guide](https://pola-rs.github.io/polars-book/user-guide/introduction.html)
* [Polars GitHub](https://github.com/pola-rs/polars)
* [Alternatives to Pandas: Python Polars](https://codesolid.com/alternatives-to-pandas-python-polars/)
* [Pandas vs. Polars: A Syntax and Speed Comparison](https://towardsdatascience.com/pandas-vs-polars-a-syntax-and-speed-comparison-5aa54e27497e#:~:text=The%20main%20advantage%20of%20Polars,switch%20from%20Pandas%20to%20Polars.)
* [Replacing Pandas with Polars. A Practical Guide.](https://www.confessionsofadataguy.com/replacing-pandas-with-polars-a-practical-guide/)
* [Pandas vs. Polars códigos](https://www.kaggle.com/code/iamleonie/pandas-vs-polars)
* [Using the Polars DataFrame Library](https://www.codemag.com/Article/2212051/Using-the-Polars-DataFrame-Library)
* [Polars vs Pandas : A new era for Python DataFrames](https://www.sicara.fr/blog-technique/polars-vs-pandas)
* [Polars vs. Pandas: Polars DataFrame Tutorial](https://lazyprogrammer.me/polars-vs-pandas-polars-dataframe-tutorial/)

# Instalar Polars

Polars no es una librería nativa de Python por lo que **requiere ser instalada antes de ser invocada**.


In [None]:
# Instalar Polars
!pip install polars

# Importar la librería requerida
import polars as pl

# Verificar la versión instalada
print("La versión instalada de Polars es: ", pl.__version__)

# Habilitar el acceso a los archivos del Drive

In [None]:
# Habilitar el acceso a los archivos del Drive
import google.colab as gc
gc.drive.mount('/content/drive')

# Crear un DataFrame de Polars desde NumPy

In [None]:
# Importar las librerías requeridas
import numpy as np
import polars as pl

# Crear un arreglo de NumPy
arreglo_np_0 = np.arange(1, 41).reshape(8, 5)

# Crear un DataFrame de Polars
df_polar_0 = pl.DataFrame(arreglo_np_0)

# Mostrar el DataFrame de Polars
print("DataFrame de Polars creado a partir de arreglo de NumPy: ", df_polar_0)

# Crear un DataFrame de Polars desde un diccionario

In [None]:
# Importar las librerías necesarias
import numpy as np
import pandas as pd
import polars as pl

# Crear un DataFrame a partir de un diccionario
# las claves del diccionario se convierten en las etiquetas de las columnas del DataFrame
df_pl_dict = pl.DataFrame(
    {'codigo' : np.random.randn(10),
     'fecha' : pd.date_range('20230410', periods=10, freq='D'),
     'nota' : pd.Series([1, 1, 5, 3, 2, 3, 1, 4, 3, 5], dtype ='float32'),
     'intento' : np.array([3,2] * 5),
     'comentario' : 'Texto' })
print(f"DataFrame creado a partir de un diccionario:\n {df_pl_dict}")

# Leer el archivo desde una url


Ejemplo tomado de: [Lionel Messi | All Club Goals](https://www.kaggle.com/datasets/azminetoushikwasi/-lionel-messi-all-club-goals)

In [None]:
# Importar las librerías requeridas
import polars as pl

# Establecer la ubicación del archivo en el Drive
ruta = "https://raw.githubusercontent.com/azminewasi/Lionel-Messi-Club-Goals/main/data.csv"

# Cargar el archivo
messi_df = pl.read_csv(ruta, separator=',')

# Verificar la lectura del archivo
print(messi_df)

# Otro ensayo desde otra url

In [None]:
# Importar las librerías requeridas
import polars as pl

# Establecer la ubicación del archivo en el Drive
ruta = "https://docs.google.com/spreadsheets/d/e/2PACX-1vQ3ZylJpgq_83sdqJcRTV1ci1RYBkfuL7yjqlNl8-Yj1oYUS8GNZxghZ0pPRL5nf9ZeGmyr9lBlfbVR/pub?output=csv"

# Cargar el archivo
casas_usadas_df_pl = pl.read_csv(ruta, separator=',')

# Verificar la lectura del archivo
print(casas_usadas_df_pl)

# Leer el archivo desde el drive

In [None]:
# Importar las librerías requeridas
import polars as pl

# Establecer la ubicación del archivo en el Drive
ruta = "/content/drive/MyDrive/Colab Notebooks/Programación/Archivos_datos/saber11_20162.csv"

# Cargar el archivo
saber_2016_df_pl = pl.read_csv(ruta, separator=';')

# Verificar la lectura del archivo
print(saber_2016_df_pl)

# Características básicas del DataFrame

In [None]:
# Mostrar la forma del DataFrame
print("La forma del DataFrame es: ", saber_2016_df_pl.shape, "\n")


# Mostrar las características de las columnas
print("Características de las columnas del DataFrame", saber_2016_df_pl.dtypes, "\n")

# Mostrar el contenido del DataFrame
print("Contenido del DataFrame", saber_2016_df_pl.describe, "\n")

# Mostrar el nombre de las columnas
print("Nombres de las columnas del DataFrame", saber_2016_df_pl.columns, "\n")

# Mostrar las primeras tres filas del DataFrame
print("Primeras tres filas del DataFrame", saber_2016_df_pl.head(3), "\n")

# Mostrar las últimas tres filas del DataFrame
print("Últimas tres filas del DataFrame", saber_2016_df_pl.tail(3), "\n")

# identificar valores únicos por columna
print("Nombres únicos por columna:", saber_2016_df_pl['NOMBREMUNICIPIO'].unique(), sep = "\n")

# Modificar las características del DataFrame


In [None]:
# Cambiar el nombre de las columnas
saber_2016_df_pl_0 = saber_2016_df_pl.rename({"CODINST": "Código", "NOMBREINSTITUCION": "Institución"})

# Mostrar el nombre de las columnas modificadas del DataFrame modificado
print("Nombres de las columnas del DataFrame modificado: ", saber_2016_df_pl_0.columns, "\n")

# Seleccionar tres columnas del DataFrame
saber_2016_df_pl_1 = saber_2016_df_pl.select(pl.col(['CODIGOMUNICIPIO',
                                                     'NOMBREMUNICIPIO',
                                                     'DEPARTAMENTO']))
print("DataFrame con tres columnas:", saber_2016_df_pl_1, "\n")

# Seleccionar un contenido específico del DataFrame
saber_2016_df_pl_2 = saber_2016_df_pl.select(['NOMBREINSTITUCION', 
                                              'CODIGOMUNICIPIO', 
                                              'NOMBREMUNICIPIO', 
                                              'EVALUADOS']).filter(
                                                  pl.col('EVALUADOS') > 200)
print("Instituciones por municipio con más de 200 estudiantes evaluados", saber_2016_df_pl_2, "\n")

# Agregar una columna
df_polar_1 = df_polar_0.with_columns([(pl.col("column_4") * 5).alias("Nueva")])
print("DataFrame con una columna adicional: ", df_polar_1, "\n")

# Agregar tres columnas
df_polar_2 = df_polar_0.with_columns([(pl.col("column_0") * 1).alias("Nueva_0"),
                                      (pl.col("column_1") * 2).alias("Nueva_1"),
                                      (pl.col("column_2") * 3).alias("Nueva_2")])
print("DataFrame con tres columnas adicionales: ", df_polar_2, "\n")

# Resumir la información del DataFrame por grupos

In [None]:
# Resumir por grupos

# Contar la cantidad de establecimientos por municipio
saber_2016_df_pl_4 = saber_2016_df_pl.groupby(pl.col("NOMBREMUNICIPIO")).agg(pl.count())
print("La cantidad de municipios es: ", len(saber_2016_df_pl_4), "\n")
print("La cantidad de establecimientos por municipios es: ", saber_2016_df_pl_4, "\n")

# Promedios de evaluados por municipio
saber_2016_df_pl_5 = saber_2016_df_pl.groupby('NOMBREMUNICIPIO').agg(
    [pl.col('EVALUADOS').mean()])
print("El promedio de evaluados por municipios es: ", saber_2016_df_pl_5, "\n")

# Eager vs. Lazy

Polars tiene dos APIs diferentes: **eager** and **lazy**.

La ejecución **eager** es similar a Pandas (el código se corre directamente y los resultados se calculan de inmediato). 

La ejecución **lazy** no se ejecuta hasta que se necesiten los resultados. Dado que se evita ejecutar código de manera innecesaria, puede ser más eficiente que la ejecución **eager**.

La ejecución lazy requiere el método **.lazy()** al inicio, seguido del código que se quiere ejecutar. Para mostrar los resultados se debe escribir al final el método **.collect()**.

In [None]:
# Método lazy sin collect
df_pl_dict.lazy().with_columns([(pl.col("nota") * 10).alias("nota_2")])

In [None]:
# Metodo lazy con método collect
df_pl_dict.lazy().with_columns([(pl.col("nota") * 10).alias("nota_2")]).collect()

# Aplicaciones

# Medir el tiempo de ejecución



In [None]:
# Importar la librería requerida
import time as tm

# Establecer el tiempo inicial de ejecución
ini_tiempo = tm.time()

# Ejemplo de código al que se le va a medir el tiempo de ejecución
factorial = 1
for i in range(1,100):
  factorial *= i
print("factorial: ", factorial)

# Establecer el tiempo final de ejecución
fin_tiempo = tm.time()

# Calcular el tiempo de ejecución
duracion = fin_tiempo - ini_tiempo

# Mostrar resultados
print(f"El código se empezó a ejecutar a las {ini_tiempo} y terminó de ejecutar"
      f"a las {fin_tiempo}. \nLa duración de la ejecución fue de {duracion}.")

# Ejercicios 
Recuerde escribir los códigos de los siguientes ejercicios siguiendo las normas de estilo del PEP8. Todos los ejercicios deben ser resueltos utilizando Polars.

## 00.
Utilizando NumPy cree un DataFrame de Polars con 100 filas y cuatro columnas. La primera columna debe tener números aleatorios entre cero y uno. La segunda columna debe tener números aleatorios enteros entre 1 y 100. La tercera columna debe contener números enteros en el rango 1 a 500 generados con la función **arange(**). La cuarta columna debe contener ceros y unos generados de forma aleatoria. Muestre las características del DataFrame.

## 01.
Agregue una columna, con números aleatorios racionales entre 13 y 14, al DataFrame generado en el ejercicio anterior. Muestre las características del DataFrame.

## 02.
Cambie los nombres de las columnas del DataFrame modificado en el ejercicio anterior a Primera, Segunda, Tercera, Cuarta y Quinta. Muestre las características del DataFrame.

## 03.
A partir del DataFrame modificado en el ejercicio anterior genere un nuevo DataFrame de cinco columnas en el que todos los valores de la primera columna estén entre 0.25 y 0.75 (ambos extremos excluidos). Muestre las características del DataFrame.

## 04.
A partir del DataFrame modificado en el ejercicio anterior calcule el promedio de los valores de la tercera columna que corresponden a un valor de 1 en la cuarta columna. Muestre el resultado.

# Exportaciones agrícolas no tradicionales y tradicionales
Para los ejercicios 05 a 09 utilice los datos de [Exportaciones agrícolas no tradicionales y tradicionales](https://www.datos.gov.co/Agricultura-y-Desarrollo-Rural/Exportaciones-agr-colas-no-tradicionales-y-tradici/h7mi-sbxb)

Lea el archivo desde el siguiente enlace:

https://docs.google.com/spreadsheets/d/e/2PACX-1vReTcFIzhR6gH1R09L4HrhSpgnu01t6k4WaHpGQwxiERYp5DJXeesM__JZ5bKlMkDS6oUb-9dNE32yQ/pub?output=csv

## 05.
Lea el archivo con Polars, genere un DataFrame y muestre las características del DataFrame.

## 06.
Calcule las exportaciones en valor (miles US FOB) y en volumen (toneladas) por departamento. Muestre los resultados.

## 07.
Genere un DataFrame con las exportaciones en valor (miles US FOB) y en volumen (toneladas) para los productos que en la columna 'Producto general' estén clasificados como 'Cacao'. Muestre las características del DataFrame.

## 08.
Genere un DataFrame con las exportaciones que en valor (miles US FOB) superen los dos mil dólares. Muestre las características del DataFrame.

## 09.
Genere un DataFrame con las exportaciones que en volumen (toneladas) superen las mil toneladas. Muestre las características del DataFrame.