## ⚡ Analítica Turbo con Polars: Fundamentos que todo Analista Moderno debe conocer 🐻‍❄️

---

👨‍💻 Autor: Brayan Neciosup  
📍 Portafolio: [brayanneciosup](https://bryanneciosup626.wixsite.com/brayandataanalitics)  
🔗 LinkedIn: [linkedin.com/brayanneciosup](https://www.linkedin.com/in/brayan-rafael-neciosup-bola%C3%B1os-407a59246/)  
💻 GitHub: [github.com/BrayanR03](https://github.com/BrayanR03)  
📚 Serie: Fundamentos de Pandas y Polars


In [1]:
# Instalar librería de polars: pip install polars
# Importamos la librería
import polars as pl

### 📌 Manipulación de Datos en Polars: ...

La manipulación de datos, también conocida como data wrangling, es una fase 
fundamental en todo proyecto de análisis de datos. Consiste en transformar 
un dataset crudo, es decir, datos en su forma original, posiblemente desordenada o
incompleta en un formato estructurado y útil, como un DataFrame.

#### Fase 1. Fuentes de Datos 🗃️

In [None]:
"""
    Polars 🐻‍❄️ permite leer datos desde múltiples fuentes como archivos CSV, Excel, JSON, 
    bases de datos SQL, entre otros formatos comunes. Esta flexibilidad facilita el trabajo
    con datasets provenientes de distintos orígenes, tanto locales como remotos de manera optimizada.
"""

In [2]:
# Paso A). DEFINIR LA CARPETA ORIGEN DE DONDE PROVIENE NUESTROS DATASETS (LOCAL)
"""
    📝 SINTAXIS: 
        
        carpeta_origen = "RutaCarpetaOrigen"
    
    ### 🧠 Va a depender en que entorno nos encontremos porque las rutas 
    ###     de carpetas pueden ser (\) o (/).
"""
# 💡 EJEMPLO 1 (Ruta completa):

# carpeta_origen = "C:/Users/USER/Documents/FundamentosPandasPolars/datasets" 

# print(carpeta_origen)

# 💡 EJEMPLO 2 (Ruta relativa):

carpeta_origen = f"../datasets/"
# print(carpeta_origen)
import os # ⬅️ Permite trabajar con archivos
print(os.listdir(carpeta_origen)) # ⬅️ Mostrar los archivos de la carpeta

['eventos_logs.json', 'json_basico.json', 'Pedidos.xlsx', 'penguins.csv', 'titanic.csv']


In [3]:
# Paso B). DEFINIR EL NOMBRE DEL ARCHIVO DEL DATASET
"""
    📝 SINTAXIS:
    
        nombre_archivo = "NombreArchivo.extension"

    ### 🧠 Dependerá de la extensión del archivo para indicarle a Polars que función utilizar.
"""
# 💡 EJEMPLO 1 (.csv): 
archivos_csv = "penguins.csv"

# 💡 EJEMPLO 2 (.xlsx): 
archivos_xlsx = "Pedidos.xlsx"

# 💡 EJEMPLO 3 (.json): 
archivos_json = "eventos_logs.json"


In [4]:
# Paso C). LECTURA DE LOS ARCHIVOS (PASO A + PASO B)
"""
    ### 🧠 Para los archivos .csv, se recomienda conocer el separador o
    ###     delimitador presente en el archivo e indicarle a Polars.

    📝 SINTAXIS:
    
        dataset_nombre = pl.read_extensión(carpeta_origen+nombre_archivo.extensión)
"""
import polars as pl # ✅ No olvidar importar polars al inicio del notebook

# 💡 EJEMPLO 1 (Lectura de .csv): 

dataset_csv = pl.read_csv(carpeta_origen+archivos_csv,separator=",") # ⬅️ Indicamos el delimitador en separator.
# dataset_csv.head() # ⬅️ Función que permite leer y retornar los 5 primeros registros del archivo.
"""==============================================================================================="""
# 💡 EJEMPLO 2 (Lectura de .xlsx): 

dataset_excel = pl.read_excel(
                 source=carpeta_origen+archivos_xlsx,
                 sheet_name="Hoja1") # ⬅️ Indicamos el nombre de la Hoja donde se encuentra
                                     #     la información.
# dataset_excel.head() # ⬅️ Función que permite leer y retornar los 5 primeros registros del archivo.

""" ⚠️ En caso les arroje error sobre: " requiered package 'fastexcel' not found "
       solo instalemos el módulo con: pip install fastexcel
'"""
# dataset_excel.head() # ⬅️ Función que permite leer y retornar los 5 primeros registros del archivo.
"""==============================================================================================="""
# 💡 EJEMPLO 3 (Lectura de .json):

### Archivo básico JSON
archivo_json_basico = "json_basico.json" # ⬅️ Nombre de archivo básico JSON
dataset_json1 = pl.read_json(carpeta_origen+archivo_json_basico) # ⬅️ Lectura de JSON básico
# dataset_json1.head()

# Archivo complejo JSON
import json # ⬅️ Utilizaremos la librería json para el aplanamiento del Archivo JSON complejo.
archivo_json_complejo = "eventos_logs.json" # ⬅️ Nombre de archivo complejo JSON
with open(carpeta_origen + archivo_json_complejo, "r", encoding="utf-8") as file_data:
    data_archivo_json_complejo = json.load(file_data)
dataset_json2 = pl.json_normalize(data_archivo_json_complejo) # ⬅️ Lectura de archivo JSON complejo.
dataset_json2.head() # ⬅️ Función que permite leer y retornar los 5 primeros registros del archivo.

evento.usuario_id,evento.accion,evento.timestamp
str,str,str
"""U846""","""compra""","""2025-05-25T21:07:47.202219Z"""
"""U321""","""registro""","""2025-05-23T11:50:47.202219Z"""
"""U813""","""login""","""2025-05-25T19:09:47.202219Z"""
"""U677""","""registro""","""2025-05-27T09:41:47.202219Z"""
"""U425""","""compra""","""2025-05-23T14:44:47.202219Z"""


#### Fase 2. Exploración Inicial 🔍

In [5]:
"""
    Utilizaremos el dataset de penguins (dataset de Seaborn importado en un csv)
"""
df_penguins = pl.read_csv("../datasets/penguins.csv",separator=",") # ⬅️ Accedemos al archivo en la carpeta datasets
df_penguins.head()

species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
str,str,f64,f64,f64,f64,str
"""Adelie""","""Torgersen""",39.1,18.7,181.0,3750.0,"""Male"""
"""Adelie""","""Torgersen""",39.5,17.4,186.0,3800.0,"""Female"""
"""Adelie""","""Torgersen""",40.3,18.0,195.0,3250.0,"""Female"""
"""Adelie""","""Torgersen""",,,,,
"""Adelie""","""Torgersen""",36.7,19.3,193.0,3450.0,"""Female"""


In [6]:
"""
    A). Quitar encabezados originales provenientes del Dataset.
    
        📝 SINTAXIS:
        
            dataset_nombre = pl.read_extension(ruta_carpeta_archivo,separator="Delimitador",has_header=True|False)
            
            💡 Importante: has_header, es el parámetro que si establecemos en False, los encabezados se vuelven parte
                           de los registros del dataset, además, Polars agregará la posición de cada columna
                           con un prefijo: columna_posición.
                                        
            ### 🧠 Tener en cuenta que solo se aplicará a las extensiones .excel y .csv
    
#### PARA LOS EJEMPLOS USAREMOS ALGUNOS DATASET PREVIAMENTE VISTOS EN LA FASE 1.
"""

# 💡 EJEMPLO 1: Archivo CSV 

df_penguins = pl.read_csv(carpeta_origen+archivos_csv,separator=",",has_header=True) #⬅️ Mostramos los encabezados
# df_penguins.head()

# 💡 EJEMPLO 2: Archivo CSV

df_penguins = pl.read_csv(carpeta_origen+archivos_csv,separator=",",has_header=False) #⬅️ Ocultamos los encabezados
# df_penguins.head()

# 💡 EJEMPLO 3: Archivo EXCEL 

df_penguins_excel = pl.read_excel(carpeta_origen+archivos_xlsx,sheet_name="Hoja1",has_header=True) #⬅️ Mostramos los encabezados
# df_penguins_excel.head()

# 💡 EJEMPLO 4: Archivo EXCEL

df_penguins_excel = pl.read_excel(carpeta_origen+archivos_xlsx,sheet_name="Hoja1",has_header=False) #⬅️ Ocultamos los encabezados
df_penguins_excel.head()

column_1,column_2,column_3,column_4
str,str,str,str
"""DetallePedidosPedidoID""","""PedidoFechaHoraRegistro""","""PedidoEstado""","""Total"""
"""1""","""2025-05-26 18:02:01.240""","""F""","""524361.11"""
"""2""","""2025-05-26 18:02:02.430""","""F""","""524387.46"""
"""3""","""2025-05-26 18:02:46.287""","""F""","""515269.86"""
"""4""","""2025-05-26 18:02:46.290""","""F""","""523261.27"""


In [7]:
"""
    B). Mostrar los N primeros registros de un dataset
    
        📝 SINTAXIS:
    
            dataset_nombre.head(NúmeroDeRegistros) ⬅️ Indicamos un número para la cantidad de registros a mostrar    
"""
# 💡 EJEMPO 1: 

# df_penguins.head(5) ## ⬅️ Mostrar 5 primeros registros del dataset

# 💡 EJEMPO 2: 

df_penguins.head(10) ## ⬅️ Mostrar 10 primeros registros del dataset

column_1,column_2,column_3,column_4,column_5,column_6,column_7
str,str,str,str,str,str,str
"""species""","""island""","""bill_length_mm""","""bill_depth_mm""","""flipper_length_mm""","""body_mass_g""","""sex"""
"""Adelie""","""Torgersen""","""39.1""","""18.7""","""181.0""","""3750.0""","""Male"""
"""Adelie""","""Torgersen""","""39.5""","""17.4""","""186.0""","""3800.0""","""Female"""
"""Adelie""","""Torgersen""","""40.3""","""18.0""","""195.0""","""3250.0""","""Female"""
"""Adelie""","""Torgersen""",,,,,
"""Adelie""","""Torgersen""","""36.7""","""19.3""","""193.0""","""3450.0""","""Female"""
"""Adelie""","""Torgersen""","""39.3""","""20.6""","""190.0""","""3650.0""","""Male"""
"""Adelie""","""Torgersen""","""38.9""","""17.8""","""181.0""","""3625.0""","""Female"""
"""Adelie""","""Torgersen""","""39.2""","""19.6""","""195.0""","""4675.0""","""Male"""
"""Adelie""","""Torgersen""","""34.1""","""18.1""","""193.0""","""3475.0""",


In [8]:
"""
    C). Mostrar los N últimos registros de un dataset
    
        📝 SINTAXIS:
    
            dataset_nombre.tail(NúmeroDeRegistros) ⬅️ Indicamos un número para la cantidad de registros a mostrar    
"""
# 💡 EJEMPO 1: 

# df_penguins.tail(5) ## ⬅️ Mostrar 5 últimos registros del dataset

# 💡 EJEMPO 2: 

df_penguins.tail(10) ## ⬅️ Mostrar 10 últimos registros del dataset

column_1,column_2,column_3,column_4,column_5,column_6,column_7
str,str,str,str,str,str,str
"""Gentoo""","""Biscoe""","""46.2""","""14.1""","""217.0""","""4375.0""","""Female"""
"""Gentoo""","""Biscoe""","""55.1""","""16.0""","""230.0""","""5850.0""","""Male"""
"""Gentoo""","""Biscoe""","""44.5""","""15.7""","""217.0""","""4875.0""",
"""Gentoo""","""Biscoe""","""48.8""","""16.2""","""222.0""","""6000.0""","""Male"""
"""Gentoo""","""Biscoe""","""47.2""","""13.7""","""214.0""","""4925.0""","""Female"""
"""Gentoo""","""Biscoe""",,,,,
"""Gentoo""","""Biscoe""","""46.8""","""14.3""","""215.0""","""4850.0""","""Female"""
"""Gentoo""","""Biscoe""","""50.4""","""15.7""","""222.0""","""5750.0""","""Male"""
"""Gentoo""","""Biscoe""","""45.2""","""14.8""","""212.0""","""5200.0""","""Female"""
"""Gentoo""","""Biscoe""","""49.9""","""16.1""","""213.0""","""5400.0""","""Male"""


In [9]:
"""
    D). Mostrar el volúmen del dataset (Cantidad de filas y columnas respectivamente) 
    
        📝 SINTAXIS:
    
            dataset_nombre.shape ⬅️ Nos muestra la cantidad de filas y columnas en forma de tupla (,)
            
            #### 🧠 Podemos acceder a la cantidad de filas o columnas basándonos en la posición
                     de los datos que retorna la tupla, gracias a .shape ➡️ 0 = filas y 1 = columnas    
"""
# 💡 EJEMPO 1: 

df_penguins.shape ## ⬅️ Muestra el volúmen de registros del dataset en forma de tupla. (CantidadFilas,CantidadColumnas)

# 💡 EJEMPO 2: 

df_penguins.shape[0] ## ⬅️ Muestra la cantidad de registros (filas) del dataset

# 💡 EJEMPO 3: 

df_penguins.shape[1] ## ⬅️ Muestra la cantidad de columnas del dataset


7

#### Fase 3. Transformación de Datos 💱

##### 3.1 Datos Cualitativos 🔠

In [None]:
"""
    A). CONVERTIR A MAYÚSCULAS LOS DATOS CUALITATIVOS DE UNA COLUMNA EN UN DATASET
    
    📝 SINTAXIS:
    
        dataframe_nombre = dataframe_nombre.with_columns(
            pl.col(NombreColumnaCualitativa).str.to_uppercase().alias(NombreColumnaCualitativa) 
        )
    
    ### 🧠 En este caso, debemos almacenar en una variable los cambios a realizar en el dataframe.
"""

# 💡 EJEMPLO:

df_penguins = df_penguins.with_columns(
    pl.col("species").str.to_uppercase().alias("species") ## ⬅️ Convertimos a mayúsculas los datos de la columna cualitativa ""species""
)
df_penguins.head()



species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
str,str,f64,f64,f64,f64,str
"""ADELIE""","""Torgersen""",39.1,18.7,181.0,3750.0,"""Male"""
"""ADELIE""","""Torgersen""",39.5,17.4,186.0,3800.0,"""Female"""
"""ADELIE""","""Torgersen""",40.3,18.0,195.0,3250.0,"""Female"""
"""ADELIE""","""Torgersen""",,,,,
"""ADELIE""","""Torgersen""",36.7,19.3,193.0,3450.0,"""Female"""


In [None]:
"""
    B). CONVERTIR A MINÚSCULAS LOS DATOS CUALITATIVOS DE UNA COLUMNA EN UN DATASET
    
    📝 SINTAXIS:
    
        dataframe_nombre = dataframe_nombre.with_columns(
            pl.col(NombreColumnaCualitativa).str.to_lowercase().alias(NombreColumnaCualitativa) 
        )
    
    ### 🧠 En este caso, debemos almacenar en una variable los cambios a realizar en el dataframe.
"""

# 💡 EJEMPLO:

df_penguins = df_penguins.with_columns(
    pl.col("species").str.to_lowercase().alias("species") ## ⬅️ Convertimos a minúsculas los datos de la columna cualitativa ""species""
)
df_penguins.head()



species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
str,str,f64,f64,f64,f64,str
"""adelie""","""Torgersen""",39.1,18.7,181.0,3750.0,"""Male"""
"""adelie""","""Torgersen""",39.5,17.4,186.0,3800.0,"""Female"""
"""adelie""","""Torgersen""",40.3,18.0,195.0,3250.0,"""Female"""
"""adelie""","""Torgersen""",,,,,
"""adelie""","""Torgersen""",36.7,19.3,193.0,3450.0,"""Female"""


In [None]:
"""
    C). CONVERTIR A MAYÚSCULA LA PRIMERA LETRA DE CADA DATO CUALITATIVOS DE UNA COLUMNA EN UN DATASET
    
    📝 SINTAXIS:
    
        dataframe_nombre = dataframe_nombre.with_columns(
            pl.col(NombreColumnaCualitativa).str.to_titlecase().alias(NombreColumnaCualitativa) 
        )
    
    ### 🧠 En este caso, debemos almacenar en una variable los cambios a realizar en el dataframe.
"""

# 💡 EJEMPLO:

df_penguins = df_penguins.with_columns(
    pl.col("species").str.to_titlecase().alias("species") ## ⬅️ Convertimos la primera letra en mayúscula de cada dato en la columna cualitativa ""species""
)
df_penguins.head()



species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
str,str,f64,f64,f64,f64,str
"""Adelie""","""Torgersen""",39.1,18.7,181.0,3750.0,"""Male"""
"""Adelie""","""Torgersen""",39.5,17.4,186.0,3800.0,"""Female"""
"""Adelie""","""Torgersen""",40.3,18.0,195.0,3250.0,"""Female"""
"""Adelie""","""Torgersen""",,,,,
"""Adelie""","""Torgersen""",36.7,19.3,193.0,3450.0,"""Female"""


In [14]:
"""
    D). EXTRAER DE CADA DATO CUALITATIVO UNA CADENA EN ESPECÍFICO MEDIANTE >>EXPRESIONES REGULARES<< EN UN DATASET
    
    📝 SINTAXIS:
    
        dataset_nombre[NombreColumnaCualitativa].str.extract()
    
    ### 🧠 En este caso, debemos almacenar en una variable los cambios a realizar en el dataframe
"""
##💡 EJEMPLO 1: ⬅️ Extraemos primera letra en mayúscula 
df_penguins = df_penguins.with_columns(
    pl.col("species").str.extract(r'([A-Z])').alias("PrimeraLetraEnMayúscula")
)
# df_penguins.head()

##💡 EJEMPLO 2: ⬅️ Extraemos primera letra en minúscula 
df_penguins = df_penguins.with_columns(
    pl.col("species").str.extract(r'([a-z])').alias("PrimeraLetraEnMinúscula")
)
# df_penguins.head()

##💡 EJEMPLO 3: ⬅️ Retornamos todo después de una letra en mayúscula
df_penguins = df_penguins.with_columns(
    pl.col("species").str.extract(r'[A-Z]+(.*)').alias("TodoDespuesDeUnaMayúscula")
)
# df_penguins.head()

##💡 EJEMPLO 4: ⬅️ Retornamos todo después de una letra en minúscula
df_penguins = df_penguins.with_columns(
    pl.col("species").str.extract(r'[a-z]+(.*)').alias("TodoDespuesDeUnaMinúscula")
)
# df_penguins.head()

##💡 EJEMPLO 5: ⬅️ Retornamos todo después de un número
df_penguins = df_penguins.with_columns(
    pl.col("species").str.extract(r'[0-9]+(.*)').alias("TodoDespuesDeUnNúmero")
)
df_penguins.head()


species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,PrimeraLetraEnMayúscula,PrimeraLetraEnMinúscula,TodoDespuesDeUnaMayúscula,TodoDespuesDeUnaMinúscula,TodoDespuesDeUnNúmero
str,str,f64,f64,f64,f64,str,str,str,str,str,str
"""Adelie""","""Torgersen""",39.1,18.7,181.0,3750.0,"""Male""","""A""","""d""","""delie""","""""",
"""Adelie""","""Torgersen""",39.5,17.4,186.0,3800.0,"""Female""","""A""","""d""","""delie""","""""",
"""Adelie""","""Torgersen""",40.3,18.0,195.0,3250.0,"""Female""","""A""","""d""","""delie""","""""",
"""Adelie""","""Torgersen""",,,,,,"""A""","""d""","""delie""","""""",
"""Adelie""","""Torgersen""",36.7,19.3,193.0,3450.0,"""Female""","""A""","""d""","""delie""","""""",


In [33]:
"""
    E). REEMPLAZAR VALORES DE DATOS CUALITATIVOS MEDIANTE >>EXPRESIONES REGULARES<< EN UN DATASET
    
    📝 SINTAXIS:
    
        dataset_nombre[NombreColumnaCualitativa].str.replace_all(pattern=PatrónExpresiónRegular,value=CadenaAReemplazar)
    
    ### 🧠 En este caso, debemos almacenar en una variable los cambios a realizar en el dataframe
"""
### DATASET DE PRUEBA PARA ESTE EJEMPLO
datos_sucios = {
    "nombre": [
        "  JUAN  pérez  ", 
        "MARÍA@@LÓPEZ", 
        "Ana--Martínez", 
        "carlos_rodríguez ", 
        "Sofía123 García"
    ],
    "categoria_producto": [
        "ELECTRÓNICA#1", 
        "ropa--Mujer", 
        "hogar_y_DECORACIÓN", 
        "LIBROS@@", 
        "Juguetes  niños"
    ],
    "codigo": [
        "ID-0001", 
        "ID-0023", 
        "CL-1234", 
        "ID-abc123", 
        "id-9999"
    ]
}
## Dataset de prueba (sucio)
df_test = pl.DataFrame(datos_sucios)
# df_test.head()

## Dataset de prueba (limpio)
df_test_clean = df_test 

## 💡 EJEMPLO 1: ⬅️ Eliminar caractéres especiales (@@,#,--,_)
df_test_clean = df_test_clean.with_columns(
    pl.col("categoria_producto").str.replace_all(pattern=r'[^A-Za-z0-9ÁÉÍÓÚáéíóúÑñÜü]',value=" ").alias("categoria_producto"),
    pl.col("nombre").str.replace_all(pattern=r'[^A-Za-z0-9ÁÉÍÓÚáéíóúÑñÜü]',value=" ").alias("nombre")
)
# df_test_clean.head()

## 💡 EJEMPLO 2: ⬅️ Normalizar espacios (Varios espacios en blanco a uno solo)
df_test_clean = df_test_clean.with_columns(
    pl.col("categoria_producto").str.replace_all(pattern=r'\s+',value=" ").alias("categoria_producto"),
    pl.col("nombre").str.replace_all(pattern=r'\s+',value=" ").alias("nombre")
)
# df_test_clean.head()

## 💡 EJEMPLO 3: ⬅️ Reemplazar guiones por espacios en blanco
df_test_clean = df_test_clean.with_columns(
    pl.col("nombre").str.replace_all(pattern=r'[-_]',value=" ").alias("nombre")
)
# df_test_clean.head()

## 💡 EJEMPLO 4: ⬅️ Eliminar prefijos (ID- || CL- || id- || Letras)
df_test_clean = df_test_clean.with_columns(
    pl.col("codigo").str.replace_all(pattern=r'^ID-|CL-|id-|[A-Za-z]+',value="").alias("codigo")
)
df_test_clean.head()

## 💡 EJEMPLO 5: ⬅️ Eliminar números dentro de cadenas
df_test_clean = df_test_clean.with_columns(
    pl.col("nombre").str.replace_all(pattern=r'([0-9])',value="").alias("nombre")
)
df_test_clean.head()



nombre,categoria_producto,codigo
str,str,str
""" JUAN pérez ""","""ELECTRÓNICA 1""","""0001"""
"""MARÍA LÓPEZ""","""ropa Mujer""","""0023"""
"""Ana Martínez""","""hogar y DECORACIÓN""","""1234"""
"""carlos rodríguez ""","""LIBROS ""","""123"""
"""Sofía García""","""Juguetes niños""","""9999"""


In [None]:
"""
    F). ELIMINAR VALORES DUPLICADOS EN DATOS CUALITATIVOS DE UN DATASET
    
    📝 SINTAXIS:
    
        dataset_nombre.unique(subset=[NombreColumna1,NombreColumnaN],keep="first" | "last" | "any" | None)
        
        keep: Es el parámetro que establece el valor que va a quedar de todos los duplicados 
              (Primer valor=first - Último valor=last - No mantenga filas duplicadas = any)
              [En caso de no llamar al parámetro keep, se establece "first".]
        
    ### 🧠 En este caso, debemos trabajar sobre el mismo dataset/dataframe para eliminar los duplicados.
"""
### ✅🗃️ Dataset a utilizar: Diamonds
import polars as pl
df_diamonds = pl.read_csv("../datasets/diamonds.csv",separator=",")
# df_diamonds.head()
# df_diamonds.shape[0] ## ⬅️ Cantidad de datos inicial: 53940

## 💡 EJEMPLO 1: ELIMINAR VALORES DUPLICADOS DE TODO EL DATASET (keep="first" por defecto)
# df_diamonds = df_diamonds.unique()
# df_diamonds.shape[0] ## ⬅️ Cantidad de datos restantes: 53794

## 💡 EJEMPLO 2: ELIMINAR VALORES DUPLICADOS DE TODO EL DATASET (keep="last")
# df_diamonds = df_diamonds.unique(keep="last") 
# df_diamonds.shape[0] ## ⬅️ Cantidad de datos restantes: 53794

##💡 EJEMPLO 3: ELIMINAR VALORES DUPLICADOS DE UNA COLUMNA ESPECÍFICA (keep="first" por defecto)
# df_diamonds["carat"].shape[0] ## ⬅️ Cantidad inicial de datos: 53940
# df_diamonds = df_diamonds.unique(subset=["carat"],keep="first") 
# df_diamonds["carat"].shape[0] ## ⬅️ Cantidad de datos restantes: 273   

273

##### 3.2 Datos Cuantitativos 🔢

In [20]:

df_penguins = pl.read_csv("../datasets/penguins.csv",separator=",") ## ⬅️ Para este ejemplo utilizaremos el dataset de """penguins"""
df_penguins.head()

species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
str,str,f64,f64,f64,f64,str
"""Adelie""","""Torgersen""",39.1,18.7,181.0,3750.0,"""Male"""
"""Adelie""","""Torgersen""",39.5,17.4,186.0,3800.0,"""Female"""
"""Adelie""","""Torgersen""",40.3,18.0,195.0,3250.0,"""Female"""
"""Adelie""","""Torgersen""",,,,,
"""Adelie""","""Torgersen""",36.7,19.3,193.0,3450.0,"""Female"""


In [None]:
"""
    A). EXPLORACIÓN BÁSICA Y RESUMEN ESTADÍSTICO
        
        📝 Para los datos cuantitativos podemos obtener su estadística básica
            mediante .decribe() el cuál retornará el valor de las columnas float o int.
            En los campos cualitativos se visualizará información no creíble.
"""
df_penguins.describe()                ## ⬅️ Estadística simple - Todas las columnas
df_penguins["body_mass_g"].describe() ## ⬅️ Estadística simple - Columna body_mass_g
df_penguins["body_mass_g"].mean()     ## ⬅️ Media estadística - Columna body_mass_g
df_penguins["body_mass_g"].median()   ## ⬅️ Mediana estadística - Columna body_mass_g
df_penguins["body_mass_g"].min()      ## ⬅️ Valor mínimo - Columna body_mass_g
df_penguins["body_mass_g"].max()      ## ⬅️ Valor máximo (IMC Gramos)
df_penguins["body_mass_g"].sum()      ## ⬅️ Suma total - Columna body_mass_g
df_penguins["body_mass_g"].std()      ## ⬅️ Desviación estándar - Columna body_mass_g
df_penguins["body_mass_g"].var()      ## ⬅️ Varianza - Columna body_mass_g



643131.077326748

In [6]:
"""
    B). VERIFICAR VALORES NULOS EN LA(S) COLUMNA(AS) DEL DATASET
        
        🗒️SINTAXIS:
    
        dataset_nombre.isnull().sum() ⬅️ Para todo el dataset.
        dataset_nombre[NombreColumna].isnull().sum() ⬅️ A nivel de columna
"""

## 💡 EJEMPLO 1: VERIFICAR CANTIDAD DE VALORES NULOS EN TODAS LAS COLUMNAS DEL DATASET
df_penguins.null_count() ## ⬅️ Retorna la cantidad de datos nulos por columna.

## 💡 EJEMPLO 2: VERIFICAR CANTIDAD DE VALORES NULOS EN UNA COLUMNA ESPECÍFICA DEL DATASET
df_penguins[["body_mass_g"]].null_count() ##⬅️ Retorna la cantidad de datos nulos de una columna.

body_mass_g
u32
2


In [17]:
"""
    C). FILTRANDO VALORES EN COLUMNAS CUANTITATIVAS
"""

df_penguins.shape[0] ## ⬅️ Cantidad de datos del dataset : 344

## 💡 EJEMPLO 1: FILTRAR VALORES DE COLUMNA "body_mass_g" MAYOR A 3000
df_penguins_bmg_mayor_3000 = df_penguins.filter(
    pl.col("body_mass_g")>3000
)
# df_penguins_bmg_mayor_3000.head()
df_penguins_bmg_mayor_3000.shape[0] ## ⬅️ Cantidad de datos resultantes : 331

## 💡 EJEMPLO 2: FILTRAR VALORES DE COLUMNA "body_mass_g" ENTRE 1000 y 3000
df_penguins_bmg_entre_1000_3000 = df_penguins.filter(
    pl.col("body_mass_g").is_between(1000,3000)
)
# df_penguins_bmg_entre_1000_3000.head()
df_penguins_bmg_entre_1000_3000.shape[0] ## ⬅️ Cantidad de datos resultantes : 11

## 💡 EJEMPLO 3: FILTRAR VALORES NULOS EN COLUMNA "body_mass_g"
df_penguins_nulos_body_mass_g = df_penguins.filter(
    pl.col("body_mass_g").is_null()
)
# df_penguins_nulos_body_mass_g.head()
df_penguins_nulos_body_mass_g.shape[0] ## ⬅️ Cantidad de datos resultantes : 2

## 💡 EJEMPLO 4: FILTRAR VALORES NO NULOS EN COLUMNA "body_mass_g"
df_penguins_no_nulos_body_mass_g = df_penguins.filter(
    pl.col("body_mass_g").is_not_null()
)
# df_penguins_no_nulos_body_mass_g.head()
df_penguins_no_nulos_body_mass_g.shape[0] ## ⬅️ Cantidad de datos resultantes : 342


342

In [None]:
"""
    D). RELLENANDO DATOS Null Y NaN DE LAS COLUMNAS DE UN DATASET
    
        ### 🧠EXISTE UNA DIFERENCIA ENTRE DATOS NaN Y Null Y CONOCERLA TE EVITA
              ERRORES SILENCIOSOS QUE PUEDEN DESTRUIR UN ANÁLISIS NUMÉRICO SIN NOTARLO.
"""
"""======================================================================================
    📝 RELLENANDO DATOS Null (Ausencia de valor en un registro)

        🗒️SINTAXIS:
        
            dataset_nombre.fill_null(value=ValorARellenarNulos,strategy=EstrategiaDeRelleno)
            
            💡 Importante: El parámetro strategy admite ("forward" | "backward" | "min" | "max" | "mean" | "zero" | "one").
            
                💡forward:  ⬅️ rellenará la columna del dataset con su valor posterior a un null.
                💡backward: ⬅️ rellenará la columna del dataset con su valor anterior a un null.
                💡min:      ⬅️ rellenará la columna del dataset con su valor mínimo de la columna.
                💡max:      ⬅️ rellenará la columna del dataset con su valor máximo de la columna.
                💡mean:     ⬅️ rellenará la columna del dataset con la mediana de la columna.
                💡zero:     ⬅️ rellenará la columna del dataset con ceros.
                💡one:      ⬅️ rellenará la columna del dataset con unos.

            ### 🧠 Tengamos en cuenta que debemos almacenar estos cambios en una nueva variable.
"""

In [None]:
"""✅ Función .fill_null() """

#==== ➡️ Rellenando con el parámetro strategy

## 💡 EJEMPLO 1: ⬅️ Rellenamos nulos de todas las columnas del dataset.
df_penguins = df_penguins.fill_null(strategy="forward") 
# df_penguins.head()
# df_penguins.null_count() ##✅ No existen datos nulos

## 💡 EJEMPLO 2: ⬅️ Rellenamos nulos de todas las columnas del dataset.
df_penguins = df_penguins.with_columns(
    pl.col("body_mass_g").fill_null(strategy="forward")
)
# df_penguins.head()

#==== ➡️ Rellenando con el parámetro value

## 💡 EJEMPLO 3: ⬅️ Rellenamos nulos de todas las columnas del dataset.
df_penguins = df_penguins.fill_null(value=0) ##⬅️ Rellenamos nulos de todas las columnas del dataset, con el valor cero.

## 💡 EJEMPLO 4: ⬅️ Rellenamos nulos de todas las columnas del dataset.
df_penguins = df_penguins.with_columns(
    pl.col("body_mass_g").fill_null(value=0)       ##⬅️ Rellenamos una columna específica del dataset, con el valor cero.
)
df_penguins.head()


species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
u32,u32,u32,u32,u32,u32,u32
0,0,0,0,0,0,0


In [None]:

"""======================================================================================
    📝 RELLENANDO DATOS NaN (Resultados indefinidos en un registro)

        🗒️SINTAXIS:
        
            dataset_nombre.fill_nan(value=ValorARellenar)
            
            💡 Importante: El parámetro value admite cualquier valor a rellenar, e incluso una medida estadística
                            de una columna específica en el dataset: ("min" | "max" | "mean" | "median")
 
            ### 🧠 Tengamos en cuenta que debemos almacenar estos cambios en una nueva variable.
"""
"""✅ Función .fill_nan() """
import numpy as np
### 📝 Utilizaremos de ejemplo este dataframe con datos NaN (Numpu)
df_example = pl.DataFrame(data=[[1.0,np.nan,3.0,4.0,np.nan],[np.nan,5.0,np.nan,10.0,21.0]],schema=["Edad","Puntos"])
df_example.head()

#==== ➡️ Rellenando con un valor aleatorio: 1

## 💡 EJEMPLO 1: ⬅️ Rellenamos NaN de todas las columnas del dataset.
df_penguins = df_example.fill_nan(value=1)  

## 💡 EJEMPLO 2: ⬅️ Rellenamos NaN de una columna específica del dataset.
df_example = df_example.with_columns(
    pl.col("Edad").fill_nan(value=1)                 
)

#==== ➡️ Rellenando con una medida esadística de una columna: Edad ➡️ media

## 💡 EJEMPLO 3: ⬅️ Rellenamos NaN de todas las columnas del dataset.
df_example = df_example.fill_nan(value=pl.col("Edad").drop_nans().mean()) 

## 💡 EJEMPLO 4: ⬅️ Rellenamos NaN de una columna específica del dataset.
df_example = df_example.with_columns(
    pl.col("Puntos").fill_nan(value=pl.col("Puntos").drop_nans().mean())      
)
 

#### Fase 4. Agrupamiento de Datos ♾️

"""El agrupamiento de la información nos brinda el resumen de la información proveniente 
de un dataset, logrando econtrar ciertos patrones en cada grupo de información."""

In [4]:
"""
    📝 SINTAXIS:

        dataset_nuevo_agrupamiento= dataset_nombre.group_by([NombreColumna1,NombreColumnaN]).agg(
            pl.col(ColumnaAgregacion).funcionAgregacion().alias(NombreNuevoDeColumna)
        )
        
        ### 🧠 En este caso, debemos almacenar en una variable los cambios a realizar en el dataframe.

❎ En el agrupamiento de información, podemos utilizar diversas funciones de agregación, tales como:

💡.min():    ⬅️ Permite obtener el mínimo valor de la información agrupada.
💡.max():    ⬅️ Permite obtener el máximo valor de la información agrupada.
💡.sum():    ⬅️ Permite sumar la información de una columna cuantitativa por la información agrupada.
💡.count():  ⬅️ Permite contar la cantidad de información de una columna por la información agrupada.
💡.mean():   ⬅️ Permite obtener la media de una columna cuantitativa por la información agrupada.
💡.median(): ⬅️ Permite obtener la mediana de una columna cuantitativa por la información agrupada.
"""
###✔️ Usaremos el dataset de "penguins"
df_penguins = pl.read_csv("../datasets/penguins.csv",separator=",")
# df_penguins.head() 

In [8]:
## 💡 EJEMPLO 1: (AGRUPANDO POR UNA COLUMNA) 
df_agrupado_uno = df_penguins.group_by(["species"]).agg(
    pl.col("body_mass_g").mean().alias("PromedioBMG") ## ⬅️ Hallamos la media de la columna "body_mass_g"
)
# df_agrupado_uno.head()

## 💡 EJEMPLO 2: (AGRUPAR POR DOS COLUMNAS)
df_agrupado_dos = df_penguins.group_by(["species","sex"]).agg(
    pl.col("body_mass_g").mean().alias("Species_Sex_PromedioBMG")
)
# df_agrupado_dos.head()

## 💡 EJEMPLO 3: (AGRUPAR LA INFORMACIÓN POR LA CANTIDAD DE LA MISMA COLUMNA)

df_agrupado_tres = df_penguins.group_by(["species"]).agg(
    pl.col("species").len().alias("Cantidad") ## ⬅️ .len() : función clave para traer la cantidad de datos de la columna.
)
df_agrupado_tres.head()



species,Cantidad
str,u32
"""Adelie""",152
"""Chinstrap""",68
"""Gentoo""",124


#### FASE 4.1 CÁLCULOS MÓVILES EN POLARS 🐻‍❄️💹

Así como SQL SERVER y Pandas permite realizar cálculos móviles basados en funciones de agregación
(min,max,mean,entre otros), Polars lo realiza mediante la función con prefijo ".rolling_" entre 
una N cantidad de filas hacia atrás.

In [None]:
"""
    📝 SINTAXIS: 
        
        1️⃣ Cálculo Móvil sin Particionamiento: Permite el cálculo móvil de una columna que no es afectada por otra(s).
        
        dataset_nombre = dataset_nombre.with_columns(
            pl.col(NombreColumnaCalcular).funcionAgregacionAcumulativa().alias(NuevaColumnaMovil)
        ) 
                                             
        2️⃣ Cálculo Móvil con Particionamiento: Permite el cálculo móvil por columnas en específico.
        
        dataset_nombre = dataset_nombre.with_columns(
            pl.col(NombreColumnaCalcular).funcionAgregacion().over(partition_by=ColumnaParticionar).alias(NombreColumnaMovil)
        )
        
        ### .over(): Permite el particionamiento por cierta(s) columna(s).

        💡 Importante: Existen ciertas funciones de agregación que contienen dentro de sus parámetros
                       [window_size: el cuál permite seleccionar una cierta cantidad de filas para el
                       cálculo móvil y min_samples que permite establecer una mínima cantidad de 
                       periodos para evitar valores NaN, estas funciones tienen de prefijo ".rolling_")                                            

        ### 🧠 Cuando realizamos el cálculo móvil a una columna, Pandas siempre incluirá la fila actual.
"""
### 💹 USAREMOS EL SIGUIENTE DATASET DE EJEMPLO (FORMATO .json):
import json
with open("../datasets/ventas.json","r") as file:
    data_json = json.load(file)
df_ventas = pl.DataFrame(data=data_json["ventas"])
# df_ventas.head()

In [None]:
### 💡 EJEMPLO 1: CÁLCULO MÓVIL ➡️ VENTAS ACUMULATIVAS (SUMA ACUMULADA SIN PARTICIONES)
df_ventas_acumuladas = df_ventas
df_ventas_acumuladas = df_ventas_acumuladas.with_columns(
    pl.col("total").cum_sum().alias("ventas_acumuladas")  ##⬅️ Usamos .cum_sum()
) 
# df_ventas_acumuladas.tail()

### 💡 EJEMPLO 2: CÁLCULO MÓVIL ➡️ VENTAS ACUMULATIVAS (SUMA ACUMULADA CADA 3 DIAS) (✅ INCLUYE FILA ACTUAL)
df_ventas_acumuladas_3_dias = df_ventas
df_ventas_acumuladas_3_dias = df_ventas_acumuladas_3_dias.with_columns(
    pl.col("total").rolling_sum(window_size=3).alias("ventas_acumuladas") ## ⬅️.rolling_sum()
) 
####💡 Los Valores NaN no permiten realizar sumatorias por 1 o 2 valores, deben ser 3 (✅ Incluye la fiLa actual - ❌No particionamos).
# df_ventas_acumuladas_3_dias.head(6)

### 💡 EJEMPLO 3: CÁLCULO MÓVIL ➡️ VENTAS ACUMULATIVAS (SUMA ACUMULADA CADA 3 DIAS) ✅ (❌ NO INCLUYE FILA ACTUAL)
df_ventas_acumuladas_3_dias_sin_fila_actual = df_ventas
df_ventas_acumuladas_3_dias_sin_fila_actual = df_ventas_acumuladas_3_dias_sin_fila_actual.with_columns(
    pl.col("total").shift(1).rolling_sum(window_size=3).alias("ventas_acumuladas") ## ⬅️.rolling_sum()
)
####💡 Los Valores NaN no permiten realizar sumatorias por 1 o 2 valores, deben ser 3 (❌ No incluye la fiLa actual - ❌No particionamos).
# df_ventas_acumuladas_3_dias_sin_fila_actual.head(7) 

### 💡 EJEMPLO 4: CÁLCULO MÓVIL ➡️ VENTAS ACUMULATIVAS (SUMA ACUMULADA CON PARTICIONES)
df_ventas_acumuladas_particiones = df_ventas.sort(by="cliente") #.sort(by="cliente") ## ⬅️ Ordenamos antes de particionar
# df_ventas_acumuladas_particiones.head()
df_ventas_acumuladas_particiones = df_ventas_acumuladas_particiones.with_columns(
    pl.col("total").cum_sum().over(partition_by="cliente").alias("ventas_acumuladas")
) 
# df_ventas_acumuladas_particiones.head() ## ✅ .over() permite el particionamiento y reinicia el acumulado por cada cliente.

#=======================================================================================================================================

### 💡 EJEMPLO 5: CÁLCULO MÓVIL ➡️ PROMEDIO MÓVIL (PROMEDIO CADA 3 DÍAS) (✅ INCLUYE FILA ACTUAL)
df_ventas_promedio_3_dias = df_ventas 
# df_ventas_promedio_3_dias.head()
df_ventas_promedio_3_dias = df_ventas_promedio_3_dias.with_columns(
    pl.col("total").rolling_mean(window_size=3).alias("promedio_ventas_3_dias") ## ⬅️ Utilizamos .rolling_mean()
)
####💡 Los Valores NaN no permiten calcular el promedio por 1 o 2 valores, deben ser 3 (✅ Incluye la fiLa actual - ❌No particionamos).
# df_ventas_promedio_3_dias.head()


### 💡 EJEMPLO 6: CÁLCULO MÓVIL ➡️ PROMEDIO MÓVIL (PROMEDIO CADA 3 DÍAS) (❌ NO INCLUYE FILA ACTUAL)
df_ventas_promedio_3_dias_sin_fila_actual = df_ventas
# df_ventas_promedio_3_dias_sin_fila_actual.head()

df_ventas_promedio_3_dias_sin_fila_actual = df_ventas_promedio_3_dias_sin_fila_actual.with_columns(
    pl.col("total").shift(1).rolling_mean(window_size=3).alias("promedio_ventas_3_dias") ## ⬅️ Utilizamos .rolling_mean()
)
####💡 Los Valores NaN no permiten calcular el promedio por 1 o 2 valores, deben ser 3 (❌ No incluye la fiLa actual - ❌No particionamos).
df_ventas_promedio_3_dias_sin_fila_actual.head()


#=======================================================================================================================================

### 💡 EJEMPLO 7: CÁLCULO MÓVIL ➡️ MÁXIMO MÓVIL (VALOR MÁXIMO CADA 3 DÍAS) (✅ INCLUYE FILA ACTUAL)
df_ventas_maximo_3_dias = df_ventas
# df_ventas_maximo_3_dias.head()
df_ventas_maximo_3_dias = df_ventas_maximo_3_dias.with_columns(
    pl.col("total").rolling_max(window_size=3).alias("valor_maximo_3_dias") ## ⬅️ Utilizamos .rolling_max()
)
####💡 Los Valores NaN no permiten calcular el promedio por 1 o 2 valores, deben ser 3 (✅ Incluye la fiLa actual - ❌No particionamos).
df_ventas_maximo_3_dias.head()


### 💡 EJEMPLO 8: CÁLCULO MÓVIL ➡️ MÁXIMO MÓVIL (VALOR MÁXIMO CADA 3 DÍAS) (❌ NO INCLUYE FILA ACTUAL)
df_ventas_maximo_3_dias_sin_fila_actual = df_ventas
# df_ventas_maximo_3_dias_sin_fila_actual.head()
df_ventas_maximo_3_dias_sin_fila_actual = df_ventas_maximo_3_dias_sin_fila_actual.with_columns(
    pl.col("total").shift(1).rolling_max(window_size=3).alias("valor_maximo_3_dias")
)
####💡 Los Valores NaN no permiten calcular el promedio por 1 o 2 valores, deben ser 3 (❌ No incluye la fiLa actual - ❌No particionamos).
# df_ventas_maximo_3_dias_sin_fila_actual.head()


#=======================================================================================================================================

### 💡 EJEMPLO 9: CÁLCULO MÓVIL ➡️ MÍNIMO MÓVIL (VALOR MÍNIMO CADA 3 DÍAS) (✅ INCLUYE FILA ACTUAL)
df_ventas_minimo_3_dias = df_ventas
# df_ventas_minimo_3_dias.head()
df_ventas_minimo_3_dias = df_ventas_minimo_3_dias.with_columns(
    pl.col("total").rolling_min(window_size=3).alias("valor_minimo_3_dias")
)
####💡 Los Valores NaN no permiten calcular el promedio por 1 o 2 valores, deben ser 3 (✅ Incluye la fiLa actual - ❌No particionamos).
# df_ventas_minimo_3_dias.head()


### 💡 EJEMPLO 10: CÁLCULO MÓVIL ➡️ MÍNIMO MÓVIL (VALOR MÍNIMO CADA 3 DÍAS) (❌ NO INCLUYE FILA ACTUAL)
df_ventas_minimo_3_dias_sin_fila_actual = df_ventas
# df_ventas_minimo_3_dias_sin_fila_actual.head()
df_ventas_minimo_3_dias_sin_fila_actual = df_ventas_minimo_3_dias_sin_fila_actual.with_columns(
    pl.col("total").shift(1).rolling_min(window_size=3).alias("valor_minimo_3_dias")
)
####💡 Los Valores NaN no permiten calcular el promedio por 1 o 2 valores, deben ser 3 (❌ No incluye la fiLa actual - ❌No particionamos).
df_ventas_minimo_3_dias_sin_fila_actual.head()




nro_venta,fecha,cliente,total,valor_minimo_3_dias
i64,str,str,f64,f64
1001,"""2024-01-22""","""Cliente_10""",350.25,
1002,"""2024-02-15""","""Cliente_3""",410.5,
1003,"""2024-03-08""","""Cliente_7""",120.75,
1004,"""2024-04-20""","""Cliente_1""",250.0,120.75
1005,"""2024-05-11""","""Cliente_10""",300.9,120.75


#### FASE 4.2 PIVOT TABLES EN POLARS 🐻‍❄️💹

Las Pivot Table permiten transformar filas de un dataset/dataframe en columnas de un nuevo dataset/dataframe,
permitiendo un análisis más detallado sobre un grupo específico de datos.

In [None]:
"""     
      📝 SINTAXIS:
          dataset_pivoteado_nombre = dataset_original_nombre.pivot(index=NombreColumnaDataframe,on=NombreColumnaDataframe,
                                     values=NombreColumnaDataframe,,aggregate_function=NombreFunciónAgregación) 

"""
import polars as pl
### ✅🗃️ Dataset a utilizar: titanic
df_titanic = pl.read_csv("../datasets/titanic.csv",separator=",")
# df_titanic.head()

#### 💡 EJEMPLO 1: HALLAR EL PROMEDIO DE EDAD POR CLASE Y GÉNERO
df_pivot_uno = df_titanic.pivot(index="pclass",on="sex",values="age",aggregate_function="mean")
df_pivot_uno.head() ##  ✅ Resultado exitoso.


#### 💡 EJEMPLO 2: HALLAR EL PROMEDIO DE FARE POR CLASE Y SEXO, ADEMÁS AGREGAR UN TOTAL A NIVEL DE FILA Y COLUMNA CALCULANDO EL PROMEDIO)
df_pivot_dos = df_titanic.pivot(index="pclass",on="sex",values="fare",aggregate_function="mean")
df_pivot_dos = df_pivot_dos.with_columns(
    pl.mean_horizontal("male","female").round(2).alias("total")
)
## 💡 Cuando usamos pl.mean_horizontal() permite agregar una columna adicional para realizar un cálculo a nivel de fila.
df_pivot_dos.head()
## 💡 Calculamos la media de cada columna.
total_avg_male, total_avg_female, total_avg = round(df_pivot_dos["male"].mean(),2),round(df_pivot_dos["female"].mean(),2),round(df_pivot_dos["total"].mean(),2)
## 💡 Asignamos los valores a un nuevo dataframe para poder unirlo al dataframe original
df_pivot_total_columna = pl.DataFrame(data=[["Total"],[total_avg_male],[total_avg_female],[total_avg]],schema={"pclass":pl.String,"male":pl.Float64,"female":pl.Float64,"total":pl.Float64})
# df_pivot_total_columna.head() ## 💡 Agregamos un valor "Total" a la columna pclass para poder crear la nueva fila en el dataframe original.
df_pivot_dos = df_pivot_dos.with_columns(
    pl.col("pclass").cast(pl.String).alias("pclass") ## 💡 Casteamos la columna pclass a un String para poder concatenarlo con el dato del dataframe de totales.
)
# df_pivot_dos.head()
## 💡 Concatenamos correctamente los dataframes con el cálculo de su total a nivel de columna.
df_pivot_dos_final = pl.concat([df_pivot_dos,df_pivot_total_columna])
df_pivot_dos_final


sex,avg
str,f64
"""female""",27.915709
"""male""",30.726645


#### FASE 4.2 UNPIVOT TABLES EN POLARS 🐻‍❄️💹

Los UnPivot Tables permiten transformar columnas de un dataset/dataframe en filas de un nuevo dataset/dataframe,
permitiendo reestablecer el estado del dataframe al original, sin embargo:
**LA FUNCIÓN DE AGREGACIÓN UTILIZADA EN PIVOT NO REGRESA A SU FORMA NORMAL LOS DATOS, ES DECIR, SE MANTIENE EL CÁLCULO DE LA FUNCIÓN DE AGREGACIÓN**.

In [None]:
""" 
      📝 SINTAXIS:
          dataframe_unpivoteado_nombre = NombreDataframePivoteado.unpivot(index=[NombreColumnaIndice],on=[Valor1Pivoteado,ValorNPivoteado],
                                         variable_name=NombreColumnaValoresPivoteados,value_name=NombreColumnaValorFuncionAgregacionPivoteado)
          index: Nombre de la columna del dataset/dataframe pivoteado que se estaleció como *index*
          on: Nombre de cada valor establecido como columna en el dataset/dataframe pivoteado
          variable_name: Nombre de la columna que será utilizada como parte de los valores pivoteados.
          value_name: Nombre de la columna el dataset/dataframe pivoteado que es utlizada por la función de agregación.       

"""
import polars as pl
### ✅🗃️ Dataframe pivoteado a utilizar: df_titanic
df_titanic = pl.read_csv("../datasets/titanic.csv",separator=",")
# df_titanic.head()

## ✅ DATASET PIVOTEADO
df_pivoteado = df_titanic.pivot(index="pclass",on="sex",values="age",aggregate_function="mean")
# df_pivoteado.head() 

#### 💡 EJEMPLO 1: DESPIVOTEAR EL DATASET PIVOTEADO
df_unpivot_uno = df_pivoteado.unpivot(index=["pclass"],on=["male","female"],variable_name="sex",value_name="age")
df_unpivot_uno.head()

##---- COMPARACIÓN DE PIVOT y UNPIVOT TABLE DEL DATASET/DATAFRAME
print(df_pivoteado)
print(df_unpivot_uno)
## 💡 Como se mencionó anteriormente, el unpivot table no regresa los datos calculados por 
##    la función de agregación (en este caso "mean") a su forma base del dataset/dataframe original (df_titanic).


shape: (3, 3)
┌────────┬───────────┬───────────┐
│ pclass ┆ male      ┆ female    │
│ ---    ┆ ---       ┆ ---       │
│ i64    ┆ f64       ┆ f64       │
╞════════╪═══════════╪═══════════╡
│ 3      ┆ 26.507589 ┆ 21.75     │
│ 1      ┆ 41.281386 ┆ 34.611765 │
│ 2      ┆ 30.740707 ┆ 28.722973 │
└────────┴───────────┴───────────┘
shape: (6, 3)
┌────────┬────────┬───────────┐
│ pclass ┆ sex    ┆ age       │
│ ---    ┆ ---    ┆ ---       │
│ i64    ┆ str    ┆ f64       │
╞════════╪════════╪═══════════╡
│ 3      ┆ male   ┆ 26.507589 │
│ 1      ┆ male   ┆ 41.281386 │
│ 2      ┆ male   ┆ 30.740707 │
│ 3      ┆ female ┆ 21.75     │
│ 1      ┆ female ┆ 34.611765 │
│ 2      ┆ female ┆ 28.722973 │
└────────┴────────┴───────────┘


#### Fase 5. Combinar y Unir Datasets/Dataframes en Polars 🐻‍❄️♾️

A diferencia de Pandas, Polars permite la unificación de datasets/dataframes mediante dos formas:
    - Utilizando Join
    - Utilizando Concat

##### Join en Polars 📊🐼

In [6]:
"""
    📝 SINTAXIS: 

        dataset_unificado_nombre=dataset_nombre_1.join(other=dataset_nombre_2,on='ColumnaEnComun',
                                how='left || rigth || inner || full || semi || anti || cross',
                                left_on='NombreColumnaEnComún',right_on='NombreColumnaEnComún')                                
                                
        ==================================================================================================  

    ### 💡Importante: Join permite unificar los datasets/dataframes a nivel columnar, es decir,
                       unifica horizontalmente las columnas de un dataset/dataframe A; con las columnas
                       de un dataset/dataframe B; gracias a una columna en común que tienen ambos 
                       conjuntos de datos.
                       
                       left_on ⬅️➡️ right_on : Parámetros que permiten unificar dataset/dataframes
                                                cuando las columnas en común tienen diferente nombre.     
"""
### ✅ Utilizaremos este dataset de ejemplo:
import polars as pl
import numpy as np

diccionario_uno = {
    "ID_Cliente":[1,2,3,4,5],
    "Nombre": ["Pepito","Juanito","Pedrito","Brayan","Carlos"],
    "Departamento":["LAS QUINTANAS","EL GOLF","BUENOS AIRES","SAN ANDRÉS","CALIFORNIA"]
}
diccionario_dos = {
    "ID_Cliente":[1,1,2,2,5,4,1,None],
    "Ventas":np.random.uniform(low=1450.25,high=1980.30,size=8).tolist()
}

df_uno = pl.DataFrame(diccionario_uno)
df_dos = pl.DataFrame(diccionario_dos)

diccionario_tres = {
    "Cliente_ID":[1,1,2,2,5,4,1,None],
    "Ventas":np.random.uniform(low=1450.25,high=1980.30,size=8).tolist()
}
df_tres = pl.DataFrame(diccionario_tres)

In [None]:

#### 💡 EJEMPLO 1 (UNIFICACIÓN DE DATAFRAMES [INNER]) 
df_ejemplo_1 = df_uno.join(other=df_dos,on="ID_Cliente",how="inner")
# df_ejemplo_1.shape[0] ## Cantidad de registros: 7
# df_ejemplo_1.head(7)
## [NO SE ENCUENTRA EL CLIENTE 3] ➡️ INNER MANTIENE LA INFORMACIÓN RELACIONADA Y EXISTENTE ENTRE AMBOS DATASETS

#### 💡 EJEMPLO 2 (UNIFICACIÓN DE DATAFRAMES [LEFT])
df_ejemplo_2 = df_uno.join(other=df_dos,on="ID_Cliente",how="left")
# df_ejemplo_2.shape[0] ## Cantidad de registros: 8
# df_ejemplo_2.head(8)
## [SE ENCUENTRA EL CLIENTE 3] ➡️ LEFT MANTIENE LA INFORMACIÓN DEL LADO IZQUIERDO (df_uno) 
## [ASÍ NO EXISTA ALGÚN REGISTRO EN EL LADO DERECHO (df_dos)]

#### 💡 EJEMPLO 3 (UNIFICACIÓN DE DATAFRAMES [RIGHT])
df_ejemplo_3 = df_uno.join(other=df_dos,on="ID_Cliente",how="right")
# df_ejemplo_3.shape[0] ## Cantidad de registros: 8
# df_ejemplo_3.head(8)
## [SE ENCUENTRA EL CLIENTE 3] ➡️ RIGHT MANTIENE LA INFORMACIÓN DEL LADO DERECHO (df_dos) 
## [ASÍ NO EXISTA ALGÚN REGISTRO EN EL LADO IZQUIERDO (df_uno)]

#### 💡 EJEMPLO 4 (UNIFICACIÓN DE DATAFRAMES [FULL] o [OUTER]) ⬅️ AMBOS REALIZAN LO MISMO
df_ejemplo_4 = df_uno.join(other=df_dos,on="ID_Cliente",how="full")
# df_ejemplo_4.shape[0] ## Cantidad de registros: 9
# df_ejemplo_4.head(9)
## ➡️ FULL u OUTER MANTIENE LA INFORMACIÓN DE AMBOS DATAFRAMES.

#### 💡 EJEMPLO 5 (UNIFICACIÓN DE DATAFRAMES [CROSS] ➡️ Forma 2.)
df_ejemplo_5 = df_uno.join(other=df_dos,how="cross")
# df_ejemplo_5.shape[0] ## Cantidad de registros: 40
# df_ejemplo_5.head()
## ➡️ CROSS GENERA TODAS LAS COMBINACIONES POSIBLES DE LAS FILAS DEL df_uno CON LAS FILAS DEL df_dos. 
##     (YA NO NECESITAMOS UTILIZAR EL PARÁMETRO "on=")

# #### 💡 EJEMPLO 6 (UNIFICACIÓN DE DATAFRAMES [INNER] ➡️ Forma 2. + left_on + right_on)
df_ejemplo_6 = df_uno.join(other=df_tres,how="inner",left_on="ID_Cliente",right_on="Cliente_ID")
# df_ejemplo_6.shape[0] ## Cantidad de registros: 7
# df_ejemplo_6.head(7)
## ➡️ CUANDO UTILIZAMOS left_on Y right_on YA NO NECESITAMOS UTILIZAR EL PARÁMETRO "on="
## 📝 left_on ⬅️➡️ right_on : Parámetros que permiten unificar dataset/dataframes
##    cuando las columnas en común tienen diferente nombre.


#### 💡 EJEMPLO ANTI (PERMITE DEVOLVER LAS FILAS DE df_uno QUE NO SE ENCUENTRAN EN df_dos)
df_ejemplo_anti = df_uno.join(other=df_dos,how="anti",on="ID_Cliente")
# df_ejemplo_anti.shape[0] ## Cantidad de registros: 1
# df_ejemplo_anti.head()


#### 💡 EJEMPLO SEMI (PERMITE DEVOLVER LAS FILAS DE df_uno EXISTENTES EN df_dos)
####        PERO DEVOLVIENDO SOLO LAS FILAS DE df_uno
df_ejemplo_semi = df_uno.join(other=df_dos,how="semi",on="ID_Cliente")
# df_ejemplo_semi.shape[0] ## Cantidad de registros: 1
# df_ejemplo_semi.head()


ID_Cliente,Nombre,Departamento
i64,str,str
1,"""Pepito""","""LAS QUINTANAS"""
2,"""Juanito""","""EL GOLF"""
4,"""Brayan""","""SAN ANDRÉS"""
5,"""Carlos""","""CALIFORNIA"""


##### Concat en Polars 📊🐼

In [33]:
"""
    📝 SINTAXIS: 

        dataset_union_nombre = pl.concat([
            dataset_nombre_1.set_index(["NombreColumna1","NombreColumna2","NombreColumnaN"]),
            dataset_nombre_2.set_index(["NombreColumna1","NombreColumna2","NombreColumnaN"])],
            axis = 1,ignore_index = True
        )
                                                        
        ==================================================================================================  

    ### 💡Importante: Concat permite unificar los datasets/dataframes a nivel fila, es decir,
                       unifica verticalmente las columnas de un dataset/dataframe A; con las columnas
                       de un dataset/dataframe B; gracias a la(s) columna(s) en común que tienen ambos 
                       conjuntos de datos.
                       
                       Debemos tener en cuenta que ambos datasets/dataframes deben tener la misma cantidad
                       tipos y orden en las columnas. Además, el parámetro "axis" siempre debe igualarse a 1 para
                       que los datastes/dataframes se unifiquen a nivel vertical columnar. Por otro lado,
                       el parámetro "ignore_index" debe permanecer en True para que el índice del dataset/
                       dataframe nuevo se reestablezca.
"""
### ✅ Utilizaremos este dataset de ejemplo:
import polars as pl
import numpy as np

diccionario_uno = {
    "Categorias":["ELECTRODOMÉSTICOS","TECNOLOGÍA","JUGUETES","DEPORTE","CULTURA"],
    "Año": [2022,2022,2023,2023,2023],
    "Ventas":np.random.uniform(low=3500.25,high=3800.30,size=5).round(2).tolist()
}

diccionario_dos = {
    "Categorias":["ELECTRODOMÉSTICOS","TECNOLOGÍA","JUGUETES","DEPORTE","CULTURA"],
    "Año": [2024,2024,2024,2025,2025],
    "Ventas":np.random.uniform(low=2150.25,high=4580.30,size=5).round(2).tolist()
}

diccionario_tres = {
    "Cat":["ELECTRODOMÉSTICOS","TECNOLOGÍA","JUGUETES","DEPORTE","CULTURA"],
    "Años": [2024,2024,2024,2025,2025],
    "Vent":np.random.uniform(low=2150.25,high=4580.30,size=5).round(2).tolist()
}

diccionario_cuatro = {
    "Cat":["ELECTRODOMÉSTICOS","TECNOLOGÍA","JUGUETES","DEPORTE","CULTURA"],
    "Años": [2024,2024,2024,2025,2025],
    "Vent":np.random.uniform(low=2150.25,high=4580.30,size=5).round(2).tolist()
}

df_uno = pl.DataFrame(diccionario_uno)
df_dos = pl.DataFrame(diccionario_dos)
df_tres = pl.DataFrame(diccionario_tres)
df_cuatro = pl.DataFrame(diccionario_cuatro)

In [None]:
#### 💡 EJEMPLO 1 (UNIFICACIÓN DE DATAFRAMES A NIVEL COLUMNAR - VERTICAL) 
df_ejemplo_1 = pl.concat([df_uno,df_dos],how="vertical")
# df_ejemplo_1.shape[0] ## Cantidad de registros: 10
# df_ejemplo_1.head(10)

#### 💡 EJEMPLO 2 (UNIFICACIÓN DE DATAFRAMES A NIVEL COLUMNAR - HORIZONTAL) 
##----- PARA LA UNIÓN EN HORIZONTAL, NO DEBEN EXISTIR COLUMNAS CON NOMBRE IGUALES
df_ejemplo_2 = pl.concat([df_uno,df_tres],how="horizontal")
# df_ejemplo_2.shape[0] ## Cantidad de registros: 5
# df_ejemplo_2.head(10)

#### 💡 EJEMPLO 3 (UNIFICACIÓN DE DATAFRAMES A NIVEL COLUMNAR - DIAGONAL) 
df_ejemplo_3 = pl.concat([df_uno,df_tres],how="diagonal")
# df_ejemplo_3.shape[0] ## Cantidad de registros: 10
# df_ejemplo_3.head(10)

# #### 💡 EJEMPLO 4 (UNIFICACIÓN DE DATAFRAMES A NIVEL COLUMNAR - VERTICAL) ⬅️ CON DIFERENTES NOMBRES 

# ##---- PASO A). RENOMBRAR LAS COLUMNAS
# df_cuatro = df_cuatro.rename({"Cat":"Categorias","Años":"Año","Vent":"Ventas"}) ##⬅️ EJECUTAMOS UNA SOLA VEZ
# df_cuatro.head()

# ##---- PASO B). UNIFICAR DATASETS/DATAFRAMES

df_ejemplo_4 = pl.concat([df_uno,df_cuatro],how="vertical")
# df_ejemplo_4.shape[0] ## Cantidad de registros: 10
# df_ejemplo_4.head(10)

Categorias,Año,Ventas
str,i64,f64
"""ELECTRODOMÉSTICOS""",2022,3620.09
"""TECNOLOGÍA""",2022,3676.05
"""JUGUETES""",2023,3667.62
"""DEPORTE""",2023,3792.08
"""CULTURA""",2023,3535.57
"""ELECTRODOMÉSTICOS""",2024,3435.57
"""TECNOLOGÍA""",2024,2695.34
"""JUGUETES""",2024,2500.11
"""DEPORTE""",2025,3923.25
"""CULTURA""",2025,4531.17


#### Fase 6. Exportación de Datos en Polars 🐻‍❄️🗃️

Esta fase final en la manipulación de datos brinda permite que la información previamente procesada se pueda consumir, intercambiar o almacenar. Su importancia radica en garantizar información limpia y transformada esté disponible para otros sistemas, análisis posteriores o toma de decisiones, ya sea en archivos planos (CSV, Excel), estructurados (JSON, Parquet) o de alto rendimiento en entornos de Big Data (Parquet).

In [20]:
### 💡 UTLIZAREMOS DE EJEMPLO ESTE DATASET
data = {
    "id": [1, 2, 3, 3, None],
    "nombre": ["Ana", "Luis", "Karla", "Karla", "Pedro"],
    "edad": [23, 35, 29, 29, None]
}
import polars as pl
df = pl.DataFrame(data)

In [21]:
### ✅ Realizaremos una Limpieza básica
df = df.drop_nulls()                 # eliminar filas con valores nulos
df = df.unique()        # eliminar duplicados
df = df.with_columns(
    pl.col("id").cast(dtype=pl.Int64).alias("id") # castear columna a entero
)
df = df.rename({"nombre":"Nombre","edad":"Edad"},strict=True) # Renombrar columnas

In [22]:
### ✅ Exportando el dataset
## ----- Formato CSV(Comma Separated Values) 
"""
    SINTAXIS: 
        dataset_nombre.write_csv(file="RutaAlmacenarArchivoExportado",separator="SeparadorDatos")    
    
    ✔️ file: Es el parámetro que permite especificar la ruta donde se almacenará el archivo.
    ✔️ separator: Es el parámetro que permite especificar el signo de puntuación a separar los datos (Mayormente utilizamos (,) o (;) ).
    
    ### 🧠 TENER EN CUENTA QUE LA EXTENSIÓN DEBE SER IGUAL A LA FUNCIÓN DE EXPORTACIÓN DEL ARCHIVO
    ###     Por ejemplo: ✅ write_csv-> .csv ---- ❌ write_csv -> .xlsx
"""
### 💡 EJEMPLO
df.write_csv(file="../datasets/fase_exportacion/polars_export.csv", separator=",")
print("Archivo CSV exportado.")


Archivo CSV exportado.


In [None]:
### ✅ Exportando el dataset
## ----- Formato EXCEL
"""
    SINTAXIS: 
        dataset_nombre.df.write_excel(workbook="RutaAlmacenarArchivoExportado",worksheet="NombreDeLaHojaDelExcel")    
    
    ✔️ workbook: Es el parámetro que permite especificar la ruta donde se almacenará el archivo.
    ✔️ worksheet: Es el parámetro que permite establecer el nombre de la hoja donde se almacenará el archivo excel.
    
    ### 🧠 TENER EN CUENTA QUE LA EXTENSIÓN DEBE SER IGUAL A LA FUNCIÓN DE EXPORTACIÓN DEL ARCHIVO
    ###     Por ejemplo: ✅ write_excel-> .xlsx ---- ❌ write_excel -> .csv
    
    ### 🧠 SE MOSTRARÁN LOS EJEMPLOS CON LOS PRINCIPALES PARÁMETROS (workbook, worksheet)
    ### ✔️ Necesitarás instalar el pluging para Polars (creación de archivos excel): pip install xlsxwriter
"""
### 💡 EJEMPLO
df.write_excel(workbook="../datasets/fase_exportacion/polars_export.xlsx",worksheet="HojaPrueba") 
print("Archivo Excel exportado.")

Archivo Excel exportado.


In [None]:
### ✅ Exportando el dataset
## ----- Formato JSON (JAVASCRIPT OBJECT NOTATION)
"""
    SINTAXIS: 
        dataset_nombre.write_json(file="RutaAlmacenarArchivoExportado")  
    
    ✔️ file: Es el parámetro que permite especificar la ruta donde se almacenará el archivo.
              
    ### 🧠 TENER EN CUENTA QUE LA EXTENSIÓN DEBE SER IGUAL A LA FUNCIÓN DE EXPORTACIÓN DEL ARCHIVO
    ###     Por ejemplo: ✅ write_json-> .json ---- ❌ write_json -> .xlsx
"""
# df.write_json()
# ### 💡 EJEMPLO 
df.write_json(file="../datasets/fase_exportacion/polars_export_basico.json")
print("Archivo JSON Básico exportado.")



Archivo JSON Básico exportado.


In [25]:
### ✅ Exportando el dataset
## ----- Formato PARQUET (FORMATO COLUMNAR OPTIMIZADO PARA SOLUCIONES DE BIG DATA)
"""
    SINTAXIS: 
        dataset_nombre.write_parquet(file="RutaAlmacenarArchivoExportado",compression="brotli|gzip|lzo|snappy|zstd")
    
    ✔️ file: Es el parámetro que permite especificar la ruta donde se almacenará el archivo.
    ✔️ compression: Es el parámetro que permite reducir el tamaño del archivo.
                  
    ### 🧠 TENER EN CUENTA QUE LA EXTENSIÓN DEBE SER IGUAL A LA FUNCIÓN DE EXPORTACIÓN DEL ARCHIVO
    ###     Por ejemplo: ✅ write_parquet-> .parquet ---- ❌ write_parquet -> .xlsx
    ### 💡 EN LOS SIGUIENTES EJEMPLOS UTILIZAREMOS LOS PARÁMETROS CON LOS VALORES MEJORES OPTIMIZADOS.
"""
### 💡 EJEMPLO 1: EXPOTANDO FORMATO PARQUET (compression='snappy' y engine='pyarrow')
df.write_parquet(file="../datasets/fase_exportacion/polars_export_parquet.parquet",compression="snappy")
print("Archivo PARQUET exportado.")

### 🧠 A tener en cuenta:
"""
compression="snappy"  # Rápido, compresión moderada
compression="gzip"    # Lento, alta compresión
compression="brotli"  # Mejor compresión, más lento

"""
print("")

Archivo PARQUET exportado.

