## ⚡ Analítica Turbo con Polars: Fundamentos que todo Analista Moderno debe conocer 🐻‍❄️

---

👨‍💻 Autor: Brayan Neciosup  
📍 Portafolio: [brayanneciosup](https://bryanneciosup626.wixsite.com/brayandataanalitics)  
🔗 LinkedIn: [linkedin.com/brayanneciosup](https://www.linkedin.com/in/brayan-rafael-neciosup-bola%C3%B1os-407a59246/)  
💻 GitHub: [github.com/BrayanR03](https://github.com/BrayanR03)  
📚 Serie: Fundamentos de Pandas y Polars


In [1]:
# Instalar librería de polars: pip install polars
# Importamos la librería
import polars as pl

### 📌 Manipulación de Datos en Polars: ...

La manipulación de datos, también conocida como data wrangling, es una fase 
fundamental en todo proyecto de análisis de datos. Consiste en transformar 
un dataset crudo, es decir, datos en su forma original, posiblemente desordenada o
incompleta en un formato estructurado y útil, como un DataFrame.

#### Fase 1. Fuentes de Datos 🗃️

In [None]:
"""
    Polars 🐻‍❄️ permite leer datos desde múltiples fuentes como archivos CSV, Excel, JSON, 
    bases de datos SQL, entre otros formatos comunes. Esta flexibilidad facilita el trabajo
    con datasets provenientes de distintos orígenes, tanto locales como remotos de manera optimizada.
"""

In [2]:
# Paso A). DEFINIR LA CARPETA ORIGEN DE DONDE PROVIENE NUESTROS DATASETS (LOCAL)
"""
    📝 SINTAXIS: 
        
        carpeta_origen = "RutaCarpetaOrigen"
    
    ### 🧠 Va a depender en que entorno nos encontremos porque las rutas 
    ###     de carpetas pueden ser (\) o (/).
"""
# 💡 EJEMPLO 1 (Ruta completa):

# carpeta_origen = "C:/Users/USER/Documents/FundamentosPandasPolars/datasets" 

# print(carpeta_origen)

# 💡 EJEMPLO 2 (Ruta relativa):

carpeta_origen = f"../datasets/"
# print(carpeta_origen)
import os # ⬅️ Permite trabajar con archivos
print(os.listdir(carpeta_origen)) # ⬅️ Mostrar los archivos de la carpeta

['eventos_logs.json', 'json_basico.json', 'Pedidos.xlsx', 'penguins.csv', 'titanic.csv']


In [3]:
# Paso B). DEFINIR EL NOMBRE DEL ARCHIVO DEL DATASET
"""
    📝 SINTAXIS:
    
        nombre_archivo = "NombreArchivo.extension"

    ### 🧠 Dependerá de la extensión del archivo para indicarle a Polars que función utilizar.
"""
# 💡 EJEMPLO 1 (.csv): 
archivos_csv = "penguins.csv"

# 💡 EJEMPLO 2 (.xlsx): 
archivos_xlsx = "Pedidos.xlsx"

# 💡 EJEMPLO 3 (.json): 
archivos_json = "eventos_logs.json"


In [4]:
# Paso C). LECTURA DE LOS ARCHIVOS (PASO A + PASO B)
"""
    ### 🧠 Para los archivos .csv, se recomienda conocer el separador o
    ###     delimitador presente en el archivo e indicarle a Polars.

    📝 SINTAXIS:
    
        dataset_nombre = pl.read_extensión(carpeta_origen+nombre_archivo.extensión)
"""
import polars as pl # ✅ No olvidar importar polars al inicio del notebook

# 💡 EJEMPLO 1 (Lectura de .csv): 

dataset_csv = pl.read_csv(carpeta_origen+archivos_csv,separator=",") # ⬅️ Indicamos el delimitador en separator.
# dataset_csv.head() # ⬅️ Función que permite leer y retornar los 5 primeros registros del archivo.
"""==============================================================================================="""
# 💡 EJEMPLO 2 (Lectura de .xlsx): 

dataset_excel = pl.read_excel(
                 source=carpeta_origen+archivos_xlsx,
                 sheet_name="Hoja1") # ⬅️ Indicamos el nombre de la Hoja donde se encuentra
                                     #     la información.
# dataset_excel.head() # ⬅️ Función que permite leer y retornar los 5 primeros registros del archivo.

""" ⚠️ En caso les arroje error sobre: " requiered package 'fastexcel' not found "
       solo instalemos el módulo con: pip install fastexcel
'"""
# dataset_excel.head() # ⬅️ Función que permite leer y retornar los 5 primeros registros del archivo.
"""==============================================================================================="""
# 💡 EJEMPLO 3 (Lectura de .json):

### Archivo básico JSON
archivo_json_basico = "json_basico.json" # ⬅️ Nombre de archivo básico JSON
dataset_json1 = pl.read_json(carpeta_origen+archivo_json_basico) # ⬅️ Lectura de JSON básico
# dataset_json1.head()

# Archivo complejo JSON
import json # ⬅️ Utilizaremos la librería json para el aplanamiento del Archivo JSON complejo.
archivo_json_complejo = "eventos_logs.json" # ⬅️ Nombre de archivo complejo JSON
with open(carpeta_origen + archivo_json_complejo, "r", encoding="utf-8") as file_data:
    data_archivo_json_complejo = json.load(file_data)
dataset_json2 = pl.json_normalize(data_archivo_json_complejo) # ⬅️ Lectura de archivo JSON complejo.
dataset_json2.head() # ⬅️ Función que permite leer y retornar los 5 primeros registros del archivo.

evento.usuario_id,evento.accion,evento.timestamp
str,str,str
"""U846""","""compra""","""2025-05-25T21:07:47.202219Z"""
"""U321""","""registro""","""2025-05-23T11:50:47.202219Z"""
"""U813""","""login""","""2025-05-25T19:09:47.202219Z"""
"""U677""","""registro""","""2025-05-27T09:41:47.202219Z"""
"""U425""","""compra""","""2025-05-23T14:44:47.202219Z"""


#### Fase 2. Exploración Inicial 🔍

In [5]:
"""
    Utilizaremos el dataset de penguins (dataset de Seaborn importado en un csv)
"""
df_penguins = pl.read_csv("../datasets/penguins.csv",separator=",") # ⬅️ Accedemos al archivo en la carpeta datasets
df_penguins.head()

species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
str,str,f64,f64,f64,f64,str
"""Adelie""","""Torgersen""",39.1,18.7,181.0,3750.0,"""Male"""
"""Adelie""","""Torgersen""",39.5,17.4,186.0,3800.0,"""Female"""
"""Adelie""","""Torgersen""",40.3,18.0,195.0,3250.0,"""Female"""
"""Adelie""","""Torgersen""",,,,,
"""Adelie""","""Torgersen""",36.7,19.3,193.0,3450.0,"""Female"""


In [6]:
"""
    A). Quitar encabezados originales provenientes del Dataset.
    
        📝 SINTAXIS:
        
            dataset_nombre = pl.read_extension(ruta_carpeta_archivo,separator="Delimitador",has_header=True|False)
            
            💡 Importante: has_header, es el parámetro que si establecemos en False, los encabezados se vuelven parte
                           de los registros del dataset, además, Polars agregará la posición de cada columna
                           con un prefijo: columna_posición.
                                        
            ### 🧠 Tener en cuenta que solo se aplicará a las extensiones .excel y .csv
    
#### PARA LOS EJEMPLOS USAREMOS ALGUNOS DATASET PREVIAMENTE VISTOS EN LA FASE 1.
"""

# 💡 EJEMPLO 1: Archivo CSV 

df_penguins = pl.read_csv(carpeta_origen+archivos_csv,separator=",",has_header=True) #⬅️ Mostramos los encabezados
# df_penguins.head()

# 💡 EJEMPLO 2: Archivo CSV

df_penguins = pl.read_csv(carpeta_origen+archivos_csv,separator=",",has_header=False) #⬅️ Ocultamos los encabezados
# df_penguins.head()

# 💡 EJEMPLO 3: Archivo EXCEL 

df_penguins_excel = pl.read_excel(carpeta_origen+archivos_xlsx,sheet_name="Hoja1",has_header=True) #⬅️ Mostramos los encabezados
# df_penguins_excel.head()

# 💡 EJEMPLO 4: Archivo EXCEL

df_penguins_excel = pl.read_excel(carpeta_origen+archivos_xlsx,sheet_name="Hoja1",has_header=False) #⬅️ Ocultamos los encabezados
df_penguins_excel.head()

column_1,column_2,column_3,column_4
str,str,str,str
"""DetallePedidosPedidoID""","""PedidoFechaHoraRegistro""","""PedidoEstado""","""Total"""
"""1""","""2025-05-26 18:02:01.240""","""F""","""524361.11"""
"""2""","""2025-05-26 18:02:02.430""","""F""","""524387.46"""
"""3""","""2025-05-26 18:02:46.287""","""F""","""515269.86"""
"""4""","""2025-05-26 18:02:46.290""","""F""","""523261.27"""


In [7]:
"""
    B). Mostrar los N primeros registros de un dataset
    
        📝 SINTAXIS:
    
            dataset_nombre.head(NúmeroDeRegistros) ⬅️ Indicamos un número para la cantidad de registros a mostrar    
"""
# 💡 EJEMPO 1: 

# df_penguins.head(5) ## ⬅️ Mostrar 5 primeros registros del dataset

# 💡 EJEMPO 2: 

df_penguins.head(10) ## ⬅️ Mostrar 10 primeros registros del dataset

column_1,column_2,column_3,column_4,column_5,column_6,column_7
str,str,str,str,str,str,str
"""species""","""island""","""bill_length_mm""","""bill_depth_mm""","""flipper_length_mm""","""body_mass_g""","""sex"""
"""Adelie""","""Torgersen""","""39.1""","""18.7""","""181.0""","""3750.0""","""Male"""
"""Adelie""","""Torgersen""","""39.5""","""17.4""","""186.0""","""3800.0""","""Female"""
"""Adelie""","""Torgersen""","""40.3""","""18.0""","""195.0""","""3250.0""","""Female"""
"""Adelie""","""Torgersen""",,,,,
"""Adelie""","""Torgersen""","""36.7""","""19.3""","""193.0""","""3450.0""","""Female"""
"""Adelie""","""Torgersen""","""39.3""","""20.6""","""190.0""","""3650.0""","""Male"""
"""Adelie""","""Torgersen""","""38.9""","""17.8""","""181.0""","""3625.0""","""Female"""
"""Adelie""","""Torgersen""","""39.2""","""19.6""","""195.0""","""4675.0""","""Male"""
"""Adelie""","""Torgersen""","""34.1""","""18.1""","""193.0""","""3475.0""",


In [8]:
"""
    C). Mostrar los N últimos registros de un dataset
    
        📝 SINTAXIS:
    
            dataset_nombre.tail(NúmeroDeRegistros) ⬅️ Indicamos un número para la cantidad de registros a mostrar    
"""
# 💡 EJEMPO 1: 

# df_penguins.tail(5) ## ⬅️ Mostrar 5 últimos registros del dataset

# 💡 EJEMPO 2: 

df_penguins.tail(10) ## ⬅️ Mostrar 10 últimos registros del dataset

column_1,column_2,column_3,column_4,column_5,column_6,column_7
str,str,str,str,str,str,str
"""Gentoo""","""Biscoe""","""46.2""","""14.1""","""217.0""","""4375.0""","""Female"""
"""Gentoo""","""Biscoe""","""55.1""","""16.0""","""230.0""","""5850.0""","""Male"""
"""Gentoo""","""Biscoe""","""44.5""","""15.7""","""217.0""","""4875.0""",
"""Gentoo""","""Biscoe""","""48.8""","""16.2""","""222.0""","""6000.0""","""Male"""
"""Gentoo""","""Biscoe""","""47.2""","""13.7""","""214.0""","""4925.0""","""Female"""
"""Gentoo""","""Biscoe""",,,,,
"""Gentoo""","""Biscoe""","""46.8""","""14.3""","""215.0""","""4850.0""","""Female"""
"""Gentoo""","""Biscoe""","""50.4""","""15.7""","""222.0""","""5750.0""","""Male"""
"""Gentoo""","""Biscoe""","""45.2""","""14.8""","""212.0""","""5200.0""","""Female"""
"""Gentoo""","""Biscoe""","""49.9""","""16.1""","""213.0""","""5400.0""","""Male"""


In [9]:
"""
    D). Mostrar el volúmen del dataset (Cantidad de filas y columnas respectivamente) 
    
        📝 SINTAXIS:
    
            dataset_nombre.shape ⬅️ Nos muestra la cantidad de filas y columnas en forma de tupla (,)
            
            #### 🧠 Podemos acceder a la cantidad de filas o columnas basándonos en la posición
                     de los datos que retorna la tupla, gracias a .shape ➡️ 0 = filas y 1 = columnas    
"""
# 💡 EJEMPO 1: 

df_penguins.shape ## ⬅️ Muestra el volúmen de registros del dataset en forma de tupla. (CantidadFilas,CantidadColumnas)

# 💡 EJEMPO 2: 

df_penguins.shape[0] ## ⬅️ Muestra la cantidad de registros (filas) del dataset

# 💡 EJEMPO 3: 

df_penguins.shape[1] ## ⬅️ Muestra la cantidad de columnas del dataset


7