## ⚡ Analítica Turbo con Polars: Fundamentos que todo Analista Moderno debe conocer 🐻‍❄️

---

👨‍💻 Autor: Brayan Neciosup  
📍 Portafolio: [brayanneciosup](https://bryanneciosup626.wixsite.com/brayandataanalitics)  
🔗 LinkedIn: [linkedin.com/brayanneciosup](https://www.linkedin.com/in/brayan-rafael-neciosup-bola%C3%B1os-407a59246/)  
💻 GitHub: [github.com/BrayanR03](https://github.com/BrayanR03)  
📚 Serie: Fundamentos de Pandas y Polars


In [1]:
# Instalar librería de polars: pip install polars
# Importamos la librería
import polars as pl

### 📌 Dataframes en Polars: ...

#### ✅ OPERACIONES CON DATAFRAMES EN POLARS 🐻‍❄️

Como se mencionó anteriormente, los DataFrame y LazyFrame comparten la misma sintaxis
para aplicar operaciones. Sin embargo, su diferencia principal radica en el modo de 
ejecución: mientras que los DataFrame ejecutan cada instrucción de inmediato, 
los LazyFrame acumulan operaciones y las ejecutan todas juntas al llamar a .collect().

No obstante, para mantener la continuidad del contenido, en las siguientes secciones continuaremos trabajando con DataFrame.

In [2]:
df_example = pl.DataFrame(data=[["BRAYAN",15,13],["RAFAEL",25,19],["PEPITO",20,10]],
                          schema=["Nombre","Edad","Nota"],orient="row")
df_example.head()

Nombre,Edad,Nota
str,i64,i64
"""BRAYAN""",15,13
"""RAFAEL""",25,19
"""PEPITO""",20,10


In [3]:
# A). OBTENER EL VALOR O VALORES DE LA COLUMNA DE UN DATAFRAME MEDIANTE SU NOMBRE.

"""
    📝 SINTAXIS: 
    
        dataframe_nombre[NombreColumna] ⬅️ Llamamos al dataframe directamente o
        print(dataframe_nombre[NombreColumna]) ⬅️ Usamos print()
        
        **Importante: Cuando llamamos con solo un par de corchetes "[]", muestra los resultados,
                      
        ### 🧠 Tengamos en cuenta que podemos almacenar el resultado de estas operaciones en variables. 
"""
# 💡 EJEMPLO 1: Obtener valores de una columna
# df_example["Nota"]

# 💡 EJEMPLO 2: Obtener valores de varias columnas
df_example[["Nota","Nombre"]]

Nota,Nombre
i64,str
13,"""BRAYAN"""
19,"""RAFAEL"""
10,"""PEPITO"""


In [4]:
# B). OBTENER UNA FILA DE VALORES ESPECÍFICAS DEL DATAFRAME

"""
    📝 SINTAXIS:
    
        dataframe_nombre[NumeroIndice] ⬅️ Recordemos que el indice empieza en 0.
    
    💡 Importante: Tener en cuenta que el índice o número a ingresar, no debe superar 
                    el tamaño de valores.    
        
    ### 🧠 Tengamos en cuenta que podemos almacenar el resultado de estas operaciones en variables.
"""

# 💡 EJEMPLO 1: NÚMERO DE ÍNDICE CORRECTO ✅ 
df_example[0] # ⬅️ Número de indice: 2 (Retorna todos los registros de la fila 1, índice 0).

## 💡 EJEMPLO 2: NÚMERO DE ÍNDICE INCORRECTO ❌ 

## df_example[3] # ⬅️ Número de indice: 3.
## ❌ Error: Índice fuera de los límites

Nombre,Edad,Nota
str,i64,i64
"""BRAYAN""",15,13


In [5]:
# C). OBTENER UN VALOR ESPECÍFICO DE UN REGISTRO, BASADO EN SU NÚMERO DE ÍNDICE
#     Y EL NOMBRE DE UNA COLUMNA.
"""
    📝 SINTAXIS: 
    
        dataframe_nombre[NumeroIndice,NombreColumna] ⬅️ De esta manera accederemos solo a valores específicos.
        
        ### 🧠 Tengamos en cuenta que podemos almacenar el resultado de estas operaciones en variables.
"""
# 💡 EJEMPLO: 
# df_example[1,"Nota"] # ⬅️ Accedemos a la fila con índice 1 y la columna de nombre Nota.
print(df_example[1,"Nota"]) # ⬅️ Accedemos a la fila con índice 1 y la columna de nombre Nota.

19


In [6]:
# D). FILTRAR VALORES EN UN DATAFRAME:

""" 
    Para realizar el filtro de valores nos basaremos en condiciones que la o las columnas
    deben cumplir. Por ende, ya no utilizaremos el método .query() o el filtrado a través []
    como en Pandas, sino mediante su propia función .filter().
    
   💡 Importante: Para poder acceder a una columna y realizar el filtro correspondiente,
       utilizaremos pl.col() que crea una expresión de la columna verificando su existencia.
    
    📝 SINTAXIS:
     
        dataframe_nombre.filter( ⬅️ Método filter() para realizar filtrado.
                pl.col(NombreColumna) |CondicionColumna|        ⬅️ Filtramos por una columna.
                (pl.col(NombreColumna1) |CondicionColumna1| ) & 
                (pl.col(NombreColumna2) |CondicionColumna2| )   ⬅️ Filtramos por varias columnas.
        )
        
        ( > || < || >= || <= || != ) ⬅️ Operadores lógicos 
        
        ### 🧠 Tengamos en cuenta que podemos almacenar el resultado de estas operaciones en variables.
"""
# 💡 EJEMPLO 1: USANDO OPERADORES LÓGICOS (EN UNA COLUMNA)

# df_example.filter(pl.col("Nota")>15) # ⬅️ Notas mayores a 15
# df_example.filter(pl.col("Nombre")!='RAFAEL') # ⬅️ Todos los nombre diferentes a RAFAEL

# 💡 EJEMPLO 2: USANDO OPERADORES LÓGICOS (EN MÁS DE UNA COLUMNA)

# df_example.filter((pl.col("Edad")==20) & (pl.col("Nota")==10)) # ⬅️ Edad igual a 20 y Nota 10. (2 columnas)
## ➡️ Cada condición de filtro, la debemos separar mediante paréntesis ().

# 💡 EJEMPLO 3:

df_filtrado = df_example.filter((pl.col("Edad")==20) | (pl.col("Nota")==19)) # Filtrando por dos columnas (Usamos or)
df_filtrado.head()

Nombre,Edad,Nota
str,i64,i64
"""RAFAEL""",25,19
"""PEPITO""",20,10


In [7]:
# E). AGREGAR UNA O VARIAS COLUMNAS AL DATAFRAME:

"""
    Para poder agregar una nueva columna en Polars, a diferencia de Pandas que donde se definía
    entre [] una nueva columna, en Polars, usamos metodos directamente al dataframe, este método
    es .with_columns(), donde podemos crear columnas nuevas a raíz del cálculo de otras columnas.
    
    📝 SINTAXIS:

        dataframe_nombre = dataframe_nombre.with_columns(
            pl.col(NombreColumna).alias("NombreNuevaColumna")  ⬅️ Primera forma de crear una nueva columna (recomendada).
            NombreNuevaColumna = pl.col(NombreColumnaCalculo)  ⬅️ Segunda forma de crear una nueva columna.
            pl.Series(values=[Valores],name="NombreNuevaColumna",dtype=TipoDato) ⬅️ Tercera forma de crear una nueva columna (serie).
        )
        
    ### ⚠️ Tengamos en cuenta que para realizar cambios al dataframe, debemos llamar al dataframe otra vez.
"""

# 💡 EJERCICIO 1: NUEVA COLUMNA CON INFORMACIÓN

df_example = df_example.with_columns(
    pl.Series(values=[1,2,3],name="Puntaje",dtype=pl.Int64) 
    # ⬅️ Recodemos que para esta forma de agregar información
    #    debe contener la misma cantidad de datos que 
    #    el total de registros.
)
# df_example.head()

# 💡 EJERCICIO 2: NUEVA COLUMNA CALCULADA v1.
df_example = df_example.with_columns(
    (pl.col("Nota")*pl.col("Puntaje")).alias("Ranking")
)                                                    #    a las columnas a través de los corchetes [].
# df_example.head()


# 💡 EJERCICIO 3: NUEVA COLUMNA CALCULADA v2.
df_example = df_example.with_columns(
    Extra = (pl.col("Nota")/pl.col("Puntaje")) 
)
df_example.head()

Nombre,Edad,Nota,Puntaje,Ranking,Extra
str,i64,i64,i64,i64,f64
"""BRAYAN""",15,13,1,13,13.0
"""RAFAEL""",25,19,2,38,9.5
"""PEPITO""",20,10,3,30,3.333333


In [9]:
# F). ELIMINAR COLUMNAS DEL DATAFRAME:

"""
   A diferencia de Pandas donde llamamos directamente a la funcion con el dataset y realizamos la operación.
   En Polars debemos llamar al mismo dataframe y/o asignarlo a una nueva variable para poder visualizar
   los cambios de la eliminación.
    
    
    📝 SINTAXIS:
    
        dataframe_nombre = dataframe_nombre.drop([NombreColumna1,NombreColumna2],strict=True | False [EvaluaExistenciaDeColumnas])

    ### 🧠 En este caso, debemos almacenar en una variable los cambios a realizar en el dataframe

    ### ⚠️ Debemos tener en cuenta que si volvemos a ejecutar el código de eliminar columnas
           la columna especificada como ya no existe, lanzará error.

"""

# 💡 EJEMPLO 1:
# df_example = df_example.drop("Ranking",strict=True) # ⬅️ Establecemos True en strict ✅
# df_example.head() # ⬅️ Verificamos que si se elimino correctamente la columna

# 💡 EJEMPLO 2:
df_copia = df_example # ⬅️ Método .copy() que permite copiar el dataframe a otra variable.
df_copia = df_copia.drop(["Nota","Puntaje"],strict=True) # ⬅️ Establecemos True en strict ✅
df_copia.head() # ⬅️ Verificamos que si se elimino correctamente las columnas


Nombre,Edad,Ranking,Extra
str,i64,i64,f64
"""BRAYAN""",15,13,13.0
"""RAFAEL""",25,38,9.5
"""PEPITO""",20,30,3.333333


In [10]:
# G). ORDERNAR LOS DATOS DEL DATAFRAME POR UNA O VARIAS COLUMNAS

"""
    📝 SINTAXIS: 

        dataframe_nombre = dataframe_nombre.sort(by=NombreColumna,descending=True | False) 
        
    💡 Importante: Al establecer el valor de descending en True, los datos se ordenan
                   de mayor a menor por la columna que especifiquemos. Sin embargo, sino 
                   llamamos a la propiedad descending o por el contrario, se establece el valor en False,
                   los datos se ordenan de menor a mayor.
                   
        ### 🧠 Tengamos en cuenta que podemos almacenar el resultado de estas operaciones en variables.
"""
# 💡 EJEMPLO 1: ➡️ Ordenamos Alfabéticamente (A-Z)

# df_example.sort(by="Nombre",descending=False).head()

# 💡 EJEMPLO 2: ➡️ Ordenamos Alfabéticamente (Z-A)

# df_example.sort(by="Nombre",descending=True).head()

# 💡 EJEMPLO 3: ➡️ Ordenamos por columna Numérica (De menor a mayor)

# df_example.sort(by="Edad",descending=False).head()

# 💡 EJEMPLO 4: ➡️ Ordenamos por columna Numérica (De mayor a menor)

df_example.sort(by="Edad",descending=True).head()


Nombre,Edad,Nota,Puntaje,Ranking,Extra
str,i64,i64,i64,i64,f64
"""RAFAEL""",25,19,2,38,9.5
"""PEPITO""",20,10,3,30,3.333333
"""BRAYAN""",15,13,1,13,13.0
