## ⚡ Analítica Turbo con Polars: Fundamentos que todo Analista Moderno debe conocer 🐻‍❄️

---

👨‍💻 Autor: Brayan Neciosup  
📍 Portafolio: [brayanneciosup](https://bryanneciosup626.wixsite.com/brayandataanalitics)  
🔗 LinkedIn: [linkedin.com/brayanneciosup](https://www.linkedin.com/in/brayan-rafael-neciosup-bola%C3%B1os-407a59246/)  
💻 GitHub: [github.com/BrayanR03](https://github.com/BrayanR03)  
📚 Serie: Fundamentos de Pandas y Polars


In [1]:
# Instalar librería de polars: pip install polars
# Importamos la librería
import polars as pl

### 📌 Series en Polars: Rendimiento y Simplicidad en una dimensión

####  ✅DEFINICIÓN DE UNA SERIE EN POLARS 🐻‍❄️

Sintaxis: 

serie = pl.Series(name = NombreColumnaSerie, values = ValoresSerie, dtype = pl.TipoDatoSegúnValores)

**Importante: A diferencia de Pandas, Polars ya no trabaja con índices en sus Series y se define
              el tipo de dato que tendrá la serie (int,str,object, entre otros..)
              Sin embargo, al tener diferentes tipos de datos en la serie, y no definir mediante "dtype"
              que tipo de datos se almacenarán, saldrá un error al imprimir la serie.

In [13]:
# Serie - Ejemplo 1 (Un solo tipo de dato):
data_1=[1,2,3,4,5]
serie_1=pl.Series(name="Valores",values=data_1,dtype=pl.Int64)
print("==== SERIE 1 - UN SOLO TIPO DE DATO") 
print(serie_1)
                                                # 💡💡➡️SIEMPRE DEFINIR EL TIPO DE DATO EN LA SERIE
# Serie - Ejemplo 2 (Varios tipos de datos):
data_2=[1,2,True,2.5,"Hola"]
serie_2=pl.Series(name="Valores2",values=data_2,dtype=pl.Object)
print("==== SERIE 2 - VARIOS TIPOS DE DATOS") 
print(serie_2)

# # Serie - Ejemplo 3 (Sin definir tipo de dato - error ❌):
# data_3=[1,2,True,2.5,"Hola"]
# serie_3=pl.Series(name="Valores3",values=data_3)
# print("==== SERIE 3 - VARIOS TIPOS DE DATOS ❌") 
# print(serie_3)


==== SERIE 1 - UN SOLO TIPO DE DATO
shape: (5,)
Series: 'Valores' [i64]
[
	1
	2
	3
	4
	5
]
==== SERIE 2 - VARIOS TIPOS DE DATOS
shape: (5,)
Series: 'Valores2' [o][object]
[
	1
	2
	True
	2.5
	Hola
]


#### ✅ Operaciones con Series en Polars

In [44]:
serie_example = pl.Series(name="Valores",values=[10,15,35,2,82,15,13],dtype=pl.Int64) # ⬅️ Trabajaremos con un solo tipo de dato (Int64) 
serie_example

Valores
i64
10
15
35
2
82
15
13


In [16]:
# a). Obtener un valor por el índice establecido
print(serie_example[5]) # ⬅️ Accedemos el elemento del índice 5


15


In [None]:
# b). Filtrar valores: Para realizar el filtrado debemos llamar al método .filter() y aplicar la condición.
# Sintaxis: serie_nombre.filter(serie_nombre + condición) ⬅️ condiciones usando operadores lógicos: > | < | = | >= | <= | !=
# Ejemplo : 
print(serie_example.filter(serie_example>18))  # ( Valores de la serie mayores a 18 )

shape: (2,)
Series: 'Valores' [i64]
[
	35
	82
]


In [18]:
# c). Realizar operaciones aritméticas básicas:
# Sintaxis: 
# operacion_serie = nombre_serie + | - | / | * 

# Estas operaciones a realizar, devuelven una estructura "ambigua" en Polars. Por ello, si queremos convertirla a
# un formato mas legible, realizamos los pasos para definir la serie.

# new_serie = pl.Series(name=NombreColumna,values=new_serie,dtype=pl.Int64)

# Ejemplo:
aumentar_serie = serie_example + 10  # ( Aumentar en 10, cada valor de la serie )
# print(aumentar_serie) # ⬅️ Formato "ambiguo"
new_serie = pl.Series(name="ValorNuevo",values=aumentar_serie,dtype=pl.Int64)
new_serie # ⬅️✅Formato mas legible
 

ValorNuevo
i64
20
25
45
12
92
25
23


In [68]:
# d). Reemplazar valores de series: 
# Las series al ser mutables, debemos almacenarlas en nuevas variables para que se reemplace.
# Además, si deseamos realizar condiciones para el reemplazo de valores, usaremos numpy.
# Sintaxis:
# new_serie = serie.replace({ValorAntiguoEnSerie:ValorNuevoAReemplazar}) ⬅️ método .replace() solo para valores individuales
# serie_condicionada = np.where(serie_example>30,100,serie_example) ⬅️ usando np.where() de numpy para condiciones de valores múltiples

# Ejemplo 1: Usando numpy - Instalar librería de numpy: pip install numpy
import numpy as np
serie_condicionada = np.where(serie_example>30,100,serie_example) # ⬅️ Condiciones de varios valores usando np.where()
new_serie_1 = pl.Series(values=serie_condicionada,name="Valores") # ⬅️ Formateamos a una serie el array devuelto por numpy.
print(new_serie_1)
# Ejemplo 2:
new_serie_2 = serie_example.replace({35:100}) # ⬅️ Reemplazamos valores individuales sin condición (30 por 100)
print(new_serie_2)

shape: (7,)
Series: 'Valores' [i64]
[
	10
	15
	100
	2
	100
	15
	13
]
shape: (7,)
Series: 'Valores' [i64]
[
	10
	15
	100
	2
	82
	15
	13
]


### 📌 Dataframes en Polars: ...

####  ✅DEFINICIÓN DE UN DATAFRAME EN POLARS 🐻‍❄️

Son estructuras de datos bidimensionales, que permiten almacenar información en forma de una matriz (FilasxColumnas),
las cuáles, deben estar de acorde al tipo de dato definido en la columna. Sin embargo, a diferencia de Pandas, Polars
presenta una optimización en la manipulación de la informació, debido que distribuye la lectura de los diversos
orígenes de datos en todos los núcleos del procesador.

SINTAXIS:

        dataframe_nombre = pl.DataFrame(data=DatosDataframe,schema=NombreColumnasPreviamenteDefinidas,orient= row[usado] | col)

In [None]:
# DEFINIR UN DATAFRAME MEDIANTE UN DICCIONARIO
"""
📝 Nota: Si queremos definir un dataframe desde un diccionario, las claves del diccionario se convertirán
         en las columnas del dataframe y los valores serán la información almacenada bidireccionalmente
         por cada columna del dataframe.
"""
diccionario_example = {
    "Nombre":["Brayan","Rafael","Pepito"],
    "Edad": [25,27,20],
    "Nota":[15,10,16]
}
dict_to_df = pl.DataFrame(diccionario_example)
dict_to_df.head() # ⬅️ Función básica que permite ver los 5 primeros registros de un dataframe. 
### 💡 Adicionalmente, Polars muestra el tipo de dato de las columnas del dataframe

Nombre,Edad,Nota
str,i64,i64
"""Brayan""",25,15
"""Rafael""",27,10
"""Pepito""",20,16


In [None]:
# DEFINIR UN DATAFRAME DESDE CERO
dataframe = pl.DataFrame(data=[["Brayan",25,15],["Rafael",27,10],["Pepito",20,16]],
                         schema=["Nombre","Edad","Nota"],orient="row") # ⬅️ Establecemos row para que los datos sean asignado como filas

dataframe.head()

"""
💡 Importante: Al definir las columnas para el Dataframe debemos tener en cuenta que
               se deben tener la misma cantidad de elementos de acuerdo a la cantidad de columnas,
               caso contrario, generará un error porque ciertas filas, no tienen la misma cantidad
               de elementos que la  columnas.
"""

# dataframe_valores_faltantes = pl.DataFrame(data=[["Brayan",15],["Rafael",15],["Pepito",20]],
#                                 schema=["Nombre","Edad","Nota"])
# dataframe_valores_faltantes.head() # ❌ Genera error porque los datos solo tiene 2 elementos y el dataframe presenta 3 columnas.


Nombre,Edad,Nota
str,i64,i64
"""Brayan""",25,15
"""Rafael""",27,10
"""Pepito""",20,16


In [None]:
# DEFINIR UN DATAFRAME COLUMNA POR COLUMNA

dataframe_columna_a_columna = pl.DataFrame() # ⬅️ Inicializamos un dataframe vacío (Así como cuando inicializamos un objeto vacío en programación)
dataframe_columna_a_columna.head()

"""
    📝Nota: Para poder definir columnas en un dataframe de Polars, debemos hacer referencia al dataframe, para poder
            definir sus nuevas columnas y otros cambios que querramos realizar. Asimismo, podemos inicializar un dataframe vacío, 
            e ir llenandolo poco a poco (según sea la casuística).
            
            También, podemos mezclar el uso de series en los Dataframes, porque, las Series son <<columnas>>.
"""


dataframe_columna_a_columna = dataframe_columna_a_columna.with_columns( # ⬅️ Función que permite trabajar sobre o crear nuevas  columnas en un dataframe.
        pl.Series(values=["Brayan","Rafael","Pepito"],name="ColumnaNombre",dtype=pl.String),  #⬅️ Definimos una columna con una serie.
        pl.Series(values=[21,45,19],name="ColumnaEdad",dtype=pl.Int64),  #⬅️ Definimos una columna con una serie.        
)
dataframe_columna_a_columna = dataframe_columna_a_columna.with_columns(
        (pl.col("ColumnaEdad")+10).alias("ColumnasEdad+10") 
        # ✅ Función pl.col(NombreColumna) nos permite acceder a una columna en base a su nombre
        # ✅ Función .alias(NuevoNombreColumna) nos permite renombrar una columna
)
dataframe_columna_a_columna.head()

"""
    💡Importante: Al definir columna por columna un dataframe en Polars debemos si o sí colocar
                  la misma cantidad de datos entre cada columna.                  
"""
# dataframe_valores_faltantes = pl.DataFrame()
# dataframe_valores_faltantes = dataframe_valores_faltantes.with_columns( # ⬅️ Función que permite trabajar sobre o crear nuevas  columnas en un dataframe.
#         pl.Series(values=["Brayan","Rafael"],name="ColumnaNombre",dtype=pl.String),  #⬅️ Definimos una columna con una serie.
#         pl.Series(values=[21,45,19],name="ColumnaEdad",dtype=pl.Int64),  #⬅️ Definimos una columna con una serie.        
# )
# dataframe_valores_faltantes.head()


ColumnaNombre,ColumnaEdad,ColumnasEdad+10
str,i64,i64
"""Brayan""",21,31
"""Rafael""",45,55
"""Pepito""",19,29
