### Aprenderemos polar Totalmente desde cero

**POLARS**

Polars es una biblioteca de código abierto para la manipulación de datos , conocida por ser una de las soluciones de procesamiento de datos más rápidas en una sola máquina. Cuenta con una API bien estructurada y tipificada, expresiva y fácil de usar.

**Rápido**

Polars se desarrolló desde cero pensando en el rendimiento. Su motor de consultas multihilo está escrito en Rust y diseñado para un paralelismo efectivo. Su procesamiento vectorizado y columnar permite algoritmos coherentes con la caché y un alto rendimiento en procesadores modernos.

**¿Por qué usar polares?**

Polars se evaluó en una versión derivada del benchmark independiente TPC-H frente a otras soluciones. Este benchmark busca replicar las operaciones de manipulación de datos utilizadas en la práctica. Polars supera ampliamente a otras soluciones gracias a su motor de ejecución en paralelo, algoritmos eficientes y el uso de vectorización con SIMD (Instrucción Única, Datos Múltiples). En comparación con Pandas, puede alcanzar mejoras de rendimiento de más de 30 veces.

*¿Qué es Polars?*

Es una librería open source para manipulación de datos (similar a pandas).
Fue creada en Rust (lenguaje ultrarrápido y seguro en memoria).
Tiene bindings para Python, Rust y otros lenguajes.
Está diseñada para manejar datasets grandes, incluso mayores a la memoria RAM disponible.

*🔹 ¿Para qué sirve?*

Análisis de datos tabulares (igual que pandas).
Procesamiento rápido de grandes volúmenes de datos (Big Data en una sola máquina).
Limpieza, transformación y agregación de datos.
Lectura y escritura eficiente en formatos como CSV, Parquet, JSON, IPC/Arrow.
Pipelines optimizados para ciencia de datos, machine learning y ETL.

**🔹 ¿Cómo funciona?**

Está escrito en Rust y usa Apache Arrow como formato interno de memoria (columnar, muy eficiente).
Tiene dos modos:

Eager API → como pandas, ejecuta todo inmediatamente.
Lazy API → construcción de un plan de ejecución que optimiza todas las operaciones antes de ejecutarlas (similar a Spark o SQL).
Esto significa que Polars optimiza automáticamente el orden de operaciones y reduce el uso de memoria.

*🔹 Ventajas de Polars*

✅ Velocidad → mucho más rápido que pandas, especialmente con grandes datasets.
✅ Soporte a lazy evaluation → permite optimización automática de consultas.
✅ Paralelización → aprovecha todos los núcleos del CPU de forma nativa.
✅ Bajo consumo de memoria → gracias al uso de Apache Arrow (columnar).
✅ Escalabilidad → puede manejar datasets más grandes que la memoria disponible.
✅ Tipos de datos más seguros → menor riesgo de errores silenciosos en conversiones.

*🔹 Desventajas de Polars*

⚠️ Comunidad más pequeña → pandas tiene muchos más usuarios y soporte.
⚠️ Menos tutoriales y recursos → aunque está creciendo rápido.
⚠️ Compatibilidad limitada → algunas librerías de Python esperan pandas (ej. scikit-learn, statsmodels).
⚠️ Curva de aprendizaje → si vienes de pandas, hay que acostumbrarse a la API de Polars.
⚠️ Funciones estadísticas avanzadas → pandas todavía tiene más soporte nativo (aunque Polars mejora día a día).

*🔹 Cuadro comparativo: Polars vs Pandas*

Característica	Polars 🦀	Pandas 🐼
Lenguaje base	Rust + Python	Python (Cython en partes)
Velocidad	Muy alta 🚀 (multihilo, optimizado)	Media (monohilo)
Lazy evaluation	✅ Sí	❌ No
Paralelización	✅ Nativa (usa todos los núcleos)	❌ No
Consumo de memoria	Bajo (columnares con Apache Arrow)	Alto (basado en arrays de NumPy)
Facilidad de uso	Media (API parecida a pandas, pero diferente)	Alta (muy popular y documentada)
Comunidad y ecosistema	Creciente, más pequeño	Muy grande, estándar en la industria
Compatibilidad	Limitada con otras librerías	Excelente, ampliamente soportado
Escalabilidad	Muy buena (datasets grandes, out-of-core)	Limitada (datasets deben caber en RAM)
Casos de uso	Big Data en una sola máquina, ETL, análisis rápido	Análisis estándar, prototipado, ML con scikit-learn
Curva de aprendizaje	Media (nueva API, pero intuitiva)	Baja (muy difundido y con muchos tutoriales)

**📌 Conclusión:**

Si trabajas con datasets pequeños/medianos y quieres facilidad → pandas 🐼.
Si necesitas velocidad, datasets grandes o paralelización → Polars 🦀.

##### Importar la libreria de Polar

In [35]:
#realizar la importacion de la libreria de polar
# Librerías
import os
import polars as pl
from datetime import datetime
os.chdir(r'C:\Users\monti.UNITY12\OneDrive\Documentos\CienciaDatos')



In [36]:
#Crear un dataframe
import polars as pl

# Crear un DataFrame a partir de un diccionario
data = pl.DataFrame({
    "id": [1, 2, 3, 4],
    "nombre": ["Martha", "Luis", "Ana", "Pedro"],
    'apellido':['Montiel', 'Lopez', 'Garcia', 'Mendez'],
    "edad": [19, 17, 23, 31],
    'altura':[1.56,1.70,1.67, 1.66],
    'sexo':['M', 'H','M', 'H'],
    "ciudad": ["CDMX", "Madrid", "CDMX", "Madrid"],
    'estado_civil':['casad@', 'solte@', 'casad@', 'solter@']
})
data.get_column_index('id')
data

id,nombre,apellido,edad,altura,sexo,ciudad,estado_civil
i64,str,str,i64,f64,str,str,str
1,"""Martha""","""Montiel""",19,1.56,"""M""","""CDMX""","""casad@"""
2,"""Luis""","""Lopez""",17,1.7,"""H""","""Madrid""","""solte@"""
3,"""Ana""","""Garcia""",23,1.67,"""M""","""CDMX""","""casad@"""
4,"""Pedro""","""Mendez""",31,1.66,"""H""","""Madrid""","""solter@"""


In [37]:
#Mostrar la descripcion del dataframe
data.describe()

statistic,id,nombre,apellido,edad,altura,sexo,ciudad,estado_civil
str,f64,str,str,f64,f64,str,str,str
"""count""",4.0,"""4""","""4""",4.0,4.0,"""4""","""4""","""4"""
"""null_count""",0.0,"""0""","""0""",0.0,0.0,"""0""","""0""","""0"""
"""mean""",2.5,,,22.5,1.6475,,,
"""std""",1.290994,,,6.191392,0.060759,,,
"""min""",1.0,"""Ana""","""Garcia""",17.0,1.56,"""H""","""CDMX""","""casad@"""
"""25%""",2.0,,,19.0,1.66,,,
"""50%""",3.0,,,23.0,1.67,,,
"""75%""",3.0,,,23.0,1.67,,,
"""max""",4.0,"""Pedro""","""Montiel""",31.0,1.7,"""M""","""Madrid""","""solter@"""


In [38]:
data.shape #Mostrar la cantidad de filas y columnas

(4, 8)

In [39]:
data.columns #Mostrar el nombre en una listas de todas las columnas

['id',
 'nombre',
 'apellido',
 'edad',
 'altura',
 'sexo',
 'ciudad',
 'estado_civil']

In [40]:
#Mostrar el tipo de datos de cada columna.
data.dtypes

[Int64, String, String, Int64, Float64, String, String, String]

In [41]:
#Mostrar las primeras filas
data.head(2)

id,nombre,apellido,edad,altura,sexo,ciudad,estado_civil
i64,str,str,i64,f64,str,str,str
1,"""Martha""","""Montiel""",19,1.56,"""M""","""CDMX""","""casad@"""
2,"""Luis""","""Lopez""",17,1.7,"""H""","""Madrid""","""solte@"""


In [42]:
#Mostrar las ultimas filas
data.tail(2)

id,nombre,apellido,edad,altura,sexo,ciudad,estado_civil
i64,str,str,i64,f64,str,str,str
3,"""Ana""","""Garcia""",23,1.67,"""M""","""CDMX""","""casad@"""
4,"""Pedro""","""Mendez""",31,1.66,"""H""","""Madrid""","""solter@"""


In [43]:
#Seleccionar columnas
data['nombre']

nombre
str
"""Martha"""
"""Luis"""
"""Ana"""
"""Pedro"""


In [44]:
#Seleccionar multiples columnas
data[['nombre', 'edad']]

nombre,edad
str,i64
"""Martha""",19
"""Luis""",17
"""Ana""",23
"""Pedro""",31


In [68]:
#Ordenar informacion
data.sort('nombre', descending=False)

id,nombre,apellido,edad,altura,sexo,ciudad,estado_civil
i64,str,str,i64,f64,str,str,str
3,"""Ana""","""Garcia""",23,1.67,"""M""","""CDMX""","""casad@"""
2,"""Luis""","""Lopez""",17,1.7,"""H""","""Madrid""","""solte@"""
1,"""Martha""","""Montiel""",19,1.56,"""M""","""CDMX""","""casad@"""
4,"""Pedro""","""Mendez""",31,1.66,"""H""","""Madrid""","""solter@"""


In [46]:
#Renombrar columnas
new_name = data.rename({'altura':'estatura'})
new_name

id,nombre,apellido,edad,estatura,sexo,ciudad,estado_civil
i64,str,str,i64,f64,str,str,str
1,"""Martha""","""Montiel""",19,1.56,"""M""","""CDMX""","""casad@"""
2,"""Luis""","""Lopez""",17,1.7,"""H""","""Madrid""","""solte@"""
3,"""Ana""","""Garcia""",23,1.67,"""M""","""CDMX""","""casad@"""
4,"""Pedro""","""Mendez""",31,1.66,"""H""","""Madrid""","""solter@"""


In [47]:
#Verificar la cantidad de eleemntos nulos que hay 
nulo = new_name.null_count()
nulo

id,nombre,apellido,edad,estatura,sexo,ciudad,estado_civil
u32,u32,u32,u32,u32,u32,u32,u32
0,0,0,0,0,0,0,0


In [48]:
#Eliminar datos nulos
delete_null = new_name.drop_nulls()
delete_null

id,nombre,apellido,edad,estatura,sexo,ciudad,estado_civil
i64,str,str,i64,f64,str,str,str
1,"""Martha""","""Montiel""",19,1.56,"""M""","""CDMX""","""casad@"""
2,"""Luis""","""Lopez""",17,1.7,"""H""","""Madrid""","""solte@"""
3,"""Ana""","""Garcia""",23,1.67,"""M""","""CDMX""","""casad@"""
4,"""Pedro""","""Mendez""",31,1.66,"""H""","""Madrid""","""solter@"""


In [49]:
#Eliminar columna
delete_columns = new_name.drop('sexo')
delete_columns

id,nombre,apellido,edad,estatura,ciudad,estado_civil
i64,str,str,i64,f64,str,str
1,"""Martha""","""Montiel""",19,1.56,"""CDMX""","""casad@"""
2,"""Luis""","""Lopez""",17,1.7,"""Madrid""","""solte@"""
3,"""Ana""","""Garcia""",23,1.67,"""CDMX""","""casad@"""
4,"""Pedro""","""Mendez""",31,1.66,"""Madrid""","""solter@"""


In [50]:
new_name.select('nombre', 'apellido')#Permite seleccionar multiples columnas

nombre,apellido
str,str
"""Martha""","""Montiel"""
"""Luis""","""Lopez"""
"""Ana""","""Garcia"""
"""Pedro""","""Mendez"""


**Filtrar Informacion**


In [51]:
edad_menor = new_name.filter(pl.col('edad')>=24)
edad_menor

id,nombre,apellido,edad,estatura,sexo,ciudad,estado_civil
i64,str,str,i64,f64,str,str,str
4,"""Pedro""","""Mendez""",31,1.66,"""H""","""Madrid""","""solter@"""


In [52]:
#Filtrar y seleccionar solo algunas columnas
edad_filtrada = (new_name.filter(pl.col("edad") <= 25).select(["nombre", "edad"]))
edad_filtrada


nombre,edad
str,i64
"""Martha""",19
"""Luis""",17
"""Ana""",23


In [53]:
#Filtrar por varias condiciones
persona_cdmx = new_name.filter((pl.col('edad')<=25) | (pl.col('ciudad')=='CDMX'))
persona_cdmx

id,nombre,apellido,edad,estatura,sexo,ciudad,estado_civil
i64,str,str,i64,f64,str,str,str
1,"""Martha""","""Montiel""",19,1.56,"""M""","""CDMX""","""casad@"""
2,"""Luis""","""Lopez""",17,1.7,"""H""","""Madrid""","""solte@"""
3,"""Ana""","""Garcia""",23,1.67,"""M""","""CDMX""","""casad@"""


In [54]:
# Reemplazar nulos en una columna
df = data.with_columns(
    pl.col("edad").fill_null(0)
)
df

id,nombre,apellido,edad,altura,sexo,ciudad,estado_civil
i64,str,str,i64,f64,str,str,str
1,"""Martha""","""Montiel""",19,1.56,"""M""","""CDMX""","""casad@"""
2,"""Luis""","""Lopez""",17,1.7,"""H""","""Madrid""","""solte@"""
3,"""Ana""","""Garcia""",23,1.67,"""M""","""CDMX""","""casad@"""
4,"""Pedro""","""Mendez""",31,1.66,"""H""","""Madrid""","""solter@"""


In [55]:
## Reemplazar nulos en varias columnas
df = df.fill_null("desconocido")
df

id,nombre,apellido,edad,altura,sexo,ciudad,estado_civil
i64,str,str,i64,f64,str,str,str
1,"""Martha""","""Montiel""",19,1.56,"""M""","""CDMX""","""casad@"""
2,"""Luis""","""Lopez""",17,1.7,"""H""","""Madrid""","""solte@"""
3,"""Ana""","""Garcia""",23,1.67,"""M""","""CDMX""","""casad@"""
4,"""Pedro""","""Mendez""",31,1.66,"""H""","""Madrid""","""solter@"""


In [56]:
# Eliminar filas solo si "edad" es nulo
df_sin_nulos = df.drop_nulls(subset=["edad"])
df_sin_nulos

id,nombre,apellido,edad,altura,sexo,ciudad,estado_civil
i64,str,str,i64,f64,str,str,str
1,"""Martha""","""Montiel""",19,1.56,"""M""","""CDMX""","""casad@"""
2,"""Luis""","""Lopez""",17,1.7,"""H""","""Madrid""","""solte@"""
3,"""Ana""","""Garcia""",23,1.67,"""M""","""CDMX""","""casad@"""
4,"""Pedro""","""Mendez""",31,1.66,"""H""","""Madrid""","""solter@"""


In [57]:
#Eliminar espacios vacios
espacio_vacios = new_name.with_columns(pl.col('nombre').str.strip_chars().alias('nombre'))
espacio_vacios

id,nombre,apellido,edad,estatura,sexo,ciudad,estado_civil
i64,str,str,i64,f64,str,str,str
1,"""Martha""","""Montiel""",19,1.56,"""M""","""CDMX""","""casad@"""
2,"""Luis""","""Lopez""",17,1.7,"""H""","""Madrid""","""solte@"""
3,"""Ana""","""Garcia""",23,1.67,"""M""","""CDMX""","""casad@"""
4,"""Pedro""","""Mendez""",31,1.66,"""H""","""Madrid""","""solter@"""


In [58]:
# Reemplazar edades negativas por nulos
df = espacio_vacios.with_columns(
    pl.when(pl.col("edad") < 0)
      .then(None)
      .otherwise(pl.col("edad"))
      .alias("edad")
)
df

id,nombre,apellido,edad,estatura,sexo,ciudad,estado_civil
i64,str,str,i64,f64,str,str,str
1,"""Martha""","""Montiel""",19,1.56,"""M""","""CDMX""","""casad@"""
2,"""Luis""","""Lopez""",17,1.7,"""H""","""Madrid""","""solte@"""
3,"""Ana""","""Garcia""",23,1.67,"""M""","""CDMX""","""casad@"""
4,"""Pedro""","""Mendez""",31,1.66,"""H""","""Madrid""","""solter@"""


In [59]:
# Convertir columna edad a entero
df = espacio_vacios.with_columns(
    pl.col("edad").cast(pl.Int64)
)
df

id,nombre,apellido,edad,estatura,sexo,ciudad,estado_civil
i64,str,str,i64,f64,str,str,str
1,"""Martha""","""Montiel""",19,1.56,"""M""","""CDMX""","""casad@"""
2,"""Luis""","""Lopez""",17,1.7,"""H""","""Madrid""","""solte@"""
3,"""Ana""","""Garcia""",23,1.67,"""M""","""CDMX""","""casad@"""
4,"""Pedro""","""Mendez""",31,1.66,"""H""","""Madrid""","""solter@"""


In [60]:
#Convertir informacion mayuscula y minuscula
# Convertir ciudades a mayúsculas
mayuscula= espacio_vacios.with_columns(
    pl.col("ciudad").str.to_uppercase()
)
mayuscula

id,nombre,apellido,edad,estatura,sexo,ciudad,estado_civil
i64,str,str,i64,f64,str,str,str
1,"""Martha""","""Montiel""",19,1.56,"""M""","""CDMX""","""casad@"""
2,"""Luis""","""Lopez""",17,1.7,"""H""","""MADRID""","""solte@"""
3,"""Ana""","""Garcia""",23,1.67,"""M""","""CDMX""","""casad@"""
4,"""Pedro""","""Mendez""",31,1.66,"""H""","""MADRID""","""solter@"""


In [61]:
# Reemplazar valores específicos de las filas
df = espacio_vacios.with_columns(
    pl.col("ciudad").replace("CDMX", "Ciudad de México")
)
df

id,nombre,apellido,edad,estatura,sexo,ciudad,estado_civil
i64,str,str,i64,f64,str,str,str
1,"""Martha""","""Montiel""",19,1.56,"""M""","""Ciudad de México""","""casad@"""
2,"""Luis""","""Lopez""",17,1.7,"""H""","""Madrid""","""solte@"""
3,"""Ana""","""Garcia""",23,1.67,"""M""","""Ciudad de México""","""casad@"""
4,"""Pedro""","""Mendez""",31,1.66,"""H""","""Madrid""","""solter@"""


In [62]:
espacio_vacios

id,nombre,apellido,edad,estatura,sexo,ciudad,estado_civil
i64,str,str,i64,f64,str,str,str
1,"""Martha""","""Montiel""",19,1.56,"""M""","""CDMX""","""casad@"""
2,"""Luis""","""Lopez""",17,1.7,"""H""","""Madrid""","""solte@"""
3,"""Ana""","""Garcia""",23,1.67,"""M""","""CDMX""","""casad@"""
4,"""Pedro""","""Mendez""",31,1.66,"""H""","""Madrid""","""solter@"""


**AGRUPAMIENTO DE DATOS**

In [63]:
#aprenderemos sobre agrupamiento.
grupo1 = espacio_vacios.group_by('sexo').agg(pl.col('edad').sum().alias('Suma edad'))
grupo1

sexo,Suma edad
str,i64
"""M""",42
"""H""",48


#### Tablas dinamicas

In [64]:
dinamica = pl.DataFrame({
    "departamento": ["IT", "IT", "HR", "HR", "Ventas", "Ventas", "IT"],
    "empleado": ["Ana", "Luis", "Pedro", "María", "Carlos", "Sofía", "Jorge"],
    "salario": [3000, 4000, 3500, 3200, 4500, 3800, 4200],
    "año": [2023, 2023, 2023, 2024, 2023, 2024, 2024]
})
dinamica

departamento,empleado,salario,año
str,str,i64,i64
"""IT""","""Ana""",3000,2023
"""IT""","""Luis""",4000,2023
"""HR""","""Pedro""",3500,2023
"""HR""","""María""",3200,2024
"""Ventas""","""Carlos""",4500,2023
"""Ventas""","""Sofía""",3800,2024
"""IT""","""Jorge""",4200,2024


In [65]:
#Ejemplo basico Queremos una tabla dinámica que muestre el salario promedio por departamento y año:
tabla = dinamica.pivot(
    values="salario",
    index="departamento",
    columns="año",
    aggregate_function="mean"
)
tabla

  tabla = dinamica.pivot(


departamento,2023,2024
str,f64,f64
"""IT""",3500.0,4200.0
"""HR""",3500.0,3200.0
"""Ventas""",4500.0,3800.0


In [66]:
#ejemplo 3
tabla1 = dinamica.pivot(
    values="salario",
    index="empleado",
    columns=["departamento", "año"],
    aggregate_function="sum"
)
tabla1

  tabla1 = dinamica.pivot(


empleado,"{""IT"",2023}","{""HR"",2023}","{""HR"",2024}","{""Ventas"",2023}","{""Ventas"",2024}","{""IT"",2024}"
str,i64,i64,i64,i64,i64,i64
"""Ana""",3000,0,0,0,0,0
"""Luis""",4000,0,0,0,0,0
"""Pedro""",0,3500,0,0,0,0
"""María""",0,0,3200,0,0,0
"""Carlos""",0,0,0,4500,0,0
"""Sofía""",0,0,0,0,3800,0
"""Jorge""",0,0,0,0,0,4200


In [None]:
#ordenar columnas
df.select(sorted(df.columns))


apellido,ciudad,edad,estado_civil,estatura,id,nombre,sexo
str,str,i64,str,f64,i64,str,str
"""Montiel""","""Ciudad de México""",19,"""casad@""",1.56,1,"""Martha""","""M"""
"""Lopez""","""Madrid""",17,"""solte@""",1.7,2,"""Luis""","""H"""
"""Garcia""","""Ciudad de México""",23,"""casad@""",1.67,3,"""Ana""","""M"""
"""Mendez""","""Madrid""",31,"""solter@""",1.66,4,"""Pedro""","""H"""


In [None]:
#Mover una columna al inicio
cols = ["nombre"] + [c for c in df.columns if c != "nombre"]
df.select(cols)


nombre,id,apellido,edad,estatura,sexo,ciudad,estado_civil
str,i64,str,i64,f64,str,str,str
"""Martha""",1,"""Montiel""",19,1.56,"""M""","""Ciudad de México""","""casad@"""
"""Luis""",2,"""Lopez""",17,1.7,"""H""","""Madrid""","""solte@"""
"""Ana""",3,"""Garcia""",23,1.67,"""M""","""Ciudad de México""","""casad@"""
"""Pedro""",4,"""Mendez""",31,1.66,"""H""","""Madrid""","""solter@"""
