Estructura de nuestro tutorial en Jupyter
->[Titulo atractivo]
--[Hablar sobre polar]
--[Aplicaciones del paquete polars (En donde y en qué casos se puede usar)]
--Primeros Pasos
--[Diferencias con pandas]
--[Principales funciones]
--[Caso practico como ejemplo]
--[Referencias]

### Primeros pasos con la librería Polars
Para instalar la librería Polars en tu PC, puedes seguir los siguientes pasos:
![The San Juan Mountains are beautiful!](https://i.pinimg.com/originals/b9/30/c1/b930c1c4d7a3ac78403994b250dbe9e1.gif "San Juan Mountains")

Abre una terminal o línea de comandos en tu PC.
Asegúrate de tener Python instalado en tu sistema. Puedes comprobarlo ejecutando el comando `python --version` en la terminal. Si no lo tienes instalado, puedes descargarlo desde la página oficial de Python.
Ejecuta el siguiente comando en la terminal para instalar Polars a través de pip, el gestor de paquetes de Python:


In [15]:
#Comando para instalar por primera vez la librería Polars en tu pc
#Recuerda que se necesita tener instalado Python 3.7 en adelante.
!pip install polars

Defaulting to user installation because normal site-packages is not writeable


Espera a que se complete la instalación. Este proceso puede tardar unos minutos dependiendo de tu conexión a internet.
Una vez que la instalación haya terminado, ya puedes importar Polars en tus scripts de Python utilizando la línea de código:

In [16]:
#Lo importamos como **pl** por consenso y 
#porque la propia documentación de Polars recomienda usarlo.
import polars as pl

#### Estructura básica de la librería Polars

In [17]:
import polars as pl

# Crear un DataFrame de Polars a partir de un diccionario
data = {"nombre": ["Juan", "María", "Pedro"], "edad": [25, 30, 35]}
df = pl.DataFrame(data)

# Seleccionar columnas específicas del DataFrame
df = df.select("nombre", "edad")

# Filtrar filas basadas en una condición
df = df.filter(pl.col("edad") > 28)

# Agregar una nueva columna basada en cálculos en columnas existentes
#df = df.with_column(pl.col("edad") * 2, name="edad_doble")

# Mostrar el DataFrame resultante
print(df)

shape: (2, 2)
┌────────┬──────┐
│ nombre ┆ edad │
│ ---    ┆ ---  │
│ str    ┆ i64  │
╞════════╪══════╡
│ María  ┆ 30   │
│ Pedro  ┆ 35   │
└────────┴──────┘


### ¿En qué se diferencia con la librería Pandas?

Polars es una librería de procesamiento de datos en memoria que se enfoca en la eficiencia y el procesamiento en paralelo, lo que le permite trabajar con conjuntos de datos más grandes y procesarlos de manera más eficiente que Pandas. Además, Polars puede trabajar con datos heterogéneos, tiene funciones específicas para el procesamiento de datos de series de tiempo y utiliza una sintaxis más moderna y concisa.

![Polars vs. Pandas](https://pbs.twimg.com/media/Fv_VRShWIAE_SDD?format=jpg&name=medium "Polars vs. Pandas")

Polars ingresa al mercado a competir con la bandera de **mayor velocidad en el procesamiento grandes cantidades de datos**. Como podemos ver en su documentación se realizaron pruebas de velocidad comparandolo con otras librerías. En este caso se procesaba un dataframe de 1.000.000.000 de filas y 9 columnas y el resultado en cuanto a velocidad de procesamiento da como ganador a Polars.

![Comparación de la velocidad de procesamiento!](https://miro.medium.com/v2/resize:fit:828/format:webp/0*5BpM5lMydgwju6Qo.png "Versus de velocidad")

### Principales funciones de Polars
A continuación les presentaremos las principales funciones de la librería Polars, con ello, ustedes podrán empezar a usarlo para sus proyectos personales, académicos y profecionales.¡Vamos a empezar!

#### Lectura de datos
La primera diferencia que vemos con Pandas, por ejemplo, es que el formato del Dataframe de Polars no imprime el index. Además de indicarnos el tipo de datos que tiene la columna. 

In [18]:
import polars as pl
df = pl.read_csv("Games.csv")
print(df)

shape: (11, 7)
┌────────────────┬───────┬───────────────┬─────────┬───────────────┬───────────────┬───────────────┐
│ Name           ┆ Sales ┆ Series        ┆ Release ┆ Genre         ┆ Developer     ┆ Publisher     │
│ ---            ┆ ---   ┆ ---           ┆ ---     ┆ ---           ┆ ---           ┆ ---           │
│ str            ┆ f64   ┆ str           ┆ str     ┆ str           ┆ str           ┆ str           │
╞════════════════╪═══════╪═══════════════╪═════════╪═══════════════╪═══════════════╪═══════════════╡
│ SimCity 3000   ┆ 5.0   ┆ SimCity       ┆ Jan-99  ┆ City-building ┆ Maxis         ┆ Electronic    │
│                ┆       ┆               ┆         ┆               ┆               ┆ Arts          │
│ Diablo II      ┆ 4.0   ┆ Diablo        ┆ Jun-00  ┆ Action        ┆ Blizzard      ┆ Blizzard      │
│                ┆       ┆               ┆         ┆ role-playing  ┆ North         ┆ Entertainment │
│ Final Fantasy  ┆ 2.1   ┆ Final Fantasy ┆ Jun-98  ┆ Role-playing  ┆ Square 

##### Mostrar el nombre las del columas

In [19]:
df.columns

['Name', 'Sales', 'Series', 'Release', 'Genre', 'Developer', 'Publisher']

#### Seleccionar columnas

In [20]:
#Seleccionar una columna
df.select(pl.col('Genre'))

Genre
str
"""City-building"""
"""Action role-pl…"
"""Role-playing g…"
"""First-person s…"
"""Action role-pl…"
"""First-person s…"
"""Action-adventu…"
"""Third-person s…"
"""City-building"""
"""MMORPG"""


In [21]:
# Select 2+ columns
df.select(pl.col(['Name', 'Sales']))

Name,Sales
str,f64
"""SimCity 3000""",5.0
"""Diablo II""",4.0
"""Final Fantasy …",2.1
"""Counter-Strike…",2.0
"""Diablo""",2.0
"""Doom""",2.0
"""Grand Theft Au…",2.0
"""Mafia: The Cit…",2.0
"""SimCity 4""",2.0
"""Star Wars Gala…",1.0


In [22]:
# Select all columns
df.select(pl.col('*'))

Name,Sales,Series,Release,Genre,Developer,Publisher
str,f64,str,str,str,str,str
"""SimCity 3000""",5.0,"""SimCity""","""Jan-99""","""City-building""","""Maxis""","""Electronic Art…"
"""Diablo II""",4.0,"""Diablo""","""Jun-00""","""Action role-pl…","""Blizzard North…","""Blizzard Enter…"
"""Final Fantasy …",2.1,"""Final Fantasy""","""Jun-98""","""Role-playing g…","""Square""","""Eidos Interact…"
"""Counter-Strike…",2.0,"""Counter-Strike…","""Nov-04""","""First-person s…","""Valve""","""Electronic Art…"
"""Diablo""",2.0,"""Diablo""","""Dec-96""","""Action role-pl…","""Blizzard North…","""Blizzard Enter…"
"""Doom""",2.0,"""Doom""","""Dec-93""","""First-person s…","""id Software""","""id Software"""
"""Grand Theft Au…",2.0,"""Grand Theft Au…","""Apr-15""","""Action-adventu…","""Rockstar North…","""Rockstar Games…"
"""Mafia: The Cit…",2.0,"""Mafia""","""Aug-02""","""Third-person s…","""Illusion Softw…","""Gathering of D…"
"""SimCity 4""",2.0,"""SimCity""","""Jan-03""","""City-building""","""Maxis""","""Electronic Art…"
"""Star Wars Gala…",1.0,"""Star Wars""","""Jun-03""","""MMORPG""","""Sony Online En…","""LucasArts"""


#### Agrupar y contar

In [None]:
# Group by
df.groupby("race/ethnicity").count()

#### Crear nuevas columnas

In [None]:
# polars: create "sum" column
df.with_columns(
    (pl.col('math score') + pl.col('reading score')).alias("sum")
)

# pandas: df['sum'] = df['math score'] + df['reading score']

In [None]:
# polars: create "average" column
df.with_columns(
    pl.col(['math score', 'reading score', 'writing score']).mean().alias('average')
)

# pandas: df['average'] = df[['math score', 'reading score', 'writing score']].mean(axis=1)

In [None]:
#### Filtrar

In [None]:
# polars: simple filtering
df.filter(pl.col('gender')=='female')

# pandas: df[df['gender'] == 'female']

In [None]:
# Multiple filtering 
df.filter(
    (pl.col('gender')=='female') &
    (pl.col('race/ethnicity')=='group B')
)

# pandas: df[(df['gender'] == 'female') & (df['race/ethnicity'] == 'group B')]

#### Unir Dataframes

In [None]:
#Leemos un nuevo csv
df2 = pl.read_csv("LanguageScore.csv")
#Unimos con el siguiente código
df.join(df2, on='id')