Estructura de nuestro tutorial en Jupyter
->[Titulo atractivo]
--[Hablar sobre polar]
--[Aplicaciones del paquete polars (En donde y en qué casos se puede usar)]
--Primeros Pasos
--[Diferencias con pandas]
--[Principales funciones]
--[Caso practico como ejemplo]
--[Referencias]

## <p style="color:#FFA500;">Primeros pasos con la librería Polars</p>
<div style="display: flex; flex-direction: row;">
  <div style="flex: 1; text-align: left;">
    <p>Para instalar la librería Polars en tu PC, puedes seguir los siguientes pasos:</p>
    <ol>
      <li>Abre una terminal o línea de comandos en tu PC.</li>
      <li>Asegúrate de tener Python instalado en tu sistema. Puedes comprobarlo ejecutando el comando <code>python --version</code> en la terminal. Si no lo tienes instalado, puedes descargarlo desde la página oficial de Python.</li>
      <li>Ejecuta el siguiente comando en la terminal para instalar Polars a través de pip, el gestor de paquetes de Python:</li>
    </ol>
  </div>
  <div style="flex: 1; text-align: center;">
    <img src="https://i.pinimg.com/originals/b9/30/c1/b930c1c4d7a3ac78403994b250dbe9e1.gif" alt="San Juan Mountains" title="San Juan Mountains" width="260" height="198" />
  </div>
</div>


In [78]:
#Comando para instalar por primera vez la librería Polars en tu pc
#Recuerda que se necesita tener instalado Python 3.7 en adelante.
#!pip install polars

Espera a que se complete la instalación. Este proceso puede tardar unos minutos dependiendo de tu conexión a internet.
Una vez que la instalación haya terminado, ya puedes importar Polars en tus scripts de Python utilizando la línea de código:

In [79]:
#Lo importamos como **pl** por consenso y 
#porque la propia documentación de Polars recomienda usarlo.
import polars as pl

### <p style="color:#FFA500;">Estructura básica de la librería Polars</p>
Aquí mostramos un pequeño ejemplo de la estructura de código que maneja Polars. Más adelante exploraremos las principales funciones de la librería.

In [80]:
import polars as pl

# Crear un DataFrame de Polars a partir de un diccionario
datos = {"servicio": ["agua", "luz", "internet"], "costo": [30, 40, 50]}
df = pl.DataFrame(datos)

# Seleccionar columnas específicas del DataFrame
df = df.select("servicio", "costo")

# Filtrar filas basadas en una condición
df = df.filter(pl.col("costo") > 35)

# Mostrar el DataFrame resultante
print(df)

shape: (2, 2)
┌──────────┬───────┐
│ servicio ┆ costo │
│ ---      ┆ ---   │
│ str      ┆ i64   │
╞══════════╪═══════╡
│ luz      ┆ 40    │
│ internet ┆ 50    │
└──────────┴───────┘


## <p style="color:#FFA500;">¿En qué se diferencia con la librería Pandas?</p>


Polars es una librería de procesamiento de datos en memoria que se enfoca en la eficiencia y el procesamiento en paralelo, lo que le permite trabajar con conjuntos de datos más grandes y procesarlos de manera más eficiente que Pandas. Además, Polars puede trabajar con datos heterogéneos, tiene funciones específicas para el procesamiento de datos de series de tiempo y utiliza una sintaxis más moderna y concisa.

![Polars vs. Pandas](https://i.pinimg.com/originals/c3/09/c8/c309c86ab0895312fb6e6b02909c305c.gif "Polars vs. Pandas")


Polars ingresa al mercado a competir con la bandera de **mayor velocidad en el procesamiento grandes cantidades de datos**. Como podemos ver en su documentación se realizaron pruebas de velocidad comparandolo con otras librerías. En este caso se procesaba un dataframe de 1.000.000.000 de filas y 9 columnas y el resultado en cuanto a velocidad de procesamiento da como ganador a Polars.

![Comparación de la velocidad de procesamiento!](https://miro.medium.com/v2/resize:fit:828/format:webp/0*5BpM5lMydgwju6Qo.png "Versus de velocidad")

## <p style="color:#FFA500;">Principales funciones de Polars</p>
 
<div style="display: flex; flex-direction: row; align-items: center;">
  <div style="flex: 1;">
    <p>A continuación les presentaremos las principales funciones de la librería Polars, con ello, ustedes podrán empezar a usarlo para sus proyectos personales, académicos y profesionales. <strong>¡Vamos a empezar!</strong></p>
     <h3>Lectura de datos</h3>
    <p>La primera diferencia que vemos con Pandas, por ejemplo, es que el formato del Dataframe de Polars no imprime el index. Además de indicarnos el tipo de datos que tiene cada columna.</p>
  </div>
  <div style="flex: 1; display: flex; justify-content: center;">
    <img src="https://pa1.narvii.com/6638/0493d622b258a51d9d35f3c961a936d8f98275c9_00.gif" alt="Polars vs. Pandas">
  </div>
</div>

In [81]:
import polars as pl
df = pl.read_csv("Games.csv")
print(df)

shape: (11, 8)
┌─────────────┬──────────┬──────────┬─────────────┬─────────┬────────────┬────────────┬────────────┐
│ Name        ┆ Sales_uk ┆ Sales_us ┆ Series      ┆ Release ┆ Genre      ┆ Developer  ┆ Publisher  │
│ ---         ┆ ---      ┆ ---      ┆ ---         ┆ ---     ┆ ---        ┆ ---        ┆ ---        │
│ str         ┆ f64      ┆ i64      ┆ str         ┆ str     ┆ str        ┆ str        ┆ str        │
╞═════════════╪══════════╪══════════╪═════════════╪═════════╪════════════╪════════════╪════════════╡
│ SimCity     ┆ 5.0      ┆ 3        ┆ SimCity     ┆ Jan-99  ┆ City-build ┆ Maxis      ┆ Electronic │
│ 3000        ┆          ┆          ┆             ┆         ┆ ing        ┆            ┆ Arts       │
│ Diablo II   ┆ 4.0      ┆ 1        ┆ Diablo      ┆ Jun-00  ┆ Action rol ┆ Blizzard   ┆ Blizzard   │
│             ┆          ┆          ┆             ┆         ┆ e-playing  ┆ North      ┆ Entertainm │
│             ┆          ┆          ┆             ┆         ┆            ┆  

### <span style="color:Brown;">Mostrar el nombre las del columas</span>
 
En este punto Polars no se complica ya que el código se resume así e imprime una lista con los nombre de las columnas como elementos:

In [82]:
df.columns

['Name',
 'Sales_uk',
 'Sales_us',
 'Series',
 'Release',
 'Genre',
 'Developer',
 'Publisher']

### <span style="color:Brown;">Seleccionar columnas</span>
Para nuestros proyectos, Polars nos facilita la selección de columnas mediante los siguientes códigos según sea nuestro propósito:

In [83]:
#Seleccionamos la columna 'Genre'
df.select(pl.col('Genre'))

Genre
str
"""City-building"""
"""Action role-pl…"
"""Role-playing g…"
"""First-person s…"
"""Action role-pl…"
"""First-person s…"
"""Action-adventu…"
"""Third-person s…"
"""City-building"""
"""MMORPG"""


In [84]:
# Seleccionamos 2 a más columnas: Name y Sales_us
df.select(pl.col(['Name', 'Sales_us']))

Name,Sales_us
str,i64
"""SimCity 3000""",3
"""Diablo II""",1
"""Final Fantasy …",4
"""Counter-Strike…",3
"""Diablo""",1
"""Doom""",3
"""Grand Theft Au…",4
"""Mafia: The Cit…",1
"""SimCity 4""",3
"""Star Wars Gala…",2


In [85]:
# Seleccionamos todas las columnas
df.select(pl.col('*'))

Name,Sales_uk,Sales_us,Series,Release,Genre,Developer,Publisher
str,f64,i64,str,str,str,str,str
"""SimCity 3000""",5.0,3,"""SimCity""","""Jan-99""","""City-building""","""Maxis""","""Electronic Art…"
"""Diablo II""",4.0,1,"""Diablo""","""Jun-00""","""Action role-pl…","""Blizzard North…","""Blizzard Enter…"
"""Final Fantasy …",2.1,4,"""Final Fantasy""","""Jun-98""","""Role-playing g…","""Square""","""Eidos Interact…"
"""Counter-Strike…",2.0,3,"""Counter-Strike…","""Nov-04""","""First-person s…","""Valve""","""Electronic Art…"
"""Diablo""",2.0,1,"""Diablo""","""Dec-96""","""Action role-pl…","""Blizzard North…","""Blizzard Enter…"
"""Doom""",2.0,3,"""Doom""","""Dec-93""","""First-person s…","""id Software""","""id Software"""
"""Grand Theft Au…",2.0,4,"""Grand Theft Au…","""Apr-15""","""Action-adventu…","""Rockstar North…","""Rockstar Games…"
"""Mafia: The Cit…",2.0,1,"""Mafia""","""Aug-02""","""Third-person s…","""Illusion Softw…","""Gathering of D…"
"""SimCity 4""",2.0,3,"""SimCity""","""Jan-03""","""City-building""","""Maxis""","""Electronic Art…"
"""Star Wars Gala…",1.0,2,"""Star Wars""","""Jun-03""","""MMORPG""","""Sony Online En…","""LucasArts"""


### <span style="color:Brown;">Agrupar y contar</span>
Contar cuantas veces aparece un elemento dentro de una columna puede ser fácil si se trata de una tabla pequeña. Polars puede hacer este trabajo a gran escala usando eficientemente los recursos de nuestra pc. Aquí te mostramos un pequeño ejemplo con la función `groupby()`

In [86]:
# Agrupamos según ventas 'Sales'
df.groupby("Sales_uk").count()

Sales_uk,count
f64,u32
4.0,1
2.0,6
1.0,2
2.1,1
5.0,1


### <span style="color:Brown;">Crear nuevas columnas</span>
¿Deseas crear una nueva columna a partir de otras? Aquí te mostramos cómo. En este caso buscamos una columna que sea la suma de otras 2 y otra más para el promedio.

In [87]:
# Para PolarS usamos el este código para añadir una columan
df.with_columns(
    (pl.col('Sales_us') + pl.col('Sales_uk')).alias("Sales_G")
)
#Similar a la estructura que usa Pandas:
# pandas: df['Sales_G'] = df['Sales_us'] + df['Sales_uk']

Name,Sales_uk,Sales_us,Series,Release,Genre,Developer,Publisher,Sales_G
str,f64,i64,str,str,str,str,str,f64
"""SimCity 3000""",5.0,3,"""SimCity""","""Jan-99""","""City-building""","""Maxis""","""Electronic Art…",8.0
"""Diablo II""",4.0,1,"""Diablo""","""Jun-00""","""Action role-pl…","""Blizzard North…","""Blizzard Enter…",5.0
"""Final Fantasy …",2.1,4,"""Final Fantasy""","""Jun-98""","""Role-playing g…","""Square""","""Eidos Interact…",6.1
"""Counter-Strike…",2.0,3,"""Counter-Strike…","""Nov-04""","""First-person s…","""Valve""","""Electronic Art…",5.0
"""Diablo""",2.0,1,"""Diablo""","""Dec-96""","""Action role-pl…","""Blizzard North…","""Blizzard Enter…",3.0
"""Doom""",2.0,3,"""Doom""","""Dec-93""","""First-person s…","""id Software""","""id Software""",5.0
"""Grand Theft Au…",2.0,4,"""Grand Theft Au…","""Apr-15""","""Action-adventu…","""Rockstar North…","""Rockstar Games…",6.0
"""Mafia: The Cit…",2.0,1,"""Mafia""","""Aug-02""","""Third-person s…","""Illusion Softw…","""Gathering of D…",3.0
"""SimCity 4""",2.0,3,"""SimCity""","""Jan-03""","""City-building""","""Maxis""","""Electronic Art…",5.0
"""Star Wars Gala…",1.0,2,"""Star Wars""","""Jun-03""","""MMORPG""","""Sony Online En…","""LucasArts""",3.0


In [88]:
# Creamos la columna 'promedio'
df.with_columns(((pl.col('Sales_us') + pl.col('Sales_uk'))/2).alias("Sales_M")
 )
#Similar a la estructura que usa Pandas:
# pandas: df['average'] = df[['math score', 'reading score', 'writing score']].mean(axis=1)

Name,Sales_uk,Sales_us,Series,Release,Genre,Developer,Publisher,Sales_M
str,f64,i64,str,str,str,str,str,f64
"""SimCity 3000""",5.0,3,"""SimCity""","""Jan-99""","""City-building""","""Maxis""","""Electronic Art…",4.0
"""Diablo II""",4.0,1,"""Diablo""","""Jun-00""","""Action role-pl…","""Blizzard North…","""Blizzard Enter…",2.5
"""Final Fantasy …",2.1,4,"""Final Fantasy""","""Jun-98""","""Role-playing g…","""Square""","""Eidos Interact…",3.05
"""Counter-Strike…",2.0,3,"""Counter-Strike…","""Nov-04""","""First-person s…","""Valve""","""Electronic Art…",2.5
"""Diablo""",2.0,1,"""Diablo""","""Dec-96""","""Action role-pl…","""Blizzard North…","""Blizzard Enter…",1.5
"""Doom""",2.0,3,"""Doom""","""Dec-93""","""First-person s…","""id Software""","""id Software""",2.5
"""Grand Theft Au…",2.0,4,"""Grand Theft Au…","""Apr-15""","""Action-adventu…","""Rockstar North…","""Rockstar Games…",3.0
"""Mafia: The Cit…",2.0,1,"""Mafia""","""Aug-02""","""Third-person s…","""Illusion Softw…","""Gathering of D…",1.5
"""SimCity 4""",2.0,3,"""SimCity""","""Jan-03""","""City-building""","""Maxis""","""Electronic Art…",2.5
"""Star Wars Gala…",1.0,2,"""Star Wars""","""Jun-03""","""MMORPG""","""Sony Online En…","""LucasArts""",1.5


### <span style="color:Brown;">Unir Dataframes</span>
Otra función bastante útil al momento de trabajar es cómo unir 2 estructuras de datos o DataFrames para luego operarlos o almacenarlos según sea el propósito. Para ello Polars ofrece varias clases de 'uniones' según el resultado que estemos buscando. Por ejemplo, si solo queremos la intersección usaremos el parámetro ``how='inner'``.

In [89]:
#Leemos un nuevo csv
df2 = pl.read_csv("G_Opinion.csv")
#Unimos con el siguiente código
df3= df.join(df2, on='Name')
print(df3)
#Otras formas de unir DataFrame
#df.join(df2, on='Name', how='inner') #La intersección de los DataFrames
#df.join(df2, on='Name', how='left') #Devuelve las filas de df y las filas del df2  que coinciden con df
#df.join(df2, on='Name', how='outer') # Devuelve todas las filas de ambos df, rellenando con valores nulos en caso de no encontrar una coincidencia

shape: (11, 9)
┌────────────┬──────────┬──────────┬───────────┬───┬───────────┬───────────┬───────────┬───────────┐
│ Name       ┆ Sales_uk ┆ Sales_us ┆ Series    ┆ … ┆ Genre     ┆ Developer ┆ Publisher ┆ Opinion   │
│ ---        ┆ ---      ┆ ---      ┆ ---       ┆   ┆ ---       ┆ ---       ┆ ---       ┆ ---       │
│ str        ┆ f64      ┆ i64      ┆ str       ┆   ┆ str       ┆ str       ┆ str       ┆ str       │
╞════════════╪══════════╪══════════╪═══════════╪═══╪═══════════╪═══════════╪═══════════╪═══════════╡
│ SimCity    ┆ 5.0      ┆ 3        ┆ SimCity   ┆ … ┆ City-buil ┆ Maxis     ┆ Electroni ┆ Good      │
│ 3000       ┆          ┆          ┆           ┆   ┆ ding      ┆           ┆ c Arts    ┆           │
│ Diablo II  ┆ 4.0      ┆ 1        ┆ Diablo    ┆ … ┆ Action    ┆ Blizzard  ┆ Blizzard  ┆ Very Good │
│            ┆          ┆          ┆           ┆   ┆ role-play ┆ North     ┆ Entertain ┆           │
│            ┆          ┆          ┆           ┆   ┆ ing       ┆           ┆

### <span style="color:Brown;">¿Cómo filtramos filas con Polars?</span>
Para filtrar puedes optar por el filtrado simple (por un criterio) o multiple (por 2 o más criterios)

In [91]:
# polars: Filtrado Simple
df3.filter(pl.col('Opinion')=='Meh')


#Código en Pandas:
# pandas: df[df['Sales_uk'] == 2]

Name,Sales_uk,Sales_us,Series,Release,Genre,Developer,Publisher,Opinion
str,f64,i64,str,str,str,str,str,str
"""Counter-Strike…",2.0,3,"""Counter-Strike…","""Nov-04""","""First-person s…","""Valve""","""Electronic Art…","""Meh"""
"""StarCraft II: …",1.0,3,"""StarCraft""","""Mar-13""","""Real-time stra…","""Blizzard Enter…","""Blizzard Enter…","""Meh"""


In [92]:
# Filtrado múltiple
df3.filter(
    (pl.col('Sales_uk')==2) &
    (pl.col('Opinion')=='Good'))

#Código en Pandas:
# pandas: df[(df['Sales_uk'] == 2) & (df['Opinion'] == 'Good')]

Name,Sales_uk,Sales_us,Series,Release,Genre,Developer,Publisher,Opinion
str,f64,i64,str,str,str,str,str,str
"""Diablo""",2.0,1,"""Diablo""","""Dec-96""","""Action role-pl…","""Blizzard North…","""Blizzard Enter…","""Good"""
"""Mafia: The Cit…",2.0,1,"""Mafia""","""Aug-02""","""Third-person s…","""Illusion Softw…","""Gathering of D…","""Good"""


### <p style="color:Brown;">¿Interesado en probar Polars? Aquí en GitHub te dejamos los archivos csv. de este tutorial para que te inicies en Polars. Si deseas dejarnos un comentario o recomendación ¡No dudes en hacerlo, estaremos muy agredecidos, mucha suerte:)! .</p>

### <p style="color:#FFA500;">Referencias y/o enlaces recomendados</p>
1. [Documentación oficial de Polars](https://pola-rs.github.io/polars/py-polars/html/reference/functions.html)
2. [Guía de inicio de Polars](https://pola-rs.github.io/polars-book/)
3. [Manipulación de Datos con #Polars en #python](https://www.youtube.com/watch?v=3RM3pWw2iRQ)
4. [Diferencias entre Polars y Pandas](https://nairal.net/pandas-de-python-vs-polars-quien-gana-esta-pelea-de-librerias-para-data-science)
5. [Polars: The Super Fast Dataframe Library for Python — Goodbye Pandas?](https://artificialcorner.com/polars-the-super-fast-dataframe-library-for-python-goodbye-pandas-85156e84337f)
6. [DataSet para ejemplos](https://www.kaggle.com/datasets/khaiid/most-selling-pc-games)
