
# <p style="color:Darkred;">¿QUÉ ES POLARS?</p> 

Polar es una libreria que ha sido diseñada para trabajar con datos tabulares,puede procesar grandes volumenes de datos de forma rapida y eficiente ya que maximiza el uso de todos los cores disponibles de un ordenador.

Polars esta desarrollada en Rust, lo que le otorga un rendimiento C/C++ y le permite controlar por completo las partes criticas del rendimiento en un motor de consulta,Rust en muy rapido y eficiente en cuanto a memoria: sin tiempos de ejecución ni recolector de elementos no utilizados,puede potenciar servicios críticos para el rendimiento,ejecutarse en dispositivos integrados e integrarse fácilmente con otros lenguajes, tambien utiliza Arrow arrays, en la actualidad polars dispone de APIs en Python y Rust.


Entre los objetivos de Polars tenemos:

- Tiene una API  que es consistente y predecible.
- Maneja datos mucho mas grandes que la RAM disponible de tu pc.
- Tiene un esquema estricto(los tipos de datos deben conocerse antes de ejecutar la consulta)
- Utiliza todos los núcleos disponibles en su máquina.
- Optimiza las consultas para reducir las asignaciones de trabajo/memoria innecesaria.

Entre las funciones que Polars puede hacer tenemos:

- Procesas datos en fragmentos.
- Reutilice las asignaciones de memoria.
- Reduzca las copias redundantes.
- Atraviese la caché de memoria de manera eficiente.
- Minimizar las contención en el paralelismo.


![Polars](https://raw.githubusercontent.com/pola-rs/polars-static/master/logos/polars_github_logo_rect_dark_name.svg)

# <p style="color:Darkred;">INSTALACIÓN</p> 

In [None]:
#"instalacion"
!pip install polars
#llamando as la libreria polars
import polars as pl

In [None]:
import polars as pl
import pandas as pd
import numpy as np
df = pl.DataFrame(
    {
        "nrs": [1, 2, 3, None, 5],
        "names": ["foo", "ham", "spam", "egg", None],
        "random": np.random.rand(5),
        "groups": ["A", "A", "B", "C", "B"],
    }
)
print(df)


# <p style="color:Darkred;">CONCEPTOS</p> 

## <p style="color:Darkblue;">TIPOS DE DATOS</p>

Polars se fundamenta completamente en **Arrow** tipos de datos y esta respaldada por **Arrow** matrices de memoria, permitiendo que sea eficiente el procesamiento de datos en caché y este bien respaldado para la comunicación entre procesos.La mayotia de los tipos de datos siguen la implementación exacta de Arrow, con la excepción de utfo, categorical y object.Los tipos de datos son:

| GRUPO  | TIPO | <center>DETALLES<center>  |
|:------------- |:---------------:| -------------:|
| Numérico         | Int8       | entero con signo de 8 bits        |
|         | Int16        |entero con signo de 16 bits         |
|          | Int32      | entero con signo de 32 bits        |1
|          | Int64 | entero con signo de 64bits        |
|          |UInt8 | Entero sin signo de 8 bits |
|          |UInt16 | Entero sin signo de 16 bits |
|          |UInt32| Entero sin signo de 32 bits |
|          |UInt8 | Entero con signo de 8 bits |
|          |Float32 | Punto flotante de 32 bits |
|          |Float64 | Punto flotante de 64 bits |

| GRUPO  | TIPO | <center>DETALLES<center> |
|:------------- |:---------------:| -------------:|
| Anidado         | Struct       | una matriz de estructura se representa como $vec<series>$, es útil para empaquetar valores múltiples/heterogéneos en una sola columna|
|   | List | Una matriz de lista contiene una matriz secuandaria que tiene valores de lista y una matriz de compensación|
|Temporal | Date |Representación de fecha, representada internamente como días desde la época de UNIX codificada por un entero con signo de 32 bits|
|  | Datetime |Representación de fecha y hora, representada internamente como microsegundos desde la época de UNIX codificados por un entero con signo de 64 bits|
| | Duration| Un tipo timedelta, representado internamente como microsegundos. Se crea al restar Date/Datetime|
| |Time | Representación del tiempo, representado internamente como nanosegundos desde la medianoche|
|Otro | Boolean| Tipo booleano efectivamente empaquetado en bits|
|    |  Utf8 | Cadena de datos (esto es en realidad Arrow LargeUtf8internamente)|
| | Binary | Almacenar datos como bytes|
| |Object|Un tipo de datos admitido limitado que puede ser cualquier valor|
| |Categorical | Una codificación categórica de un conjunto de cadenas| 
    

## <p style="color:Darkblue;">ESTRUCTURA DE DATOS</p> 
    
### <p style="color:Darkgreen;">SERIES</p>
 Una serie es una estructura de datos unidimensional. Puede tener cualquier estructura de datos como integer, float y string. Es útil cuando se desea realizar el cálculo o devolver una matriz unidimensional. Una serie, por definición, no puede tener varias columnas.Veremos como crear un series objeto con nombre simple.

In [1]:
!pip install -U polars
import polars as pl 

b = pl.Series("a", [5,6,7,8,9])
print(b)

shape: (5,)
Series: 'a' [i64]
[
	5
	6
	7
	8
	9
]


### <p style="color:Darkgreen;">MARCO DE DATOS</p>

Un marco de datos es una matriz bidimensional, con ejes etiquetados (filas y columnas), es una forma estándar de almacenar datos, es un dato tabular con filas para almacenar la información y columnas para nombrar la información. 

In [2]:
df = pl.DataFrame(
    {
        "integer": [1, 2, 3, 4, 5],
        "name": ["marcos","jorge","maria","marcela","juan"         
        ],
        "float": [58.5, 59.0, 65.7, 54.3, 67.5],
    }
)

print(df)

shape: (5, 3)
┌─────────┬─────────┬───────┐
│ integer ┆ name    ┆ float │
│ ---     ┆ ---     ┆ ---   │
│ i64     ┆ str     ┆ f64   │
╞═════════╪═════════╪═══════╡
│ 1       ┆ marcos  ┆ 58.5  │
│ 2       ┆ jorge   ┆ 59.0  │
│ 3       ┆ maria   ┆ 65.7  │
│ 4       ┆ marcela ┆ 54.3  │
│ 5       ┆ juan    ┆ 67.5  │
└─────────┴─────────┴───────┘


**HEAD**
devuelve los primeros elementos de la estructura . Por defecto, se trata de los 5 primeros elementos, pero podemos especificar el número que deseamos como argumento de la función. Por ejemplo df.head(15).

In [3]:
print(df.head(4))

shape: (4, 3)
┌─────────┬─────────┬───────┐
│ integer ┆ name    ┆ float │
│ ---     ┆ ---     ┆ ---   │
│ i64     ┆ str     ┆ f64   │
╞═════════╪═════════╪═══════╡
│ 1       ┆ marcos  ┆ 58.5  │
│ 2       ┆ jorge   ┆ 59.0  │
│ 3       ┆ maria   ┆ 65.7  │
│ 4       ┆ marcela ┆ 54.3  │
└─────────┴─────────┴───────┘


**TAIL**:
muestran los últimos elementos de la estructura. Si no indicamos otra cosa como argumento, serán los 5 últimos elementos los que se muestren.Es útil para verificar datos rápidamente, por ejemplo, después de ordenar o agregar filas.

In [4]:
print(df.tail(2))

shape: (2, 3)
┌─────────┬─────────┬───────┐
│ integer ┆ name    ┆ float │
│ ---     ┆ ---     ┆ ---   │
│ i64     ┆ str     ┆ f64   │
╞═════════╪═════════╪═══════╡
│ 4       ┆ marcela ┆ 54.3  │
│ 5       ┆ juan    ┆ 67.5  │
└─────────┴─────────┴───────┘


**SAMPLE**:
La función sample() devuelve de una lista de elementos un determinado número de elementos diferentes elegidos al azar.

In [7]:
print(df.sample(3))

shape: (3, 3)
┌─────────┬────────┬───────┐
│ integer ┆ name   ┆ float │
│ ---     ┆ ---    ┆ ---   │
│ i64     ┆ str    ┆ f64   │
╞═════════╪════════╪═══════╡
│ 1       ┆ marcos ┆ 58.5  │
│ 2       ┆ jorge  ┆ 59.0  │
│ 5       ┆ juan   ┆ 67.5  │
└─────────┴────────┴───────┘


**DESCRIBE**: devuelve información estadística de los datos del dataframe o de la serie (de hecho, este método devuelve un dataframe). Esta información incluye el número de muestras, el valor medio, la desviación estándar, el valor mínimo, máximo, la mediana y los valores correspondientes a los percentiles 25% y 75%.

In [8]:
print(df.describe())

shape: (9, 4)
┌────────────┬──────────┬───────┬──────────┐
│ describe   ┆ integer  ┆ name  ┆ float    │
│ ---        ┆ ---      ┆ ---   ┆ ---      │
│ str        ┆ f64      ┆ str   ┆ f64      │
╞════════════╪══════════╪═══════╪══════════╡
│ count      ┆ 5.0      ┆ 5     ┆ 5.0      │
│ null_count ┆ 0.0      ┆ 0     ┆ 0.0      │
│ mean       ┆ 3.0      ┆ null  ┆ 61.0     │
│ std        ┆ 1.581139 ┆ null  ┆ 5.465345 │
│ min        ┆ 1.0      ┆ jorge ┆ 54.3     │
│ max        ┆ 5.0      ┆ maria ┆ 67.5     │
│ median     ┆ 3.0      ┆ null  ┆ 59.0     │
│ 25%        ┆ 2.0      ┆ null  ┆ 58.5     │
│ 75%        ┆ 4.0      ┆ null  ┆ 65.7     │
└────────────┴──────────┴───────┴──────────┘


# <p style="color:Darkred;">EXPRESIONES</p> 


In [None]:
#EXPRESIONES:
#son funciones/métodos utilizados a la hora de realizar operaciones con datos en Polars
#(e.g., selección, creación y manipulación de columnas, aplicación de filtros, entre otros).
df = pl.DataFrame(
    {
        "nrs": [1, 2, 3, None, 5],
        "names": ["foo", "ham", "spam", "egg", None],
        "random": np.random.rand(5),
        "groups": ["A", "A", "B", "C", "B"],
    }
)
print(df)

#se realizan operaciones lógicas
df_logical = df.select(
    [
        (pl.col("nrs") > 1).alias("nrs > 1"),
        (pl.col("random") <= 0.5).alias("random < .5"),
        (pl.col("nrs") != 1).alias("nrs != 1"),
        (pl.col("nrs") == 1).alias("nrs == 1"),
        ((pl.col("random") <= 0.5) & (pl.col("nrs") > 1)).alias("and_expr"),  # and
        ((pl.col("random") <= 0.5) | (pl.col("nrs") > 1)).alias("or_expr"),  # or
    ]
)
print(df_logical)



In [None]:
#FUNCIONES
#Las expresiones tienen una gran cantidad de funciones incorporadas. 
#Estos le permiten crear consultas complejas sin necesidad de funciones definidas por el usuario .

#-Selección de columnas
#todas las coumnas
df_all = df.select([pl.col("*")])
print(df_all)

#de todas exepto de una
df_exclude = df.select([pl.exclude("groups")])
print(df_exclude)

#Condicionales
#Polarsadmite condiciones similares a if en expresión con la sintaxis when, then, otherwise
df_conditional = df.select(
    [
        pl.col("nrs"),
        pl.when(pl.col("nrs") > 2)
        .then(pl.lit(True))
        .otherwise(pl.lit(False))
        .alias("conditional"),
    ]
)
print(df_conditional)




In [None]:
#DATOS PERDIDOS
# Los datos que faltan se representan en Flecha y Polars con un nullvalor. 
#Este nullvalor faltante se aplica a todos los tipos de datos, incluidos los valores numéricos.
df = pl.DataFrame(
    {
        "value": [1, None],
    },
)
print(df)
null_count_df = df.null_count()
print(null_count_df)

#Relleno de datos faltantes
#os datos que faltan en un Seriesse pueden completar con el método fill_null
df = pl.DataFrame(
    {
        "col1": [1, 2, 3],
        "col2": [1, None, 3],
    },
)
print(df)
#Rellenar con el valor literal especificado
#Podemos completar los datos que faltan con un valor literal especificado con pl.lit:
fill_literal_df = (
    df.with_columns(
        pl.col("col2").fill_null(
            pl.lit(2),
        ),
    ),
)
print(fill_literal_df)

#Rellenar con una expresión
#Para mayor flexibilidad, podemos completar los datos que faltan con una expresión. 
#Por ejemplo, para llenar nulos con el valor de la mediana de esa columna

fill_median_df = df.with_columns(
    pl.col("col2").fill_null(pl.median("col2")),
)
print(fill_median_df)

#Rellenar con interpolación
#Además, podemos rellenar con interpolación (sin usar la función fill_null)
fill_interpolation_df = df.with_columns(
    pl.col("col2").interpolate(),
)
print(fill_interpolation_df)



In [None]:
#PLIEGUES
#Polarsproporciona expresiones/métodos para agregaciones horizontales como sum, min, mean, etc. 
#estableciendo el argumento axis=1. Sin embargo, cuando necesite una agregación más compleja, 
#Polarses posible que los métodos predeterminados no sean suficientes. Ahí es cuando "fold" ses útil.
#La foldexpresión opera en columnas para máxima velocidad.

#suma manual
df = pl.DataFrame(
    {
        "a": [1, 2, 3],
        "b": [10, 20, 30],
    }
)

out = df.select(
    pl.fold(acc=pl.lit(0), function=lambda acc, x: acc + x, exprs=pl.all()).alias(
        "sum"
    ),
)
print(out)

#Condicional
#En el caso de que desee aplicar una condición/predicado en todas las columnas de una DataFrameoperación fold, 
#puede ser una forma muy concisa de expresarlo.

df = pl.DataFrame(
    {
        "a": [1, 2, 3],
        "b": [0, 1, 2],
    }
)

out = df.filter(
    pl.fold(
        acc=pl.lit(True),
        function=lambda acc, x: acc & x,
        exprs=pl.col("*") > 1,
    )
)
print(out)

In [None]:
#cálculos sabios de filas
#Las expresiones polares funcionan sobre columnas que tienen la garantía de que están formadas por datos homogéneos. 
#Las columnas tienen esta garantía, las filas DataFrameno tanto. Por suerte tenemos un tipo de datos que tiene la garantía
#de que las filas sean homogéneas: pl.Listtipo de datos.

grades = pl.DataFrame(
    {
        "student": ["bas", "laura", "tim", "jenny"],
        "arithmetic": [10, 5, 6, 8],
        "biology": [4, 6, 2, 7],
        "geography": [8, 4, 9, 7],
    }
)
print(grades)

#ahora calculamos en una fila Si queremos calcular el valor rankde todas las columnas excepto "student"
out = grades.select([pl.concat_list(pl.all().exclude("student")).alias("all_grades")])
print(out)

#Numpy
# En polars as expresiones admiten NumPy, esto significa que si no proporciona una función Polars, 
#podemos usar NumPyy aún tenemos una operación columnar rápida a través de la NumPyAPI
import polars as pl
import numpy as np

df = pl.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]})

out = df.select(
    [
        np.log(pl.all()).suffix("_log"),
    ]
)
print(out)
