# Lectura 21: DataFrame - Agregaciones

## Máximo y mínimo

- `max`: Obtiene el máximo de cada columna.
- `min`: Obtiene el mínimo de cada columna.
- `max_horizontal`: Obtiene el máximo de una fila.
- `min_horizontal`: Obtiene el mínimo de una fila.

In [1]:
import polars as pl

# Lectura de los datos
df = pl.read_parquet('./data/', columns=['views', 'likes', 'dislikes'], use_pyarrow=True)

print(df)

shape: (48_137, 3)
┌──────────┬────────┬──────────┐
│ views    ┆ likes  ┆ dislikes │
│ ---      ┆ ---    ┆ ---      │
│ i32      ┆ i32    ┆ i32      │
╞══════════╪════════╪══════════╡
│ 748374   ┆ 57527  ┆ 2966     │
│ 2418783  ┆ 97185  ┆ 6146     │
│ 3191434  ┆ 146033 ┆ 5339     │
│ 343168   ┆ 10172  ┆ 666      │
│ 2095731  ┆ 132235 ┆ 1989     │
│ …        ┆ …      ┆ …        │
│ 1685609  ┆ 38160  ┆ 1385     │
│ 1064798  ┆ 60008  ┆ 382      │
│ 1066451  ┆ 48068  ┆ 1032     │
│ 5660813  ┆ 192957 ┆ 2846     │
│ 10306119 ┆ 357079 ┆ 212976   │
└──────────┴────────┴──────────┘


In [2]:
df.max()

views,likes,dislikes
i32,i32,i32
225211923,5613827,1674420


In [3]:
df.min()

views,likes,dislikes
i32,i32,i32
549,0,0


In [4]:
df.min_horizontal()

min
i32
2966
6146
5339
666
1989
…
1385
382
1032
2846


In [5]:
from polars import col

df.filter(col('views') == 549).min_horizontal()

min
i32
0


In [6]:
df.max_horizontal()

max
i32
748374
2418783
3191434
343168
2095731
…
1685609
1064798
1066451
5660813


In [7]:
df.filter(col('views') == 549).max_horizontal()

max
i32
549


### Media, mediana, varianza y desviación estándar

- `mean`: Halla la media de las columnas.
- `median`: Halla la mediana de las columnas.
- `var`: Halla la varianza de las columnas.
- `std`: Halla la varianza de las columnas.

In [8]:
df.mean()

views,likes,dislikes
f64,f64,f64
2360800.0,74266.702435,3711.400889


In [9]:
df.median()

views,likes,dislikes
f64,f64,f64
681861.0,18091.0,631.0


In [10]:
df.var()

views,likes,dislikes
f64,f64,f64
54673000000000.0,52388000000.0,842720000.0


In [11]:
df.std()

views,likes,dislikes
f64,f64,f64
7394100.0,228885.338209,29029.705945


### Producto

La función `product` calcula el producto de las columnas del DataFrame. Para demostrar el funcionamiento de esta función vamos a crear primeramente un DataFrame más sencillo.

In [12]:
df1 = pl.DataFrame(
    {
        'int': [3,1,7],
        'float': [3.2, 8.9, 1.3]
    }
)


df1.product()

int,float
i64,f64
21,37.024


### Suma

- `sum`: Suma los valores de las columnas.
- `sum_horizontal`: Suma los valores de la filas.

In [13]:
df1.sum()

int,float
i64,f64
11,13.4


In [14]:
df1.sum_horizontal()

sum
f64
6.2
9.9
8.3
