## Manipulaci√≥n de datos con Pandas

En primer lugar, importamos la librer√≠a `pandas`, que nos permitir√° trabajar de manera eficiente con datos tabulares.

A continuaci√≥n, leemos el archivo CSV `Books.csv` y lo cargamos en un DataFrame. Adem√°s, convertimos la columna `pages` a tipo num√©rico para facilitar su an√°lisis. Finalmente, mostramos las primeras filas del DataFrame para verificar que la carga se realiz√≥ correctamente.

In [7]:
import pandas as pd

df = pd.read_csv('../data/Books.csv')

df['pages'] = pd.to_numeric(df['pages'], errors='coerce').astype('Int64')

print(df.head(2))

                                    title  \
0                Fictional Points of View   
1  Science Fiction and Fantasy Literature   

                                           author  pages               genre  \
0                                  Peter Lamarque    252  Literary Criticism   
1  R. Reginald, Douglas Menville, Mary A. Burgess    802           Reference   

                                         description published_date  \
0  The volume focuses on a wide range of thinkers...           1996   
1  Science Fiction and Fantasy Literature, A Chec...     2010-09-01   

                  publisher language average_rating  ratings_count  \
0  Cornell University Press       en      No rating              0   
1        Wildside Press LLC       en      No rating              0   

                                           thumbnail  
0  http://books.google.com/books/content?id=rh-om...  
1  http://books.google.com/books/content?id=P8zW2...  


## Estad√≠sticas de resumen

En este notebook exploraremos la **agregaci√≥n de datos**, comenzando por las estad√≠sticas de resumen.

Las **estad√≠sticas de resumen** son valores num√©ricos que describen y sintetizan las caracter√≠sticas principales de un conjunto de datos. Son fundamentales para obtener una visi√≥n general r√°pida y entender el comportamiento de tus datos.

---

### Ejemplo: Calcular la media de una columna

La **media** es una de las estad√≠sticas m√°s comunes para datos num√©ricos. Representa el promedio de todos los valores de una columna.

Puedes calcular la media de una columna num√©rica utilizando el m√©todo `mean()` de Pandas:

```python
df['pages'].mean()
```

---

### Principales estad√≠sticas de resumen en Pandas

A continuaci√≥n, se presentan algunas de las estad√≠sticas m√°s utilizadas y c√≥mo calcularlas con Pandas:

<div align="center">

| **Estad√≠stica** | **Descripci√≥n**                                                         | **M√©todo en Pandas**           |
|-----------------|------------------------------------------------------------------------|-------------------------------|
| **media**       | Promedio de todos los valores de la columna                            | `df['pages'].mean()`          |
| **mediana**     | Valor central de los datos ordenados                                   | `df['pages'].median()`        |
| **moda**        | Valor que m√°s veces se repite en la columna                            | `df['pages'].mode()`          |
| **m√≠nimo**      | Valor m√°s bajo de la columna                                           | `df['pages'].min()`           |
| **m√°ximo**      | Valor m√°s alto de la columna                                           | `df['pages'].max()`           |
| **varianza**    | Medida de dispersi√≥n de los datos                                      | `df['pages'].var()`           |
| **desviaci√≥n est√°ndar** | Indica cu√°nto se alejan los datos de la media                  | `df['pages'].std()`           |
| **suma**        | Total de los valores de la columna                                     | `df['pages'].sum()`           |
| **cuantil**     | Valor que divide los datos en porcentajes (ejemplo: cuartiles, percentiles) | `df['pages'].quantile(0.5)`   |

</div>

---

> üí° **Tip:** Puedes usar el m√©todo `describe()` para obtener varias de estas estad√≠sticas de forma r√°pida:
> ```python
> df['pages'].describe()
> ```


El metodo agregado permite calcular estadisticas de resumen personalizadas.
### Ejemplo: Calcular estad√≠sticas personalizadas
Puedes definir tus propias funciones de agregaci√≥n y aplicarlas a una columna espec√≠fica. Por ejemplo, si deseas calcular la media y la desviaci√≥n est√°ndar de la columna `pages`, puedes hacerlo de la siguiente manera:
```python
def custom_agg(series):
    return pd.Series({
        'mean': series.mean(),
        'std': series.std()
    })
df['pages'].agg(custom_agg)
```

In [18]:
def custom_agg(column):
    return column.mean()

def custom_agg2(column):
    return column.std()

df['pages'].agg([custom_agg, custom_agg2]) # Podemos aplicar varias funciones de agregaci√≥n a la vez

custom_agg     412.009775
custom_agg2    446.803195
Name: pages, dtype: float64

    Pandas tambien tiene funciones acumulativas que permiten realizar calculos acumulativos sobre una columna.

Tambien se pueden calculas maximo acumlado, minimo acumulado, producto acumulado y todos devuelven una columna entera de un DataFrame con los valores acumulados.

## Funciones acumulativas en Pandas

Pandas ofrece funciones acumulativas para realizar c√°lculos progresivos sobre los valores de una columna. Estas funciones devuelven una **serie** con el valor acumulado en cada posici√≥n.

| **Funci√≥n**       | **Descripci√≥n**                        | **M√©todo en Pandas**           |
|-------------------|----------------------------------------|-------------------------------|
| Suma acumulativa  | Suma de los valores hasta cada fila    | `df['pages'].cumsum()`        |
| M√°ximo acumulado  | Valor m√°ximo hasta cada fila           | `df['pages'].cummax()`        |
| M√≠nimo acumulado  | Valor m√≠nimo hasta cada fila           | `df['pages'].cummin()`        |
| Producto acumulado| Producto de los valores hasta cada fila| `df['pages'].cumprod()`       |

---

> **Ejemplo:** Calcular la suma acumulativa de la columna `pages`:
> ```python
> df['pages'].cumsum()
> ```


In [20]:
df['pages'].cummax().head(3)

0     252
1     802
2    1662
Name: pages, dtype: Int64