## Manipulación de datos con Pandas

En primer lugar, importamos la librería `pandas`, que nos permitirá trabajar de manera eficiente con datos tabulares.

A continuación, leemos el archivo CSV `Books.csv` y lo cargamos en un DataFrame. Además, convertimos la columna `pages` a tipo numérico para facilitar su análisis. Finalmente, mostramos las primeras filas del DataFrame para verificar que la carga se realizó correctamente.

In [7]:
import pandas as pd

df = pd.read_csv('../data/Books.csv')

df['pages'] = pd.to_numeric(df['pages'], errors='coerce').astype('Int64')

print(df.head(2))

                                    title  \
0                Fictional Points of View   
1  Science Fiction and Fantasy Literature   

                                           author  pages               genre  \
0                                  Peter Lamarque    252  Literary Criticism   
1  R. Reginald, Douglas Menville, Mary A. Burgess    802           Reference   

                                         description published_date  \
0  The volume focuses on a wide range of thinkers...           1996   
1  Science Fiction and Fantasy Literature, A Chec...     2010-09-01   

                  publisher language average_rating  ratings_count  \
0  Cornell University Press       en      No rating              0   
1        Wildside Press LLC       en      No rating              0   

                                           thumbnail  
0  http://books.google.com/books/content?id=rh-om...  
1  http://books.google.com/books/content?id=P8zW2...  


## Estadísticas de resumen

En este notebook exploraremos la **agregación de datos**, comenzando por las estadísticas de resumen.

Las **estadísticas de resumen** son valores numéricos que describen y sintetizan las características principales de un conjunto de datos. Son fundamentales para obtener una visión general rápida y entender el comportamiento de tus datos.

---

### Ejemplo: Calcular la media de una columna

La **media** es una de las estadísticas más comunes para datos numéricos. Representa el promedio de todos los valores de una columna.

Puedes calcular la media de una columna numérica utilizando el método `mean()` de Pandas:

```python
df['pages'].mean()
```

---

### Principales estadísticas de resumen en Pandas

A continuación, se presentan algunas de las estadísticas más utilizadas y cómo calcularlas con Pandas:

<div align="center">

| **Estadística** | **Descripción**                                                         | **Método en Pandas**           |
|-----------------|------------------------------------------------------------------------|-------------------------------|
| **media**       | Promedio de todos los valores de la columna                            | `df['pages'].mean()`          |
| **mediana**     | Valor central de los datos ordenados                                   | `df['pages'].median()`        |
| **moda**        | Valor que más veces se repite en la columna                            | `df['pages'].mode()`          |
| **mínimo**      | Valor más bajo de la columna                                           | `df['pages'].min()`           |
| **máximo**      | Valor más alto de la columna                                           | `df['pages'].max()`           |
| **varianza**    | Medida de dispersión de los datos                                      | `df['pages'].var()`           |
| **desviación estándar** | Indica cuánto se alejan los datos de la media                  | `df['pages'].std()`           |
| **suma**        | Total de los valores de la columna                                     | `df['pages'].sum()`           |
| **cuantil**     | Valor que divide los datos en porcentajes (ejemplo: cuartiles, percentiles) | `df['pages'].quantile(0.5)`   |

</div>

---

> 💡 **Tip:** Puedes usar el método `describe()` para obtener varias de estas estadísticas de forma rápida:
> ```python
> df['pages'].describe()
> ```


El metodo agregado permite calcular estadisticas de resumen personalizadas.
### Ejemplo: Calcular estadísticas personalizadas
Puedes definir tus propias funciones de agregación y aplicarlas a una columna específica. Por ejemplo, si deseas calcular la media y la desviación estándar de la columna `pages`, puedes hacerlo de la siguiente manera:
```python
def custom_agg(series):
    return pd.Series({
        'mean': series.mean(),
        'std': series.std()
    })
df['pages'].agg(custom_agg)
```

In [18]:
def custom_agg(column):
    return column.mean()

def custom_agg2(column):
    return column.std()

df['pages'].agg([custom_agg, custom_agg2]) # Podemos aplicar varias funciones de agregación a la vez

custom_agg     412.009775
custom_agg2    446.803195
Name: pages, dtype: float64

    Pandas tambien tiene funciones acumulativas que permiten realizar calculos acumulativos sobre una columna.

Tambien se pueden calculas maximo acumlado, minimo acumulado, producto acumulado y todos devuelven una columna entera de un DataFrame con los valores acumulados.

## Funciones acumulativas en Pandas

Pandas ofrece funciones acumulativas para realizar cálculos progresivos sobre los valores de una columna. Estas funciones devuelven una **serie** con el valor acumulado en cada posición.

| **Función**       | **Descripción**                        | **Método en Pandas**           |
|-------------------|----------------------------------------|-------------------------------|
| Suma acumulativa  | Suma de los valores hasta cada fila    | `df['pages'].cumsum()`        |
| Máximo acumulado  | Valor máximo hasta cada fila           | `df['pages'].cummax()`        |
| Mínimo acumulado  | Valor mínimo hasta cada fila           | `df['pages'].cummin()`        |
| Producto acumulado| Producto de los valores hasta cada fila| `df['pages'].cumprod()`       |

---

> **Ejemplo:** Calcular la suma acumulativa de la columna `pages`:
> ```python
> df['pages'].cumsum()
> ```


In [20]:
df['pages'].cummax().head(3)

0     252
1     802
2    1662
Name: pages, dtype: Int64