El dataset de esta sección contiene información ficticia de perros que asisten a un veterinario. 

In [None]:
import pandas as pd
import random

datos_perros = {
    'Nombre': ['Max', 'Bella', 'Charlie', 'Luna', 'Cooper', 'Lucy', 'Max', 'Daisy', 'Rocky', 'Luna', 'Buddy',
               'Molly', 'Charlie', 'Sadie', 'Toby', 'Lucy', 'Max', 'Milo', 'Bella', 'Bailey', 'Max', 'Buddy',
               'Lola', 'Daisy', 'Cooper', 'Bentley', 'Luna', 'Charlie', 'Max', 'Lucy'],
    'Raza': ['Labrador Retriever', 'Poodle', 'German Shepherd', 'Bulldog', 'Golden Retriever', 'Beagle',
             'Labrador Retriever', 'Poodle', 'German Shepherd', 'Bulldog', 'Golden Retriever', 'Beagle',
             'Labrador Retriever', 'Poodle', 'German Shepherd', 'Bulldog', 'Golden Retriever', 'Beagle',
             'Labrador Retriever', 'Poodle', 'German Shepherd', 'Bulldog', 'Golden Retriever', 'Beagle',
             'Labrador Retriever', 'Poodle', 'German Shepherd', 'Bulldog', 'Golden Retriever', 'Beagle'],
    'Color': ['Negro', 'Blanco', 'Marrón', 'Atigrado', 'Dorado', 'Tricolor', 'Negro', 'Blanco', 'Marrón',
              'Atigrado', 'Dorado', 'Tricolor', 'Negro', 'Blanco', 'Marrón', 'Atigrado', 'Dorado', 'Tricolor',
              'Negro', 'Blanco', 'Marrón', 'Negro', 'Dorado', 'Tricolor', 'Negro', 'Blanco', 'Marrón',
              'Negro', 'Dorado', 'Tricolor'],
    'Altura (cm)': [60, 40, 65, 35, 55, 30, 60, 40, 65, 35, 55, 30, 60, 40, 65, 35, 55, 30, 60, 40, 65, 35, 55, 30, 60,
               40, 65, 35, 55, 30],
    'Peso (kg)': [25, 15, 30, 20, 35, 12, 25, 15, 30, 20, 35, 12, 25, 15, 30, 20, 35, 12, 25, 15, 30, 20, 35, 12, 25, 15,
             30, 20, 35, 12]
}

# Crear DataFrame
df = pd.DataFrame(datos_perros)
df.head()

# Funciones estadísticas

Pandas ofrece una amplia gama de funciones estadísticas para analizar y resumir datos en un DataFrame. 

Estas funciones te permiten calcular medidas descriptivas, realizar agregaciones y realizar cálculos estadísticos sobre tus datos. 

**mean():** Calcula la media de los valores en una columna o en todo el DataFrame.

In [None]:
df['Altura (cm)'].mean()

**median():** Calcula la mediana de los valores en una columna o en todo el DataFrame.

In [None]:
df['Altura (cm)'].median()

**min(): **Encuentra el valor mínimo en una columna o en todo el DataFrame.

**max():** Encuentra el valor máximo en una columna o en todo el DataFrame.

In [None]:
df['Altura (cm)'].min()

In [None]:
df['Altura (cm)'].max()

# Funciones Personalizadas

Si bien Pandas y NumPy incluyen una amplia variedad de funciones, algunas veces necesitaremos aplicar a nuestros datos una función diferente.

En Pandas, puedes hacerlo mediante la definición de funciones personalizadas y luego pasándolas como argumentos al método **agg().**

In [None]:
def pct30(column):
    return column.quantile(0.3)

Aggregation, tambien nos permite obtener multiples valores al mismo tiempo

In [None]:
df['Altura (cm)'].agg(pct30)

El método agg() te permite aplicar múltiples funciones a columnas específicas o al DataFrame completo. Puedes pasar estas funciones como una lista de argumentos a agg().

Las funciones existentes de Pandas las podemos invocar usando un string con el nombre de la función.

In [None]:
df['Altura (cm)'].agg([pct30, 'mean'])

### Funciones para variables categoricas

Una operacion muy comun en variables categoricas, es contar cuantos elementos tenemos de cada variable.

Supongamos que queremos saber cuantos perros distintos de cada raza han ido al veterinario.

Antes de hacer el conteo, debemos tener en cuenta que un perro pudo haber ido mas de una vez, por lo que es necesario eliminarlos para evitar valores duplicados.

In [None]:
count_vet = df.drop_duplicates(['Nombre', 'Raza'])
print(df.shape, count_vet.shape)

Ahora podemos contar el número de elementos por raza

In [None]:
count_vet['Raza'].value_counts()

O podemos vizualizar la proporcion

In [None]:
count_vet['Raza'].value_counts(normalize=True)

### Agrupamiento

Las funciones vistas hasta ahora tambien son útiles para comparar diferentes grupos dentro de los datos.

Por ejemplo, podemos ver en promedio que raza de perro es más pesada.

In [None]:
count_vet.groupby('Raza')['Peso (kg)'].mean()

Podemos agrupar por mas de una variable

In [None]:
count_vet.groupby(['Raza', 'Color'])['Peso (kg)'].mean()

### Tablas Pivote



En Pandas, las tablas pivote (pivot tables) son una forma poderosa de reorganizar y resumir los datos en un DataFrame. 

Permiten agrupar y resumir los datos según una o más variables y proporcionan una forma conveniente de calcular agregaciones y realizar análisis cruzados.

Las tablas pivote en Pandas se crean utilizando el método ***pivot_table().*** 

Este método toma varios argumentos, como ***index***, ***columns*** y ***values***, que determinan cómo se agruparán y resumirán los datos. 

**index**: Especifica las columnas que se utilizarán como índices para la tabla pivote. Los valores únicos de estas columnas se convertirán en los índices de la tabla pivote.

**columns**: Especifica las columnas que se utilizarán para crear las columnas en la tabla pivote. Los valores únicos de estas columnas se convertirán en las columnas de la tabla pivote.

**values**: Especifica la columna o columnas que se utilizarán para calcular las agregaciones en la tabla pivote.

**aggfunc**: Especifica la función de agregación que se utilizará para calcular los valores resumidos en la tabla pivote. Por defecto, se utiliza la función mean() para calcular la media.

In [None]:
df.pivot_table(values='Altura (cm)', index='Raza')

Por defecto _pivot table_ calcula el promedio, pero se puede especifiar una o más funciones diferentes

In [None]:
df.pivot_table(values='Altura (cm)', index='Raza', aggfunc='sum')

In [None]:
df.pivot_table(values='Altura (cm)', index='Raza', aggfunc=['sum', 'min', 'max'])

Podemos agrupar por mas categorias, especificando una o una lista de columnas en la variable _columns_ 

In [None]:
df.pivot_table(values='Altura (cm)', index='Raza', columns=['Color'])