In [2]:
import numpy as np
import pandas as pd

In [4]:
arreglo = np.array([["Bella","Labrador","Cafe",56,24,"2013-07-01"],["Charlie","Poodle","Negro",43,24,"2016-09-16"],
                    ["Lucy","Chow Chow","Café",46,24,"2014-08-25"],["Cooper","Shnauzer","Gris",49,17,"2011-12-11"],
                    ["Bernie","San Bernardo","Blanco",77,74,"2018-02-27"],["Max","Chow Chow","Blanco",45,28,"2019-03-27"],
                    ["Reed","Shnauzer","Negro",45,15,"2017-09-18"] ])
arreglo

array([['Bella', 'Labrador', 'Cafe', '56', '24', '2013-07-01'],
       ['Charlie', 'Poodle', 'Negro', '43', '24', '2016-09-16'],
       ['Lucy', 'Chow Chow', 'Café', '46', '24', '2014-08-25'],
       ['Cooper', 'Shnauzer', 'Gris', '49', '17', '2011-12-11'],
       ['Bernie', 'San Bernardo', 'Blanco', '77', '74', '2018-02-27'],
       ['Max', 'Chow Chow', 'Blanco', '45', '28', '2019-03-27'],
       ['Reed', 'Shnauzer', 'Negro', '45', '15', '2017-09-18']],
      dtype='<U12')

In [5]:
df= pd.DataFrame(data=arreglo, columns= ["Nombre", "Raza", "Color","Altura_cm","Peso_kg", "Fecha_nac"])
df["Altura_cm"] = df ["Altura_cm"].astype(int) #para convertir los caracteres a números enteros
df["Peso_kg"] = df ["Peso_kg"].astype(int)
df

Unnamed: 0,Nombre,Raza,Color,Altura_cm,Peso_kg,Fecha_nac
0,Bella,Labrador,Cafe,56,24,2013-07-01
1,Charlie,Poodle,Negro,43,24,2016-09-16
2,Lucy,Chow Chow,Café,46,24,2014-08-25
3,Cooper,Shnauzer,Gris,49,17,2011-12-11
4,Bernie,San Bernardo,Blanco,77,74,2018-02-27
5,Max,Chow Chow,Blanco,45,28,2019-03-27
6,Reed,Shnauzer,Negro,45,15,2017-09-18


In [6]:
# cálculo de la media
df["Peso_kg"].mean()

29.428571428571427

In [8]:
# cálculo de la fecha de nacimiento más antigua (el perro más viejo)
df ["Fecha_nac"].min()

'2011-12-11'

In [9]:
# función de agregación estadística
def percentil80(columna):
    return columna.quantile (0.80)

df["Altura_cm"].agg(percentil80)

54.60000000000001

In [10]:
# Agrupación estadística en varias columnas
df [["Altura_cm","Peso_kg"]].agg(percentil80)

Altura_cm    54.6
Peso_kg      27.2
dtype: float64

In [12]:
# Aplicación de estadísticas múltiples
def percentil90(columna):
    return columna.quantile(0.90)

df["Altura_cm"].agg([percentil80, percentil90])

percentil80    54.6
percentil90    64.4
Name: Altura_cm, dtype: float64

#### Función de acumulación

In [14]:
df["Altura_cm"]

0    56
1    43
2    46
3    49
4    77
5    45
6    45
Name: Altura_cm, dtype: int32

In [15]:
# Función de suma (acumulación)
df["Altura_cm"].cumsum()

0     56
1     99
2    145
3    194
4    271
5    316
6    361
Name: Altura_cm, dtype: int32

In [16]:
# función para encontrar el mínimo acunulado
df["Altura_cm"].cummin()

0    56
1    43
2    43
3    43
4    43
5    43
6    43
Name: Altura_cm, dtype: int32

In [18]:
# Conteo de perros por raza
df["Raza"].value_counts()

Chow Chow       2
Shnauzer        2
Labrador        1
Poodle          1
San Bernardo    1
Name: Raza, dtype: int64

In [19]:
# Porcentajes de frecuencias absolutas, o sea proporción de perros por raza
df["Raza"].value_counts(normalize=True)


Chow Chow       0.285714
Shnauzer        0.285714
Labrador        0.142857
Poodle          0.142857
San Bernardo    0.142857
Name: Raza, dtype: float64

In [20]:
# Valor promedio del peso de acuerdo de cada tipo de color del perro
# Resumen por grupo
print(df[df["Color"]=="Blanco"]["Peso_kg"].mean())
print(df[df["Color"]=="Café"]["Peso_kg"].mean())
print(df[df["Color"]=="Gris"]["Peso_kg"].mean())
print(df[df["Color"]=="Negro"]["Peso_kg"].mean())

51.0
24.0
17.0
19.5


In [23]:
# Resumen por grupo: MEJOR OPCIÓN
df.groupby("Color")["Peso_kg"].mean()

Color
Blanco    51.0
Cafe      24.0
Café      24.0
Gris      17.0
Negro     19.5
Name: Peso_kg, dtype: float64

In [24]:
# Agrupación por color en base a diversas estadísticas
df.groupby("Color")["Peso_kg"].agg([min, max, sum])

Unnamed: 0_level_0,min,max,sum
Color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Blanco,28,74,102
Cafe,24,24,24
Café,24,24,24
Gris,17,17,17
Negro,15,24,39


In [28]:
#Agrupación por color y raza en base a la media del peso
df.groupby(["Color", "Raza"])["Peso_kg"].mean()

Color   Raza        
Blanco  Chow Chow       28.0
        San Bernardo    74.0
Cafe    Labrador        24.0
Café    Chow Chow       24.0
Gris    Shnauzer        17.0
Negro   Poodle          24.0
        Shnauzer        15.0
Name: Peso_kg, dtype: float64

In [29]:
# Uso de tablas pivote
df.pivot_table(values="Peso_kg",index="Color", aggfunc = [np.mean,np.median])

Unnamed: 0_level_0,mean,median
Unnamed: 0_level_1,Peso_kg,Peso_kg
Color,Unnamed: 1_level_2,Unnamed: 2_level_2
Blanco,51.0,51.0
Cafe,24.0,24.0
Café,24.0,24.0
Gris,17.0,17.0
Negro,19.5,19.5


In [31]:
# Obtención de promedio para dos variables
df.pivot_table(values = "Peso_kg" , index = "Color", columns = "Raza") # La media se toma por omisión


Raza,Chow Chow,Labrador,Poodle,San Bernardo,Shnauzer
Color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Blanco,28.0,,,74.0,
Cafe,,24.0,,,
Café,24.0,,,,
Gris,,,,,17.0
Negro,,,24.0,,15.0


In [32]:
# Obtención de promedio para dos variables MEJOR OPCIÖN
df.pivot_table(values = "Peso_kg" , index = "Color", columns = "Raza", fill_value=0) # La media se toma por omisión

Raza,Chow Chow,Labrador,Poodle,San Bernardo,Shnauzer
Color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Blanco,28,0,0,74,0
Cafe,0,24,0,0,0
Café,24,0,0,0,0
Gris,0,0,0,0,17
Negro,0,0,24,0,15


In [33]:
# promedios por renglón o por columna MEJOR OPCIÓN 2
df.pivot_table(values = "Peso_kg" , index = "Color", columns = "Raza", fill_value=0, margins = True, aggfunc = np.mean) 

Raza,Chow Chow,Labrador,Poodle,San Bernardo,Shnauzer,All
Color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Blanco,28,0,0,74,0,51.0
Cafe,0,24,0,0,0,24.0
Café,24,0,0,0,0,24.0
Gris,0,0,0,0,17,17.0
Negro,0,0,24,0,15,19.5
All,26,24,24,74,16,29.428571


In [34]:
# mediana por renglón o por columna MEJOR OPCIÓN 2
df.pivot_table(values = "Peso_kg" , index = "Color", columns = "Raza", fill_value=0, margins = True, aggfunc = np.median) 

Raza,Chow Chow,Labrador,Poodle,San Bernardo,Shnauzer,All
Color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Blanco,28,0,0,74,0,51.0
Cafe,0,24,0,0,0,24.0
Café,24,0,0,0,0,24.0
Gris,0,0,0,0,17,17.0
Negro,0,0,24,0,15,19.5
All,26,24,24,74,16,24.0
