# Operaciones estadísticas más comúnes

# Tendencia central y dispersión

In [None]:
--SUMA         sum()
--MEDIA        mean()
--MEDIANA      median()
--MINIMO       min()
--MAXIMO       max()
--VARIANZA     var()
--DESVIACION   std() 
  ESTANDAR
--CUANTIL      quantile()

# Acumulación

In [None]:
--SUMA       cumsum()
--MAXIMO     cummax()
--MINIMO     cummin()
--PRODUCTO   cumprod()

In [2]:
import numpy as np
import pandas as pd

arreglo = np.array([['Bella', 'Labrador', 'Café', 56, 24,  '2013-07-01'],
                   ['Charlie', 'Poodle', 'Negro', 43, 24,  '2016-09-16'],
                   ['Lucy', 'Chow Chow', 'Café', 46, 24,  '2014-08-25' ],
                   ['Cooper', 'Schnauzer', 'Gris', 49, 17, '2011-12-11'],
                   ['Bernie','San Bernardo','Blanco',77,74,'2018-02-27'],
                   ['Max', 'Chow Chow' ,'Blanco' , 45, 28, '2019-03-27'],
                   ['Reed', 'Schnauzer', 'Negro', 45, 15,  '2017-09-18']])
arreglo

array([['Bella', 'Labrador', 'Café', '56', '24', '2013-07-01'],
       ['Charlie', 'Poodle', 'Negro', '43', '24', '2016-09-16'],
       ['Lucy', 'Chow Chow', 'Café', '46', '24', '2014-08-25'],
       ['Cooper', 'Schnauzer', 'Gris', '49', '17', '2011-12-11'],
       ['Bernie', 'San Bernardo', 'Blanco', '77', '74', '2018-02-27'],
       ['Max', 'Chow Chow', 'Blanco', '45', '28', '2019-03-27'],
       ['Reed', 'Schnauzer', 'Negro', '45', '15', '2017-09-18']],
      dtype='<U12')

In [4]:
df = pd.DataFrame(data = arreglo, columns=['Nombre', 'Raza', 'Color', 'Altura_cm', 'Peso_kg', 'Fecha_Nac'])
df['Altura_cm'] = df['Altura_cm'].astype(int)
df['Peso_kg'] = df['Peso_kg'].astype(int)
df

Unnamed: 0,Nombre,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
0,Bella,Labrador,Café,56,24,2013-07-01
1,Charlie,Poodle,Negro,43,24,2016-09-16
2,Lucy,Chow Chow,Café,46,24,2014-08-25
3,Cooper,Schnauzer,Gris,49,17,2011-12-11
4,Bernie,San Bernardo,Blanco,77,74,2018-02-27
5,Max,Chow Chow,Blanco,45,28,2019-03-27
6,Reed,Schnauzer,Negro,45,15,2017-09-18


# Cálculo de la media

In [5]:
df['Peso_kg'].mean()

29.428571428571427

# Cálculo de la feha de nacimiento mas antigua

In [6]:
df['Fecha_Nac'].min()

'2011-12-11'

# Función de agregación estadística

In [7]:
def percentil80(columna):
    return columna.quantile(0.80)

df['Altura_cm'].agg(percentil80)

54.60000000000001

# Agrupación estadística en varias columnas

In [8]:
df[['Altura_cm', "Peso_kg"]].agg(percentil80)

Altura_cm    54.6
Peso_kg      27.2
dtype: float64

# Aplicación de estadísticas múltiples

In [9]:
def percentil90(columna):
    return columna.quantile(0.90)

df['Altura_cm'].agg([percentil80, percentil90])

percentil80    54.6
percentil90    64.4
Name: Altura_cm, dtype: float64

In [10]:
df['Altura_cm']

0    56
1    43
2    46
3    49
4    77
5    45
6    45
Name: Altura_cm, dtype: int32

# cumsum

In [11]:
df['Altura_cm'].cumsum()         # vamos acumulando de manera progresiva cada una de las alturas 
                                 #suma las alturas anteriores

0     56
1     99
2    145
3    194
4    271
5    316
6    361
Name: Altura_cm, dtype: int32

# cummin()

In [12]:
df['Altura_cm'].cummin()         # arroja el valor mínimo cuando lo encuentra y ya no lo cambia

0    56
1    43
2    43
3    43
4    43
5    43
6    43
Name: Altura_cm, dtype: int32

# value_counts()

# Conteo de perros por raza

In [13]:
df['Raza'].value_counts()               # contamos la cantidad de perros por raza

Raza
Chow Chow       2
Schnauzer       2
Labrador        1
Poodle          1
San Bernardo    1
Name: count, dtype: int64

# Proporción de perros por raza

In [14]:
df['Raza'].value_counts(normalize=True)      #porcentaje relativo con respecto al total
                                             #frecuencia relativa(dividir la frecuencia entre el total)

Raza
Chow Chow       0.285714
Schnauzer       0.285714
Labrador        0.142857
Poodle          0.142857
San Bernardo    0.142857
Name: proportion, dtype: float64

# Resúmen por grupo

In [15]:
print(df[df['Color'] == 'Blanco']['Peso_kg'].mean())
print(df[df['Color'] == 'Café']['Peso_kg'].mean())
print(df[df['Color'] == 'Gris']['Peso_kg'].mean())
print(df[df['Color'] == 'Negro']['Peso_kg'].mean())

51.0
24.0
17.0
19.5


In [16]:
# Hacer lo anterior pero de una manera más práctica
# Resúmen por grupo:  MEJOR OPCIÓN

df.groupby('Color')['Peso_kg'].mean()

Color
Blanco    51.0
Café      24.0
Gris      17.0
Negro     19.5
Name: Peso_kg, dtype: float64

# Agrupación por color en base a diversas estadísticas

In [17]:
df.groupby('Color')['Peso_kg'].agg([min,max,sum])

Unnamed: 0_level_0,min,max,sum
Color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Blanco,28,74,102
Café,24,24,48
Gris,17,17,17
Negro,15,24,39


# Agrupación por color y raza en base a la media del peso

In [18]:
df.groupby(['Color', 'Raza'])['Peso_kg'].mean()

Color   Raza        
Blanco  Chow Chow       28.0
        San Bernardo    74.0
Café    Chow Chow       24.0
        Labrador        24.0
Gris    Schnauzer       17.0
Negro   Poodle          24.0
        Schnauzer       15.0
Name: Peso_kg, dtype: float64

# Uso de tablas pivote

In [19]:
df.pivot_table(values = "Peso_kg", index = "Color", aggfunc = [np.mean, np.median])

Unnamed: 0_level_0,mean,median
Unnamed: 0_level_1,Peso_kg,Peso_kg
Color,Unnamed: 1_level_2,Unnamed: 2_level_2
Blanco,51.0,51.0
Café,24.0,24.0
Gris,17.0,17.0
Negro,19.5,19.5


# Obtención de promedios para dos variables

In [20]:
df.pivot_table(values = "Peso_kg", index = "Color", columns = "Raza")       # Media se toma por omisión

Raza,Chow Chow,Labrador,Poodle,San Bernardo,Schnauzer
Color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Blanco,28.0,,,74.0,
Café,24.0,24.0,,,
Gris,,,,,17.0
Negro,,,24.0,,15.0


# Obtención de promedios para dos variables (Mejora 1):

In [21]:
df.pivot_table(values = "Peso_kg", index = "Color", columns = "Raza", fill_value = 0)  # quita los NaN
                                                                                       #los reemplaza con cero´s.

Raza,Chow Chow,Labrador,Poodle,San Bernardo,Schnauzer
Color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Blanco,28,0,0,74,0
Café,24,24,0,0,0
Gris,0,0,0,0,17
Negro,0,0,24,0,15


# Obtención de promedios para dos variables (Mejora 2)

In [22]:
df.pivot_table(values = "Peso_kg", index = "Color", columns = "Raza", fill_value = 0, margins = True, aggfunc = np.mean)

Raza,Chow Chow,Labrador,Poodle,San Bernardo,Schnauzer,All
Color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Blanco,28,0,0,74,0,51.0
Café,24,24,0,0,0,24.0
Gris,0,0,0,0,17,17.0
Negro,0,0,24,0,15,19.5
All,26,24,24,74,16,29.428571


# Cerré el programa y tuve que definir otra vez todo.

In [3]:
import numpy as np
import pandas as pd

arreglo = np.array([['Bella', 'Labrador', 'Café', 56, 24,  '2013-07-01'],
                   ['Charlie', 'Poodle', 'Negro', 43, 24,  '2016-09-16'],
                   ['Lucy', 'Chow Chow', 'Café', 46, 24,  '2014-08-25' ],
                   ['Cooper', 'Schnauzer', 'Gris', 49, 17, '2011-12-11'],
                   ['Bernie','San Bernardo','Blanco',77,74,'2018-02-27'],
                   ['Max', 'Chow Chow' ,'Blanco' , 45, 28, '2019-03-27'],
                   ['Reed', 'Schnauzer', 'Negro', 45, 15,  '2017-09-18']])
arreglo

array([['Bella', 'Labrador', 'Café', '56', '24', '2013-07-01'],
       ['Charlie', 'Poodle', 'Negro', '43', '24', '2016-09-16'],
       ['Lucy', 'Chow Chow', 'Café', '46', '24', '2014-08-25'],
       ['Cooper', 'Schnauzer', 'Gris', '49', '17', '2011-12-11'],
       ['Bernie', 'San Bernardo', 'Blanco', '77', '74', '2018-02-27'],
       ['Max', 'Chow Chow', 'Blanco', '45', '28', '2019-03-27'],
       ['Reed', 'Schnauzer', 'Negro', '45', '15', '2017-09-18']],
      dtype='<U12')

In [4]:
df = pd.DataFrame(data = arreglo, columns=['Nombre', 'Raza', 'Color', 'Altura_cm', 'Peso_kg', 'Fecha_Nac'])
df['Altura_cm'] = df['Altura_cm'].astype(int)
df['Peso_kg'] = df['Peso_kg'].astype(int)
df

Unnamed: 0,Nombre,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
0,Bella,Labrador,Café,56,24,2013-07-01
1,Charlie,Poodle,Negro,43,24,2016-09-16
2,Lucy,Chow Chow,Café,46,24,2014-08-25
3,Cooper,Schnauzer,Gris,49,17,2011-12-11
4,Bernie,San Bernardo,Blanco,77,74,2018-02-27
5,Max,Chow Chow,Blanco,45,28,2019-03-27
6,Reed,Schnauzer,Negro,45,15,2017-09-18


# Obtención de medias para dos variables

In [5]:
df.pivot_table(values = "Peso_kg", index = "Color", columns = "Raza", fill_value = 0, margins = True, aggfunc = np.median)

Raza,Chow Chow,Labrador,Poodle,San Bernardo,Schnauzer,All
Color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Blanco,28,0,0,74,0,51.0
Café,24,24,0,0,0,24.0
Gris,0,0,0,0,17,17.0
Negro,0,0,24,0,15,19.5
All,26,24,24,74,16,24.0


# Extracción e indexación de DataFrames.

# Asignación de índices

# **Considere la base de datos de mascotas caninas utilizada hasta el momento. Asigne como índices los nombres de cada perro.

# Información sobre columnas del DataFrame

In [6]:
df.columns

Index(['Nombre', 'Raza', 'Color', 'Altura_cm', 'Peso_kg', 'Fecha_Nac'], dtype='object')

# Información sobre los renglones del DataFrame

In [7]:
df.index

RangeIndex(start=0, stop=7, step=1)

# Para establecer una columna como índices (títulos de renglón)

In [8]:
df_ind = df.set_index("Nombre")
df_ind

Unnamed: 0_level_0,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Bella,Labrador,Café,56,24,2013-07-01
Charlie,Poodle,Negro,43,24,2016-09-16
Lucy,Chow Chow,Café,46,24,2014-08-25
Cooper,Schnauzer,Gris,49,17,2011-12-11
Bernie,San Bernardo,Blanco,77,74,2018-02-27
Max,Chow Chow,Blanco,45,28,2019-03-27
Reed,Schnauzer,Negro,45,15,2017-09-18


# Para deshacer la asignación de índices

In [9]:
df_ind = df_ind.reset_index()
df_ind

Unnamed: 0,Nombre,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
0,Bella,Labrador,Café,56,24,2013-07-01
1,Charlie,Poodle,Negro,43,24,2016-09-16
2,Lucy,Chow Chow,Café,46,24,2014-08-25
3,Cooper,Schnauzer,Gris,49,17,2011-12-11
4,Bernie,San Bernardo,Blanco,77,74,2018-02-27
5,Max,Chow Chow,Blanco,45,28,2019-03-27
6,Reed,Schnauzer,Negro,45,15,2017-09-18


# Para remover índices y columna con información de índices

In [10]:
df_ind = df.set_index("Nombre")

df_ind = df_ind.reset_index(drop=True)
df_ind

Unnamed: 0,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
0,Labrador,Café,56,24,2013-07-01
1,Poodle,Negro,43,24,2016-09-16
2,Chow Chow,Café,46,24,2014-08-25
3,Schnauzer,Gris,49,17,2011-12-11
4,San Bernardo,Blanco,77,74,2018-02-27
5,Chow Chow,Blanco,45,28,2019-03-27
6,Schnauzer,Negro,45,15,2017-09-18


# Ventajas de usar índices

# Opción 1.- Búsqueda de nombres en base original

In [11]:
df[df["Nombre"].isin(["Bernie","Max"])]

Unnamed: 0,Nombre,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
4,Bernie,San Bernardo,Blanco,77,74,2018-02-27
5,Max,Chow Chow,Blanco,45,28,2019-03-27


# Opción 2.- Búsqueda de nombres en base con índices de nombres

In [12]:
df_ind = df.set_index("Nombre")
df_ind.loc[["Bernie", "Max"]]

Unnamed: 0_level_0,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Bernie,San Bernardo,Blanco,77,74,2018-02-27
Max,Chow Chow,Blanco,45,28,2019-03-27


# Generación de índices múltiples (Índices jerárquicos)

In [13]:
df_ind2 = df.set_index(["Raza","Color"])
df_ind2

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Labrador,Café,Bella,56,24,2013-07-01
Poodle,Negro,Charlie,43,24,2016-09-16
Chow Chow,Café,Lucy,46,24,2014-08-25
Schnauzer,Gris,Cooper,49,17,2011-12-11
San Bernardo,Blanco,Bernie,77,74,2018-02-27
Chow Chow,Blanco,Max,45,28,2019-03-27
Schnauzer,Negro,Reed,45,15,2017-09-18


# Consulta sobre una característica

In [14]:
df_ind2.loc[["Schnauzer", "Poodle"]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Schnauzer,Gris,Cooper,49,17,2011-12-11
Schnauzer,Negro,Reed,45,15,2017-09-18
Poodle,Negro,Charlie,43,24,2016-09-16


# Consulta sobre dos características (con tuplas)

In [15]:
df_ind2.loc[[("Schnauzer", "Gris"), ("Poodle", "Negro")]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Schnauzer,Gris,Cooper,49,17,2011-12-11
Poodle,Negro,Charlie,43,24,2016-09-16


# Ordenamiento por primer índice de referencia

In [16]:
df_ind2.sort_index()

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Chow Chow,Blanco,Max,45,28,2019-03-27
Chow Chow,Café,Lucy,46,24,2014-08-25
Labrador,Café,Bella,56,24,2013-07-01
Poodle,Negro,Charlie,43,24,2016-09-16
San Bernardo,Blanco,Bernie,77,74,2018-02-27
Schnauzer,Gris,Cooper,49,17,2011-12-11
Schnauzer,Negro,Reed,45,15,2017-09-18


# Ordenamiento por más de un índice

In [17]:
df_ind2.sort_index(level= ["Color", "Raza"], ascending = [True, False])

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
San Bernardo,Blanco,Bernie,77,74,2018-02-27
Chow Chow,Blanco,Max,45,28,2019-03-27
Labrador,Café,Bella,56,24,2013-07-01
Chow Chow,Café,Lucy,46,24,2014-08-25
Schnauzer,Gris,Cooper,49,17,2011-12-11
Schnauzer,Negro,Reed,45,15,2017-09-18
Poodle,Negro,Charlie,43,24,2016-09-16


# Cortes en un DataFrame (Slicing)

# Ejercicio:   considere la base de datos de mascotas utilizada hasta el momento, extraiga de ella los primeros 3 elementos.

In [18]:
#Extracción de los primeros 3 registros

df[:3]                # --------------------> df[0:3]

Unnamed: 0,Nombre,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
0,Bella,Labrador,Café,56,24,2013-07-01
1,Charlie,Poodle,Negro,43,24,2016-09-16
2,Lucy,Chow Chow,Café,46,24,2014-08-25


In [19]:
#Extracción de los registros de índice 2 al 4

df[2:5]

Unnamed: 0,Nombre,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
2,Lucy,Chow Chow,Café,46,24,2014-08-25
3,Cooper,Schnauzer,Gris,49,17,2011-12-11
4,Bernie,San Bernardo,Blanco,77,74,2018-02-27


# Manera alternativa de extraer a todo el DataFrame

In [20]:
df[:]

Unnamed: 0,Nombre,Raza,Color,Altura_cm,Peso_kg,Fecha_Nac
0,Bella,Labrador,Café,56,24,2013-07-01
1,Charlie,Poodle,Negro,43,24,2016-09-16
2,Lucy,Chow Chow,Café,46,24,2014-08-25
3,Cooper,Schnauzer,Gris,49,17,2011-12-11
4,Bernie,San Bernardo,Blanco,77,74,2018-02-27
5,Max,Chow Chow,Blanco,45,28,2019-03-27
6,Reed,Schnauzer,Negro,45,15,2017-09-18


# Extracción de DataFrames con índices jerárquicos

In [21]:
df_ind2 = df.set_index(["Raza", "Color"])
df_ind2

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Labrador,Café,Bella,56,24,2013-07-01
Poodle,Negro,Charlie,43,24,2016-09-16
Chow Chow,Café,Lucy,46,24,2014-08-25
Schnauzer,Gris,Cooper,49,17,2011-12-11
San Bernardo,Blanco,Bernie,77,74,2018-02-27
Chow Chow,Blanco,Max,45,28,2019-03-27
Schnauzer,Negro,Reed,45,15,2017-09-18


# Error común por falta de ordenamiento

In [22]:
df_ind2.loc["Labrador":"Chow Chow"]      #escribir nombres sin fijarnos en el orden

UnsortedIndexError: 'Key length (1) was greater than MultiIndex lexsort depth (0)'

In [23]:
df_ind2 = df_ind2.sort_index(level="Raza", ascending = True)     # primero va chow chow y luego labrador
df_ind2

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Chow Chow,Blanco,Max,45,28,2019-03-27
Chow Chow,Café,Lucy,46,24,2014-08-25
Labrador,Café,Bella,56,24,2013-07-01
Poodle,Negro,Charlie,43,24,2016-09-16
San Bernardo,Blanco,Bernie,77,74,2018-02-27
Schnauzer,Gris,Cooper,49,17,2011-12-11
Schnauzer,Negro,Reed,45,15,2017-09-18


# Extracción correcta

In [24]:
df_ind2.loc["Chow Chow":"Labrador"] 

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Chow Chow,Blanco,Max,45,28,2019-03-27
Chow Chow,Café,Lucy,46,24,2014-08-25
Labrador,Café,Bella,56,24,2013-07-01


# Para cortar partes de un DataFrame con índices múltiples usamos tuplas

In [25]:
df_ind2.loc[("Chow Chow", "Café"):("Schnauzer","Gris")]

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg,Fecha_Nac
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Chow Chow,Café,Lucy,46,24,2014-08-25
Labrador,Café,Bella,56,24,2013-07-01
Poodle,Negro,Charlie,43,24,2016-09-16
San Bernardo,Blanco,Bernie,77,74,2018-02-27
Schnauzer,Gris,Cooper,49,17,2011-12-11


# Corte de columnas en DataFrame

In [26]:
df_ind3 = df_ind2.loc[:,"Nombre":"Peso_kg"]
df_ind3

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Chow Chow,Blanco,Max,45,28
Chow Chow,Café,Lucy,46,24
Labrador,Café,Bella,56,24
Poodle,Negro,Charlie,43,24
San Bernardo,Blanco,Bernie,77,74
Schnauzer,Gris,Cooper,49,17
Schnauzer,Negro,Reed,45,15


# Extracción simultánea de renglones y columnas

In [27]:
df_ind4 = df_ind2.loc[("Chow Chow", "Café"):("Schnauzer","Gris"),"Nombre":"Peso_kg"]
df_ind4

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Altura_cm,Peso_kg
Raza,Color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Chow Chow,Café,Lucy,46,24
Labrador,Café,Bella,56,24
Poodle,Negro,Charlie,43,24
San Bernardo,Blanco,Bernie,77,74
Schnauzer,Gris,Cooper,49,17


# Extracción simultánea de renglones y columnas

# Opción alternativa por número de renglón y número de columna

In [28]:
df_ind4.iloc[1:3,0:1]

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre
Raza,Color,Unnamed: 2_level_1
Labrador,Café,Bella
Poodle,Negro,Charlie


# Ejercicio.-   Mediante el uso de una tabla pivote sobre el DataFrame de mascotas, extraiga los registros donde la raza de la mascota es: "Labrador", "Poodle" y "San Bernardo"

# Creación de la tabla pivote

In [29]:
df_altura_por_raza_color = df.pivot_table("Altura_cm",index = "Raza", columns = "Color")
df_altura_por_raza_color

Color,Blanco,Café,Gris,Negro
Raza,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Chow Chow,45.0,46.0,,
Labrador,,56.0,,
Poodle,,,,43.0
San Bernardo,77.0,,,
Schnauzer,,,49.0,45.0


# extracción de registros

In [30]:
df_altura_por_raza_color.loc["Labrador":"San Bernardo"]

Color,Blanco,Café,Gris,Negro
Raza,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Labrador,,56.0,,
Poodle,,,,43.0
San Bernardo,77.0,,,


# Cálculo de promedios para TODOS los renglones (por columna)

In [31]:
df_altura_por_raza_color.mean(axis = "index")

Color
Blanco    61.0
Café      51.0
Gris      49.0
Negro     44.0
dtype: float64

# Cálculo de promedios para TODAS las columnas (por renglón)

In [32]:
df_altura_por_raza_color.mean(axis = "columns")

Raza
Chow Chow       45.5
Labrador        56.0
Poodle          43.0
San Bernardo    77.0
Schnauzer       47.0
dtype: float64