# 1. Introducción a Pandas

## ¿Qué es pandas?
Es una librería de análisis de datos que se compone de una serie de estructuras de datos con funcionalidades para limpiar, analizar y preprocesar los datos para tareas siguientes al análisis.

![wget](https://drive.google.com/uc?export=view&id=1mbFgZLmt0qD80FleVEj4cpxh5oO3ocvQ)

## Importando pandas 
Pandas se puede importar de la siguiente manera. Se utiliza el nombre pd por facilidad de manejo.

In [0]:
import pandas as pd
import numpy as np

## Ejemplos de estructuras de datos

### Series
Una serie es un arreglo unidimensional con un índice correspondiente a cada posición del arreglo. Por ejemplo, el listado de jugadores de un equipo, donde el arreglo tiene los apellidos de los jugadores y el índice el número del jugador.

In [0]:
seleccionColombia = pd.Series(
    ['Ospina', 'Zapata', 'Falcao', 'Cuadrado', 'Rodriguez'], 
    index=[1, 2, 9, 11, 10])

Como se puede observar con los jugadores Cuadrado y Rodriguez, los índices no tienen que estar necesariamente ordenados. La serie se puede imprimir escribiendo su identificador.

In [0]:
seleccionColombia

1        Ospina
2        Zapata
9        Falcao
11     Cuadrado
10    Rodriguez
dtype: object

Una serie se puede generar sin conocer los índices y Pandas los generará automáticamente con valores desde cero hasta el tamaño de la lista menos uno. En el caso de la misma serie:

In [0]:
seleccionColombia = pd.Series(
    ['Ospina', 'Zapata', 'Falcao', 'Cuadrado', 'Rodriguez'])
seleccionColombia

0       Ospina
1       Zapata
2       Falcao
3     Cuadrado
4    Rodriguez
dtype: object

### Series desde Diccionarios

Las series tambien pueden ser definidas desde diccionarios:

In [0]:
dict_selcol = {1:'Ospina', 2: 'Zapata', 9: 'Falcao', 11: 'Cuadrado', 10: 'Rodriguez'}
print(dict_selcol)

{1: 'Ospina', 2: 'Zapata', 9: 'Falcao', 11: 'Cuadrado', 10: 'Rodriguez'}


In [0]:

ser_selcol = pd.Series(dict_selcol)
ser_selcol

1        Ospina
2        Zapata
9        Falcao
11     Cuadrado
10    Rodriguez
dtype: object

### DataFrame
Un DataFrame es una estructura de datos que almacena la información como una tabla ordenada por filas y columnas. Cada fila representa un objeto y cada columna la información correspondiente a una característica de los objetos.

Un DataFrame también posee índices por cada fila, que pueden ser dados o generados automáticamente. Cada columna del DataFrame es una serie, donde el valor del índice corresponde con los valores de índice que tiene el DataFrame.

Por medio de un diccionario vamos a crear un dataframe, donde las llaves son los nombres de las columnas y los valores son la lista de valores que tienen las características.

Por ejemplo, para hacer un DataFrame con el equipo de fútbol anterior, pero agregando estatura y peso, podemos hacerlo de la siguiente manera:

In [0]:
dict_caracteristicas = {'apellido':['Ospina', 'Zapata', 'Falcao', 'Cuadrado', 'Rodriguez'],
                       'altura':[183.0,187.0,177.0,179.0,180.0],
                       'peso':[80.0,82.0,72.0,72.0,75.0]}

seleccionColombia = pd.DataFrame(dict_caracteristicas,index=[1, 2, 9, 11, 10])

Al imprimir el DataFrame, podemos observar que su estructura es similar a la de un documento en Excel, donde el índice (que no tiene nombre de columna) es el número del jugador.

In [0]:
seleccionColombia

Unnamed: 0,apellido,altura,peso
1,Ospina,183.0,80.0
2,Zapata,187.0,82.0
9,Falcao,177.0,72.0
11,Cuadrado,179.0,72.0
10,Rodriguez,180.0,75.0


## Acceso a los registros del DataFrame por el índice

En pandas podemos acceder a la fila por el índice de ésta. En el ejemplo anterio éste índice era el número de la camiseta del jugador. Pero podría ser una fecha, una letra, etc.

Si conocemos el índice simplemente lo usamos para ir directamente a la fila deseada.

In [0]:
seleccionColombia.loc[9]

apellido    Falcao
altura         177
peso            72
Name: 9, dtype: object

Para agregar un nuevo jugador, se puede utilizar el índice, que en este caso es el número en el equipo y un arreglo representando todas sus características (apellido, altura y peso).

NOTA: Las características tienen que estar en el mismo orden.

In [0]:
num_jugador = 3
caract_jugador = ['Murillo', 184.0, 80.0]
seleccionColombia.loc[num_jugador] = caract_jugador

Imprimiendo el DataFrame podemos ver el nuevo jugador.

In [0]:
seleccionColombia

Unnamed: 0,apellido,altura
1,Ospina,183.0
2,Zapata,187.0
9,Falcao,177.0
11,Cuadrado,179.0
10,Rodriguez,180.0
3,Murillo,184.0


Acceso a fila por índice:

In [0]:
seleccionColombia.loc[3]

apellido    Murillo
altura          184
Name: 3, dtype: object

Acceso por posición:

In [0]:
seleccionColombia.iloc[3]

apellido    Cuadrado
altura           179
Name: 11, dtype: object

## Borrar Columna o Fila

In [0]:
seleccionColombia

Unnamed: 0,apellido,altura,peso
1,Ospina,183.0,80.0
2,Zapata,187.0,82.0
9,Falcao,177.0,72.0
11,Cuadrado,179.0,72.0
10,Rodriguez,180.0,75.0
3,Murillo,184.0,80.0


In [0]:
seleccionColombia.drop('peso', axis=1) # Para que sea permanente inplace=True

Unnamed: 0,apellido,altura
1,Ospina,183.0
2,Zapata,187.0
9,Falcao,177.0
11,Cuadrado,179.0
10,Rodriguez,180.0
3,Murillo,184.0


In [0]:
seleccionColombia

Unnamed: 0,apellido,altura,peso
1,Ospina,183.0,80.0
2,Zapata,187.0,82.0
9,Falcao,177.0,72.0
11,Cuadrado,179.0,72.0
10,Rodriguez,180.0,75.0
3,Murillo,184.0,80.0


Si queremos eliminar una columna permanentemente también se puede usar:

In [0]:
del seleccionColombia['peso']

KeyError: ignored

In [0]:
seleccionColombia

Unnamed: 0,apellido,altura
1,Ospina,183.0
2,Zapata,187.0
9,Falcao,177.0
11,Cuadrado,179.0
10,Rodriguez,180.0
3,Murillo,184.0


Si queremos saber cuales son las columnas actuales del data frame, usamos la propiedad 'columns' del objeto.

In [0]:
seleccionColombia.columns

Index(['apellido', 'altura'], dtype='object')

Si queremos conocer el indice del dataframe, con lo propiedad 'index' lo obtenemos.

In [0]:
seleccionColombia.index

Int64Index([1, 2, 9, 11, 10, 3], dtype='int64')

Para ordenar el dataframe se usa la función sort.

In [0]:
seleccionColombia.sort_values?

In [0]:
seleccionColombia.sort_values(by='altura', ascending=False) #inplace=False por defecto

Unnamed: 0,apellido,altura
2,Zapata,187.0
3,Murillo,184.0
1,Ospina,183.0
10,Rodriguez,180.0
11,Cuadrado,179.0
9,Falcao,177.0


También se puede ordenar usando los índices tanto de las filas como de las columnas:

In [0]:
seleccionColombia.sort_index(axis=0)

Unnamed: 0,apellido,altura
1,Ospina,183.0
2,Zapata,187.0
3,Murillo,184.0
9,Falcao,177.0
10,Rodriguez,180.0
11,Cuadrado,179.0


## Datos faltantes: rellenar valores NaN con algo más

En algunas ocaciones vamos a tener valor inválidos en nuestros dataframes. Estos valores son un problema al momento de hacer cálculos numéricos o tomar estadísticas.

Para esto es necesario dejar fuera del dataframe estos campos. 

En las siguientes líneas usted verá como se eliminan estos valores.

In [0]:
import numpy as np
np.nan

nan

In [0]:
df = pd.DataFrame({'col1':[1,2,3,np.nan],
                   'col2':[np.nan,555,666,444],
                   'col3':['abc','def','ghi','xyz']})
df.head()

Unnamed: 0,col1,col2,col3
0,1.0,,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,,444.0,xyz


**Hallar valores NULL o verificarlos**

In [0]:
df.isnull()

Unnamed: 0,col1,col2,col3
0,False,True,False
1,False,False,False
2,False,False,False
3,True,False,False


In [0]:
df.fillna('VALOR') # inplace=False por defecto

Unnamed: 0,col1,col2,col3
0,1,VALOR,abc
1,2,555,def
2,3,666,ghi
3,VALOR,444,xyz


In [0]:
df['col1'] = df['col1'].fillna('VALOR')

In [0]:
# Eliminar filas con valores NaN
df.dropna()

Unnamed: 0,col1,col2,col3
1,2,555.0,def
2,3,666.0,ghi
3,VALOR,444.0,xyz


## Quiz

Complete la  función `pair_odds` la cual  recibe un número entero `n` y debe retornar un dataframe  con las siguientes columnas  `['pares','impares']` con el contenido de los primeros `n` números pares -empezado en 2- y en la columna impares los primeros `n` impares -empezando en 1-. 

Por ejemplo si `n` es igual a 3, pares=2,4,6, impares=1,3,5. 

In [0]:
def pair_odds(n):  
  """
  Parámetros:
     n: número de elementos para calcular los pares e impares
     
  Retorna:
     df_res: dataframe con las columnas 'pares','impares' para almacenar los valores calculados
  """
  df_nums = pd.DataFrame(columns = ['pares','impares'])
  df_nums['pares'] = np.arange(5)*2+2
  return df_nums


def test_pair_odds(n):
  try:
    res = pair_odds(n)
  except:
    raise Exception("Error en la función")
  #Validar la respuesta
  _is_ok = np.sum((res['pares']-res['impares']))==n
  if not _is_ok:
    raise Exception("Error en el cálculo de los pares e impares")
  return True

In [0]:
np.arange(5)*2+2

array([ 2,  4,  6,  8, 10])

In [0]:
# No correr esta línea, es solo para comparar su respuesta
pair_odds(10)

Unnamed: 0,pares,impares
1,2,1
2,4,3
3,6,5
4,8,7
5,10,9
6,12,11
7,14,13
8,16,15
9,18,17
10,20,19


In [0]:
pair_odds(10)

Unnamed: 0,pares,impares
0,2,
1,4,
2,6,
3,8,
4,10,


In [0]:
test_pair_odds(10)

TypeError: ignored

# 2. Acceso a datos

## Carga y Guardado de Datos

Pandas permite leer archivos en diferentes formatos, como txt, csv y excel. En este ejemplo se leerá un dataset correspondiente a la información nutricional de un listado de 80 cereales. El dataset puede ser descargado en el siguiente enlace (botón Downloads): 

https://www.kaggle.com/crawford/80-cereals

Como el formato es .csv, se lee usando la función de pandas read_csv usando como parámetro la dirección del archivo. Si el archivo está en la misma carpeta del notebook, se puede usar solo su nombre. 

In [0]:
url="https://drive.google.com/uc?export=download&id=1cVDBakqy6tSwCwgzAtf08hNvjHk8a6hv"
df_cereals = pd.read_csv(url)

Si quiere conocer más formatos de entrada/salida como json, excel, hdf5, SQL, etc. Puede ir a la siguiente URL:

https://pandas.pydata.org/pandas-docs/stable/io.html

### Funciones para revisión de los datos
Lo primero que haremos es revisar las propiedades que tienen las columnas del DataFrame. Como el nombre de las columnas y sus tipos:

In [0]:
print("Columnas: ",df_cereals.columns)

Columnas:  Index(['Cereal Name', 'Manufacturer', 'Type', 'Calories', 'Protein (g)', 'Fat',
       'Sodium', 'Dietary Fiber', 'Carbs', 'Sugars', 'Display Shelf',
       'Potassium', 'Vitamins and Minerals', 'Serving Size Weight',
       'Cups per Serving'],
      dtype='object')


La función Info nos da un resumen del DataFrame y sus datos.

In [0]:
df_cereals.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74 entries, 0 to 73
Data columns (total 15 columns):
Cereal Name              74 non-null object
Manufacturer             74 non-null object
Type                     74 non-null object
Calories                 74 non-null int64
Protein (g)              74 non-null int64
Fat                      74 non-null int64
Sodium                   74 non-null int64
Dietary Fiber            74 non-null float64
Carbs                    74 non-null float64
Sugars                   74 non-null int64
Display Shelf            74 non-null int64
Potassium                74 non-null int64
Vitamins and Minerals    74 non-null int64
Serving Size Weight      74 non-null float64
Cups per Serving         74 non-null float64
dtypes: float64(4), int64(8), object(3)
memory usage: 8.8+ KB


La función dtypes nos indica los tipo de datos de las columnas.

In [0]:
df_cereals.dtypes

Cereal Name               object
Manufacturer              object
Type                      object
Calories                   int64
Protein (g)                int64
Fat                        int64
Sodium                     int64
Dietary Fiber            float64
Carbs                    float64
Sugars                     int64
Display Shelf              int64
Potassium                  int64
Vitamins and Minerals      int64
Serving Size Weight      float64
Cups per Serving         float64
dtype: object

Se puede observar que Pandas es capaz de inferir el tipo de columna a partir de los datos. 

Para darle un vistazo inicial al DataFrame se puede utilizar la función `head` del DataFrame, que tiene como parámetro el número de filas que queremos observar, comenzando en orden por la primera.

In [0]:
df_cereals.head(8)

Unnamed: 0,Cereal Name,Manufacturer,Type,Calories,Protein (g),Fat,Sodium,Dietary Fiber,Carbs,Sugars,Display Shelf,Potassium,Vitamins and Minerals,Serving Size Weight,Cups per Serving
0,100%_Bran,Nabisco,C,70,4,1,130,10.0,5.0,6,3,280,25,1.0,0.33
1,100%_Natural_Bran,Quaker Oats,C,120,3,5,15,2.0,8.0,8,3,135,0,1.0,-1.0
2,All-Bran,Kelloggs,C,70,4,1,260,9.0,7.0,5,3,320,25,1.0,0.33
3,All-Bran_with_Extra_Fiber,Kelloggs,C,50,4,0,140,14.0,8.0,0,3,330,25,1.0,0.5
4,Almond_Delight,Ralston Purina,C,110,2,2,200,1.0,14.0,8,3,-1,25,1.0,0.75
5,Apple_Cinnamon_Cheerios,General Mills,C,110,2,2,180,1.5,10.5,10,1,70,25,1.0,0.75
6,Apple_Jacks,Kelloggs,C,110,2,0,125,1.0,11.0,14,2,30,25,1.0,1.0
7,Basic_4,General Mills,C,130,3,2,210,2.0,18.0,8,3,100,25,1.33,0.75


La función describe nos entrega las estadísticas descriptivas que nos permite conocer la tendencia de los datos, dispersión, dictribución, valores nulos y otros más.

In [0]:
df_cereals.describe(include='all')

Unnamed: 0,Cereal Name,Manufacturer,Type,Calories,Protein (g),Fat,Sodium,Dietary Fiber,Carbs,Sugars,Display Shelf,Potassium,Vitamins and Minerals,Serving Size Weight,Cups per Serving
count,74,74,74,74.0,74.0,74.0,74.0,74.0,74.0,74.0,74.0,74.0,74.0,74.0,74.0
unique,74,7,2,,,,,,,,,,,,
top,Multi-Grain_Cheerios,Kelloggs,C,,,,,,,,,,,,
freq,1,23,71,,,,,,,,,,,,
mean,,,,105.540541,2.5,0.945946,160.675676,2.090541,14.594595,6.77027,2.175676,92.675676,28.378378,1.027432,0.629054
std,,,,18.442201,1.088546,0.96361,85.188447,2.404002,4.349205,4.467684,0.833512,70.578065,22.787104,0.15126,0.576843
min,,,,50.0,1.0,0.0,0.0,0.0,-1.0,-1.0,1.0,-1.0,0.0,0.5,-1.0
25%,,,,100.0,2.0,0.0,131.25,0.25,12.0,3.0,1.0,40.0,25.0,1.0,0.67
50%,,,,110.0,2.0,1.0,180.0,1.5,14.0,6.0,2.0,90.0,25.0,1.0,0.75
75%,,,,110.0,3.0,1.0,217.5,3.0,17.0,10.75,3.0,113.75,25.0,1.0,1.0


## Indexación
En Pandas la indexación es similar a la que se usa en Numpy. El resultado de obtener resultados por indexación es otro DataFrame correspondiente a ciertas filas del DataFrame original.

### Obtención de filas por índice
Un ejemplo es acceder a una fila por medio de la función iloc. En la siguiente celda se selecciona el cereal con índice 7.

In [0]:
info_cereal_7 = df_cereals.iloc[7]
print(info_cereal_7)

Cereal Name                    Basic_4
Manufacturer             General Mills
Type                                 C
Calories                           130
Protein (g)                          3
Fat                                  2
Sodium                             210
Dietary Fiber                        2
Carbs                               18
Sugars                               8
Display Shelf                        3
Potassium                          100
Vitamins and Minerals               25
Serving Size Weight               1.33
Cups per Serving                  0.75
Name: 7, dtype: object


### Obtención de valores por columna
Para obtener toda la información de una columna, se puede acceder al DataFrame como un diccionario, en donde la llave es la columna a la que queremos acceder.

In [0]:
info_calories = df_cereals['Calories']

Veamos que si usamos el acceso con un corchete cuadrado, nos retorna un objeto tipo series.

In [0]:
type(info_calories)

pandas.core.series.Series

La información de columna se obtiene en el mismo orden que en el DataFrame original. Al imprimirlo, podemos ver en la primera columna el valor del índice y en la segunda el valor de la columna seleccionada.

In [0]:
print(info_calories[0:10])

0     70
1    120
2     70
3     50
4    110
5    110
6    110
7    130
8     90
9     90
Name: Calories, dtype: int64


Se pueden seleccionar más de una columna del DataFrame a la vez.

In [0]:
info_calories_sugar = df_cereals[['Calories','Sugars']]

In [0]:
type(info_calories_sugar)

pandas.core.frame.DataFrame

In [0]:
info_calories_sugar[0:10]

Unnamed: 0,Calories,Sugars
0,70,6
1,120,8
2,70,5
3,50,0
4,110,8
5,110,10
6,110,14
7,130,8
8,90,6
9,90,5


Accediendo a un dato particular en una fila y columnas particulares:

In [0]:
df_cereals['Calories'][1]

120

In [0]:
df_cereals.loc[1, 'Calories']

120

### Obtención de valores usando condiciones
Con Pandas, se pueden seleccionar columnas cuyas características cumplan ciertas condiciones. Por ejemplo, los cereales con menos de 100 calorias. Para ello se hace la selección de la columna, se evalua la condición con esta y luego se selecciona del DataFrame el segmento que cumple la condición de la siguiente manera:

In [0]:
# Seleccion de columna: df_cereals['calories']
# Condicion sobre esa columna: df_cereals['calories'] < 100
# Seleccion de fragmento de dataframe que cumple la condicion:
#    df_cereals[df_cereals['calories'] < 100]

less_100_cal = df_cereals[df_cereals['Calories'] < 100]

In [0]:
(df_cereals['Calories'] < 100).head(5)

0     True
1    False
2     True
3     True
4    False
Name: Calories, dtype: bool

In [0]:
less_100_cal

Unnamed: 0,Cereal Name,Manufacturer,Type,Calories,Protein (g),Fat,Sodium,Dietary Fiber,Carbs,Sugars,Display Shelf,Potassium,Vitamins and Minerals,Serving Size Weight,Cups per Serving
0,100%_Bran,Nabisco,C,70,4,1,130,10.0,5.0,6,3,280,25,1.0,0.33
2,All-Bran,Kelloggs,C,70,4,1,260,9.0,7.0,5,3,320,25,1.0,0.33
3,All-Bran_with_Extra_Fiber,Kelloggs,C,50,4,0,140,14.0,8.0,0,3,330,25,1.0,0.5
8,Bran_Chex,Ralston Purina,C,90,2,1,200,4.0,15.0,6,1,125,25,1.0,0.67
9,Bran_Flakes,Post,C,90,3,0,210,5.0,13.0,5,3,190,25,1.0,0.67
47,Nutri-grain_Wheat,Kelloggs,C,90,3,0,170,3.0,18.0,2,3,90,25,1.0,-1.0
51,Puffed_Rice,Quaker Oats,C,50,1,0,0,0.0,13.0,0,3,15,0,0.5,1.0
52,Puffed_Wheat,Quaker Oats,C,50,2,0,0,1.0,10.0,0,3,50,0,0.5,-1.0
57,Raisin_Squares,Kelloggs,C,90,2,0,0,2.0,15.0,6,3,110,25,1.0,0.5
60,Shredded_Wheat,Nabisco,C,80,2,0,0,3.0,16.0,0,1,95,0,0.83,-1.0


Las condiciones se pueden mezclar usando operadores lógicos, por ejemplo cereales con menos de 100 calorias y sin grasa (valor 0 en fat).

In [0]:
condition_calories = df_cereals['Calories'] < 100
condition_fat = df_cereals['Fat'] == 0
less_100_cal_and_fat = df_cereals[condition_calories & condition_fat]

In [0]:
less_100_cal_and_fat.describe()

Unnamed: 0,Calories,Protein (g),Fat,Sodium,Dietary Fiber,Carbs,Sugars,Display Shelf,Potassium,Vitamins and Minerals,Serving Size Weight,Cups per Serving
count,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0
mean,77.0,2.5,0.0,53.5,3.8,14.7,1.8,2.3,123.0,12.5,0.883,0.001
std,18.885621,0.849837,0.0,84.460707,3.852849,3.831159,2.529822,0.948683,86.76917,13.176157,0.208702,0.872206
min,50.0,1.0,0.0,0.0,0.0,8.0,0.0,1.0,15.0,0.0,0.5,-1.0
25%,57.5,2.0,0.0,0.0,2.25,13.0,0.0,1.25,90.0,0.0,0.8725,-1.0
50%,90.0,2.5,0.0,0.0,3.0,15.0,0.0,3.0,102.5,12.5,1.0,0.5
75%,90.0,3.0,0.0,108.75,3.75,17.5,4.25,3.0,135.0,25.0,1.0,0.67
max,90.0,4.0,0.0,210.0,14.0,20.0,6.0,3.0,330.0,25.0,1.0,1.0


Teniendo en cuenta que el resultado de la indexación también es un DataFrame, se pueden hacer operaciones similares sobre el resultado, que en este caso tiene el identificador less_100_cal_and_fat.

In [0]:
less_100_cal_and_fat

Unnamed: 0,Cereal Name,Manufacturer,Type,Calories,Protein (g),Fat,Sodium,Dietary Fiber,Carbs,Sugars,Display Shelf,Potassium,Vitamins and Minerals,Serving Size Weight,Cups per Serving
3,All-Bran_with_Extra_Fiber,Kelloggs,C,50,4,0,140,14.0,8.0,0,3,330,25,1.0,0.5
9,Bran_Flakes,Post,C,90,3,0,210,5.0,13.0,5,3,190,25,1.0,0.67
47,Nutri-grain_Wheat,Kelloggs,C,90,3,0,170,3.0,18.0,2,3,90,25,1.0,-1.0
51,Puffed_Rice,Quaker Oats,C,50,1,0,0,0.0,13.0,0,3,15,0,0.5,1.0
52,Puffed_Wheat,Quaker Oats,C,50,2,0,0,1.0,10.0,0,3,50,0,0.5,-1.0
57,Raisin_Squares,Kelloggs,C,90,2,0,0,2.0,15.0,6,3,110,25,1.0,0.5
60,Shredded_Wheat,Nabisco,C,80,2,0,0,3.0,16.0,0,1,95,0,0.83,-1.0
61,Shredded_Wheat_'n'Bran,Nabisco,C,90,3,0,0,4.0,19.0,0,1,140,0,1.0,0.67
62,Shredded_Wheat_spoon_size,Nabisco,C,90,3,0,0,3.0,20.0,0,1,120,0,1.0,0.67
65,Strawberry_Fruit_Wheats,Nabisco,C,90,2,0,15,3.0,15.0,5,2,90,25,1.0,-1.0


### Ejemplos de operaciones sobre DataFrames

Como se vio al usar la función describe, con el DataFrame se pueden hacer operaciones matemáticas, como hallar la media y desviación estándar. En este caso vamos a hallar la media de calificaciones de los cereales que tienen menos de 100 calorias y no tienen grasa. Al ser el rating una columna, la operación de media se calcula sobre esta columna. 

In [0]:
less_100_cal_and_fat['Display Shelf'].mean()

2.3

La desviación estándar sobre el rating se puede calcular de la siguiente manera.

In [0]:
less_100_cal_and_fat['Display Shelf'].std()

0.9486832980505138

El máximo rating también se puede calcular.

In [0]:
max_rate = less_100_cal_and_fat['Display Shelf'].max()

Usando el máximo podemos mirar cual es el nombre de los cereales con menos de 100 calorias y sin grasa con el mayor rating.

In [0]:
condition_max_rating = less_100_cal_and_fat['Display Shelf'] == max_rate
best_cereal_less_100_no_fat = less_100_cal_and_fat[condition_max_rating]

In [0]:
best_cereal_less_100_no_fat

Unnamed: 0,Cereal Name,Manufacturer,Type,Calories,Protein (g),Fat,Sodium,Dietary Fiber,Carbs,Sugars,Display Shelf,Potassium,Vitamins and Minerals,Serving Size Weight,Cups per Serving
3,All-Bran_with_Extra_Fiber,Kelloggs,C,50,4,0,140,14.0,8.0,0,3,330,25,1.0,0.5
9,Bran_Flakes,Post,C,90,3,0,210,5.0,13.0,5,3,190,25,1.0,0.67
47,Nutri-grain_Wheat,Kelloggs,C,90,3,0,170,3.0,18.0,2,3,90,25,1.0,-1.0
51,Puffed_Rice,Quaker Oats,C,50,1,0,0,0.0,13.0,0,3,15,0,0.5,1.0
52,Puffed_Wheat,Quaker Oats,C,50,2,0,0,1.0,10.0,0,3,50,0,0.5,-1.0
57,Raisin_Squares,Kelloggs,C,90,2,0,0,2.0,15.0,6,3,110,25,1.0,0.5


In [0]:
best_cereal_less_100_no_fat['Cereal Name']

3     All-Bran_with_Extra_Fiber
9                   Bran_Flakes
47            Nutri-grain_Wheat
51                  Puffed_Rice
52                 Puffed_Wheat
57               Raisin_Squares
Name: Cereal Name, dtype: object

### Multi-Indices

Los dataframes pueden tener varios índices usando la funcionalidad de MultiIndex. Estos se pueden crear a partir de una lista de tuplas, con el método from_tuples, donde cada tupla contiene los nombres de cada columna o a partir de una combinación entre varias tuplas con el método from_product

In [0]:
columns = pd.MultiIndex.from_tuples([('A', 'positivo'), ('B', 'positivo'), 
                                     ('A', 'negativo'), ('B', 'negativo'), 
                                     ('O', 'positivo')], 
                                     names=['tipo', 'Rh'])

Ahora se crea el Indice

In [0]:
index = pd.MultiIndex.from_product([('menor', 'adolescente' ,'adulto'),('hombre', 'mujer')], 
                                   names=['edad', 'sexo'])
df = pd.DataFrame(np.random.randn(6,5), columns=columns, index=index)
df

Unnamed: 0_level_0,tipo,A,B,A,B,O
Unnamed: 0_level_1,Rh,positivo,positivo,negativo,negativo,positivo
edad,sexo,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
menor,hombre,0.129288,-1.767568,0.852568,1.485683,-2.025922
menor,mujer,-1.201983,0.953122,1.633646,0.063858,-0.214433
adolescente,hombre,2.369327,-1.581611,-1.037313,-0.443996,-0.539919
adolescente,mujer,0.029543,-1.051433,1.228711,1.239778,0.522664
adulto,hombre,0.766896,1.788424,0.641472,0.596478,0.622602
adulto,mujer,0.691619,0.788715,-0.549388,0.90822,0.027142


Para obtener información de las columnas de otros niveles, se debe referir primero la columna de primer nivel y luego a las de los niveles siguientes, en órden jerárquico.

In [0]:
df['B', 'positivo']      

edad         sexo  
menor        hombre   -1.767568
             mujer     0.953122
adolescente  hombre   -1.581611
             mujer    -1.051433
adulto       hombre    1.788424
             mujer     0.788715
Name: (B, positivo), dtype: float64

La función xs retorna la sección transversal de un DataFrame que usa multi-índices.
Por ejemplo, es útil cuando queremos filtrar todas las filas correspondientes a hombres independientemente del grupo de eda en el DataFrame anterior:

In [0]:
# En este caso seleccionamos el Num=1
df.xs('hombre',level='sexo')

tipo,A,B,A,B,O
Rh,positivo,positivo,negativo,negativo,positivo
edad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
menor,0.129288,-1.767568,0.852568,1.485683,-2.025922
adolescente,2.369327,-1.581611,-1.037313,-0.443996,-0.539919
adulto,0.766896,1.788424,0.641472,0.596478,0.622602


In [0]:
df.xs('positivo', level='Rh', axis=1).xs('mujer', level='sexo')

tipo,A,B,O
edad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
menor,-1.201983,0.953122,-0.214433
adolescente,0.029543,-1.051433,0.522664
adulto,0.691619,0.788715,0.027142


## Quiz

Desarrolle una función que reciba un dataframe con las columnas 'X' y  'Y' y calcule  las siguientes operaciones.

a) Hallar la media de X y de  Y.

b) Hallar la desviación stándar de X y de Y .


Modifique la función calculate_stats para hallar los estadísticos requeridos.

In [0]:
def calculate_stats(df_x_y):  
  """
  Parámetros:
     df_x_y: dataframe con la columna X y Y
     
  Retorna:
    mean_x, std_x, mean_y, std_y: valores con la media y desviación estándar
    de 'x' y 'y' respectivamente
  """
  mean_x, std_x, mean_y, std_y = 0, 0, 0, 0
  mean_x = df_x_y['X'].mean()
  
  
  return mean_x, std_x, mean_y, std_y


def test_calculate_stats(df_x_y):
  try:
    mean_x, std_x, mean_y, std_y = calculate_stats(df_x_y)
  except:
    raise Exception("Error en la función")
  #Validar la respuesta
  is_ok = True
  is_ok = abs(mean_x - 13) < 0.1 and abs(std_x - 17.4) < 0.1
  is_ok = abs(mean_y - 92.2) < 0.1 and abs(std_y - 161.3) < 0.1 and is_ok
  if not is_ok:
    raise Exception("'Hay un error, verifique el código'")
  return True

df_x_y = pd.DataFrame({'X':[4,8,3,44,6], 'Y':[6,2,376,72,5]})
test_calculate_stats(df_x_y)

Exception: ignored

In [0]:
df = pd.DataFrame({'X':[1,2,2,1],
                   'Y':[5,6,6,5]})
df.head()

Unnamed: 0,X,Y
0,1,5
1,2,6
2,2,6
3,1,5


In [0]:
# NO CORRA ESTA CELDA, AQUI COMPRUEBA SU CÓDIGO

(1.5, 0.5773502691896257, 5.5, 0.5773502691896257)

In [0]:
#PRUEBE AQUI SU CÓDIGO
calculate_stats(df)

(1.5, 0, 0, 0)

In [0]:
#PRUEBE AQUI SU CÓDIGO
test_calculate_stats(df)

# 3. Manipulando Data Frames

## Combinando DataFrames

Hay 3 maneras de combinar DataFrames:
Concatenar (concat)
Fusionar (merge)
Unir (join)

![wget](https://drive.google.com/uc?export=view&id=1wmJo-FJnofniKEkF-3RRR-Mk9IVuc-Nx)

_____
** DataFrames de ejemplo **

In [0]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [0]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         ) 
df2

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [0]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']},
                        index=[8, 9, 10, 11])
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


### Concatenar (concat)

La concatenación básicamente pega DataFrames, uno después de otro. Hay que tener en cuenta que las dimensiones deben coincidir a lo largo del eje con el que se está concatenando. 

Puede usar **pd.concat** y pasar una lista de DataFrames para concatenarlos:

In [0]:
pd.concat([df1,df2,df3])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [0]:
pd.concat([df1,df2,df3]).loc[0]

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
0,A4,B4,C4,D4


In [0]:
pd.concat([df1,df2,df3],axis=1)    # axis=1 cooncatena a lo largo de las columnas, llenando las celdas desconocidad con NaN 

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,A4,B4,C4,D4,,,,
1,A1,B1,C1,D1,A5,B5,C5,D5,,,,
2,A2,B2,C2,D2,A6,B6,C6,D6,,,,
3,A3,B3,C3,D3,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9
10,,,,,,,,,A10,B10,C10,D10
11,,,,,,,,,A11,B11,C11,D11


___

### Fusionar (merge)

La función **merge** permite fusionar DataFrames utilizando una lógica similar a la combinación de Tablas SQL. Por ejemplo:


In [0]:
izq = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
   
der = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})    

In [0]:
izq

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [0]:
der

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [0]:
pd.merge(izq,der, on='key')    

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


Otro ejemplo más completo:

In [0]:
izq = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})
    
der = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                               'key2': ['K0', 'K0', 'K0', 'K0'],
                                  'C': ['C0', 'C1', 'C2', 'C3'],
                                  'D': ['D0', 'D1', 'D2', 'D3']})

In [0]:
izq

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3


In [0]:
der

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3


In [0]:
pd.merge(izq, der, on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K1,K0,A0,B0,C1,D1
1,K1,K0,A0,B0,C2,D2
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2


#### Argumento 'how'

El método merge recibe el argumento 'how'. Éste especifica cómo determinar qué claves se incluirán en la tabla resultante. Si una combinación de dichas llaves no aparece en las tablas izquierda o derecha, los valores en la tabla fusionada serán NaN. 

Aquí hay un resumen de las opciones de 'how' y sus nombres equivalentes en SQL:
```
	PANDAS	SQL					DESCRIPCIÓN
	inner	 INNER JOIN			  Usa la intersection de las llaves de ambos dataframes * Por defecto
    left	  LEFT OUTER JOIN	 	Sólo usa las llaves del dataframe izquierdo
	right	 RIGHT OUTER JOIN	    Sólo usa las llaves del dataframe derecho 
	outer	 FULL OUTER JOIN		 Usa la unión de las llaves de ambos dataframes
```
![](https://drive.google.com/uc?export=view&id=1k9cAel1FLYgou8ITAeqKE3vOIFBJydQB)

In [0]:
pd.merge(izq, der, how='outer', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,
5,K2,K0,,,C3,D3


In [0]:
pd.merge(izq, der, how='left', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,


In [0]:
pd.merge(izq, der, how='right', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2
3,K2,K0,,,C3,D3


### Unión (join)

El join es un método para combinar las columnas de dos DataFrames indexados de forma diferente en un solo DataFrame de resultados.

En vez de columnas como en el merge, en el join se utilizan los índices de los DataFrames para hacer la combinación.


In [0]:
izq = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2']) 

der = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

In [0]:
izq

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [0]:
der

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


In [0]:
izq.join(der)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


In [0]:
izq.join(der, how='outer')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


In [0]:
izq.join(der, how='inner')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K2,A2,B2,C2,D2


## Función Apply

In [0]:
df = pd.DataFrame(np.random.randn(6,5), columns=columns, index=index)
df

Unnamed: 0_level_0,tipo,A,B,A,B,O
Unnamed: 0_level_1,Rh,positivo,positivo,negativo,negativo,positivo
edad,sexo,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
menor,hombre,1.272497,-1.441468,1.532426,-1.537321,0.487704
menor,mujer,1.294939,-0.812121,-0.330473,-0.871759,-0.112068
adolescente,hombre,-0.139661,-0.375193,0.801214,-1.173579,-0.667426
adolescente,mujer,-0.122851,0.413257,0.529171,0.288111,1.461977
adulto,hombre,-0.478114,-0.547407,-0.576248,-2.469609,-1.024551
adulto,mujer,-0.138714,0.01163,0.581477,1.554476,-0.689919


In [0]:
df['A']*2

Unnamed: 0_level_0,Rh,positivo,negativo
edad,sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
menor,hombre,2.544994,3.064853
menor,mujer,2.589879,-0.660947
adolescente,hombre,-0.279323,1.602429
adolescente,mujer,-0.245701,1.058342
adulto,hombre,-0.956227,-1.152495
adulto,mujer,-0.277428,1.162953


In [0]:
def times2(x):
    return x*2
  
def sum2(x):
    return x.sum()*2

In [0]:
df['A']

Unnamed: 0_level_0,Rh,positivo,negativo
edad,sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
menor,hombre,1.272497,1.532426
menor,mujer,1.294939,-0.330473
adolescente,hombre,-0.139661,0.801214
adolescente,mujer,-0.122851,0.529171
adulto,hombre,-0.478114,-0.576248
adulto,mujer,-0.138714,0.581477


In [0]:
df['A'].apply(times2)

Unnamed: 0_level_0,Rh,positivo,negativo
edad,sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
menor,hombre,2.544994,3.064853
menor,mujer,2.589879,-0.660947
adolescente,hombre,-0.279323,1.602429
adolescente,mujer,-0.245701,1.058342
adulto,hombre,-0.956227,-1.152495
adulto,mujer,-0.277428,1.162953


In [0]:
df['A'].apply(sum2)

Rh
positivo    3.376193
negativo    5.075134
dtype: float64

In [0]:
df['B']

Unnamed: 0_level_0,Rh,positivo,negativo
edad,sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
menor,hombre,-1.441468,-1.537321
menor,mujer,-0.812121,-0.871759
adolescente,hombre,-0.375193,-1.173579
adolescente,mujer,0.413257,0.288111
adulto,hombre,-0.547407,-2.469609
adulto,mujer,0.01163,1.554476


In [0]:
# Apply es muy útil y puede ser usado también con expresiones lambda

df['B'].apply(lambda x: x*2)


Unnamed: 0_level_0,Rh,positivo,negativo
edad,sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
menor,hombre,-2.882936,-3.074642
menor,mujer,-1.624242,-1.743518
adolescente,hombre,-0.750385,-2.347158
adolescente,mujer,0.826514,0.576222
adulto,hombre,-1.094814,-4.939218
adulto,mujer,0.023261,3.108952


In [0]:
# También se puede usar con funciones predeterminadas como len, max, min etc.
df['B'].apply(max)

Rh
positivo    0.413257
negativo    1.554476
dtype: float64

## Tablas Pivote

In [0]:
data = {'A':['foo','foo','foo','bar','bar','bar'],
     'B':['uno','uno','dos','dos','uno','uno'],
       'C':['categoria 1','categoria 2','categoria 1','categoria 2','categoria 1','categoria 2'],
       'D':[1,3,2,5,4,1]}

df = pd.DataFrame(data)

In [3]:
df

Unnamed: 0,A,B,C,D
0,foo,uno,categoria 1,1
1,foo,uno,categoria 2,3
2,foo,dos,categoria 1,2
3,bar,dos,categoria 2,5
4,bar,uno,categoria 1,4
5,bar,uno,categoria 2,1


In [5]:
df.pivot_table(values='D',index=['C','A'],columns=[ 'B'])

Unnamed: 0_level_0,B,dos,uno
C,A,Unnamed: 2_level_1,Unnamed: 3_level_1
categoria 1,bar,,4.0
categoria 1,foo,2.0,1.0
categoria 2,bar,5.0,1.0
categoria 2,foo,,3.0


Otro ejemplo:

In [6]:
df = pd.DataFrame({"A": ["foo", "foo", "foo", "foo", "foo",
                         "bar", "bar", "bar", "bar"],
                    "B": ["one", "one", "one", "two", "two",
                          "one", "one", "two", "two"],
                    "C": ["small", "large", "large", "small",
                          "small", "large", "small", "small",
                          "large"],
                    "D": [1, 2, 2, 3, 3, 4, 5, 6, 7]})
df

Unnamed: 0,A,B,C,D
0,foo,one,small,1
1,foo,one,large,2
2,foo,one,large,2
3,foo,two,small,3
4,foo,two,small,3
5,bar,one,large,4
6,bar,one,small,5
7,bar,two,small,6
8,bar,two,large,7


In [10]:
table = df.pivot_table(values='D', index=['A', 'B'],
                     columns=['C'], aggfunc=np.sum)
table

Unnamed: 0_level_0,C,large,small
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4.0,5.0
bar,two,7.0,6.0
foo,one,4.0,1.0
foo,two,,6.0


## Agrupaciones y agregaciones: Groupby

El método groupby permite agrupar filas de datos basándose en el valor de una columna, y llamar a funciones de agregación sobre los datos: suma, conteo, promedio, ...

![](https://drive.google.com/uc?export=view&id=1dxdpTG6ZJovzaxzerMFLPIv8daDlfFvV)

In [0]:
import pandas as pd

# Datos para crear el dataframe
data = {'Empresa':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
       'Persona':['Ana','Carlos','Manuela','Vanessa','Camilo','Ana'],
       'Ventas':[200,120,340,124,243,350]}

In [0]:
df = pd.DataFrame(data)

In [0]:
df

Unnamed: 0,Empresa,Persona,Ventas
0,GOOG,Ana,200
1,GOOG,Carlos,120
2,MSFT,Manuela,340
3,MSFT,Vanessa,124
4,FB,Camilo,243
5,FB,Ana,350


**Ahora usaremos el método .groupby() para agrupar las filas basándose en los datos de una columna. Por ejemplo, el nombre de la compañía. Esto creará un objeto DataFrameGroupBy.**

In [0]:
df.groupby('Empresa')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fefc2457ba8>

Se puede guardar este objeto como una nueva variable:

In [0]:
by_empresa = df.groupby("Empresa")

Y luego llamar funciones de agregación sobre este objeto. 
Las funciones de agregación tendrán efecto sobre las columnas que sea posible, es decir, si son funciones numéricas sólo tendrán efecto sobre los datos numéricos: 

In [0]:
by_empresa.mean()

Unnamed: 0_level_0,Ventas
Empresa,Unnamed: 1_level_1
FB,296.5
GOOG,160.0
MSFT,232.0


Más ejemplos de funciones de agregación:

In [0]:
by_empresa.std()

Unnamed: 0_level_0,Ventas
Empresa,Unnamed: 1_level_1
FB,75.660426
GOOG,56.568542
MSFT,152.735065


In [0]:
# En este caso la función min también tiene efecto sobre los datos textuales; se devuelve el menor valor de la cadena
# del nombre de las personas (ordenado lexicograficamente). Nótese que el valor de las ventas, no corresponde al de la persona, 
# sino al valor menor de ventas de la empresa. 

by_empresa.min()

Unnamed: 0_level_0,Persona,Ventas
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
FB,Ana,243
GOOG,Ana,120
MSFT,Manuela,124


In [0]:
by_empresa.max()

Unnamed: 0_level_0,Persona,Ventas
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
FB,Camilo,350
GOOG,Carlos,200
MSFT,Vanessa,340


In [0]:
by_empresa.count()

Unnamed: 0_level_0,Persona,Ventas
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
FB,2,2
GOOG,2,2
MSFT,2,2


In [0]:
by_empresa.sum()

Unnamed: 0_level_0,Ventas
Empresa,Unnamed: 1_level_1
FB,593
GOOG,320
MSFT,464


Podemos acceder a un solo valor:


In [0]:
by_empresa.sum().loc['FB']

Ventas    593
Name: FB, dtype: int64

Muchas veces no se crea un objeto groupby de forma explícita, sino que se utiliza directamente:

In [0]:
df.groupby('Empresa').sum().loc['FB']

Ventas    593
Name: FB, dtype: int64

El metodo `describe` permite presentar estadísticas para los datos agrupados:

In [0]:
by_empresa.describe()

Unnamed: 0_level_0,Ventas,Ventas,Ventas,Ventas,Ventas,Ventas,Ventas,Ventas
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Empresa,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
FB,2.0,296.5,75.660426,243.0,269.75,296.5,323.25,350.0
GOOG,2.0,160.0,56.568542,120.0,140.0,160.0,180.0,200.0
MSFT,2.0,232.0,152.735065,124.0,178.0,232.0,286.0,340.0


In [0]:
by_empresa.describe().transpose()

Unnamed: 0,Empresa,FB,GOOG,MSFT
Ventas,count,2.0,2.0,2.0
Ventas,mean,296.5,160.0,232.0
Ventas,std,75.660426,56.568542,152.735065
Ventas,min,243.0,120.0,124.0
Ventas,25%,269.75,140.0,178.0
Ventas,50%,296.5,160.0,232.0
Ventas,75%,323.25,180.0,286.0
Ventas,max,350.0,200.0,340.0


In [0]:
by_empresa.describe().transpose()['GOOG']

Ventas  count      2.000000
        mean     160.000000
        std       56.568542
        min      120.000000
        25%      140.000000
        50%      160.000000
        75%      180.000000
        max      200.000000
Name: GOOG, dtype: float64






## Quiz

Modifique la función return_highest_sodium para retornar el nombre del cereal con más alto contenido en sodio.

La función recibe como argumento el dataframe con los cereales y retorna el string con el nombre de cereal requerido.

In [0]:
def return_highest_sodium(df_cereals):  
  """
  Parámetros:
     df_cereals: dataframe con las variables de los cereales
     
  Retorna:
     most_sodium_cereal: string con el nombre del cereal con mayor contenido de sodio
     less_sodium_cereal: string con el nombre del cereal con menor contenido de sodio
  """
  most_sodium = ""
  less_sodium = ""
  #Ponga su código acá
  
  return most_sodium, less_sodium


def test_highest_sodium(df_cereals):
  try:
    res = return_highest_sodium(df_cereals)
  except:
    raise Exception("Error en la función")
  #Validar la respuesta
  if res != ("Shredded_Wheat_'n'Bran", 'Product_19'):
    raise Exception("Ese no es el cereal, revisa el código")
  return True

In [0]:
#NO BORRAR ESTA LINEA
return_highest_sodium(df_cereals)

("Shredded_Wheat_'n'Bran", 'Product_19')

In [0]:
#NO BORRAR ESTA LINEA
test_highest_sodium(df_cereals)

True

In [0]:
#PRUEBE AQUI SU CÓDIGO
return_highest_sodium(df_cereals)

In [0]:
#PRUEBE AQUI SU CÓDIGO
test_highest_sodium(df_cereals)