<a href="https://colab.research.google.com/github/Alonsso/ipynb-notebooks/blob/main/IntroduccionPandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. Introducción a Pandas

## ¿Qué es pandas?
Es una librería de análisis de datos que se compone de una serie de estructuras de datos con funcionalidades para limpiar, analizar y preprocesar los datos para tareas siguientes al análisis.

![wget](https://drive.google.com/uc?export=view&id=1mbFgZLmt0qD80FleVEj4cpxh5oO3ocvQ)

## Importando pandas 
Pandas se puede importar de la siguiente manera. Se utiliza el nombre pd por facilidad de manejo.

In [None]:
import pandas as pd
import numpy as np

In [None]:
pd.__version__

'1.1.5'

## Ejemplos de estructuras de datos

### Series
Una serie es un arreglo unidimensional con un índice correspondiente a cada posición del arreglo. Por ejemplo, el listado de jugadores de un equipo, donde el arreglo tiene los apellidos de los jugadores y el índice el número del jugador.

In [None]:
seleccionColombia = pd.Series(
    ['Ospina', 'Zapata', 'Falcao', 'Cuadrado', 'Rodriguez'], 
    index=[1, 2, 9, 11, 10])

Como se puede observar con los jugadores Cuadrado y Rodriguez, los índices no tienen que estar necesariamente ordenados. La serie se puede imprimir escribiendo su identificador.

In [None]:
seleccionColombia

1        Ospina
2        Zapata
9        Falcao
11     Cuadrado
10    Rodriguez
dtype: object

Una serie se puede generar sin conocer los índices y Pandas los generará automáticamente con valores desde cero hasta el tamaño de la lista menos uno. En el caso de la misma serie:

In [None]:
seleccionColombia = pd.Series(
    ['Ospina', 'Zapata', 'Falcao', 'Cuadrado', 'Rodriguez'])
seleccionColombia

0       Ospina
1       Zapata
2       Falcao
3     Cuadrado
4    Rodriguez
dtype: object

### Series desde Diccionarios

Las series tambien pueden ser definidas desde diccionarios:

In [None]:
dict_selcol = {1:'Ospina', 2: 'Zapata', 9: 'Falcao', 11: 'Cuadrado', 10: 'Rodriguez'}
print(dict_selcol)

{1: 'Ospina', 2: 'Zapata', 9: 'Falcao', 11: 'Cuadrado', 10: 'Rodriguez'}


In [None]:
ser_selcol = pd.Series(dict_selcol)
ser_selcol.head()

1        Ospina
2        Zapata
9        Falcao
11     Cuadrado
10    Rodriguez
dtype: object

In [None]:
whos

Variable            Type      Data/Info
---------------------------------------
dict_selcol         dict      n=5
np                  module    <module 'numpy' from '/us<...>kages/numpy/__init__.py'>
pd                  module    <module 'pandas' from '/u<...>ages/pandas/__init__.py'>
seleccionColombia   Series    0       Ospina\n1       Z<...> Rodriguez\ndtype: object
ser_selcol          Series    1        Ospina\n2       <...> Rodriguez\ndtype: object


### DataFrame
Un DataFrame es una estructura de datos que almacena la información como una tabla ordenada por filas y columnas. Cada fila representa un objeto y cada columna la información correspondiente a una característica de los objetos.

Un DataFrame también posee índices por cada fila, que pueden ser dados o generados automáticamente. Cada columna del DataFrame es una serie, donde el valor del índice corresponde con los valores de índice que tiene el DataFrame.

Por medio de un diccionario vamos a crear un dataframe, donde las llaves son los nombres de las columnas y los valores son la lista de valores que tienen las características.

Por ejemplo, para hacer un DataFrame con el equipo de fútbol anterior, pero agregando estatura y peso, podemos hacerlo de la siguiente manera:

In [None]:
dict_caracteristicas = {'apellido':['Ospina', 'Zapata', 'Falcao', 'Cuadrado', 'Rodriguez'],
                       'altura':[183.0,187.0,177.0,179.0,180.0],
                       'peso':[80.0,82.0,72.0,72.0,75.0]}

seleccionColombia = pd.DataFrame(dict_caracteristicas,index=[1, 2, 9, 11, 10])

Al imprimir el DataFrame, podemos observar que su estructura es similar a la de un documento en Excel, donde el índice (que no tiene nombre de columna) es el número del jugador.

In [None]:
seleccionColombia

Unnamed: 0,apellido,altura,peso
1,Ospina,183.0,80.0
2,Zapata,187.0,82.0
9,Falcao,177.0,72.0
11,Cuadrado,179.0,72.0
10,Rodriguez,180.0,75.0


## Acceso a los registros del DataFrame por el índice

En pandas podemos acceder a la fila por el índice de ésta. En el ejemplo anterior éste índice era el número de la camiseta del jugador. Pero podría ser una fecha, una letra, etc.

Si conocemos el índice simplemente lo usamos para ir directamente a la fila deseada.

In [None]:
seleccionColombia.loc[1]

apellido    Ospina
altura         183
peso            80
Name: 1, dtype: object

Para agregar un nuevo jugador, se puede utilizar el índice, que en este caso es el número en el equipo y un arreglo representando todas sus características (apellido, altura y peso).

NOTA: Las características tienen que estar en el mismo orden.

In [None]:
num_jugador = 3
caract_jugador = ['Murillo',184,80.0]
seleccionColombia.loc[num_jugador] = caract_jugador

Imprimiendo el DataFrame podemos ver el nuevo jugador.

In [None]:
seleccionColombia

Unnamed: 0,apellido,altura,peso
1,Ospina,183.0,80.0
2,Zapata,187.0,82.0
9,Falcao,177.0,72.0
11,Cuadrado,179.0,72.0
10,Rodriguez,180.0,75.0
3,Murillo,184.0,80.0


## Borrar Columna o Fila

In [None]:
seleccionColombia.keys()

Index(['apellido', 'altura', 'peso'], dtype='object')

In [None]:
seleccionColombia.drop('peso',axis=1, inplace=False) # Para que sea permanente inplace=True

Unnamed: 0,apellido,altura
1,Ospina,183.0
2,Zapata,187.0
9,Falcao,177.0
11,Cuadrado,179.0
10,Rodriguez,180.0
3,Murillo,184.0


In [None]:
seleccionColombia.drop?

Si queremos eliminar una columna permanentemente también se puede usar:

In [None]:
#del seleccionColombia['peso']

In [None]:
seleccionColombia

Unnamed: 0,apellido,altura,peso
1,Ospina,183.0,80.0
2,Zapata,187.0,82.0
9,Falcao,177.0,72.0
11,Cuadrado,179.0,72.0
10,Rodriguez,180.0,75.0
3,Murillo,184.0,80.0


Si queremos saber cuales son las columnas actuales del data frame, usamos la propiedad 'columns' del objeto.

In [None]:
seleccionColombia.columns

Index(['apellido', 'altura', 'peso'], dtype='object')

Si queremos conocer el indice del dataframe, con lo propiedad 'index' la conocemos.

In [None]:
seleccionColombia.index

Int64Index([1, 2, 9, 11, 10, 3], dtype='int64')

Para ordenar el dataframe se usa la función sort.

In [None]:
seleccionColombia.sort_values?

In [None]:
seleccionColombia.sort_values(by=['apellido','peso'],ascending=True) #inplace=False por defecto

Unnamed: 0,apellido,altura,peso
11,Cuadrado,179.0,72.0
9,Falcao,177.0,72.0
3,Murillo,184.0,80.0
1,Ospina,183.0,80.0
10,Rodriguez,180.0,75.0
2,Zapata,187.0,82.0


## Datos faltantes: rellenar valores NaN con algo más

En algunas ocaciones vamos a tener valores inválidos en nuestros dataframes. Estos valores son un problema al momento de hacer cálculos numéricos o tomar estadísticas.

Para esto es necesario dejar fuera del dataframe estos campos. 

En las siguientes líneas usted verá cómo se eliminan estos valores.

In [None]:
import numpy as np

In [None]:
df = pd.DataFrame({'col1':[1,2,3,np.nan],
                   'col2':[np.nan,555,666,444],
                   'col3':['abc','def','ghi','xyz']})
df.head()

Unnamed: 0,col1,col2,col3
0,1.0,,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,,444.0,xyz


In [None]:
df_2 = df[['col3','col1']]
df_2

Unnamed: 0,col3,col1
0,abc,1.0
1,def,2.0
2,ghi,3.0
3,xyz,


In [None]:
df['col1'].mean()

2.0

**Hallar valores NULL o verificarlos**

In [None]:
df.isnull()

Unnamed: 0,col1,col2,col3
0,False,True,False
1,False,False,False
2,False,False,False
3,True,False,False


In [None]:
df.fillna(0, inplace=True) # inplace=False por defecto

In [None]:
df

Unnamed: 0,col1,col2,col3
0,1.0,0.0,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,0.0,444.0,xyz


In [None]:
df = pd.DataFrame({'col1':[1,2,3,np.nan],
                   'col2':[np.nan,555,666,444],
                   'col3':['abc','def','ghi','xyz']})
df.head()

Unnamed: 0,col1,col2,col3
0,1.0,,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,,444.0,xyz


In [None]:
# Eliminar filas con valores NaN
df.dropna()

Unnamed: 0,col1,col2,col3
1,2.0,555.0,def
2,3.0,666.0,ghi


## Quiz

Complete la  función `pair_odds` la cual  recibe un número entero `n` y debe retornar un dataframe  con las siguientes columnas  `['pares','impares']` con el contenido de los primeros `n` números pares -empezado en 2- y en la columna impares los primeros `n` impares -empezando en 1-. 

Por ejemplo si `n` es igual a 3, pares=2,4,6, impares=1,3,5. 

In [None]:
def pair_odds(n):  
  """
  Parámetros:
     n: número de elementos para calcular los pares e impares
     
  Retorna:
     df_res: dataframe con las columnas 'pares','impares' para almacenar los valores calculados
  """
  df_nums = pd.DataFrame(columns = ['pares','impares'])
  #Ponga su código acá
  for x in range(n):
    df_nums.loc[(x+1)] = [2*(x+1), 2*(x+1)-1]

  return df_nums
  

def test_pair_odds(n):
  try:
    res = pair_odds(n)
  except:
    raise Exception("Error en la función")
  #Validar la respuesta
  _is_ok = np.sum((res['pares']-res['impares']))==n
  if not _is_ok:
    raise Exception("Error en el cálculo de los pares e impares")
  return True

In [None]:
# No correr esta línea, es solo para comparar su respuesta
pair_odds(15)


In [None]:
df_nums = test_pair_odds(10)
df_nums

# 2. Acceso a datos

## Carga y Guardado de Datos

Pandas permite leer archivos en diferentes formatos, como txt, csv y excel. En este ejemplo se leerá un dataset correspondiente a la información nutricional de un listado de 80 cereales. El dataset puede ser descargado en el siguiente enlace (botón Downloads): 

https://www.kaggle.com/crawford/80-cereals

Como el formato es .csv, se lee usando la función de pandas read_csv usando como parámetro la dirección del archivo. Si el archivo está en la misma carpeta del notebook, se puede usar solo su nombre. 

In [None]:
df_cereals = pd.read_csv("cereal.csv")
df_cereals

Unnamed: 0,name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
0,100% Bran,N,C,70,4,1,130,10.0,5.0,6,280,25,3,1.0,0.33,68.402973
1,100% Natural Bran,Q,C,120,3,5,15,2.0,8.0,8,135,0,3,1.0,1.00,33.983679
2,All-Bran,K,C,70,4,1,260,9.0,7.0,5,320,25,3,1.0,0.33,59.425505
3,All-Bran with Extra Fiber,K,C,50,4,0,140,14.0,8.0,0,330,25,3,1.0,0.50,93.704912
4,Almond Delight,R,C,110,2,2,200,1.0,14.0,8,-1,25,3,1.0,0.75,34.384843
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72,Triples,G,C,110,2,1,250,0.0,21.0,3,60,25,3,1.0,0.75,39.106174
73,Trix,G,C,110,1,1,140,0.0,13.0,12,25,25,2,1.0,1.00,27.753301
74,Wheat Chex,R,C,100,3,1,230,3.0,17.0,3,115,25,1,1.0,0.67,49.787445
75,Wheaties,G,C,100,3,1,200,3.0,17.0,3,110,25,1,1.0,1.00,51.592193


In [None]:
df_covid = pd.read_csv("https://www.datos.gov.co/api/views/gt2j-8ykr/rows.csv?accessType=DOWNLOAD")
df_covid

  interactivity=interactivity, compiler=compiler, result=result)


Unnamed: 0,fecha reporte web,ID de caso,Fecha de notificación,Código DIVIPOLA departamento,Nombre departamento,Código DIVIPOLA municipio,Nombre municipio,Edad,Unidad de medida de edad,Sexo,Tipo de contagio,Ubicación del caso,Estado,Código ISO del país,Nombre del país,Recuperado,Fecha de inicio de síntomas,Fecha de muerte,Fecha de diagnóstico,Fecha de recuperación,Tipo de recuperación,Pertenencia étnica,Nombre del grupo étnico
0,6/3/2020 0:00:00,1,2/3/2020 0:00:00,11,BOGOTA,11001,BOGOTA,19,1,F,Importado,Casa,Leve,380.0,ITALIA,Recuperado,27/2/2020 0:00:00,,6/3/2020 0:00:00,13/3/2020 0:00:00,PCR,6.0,
1,9/3/2020 0:00:00,2,6/3/2020 0:00:00,76,VALLE,76111,BUGA,34,1,M,Importado,Casa,Leve,724.0,ESPAÑA,Recuperado,4/3/2020 0:00:00,,9/3/2020 0:00:00,19/3/2020 0:00:00,PCR,5.0,
2,9/3/2020 0:00:00,3,7/3/2020 0:00:00,5,ANTIOQUIA,5001,MEDELLIN,50,1,F,Importado,Casa,Leve,724.0,ESPAÑA,Recuperado,29/2/2020 0:00:00,,9/3/2020 0:00:00,15/3/2020 0:00:00,PCR,6.0,
3,11/3/2020 0:00:00,4,9/3/2020 0:00:00,5,ANTIOQUIA,5001,MEDELLIN,55,1,M,Relacionado,Casa,Leve,,,Recuperado,6/3/2020 0:00:00,,11/3/2020 0:00:00,26/3/2020 0:00:00,PCR,6.0,
4,11/3/2020 0:00:00,5,9/3/2020 0:00:00,5,ANTIOQUIA,5001,MEDELLIN,25,1,M,Relacionado,Casa,Leve,,,Recuperado,8/3/2020 0:00:00,,11/3/2020 0:00:00,23/3/2020 0:00:00,PCR,6.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4914876,3/9/2021 0:00:00,4914917,19/8/2021 0:00:00,70,SUCRE,70001,SINCELEJO,15,1,F,En estudio,Casa,Leve,,,Activo,16/8/2021 0:00:00,,30/8/2021 0:00:00,,,,
4914877,3/9/2021 0:00:00,4914918,20/8/2021 0:00:00,70,SUCRE,70001,SINCELEJO,53,1,F,En estudio,Casa,Leve,,,Activo,17/8/2021 0:00:00,,31/8/2021 0:00:00,,,,
4914878,3/9/2021 0:00:00,4914919,7/8/2021 0:00:00,73,TOLIMA,73168,CHAPARRAL,37,1,F,En estudio,Casa,Leve,,,Activo,4/8/2021 0:00:00,,18/8/2021 0:00:00,,,,
4914879,3/9/2021 0:00:00,4914920,19/8/2021 0:00:00,73,TOLIMA,73001,IBAGUE,45,1,F,En estudio,Casa,Leve,,,Activo,16/8/2021 0:00:00,,30/8/2021 0:00:00,,,,


In [None]:
df_covid['Edad'].max()

114

In [None]:
df_chicago = pd.read_csv("https://data.cityofchicago.org/api/views/i6bp-fvbx/rows.csv?accessType=DOWNLOAD")
df_chicago

Unnamed: 0,Full Street Name,Direction,Street,Suffix,Suffix Direction,Min Address,Max Address
0,E 100TH PL,E,100TH,PL,,1,1199
1,W 100TH PL,W,100TH,PL,,300,2629
2,E 100TH ST,E,100TH,ST,,1,4001
3,W 100TH ST,W,100TH,ST,,1,2799
4,E 101ST PL,E,101ST,PL,,1,699
...,...,...,...,...,...,...,...
2577,S YATES AVE,S,YATES,AVE,,9500,11599
2578,S YATES BLVD,S,YATES,BLVD,,7100,9499
2579,N YORK RD,N,YORK,RD,,4800,6399
2580,S YOUNG PKWY,S,YOUNG,PKWY,,1920,1998


In [None]:
!apt-get install mongodb

Reading package lists... Done
Building dependency tree       
Reading state information... Done
The following additional packages will be installed:
  libpcap0.8 libstemmer0d libyaml-cpp0.5v5 mongo-tools mongodb-clients
  mongodb-server mongodb-server-core
The following NEW packages will be installed:
  libpcap0.8 libstemmer0d libyaml-cpp0.5v5 mongo-tools mongodb mongodb-clients
  mongodb-server mongodb-server-core
0 upgraded, 8 newly installed, 0 to remove and 40 not upgraded.
Need to get 53.1 MB of archives.
After this operation, 215 MB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu bionic-updates/main amd64 libpcap0.8 amd64 1.8.1-6ubuntu1.18.04.2 [118 kB]
Get:2 http://archive.ubuntu.com/ubuntu bionic/main amd64 libstemmer0d amd64 0+svn585-1build1 [62.5 kB]
Get:3 http://archive.ubuntu.com/ubuntu bionic/universe amd64 libyaml-cpp0.5v5 amd64 0.5.2-4ubuntu1 [150 kB]
Get:4 http://archive.ubuntu.com/ubuntu bionic/universe amd64 mongo-tools amd64 3.6.3-0ubunt

In [None]:
url="https://drive.google.com/uc?export=download&id=1BMzlPWHQz-vcxhEr5ch332PPgG1v8Ajz"
df_cereals = pd.read_csv(url)

[link text](https://)Si quiere conocer más formatos de entrada/salida como json, excel, hdf5, SQL, etc. Puede ir a la siguiente URL:

https://pandas.pydata.org/pandas-docs/stable/io.html

# Tarea Pandas

Cargar en dataframe datos provenientes de www.datos.gov.co

### Funciones para revisión de los datos
Lo primero que haremos es revisar las propiedades que tienen las columnas del DataFrame. Como el nombre de las columnas y sus tipos:

In [None]:
print("Columnas: ",df_cereals.columns.tolist())

Columnas:  ['name', 'mfr', 'type', 'calories', 'protein', 'fat', 'sodium', 'fiber', 'carbo', 'sugars', 'potass', 'vitamins', 'shelf', 'weight', 'cups', 'rating']


La función Info nos da un resumen del DataFrame y sus datos.

In [None]:
df_cereals.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 16 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   name      77 non-null     object 
 1   mfr       77 non-null     object 
 2   type      77 non-null     object 
 3   calories  77 non-null     int64  
 4   protein   77 non-null     int64  
 5   fat       77 non-null     int64  
 6   sodium    77 non-null     int64  
 7   fiber     77 non-null     float64
 8   carbo     77 non-null     float64
 9   sugars    77 non-null     int64  
 10  potass    77 non-null     int64  
 11  vitamins  77 non-null     int64  
 12  shelf     77 non-null     int64  
 13  weight    77 non-null     float64
 14  cups      77 non-null     float64
 15  rating    77 non-null     float64
dtypes: float64(5), int64(8), object(3)
memory usage: 9.8+ KB


La función dtypes sólo nos indica los tipo de datos de las columnas.

In [None]:
whos

In [None]:
df_cereals.dtypes

Se puede observar que Pandas es capaz de inferir el tipo de columna a partir de los datos. 

Para darle un vistazo inicial al DataFrame se puede utilizar la función head del DataFrame, que tiene como parámetro el número de filas que queremos observar, comenzando en orden por la primera.

In [None]:
df_cereals.tail(2)

La función describe nos entrega las estadísticas descriptivas que nos permite conocer la tendencia de los datos, dispersión, distribución, valores nulos y otros más.

In [None]:
df_cereals.describe(include='all')

Para una descripción rápida se puede utilizar la función describe.

## Indexación
En Pandas la indexación es similar a la que se tiene en Numpy. El resultado de obtener resultados por indexación es otro DataFrame correspondiente a ciertas filas del DataFrame original.

### Obtención de filas por índice
Un ejemplo es acceder a una fila por medio de la función iloc. En la siguiente celda se selecciona el cereal con índice 7.

In [None]:
info_cereal_7 = df_cereals.iloc[7]
print(info_cereal_7)

### Obtención de valores por columna
Para obtener toda la información de una columna, se puede acceder al DataFrame como un diccionario, en donde la llave es la columna a la que queremos acceder.

In [None]:
info_calories = df_cereals['calories']

Veamos que si usamos el acceso con un corchete cuadrado, nos retorna un objeto tipo series.

In [None]:
type(info_calories)

En cambio si usamos doble corchete, nos retorna un dataframe con la columna.

In [None]:
type(df_cereals[['calories']])

La información de columna se obtiene en el mismo orden que en el DataFrame original. Al imprimirlo, podemos ver en la primera columna el valor del índice y en la segunda el valor de la columna seleccionada.

In [None]:
print(info_calories[0:10])

Se pueden seleccionar más de una columna del DataFrame a la vez.

In [None]:
info_calories_sugar = df_cereals[['calories','sugars']]

In [None]:
info_calories_sugar[0:10]

### Obtención de valores usando condiciones
Con Pandas, se pueden seleccionar columnas cuyas características cumplan ciertas condiciones. Por ejemplo, los cereales con menos de 100 calorias. Para ello se hace la selección de la columna, se evalua la condición con esta y luego se selecciona del DataFrame el segmento que cumple la condición de la siguiente manera:

In [None]:
#Seleccion de columna: df_cereals['calories']
#Condicion sobre esa columna: df_cereals['calories'] < 100
#Seleccion de fragmento de dataframe que cumple la condicion:
    #df_cereals[df_cereals['calories'] < 100]
less_100_cal = df_cereals[df_cereals['calories'] > 100]

In [None]:
less_100_cal

Las condiciones se pueden mezclar usando operadores lógicos, por ejemplo cereales con menos de 100 calorias y sin grasa (valor 0 en fat).

In [None]:
condition_calories = df_cereals['calories'] < 100
condition_fat = df_cereals['fat'] == 0
less_100_cal_and_fat = df_cereals[condition_calories & condition_fat]
less_100_cal_and_fat

In [None]:
less_100_cal_and_fat.describe()

Teniendo en cuenta que el resultado de la indexación también es un DataFrame, se pueden hacer operaciones similares sobre el resultado, que en este caso tiene el identificador less_100_cal_and_fat.

In [None]:
less_100_cal_and_fat.head(5)

### Ejemplos de operaciones sobre DataFrames

Como se vio al usar la función describe, con el DataFrame se pueden hacer operaciones matemáticas, como hallar la media y desviación estándar. En este caso vamos a hallar la media de calificaciones de los cereales que tienen menos de 100 calorias y no tienen grasa. Al ser el rating una columna, la operación de media se calcula sobre esta columna. 

In [None]:
less_100_cal_and_fat

In [None]:
less_100_cal_and_fat['shelf'].mean()

La desviación estándar sobre el rating se puede calcular de la siguiente manera.

In [None]:
less_100_cal_and_fat['shelf'].std()

El máximo rating también se puede calcular.

In [None]:
max_rate = less_100_cal_and_fat['shelf'].max()
max_rate

Usando el máximo podemos mirar cual es el nombre del cereal con menos de 100 calorias y sin grasa. 

In [None]:
condition_max_rating = less_100_cal_and_fat['shelf'] == max_rate
best_cereal_less_100_no_fat = less_100_cal_and_fat[condition_max_rating]

In [None]:
best_cereal_less_100_no_fat

In [None]:
best_cereal_less_100_no_fat['name']

#Taller
Cargar datos a un dataframe provenientes de un archivo serparado por comas (CSV) y realicen las siguientes operaciones:

*   Obtengan la descripción de los datos (describe)
*   Crear 3 filtros sencillos y 3 compuestos sobre columnas



### Multi-Indices

Los dataframes pueden tener varios índices usando la funcionalidad de MultiIndex. Estos se pueden crear a partir de una lista de tuplas, con el método from_tuples, donde cada tupla contiene los nombres de cada columna o a partir de una combinación entre varias tuplas con el método from_product

In [None]:
columns = pd.MultiIndex.from_tuples([('A', 'positivo'), ('B', 'positivo'), 
                                     ('A', 'negativo'), ('B', 'negativo'), 
                                     ('O', 'positivo')], 
                                     names=['tipo', 'Rh'])

Ahora se crea el Indice

In [None]:
index = pd.MultiIndex.from_product([('menor', 'adulto'),('hombre', 'mujer')], 
                                   names=['edad', 'sexo'])
df = pd.DataFrame(np.random.randn(4,5), columns=columns, index=index)
df

Unnamed: 0_level_0,tipo,A,B,A,B,O
Unnamed: 0_level_1,Rh,positivo,positivo,negativo,negativo,positivo
edad,sexo,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
menor,hombre,-0.589622,-0.12328,-0.471884,-0.016605,-0.454834
menor,mujer,0.188211,-1.905659,-0.933478,0.483072,1.328929
adulto,hombre,1.024277,2.09136,-1.141036,-0.49178,2.071217
adulto,mujer,-0.116128,-0.434297,0.105213,1.153256,0.832976


Para obtener información de las columnas de otros niveles, se debe referir primero la columna de primer nivel y luego a las de los niveles siguientes, en órden jerárquico.

In [None]:
df['B', 'positivo']

edad    sexo  
menor   hombre   -0.123280
        mujer    -1.905659
adulto  hombre    2.091360
        mujer    -0.434297
Name: (B, positivo), dtype: float64

La función xs retorna la sección transversal de un DataFrame que usa multi-índices.
Por ejemplo, es útil cuando queremos filtrar todos los elementos de un determinado "Num" en el DataFrame anterior, independientemente de su Grupo.

In [None]:
# En este caso seleccionamos el Num=1
df.xs('hombre',level='sexo')

tipo,A,B,A,B,O
Rh,positivo,positivo,negativo,negativo,positivo
edad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
menor,-0.589622,-0.12328,-0.471884,-0.016605,-0.454834
adulto,1.024277,2.09136,-1.141036,-0.49178,2.071217


## Quiz

Tomando como base el siguiente arreglo de numpy, cree un dataframe con las columnas X, Y.

Y efectúe las siguientes operaciones.

a) Hallar la media de X y de  Y.

b) Hallar la deviación stándar de X y de Y .


Modifique la función calculate_stats para hallar los estadísticos requeridos.

In [None]:
def calculate_stats(df_x_y):  
  """
  Parámetros:
     df_x_y: dataframe con la columna X y Y
     
  Retorna:
    mean_x, std_x, mean_y, std_y: valores con la media y desviación estándar
    de 'x' y 'y' respectivamente
  """
  mean_x, std_x, mean_y, std_y = 0, 0, 0, 0
  #COLOQUE AQUI SU CÓDIGO

  return mean_x, std_x, mean_y, std_y


def test_calculate_stats(df_x_y):
  try:
    mean_x, std_x, mean_y, std_y = calculate_stats(df_x_y)
  except:
    raise Exception("Error en la función")
  #Validar la respuesta
  is_ok = True
  is_ok = abs(mean_x - 13) < 0.1 and abs(std_x - 17.4) < 0.1
  is_ok = abs(mean_y - 92.2) < 0.1 and abs(std_y - 161.3) < 0.1 and is_ok
  if not is_ok:
    raise Exception("'Hay un error, verifique el código'")
  return True

df_x_y = pd.DataFrame({'X':[4,8,3,44,6], 'Y':[6,2,376,72,5]})
test_calculate_stats(df_x_y)

Exception: ignored

In [None]:
df = pd.DataFrame({'X':[4,8,3,44,6],
                   'Y':[6,2,376,72,5]})
df.head()

Unnamed: 0,X,Y
0,4,6
1,8,2
2,3,376
3,44,72
4,6,5


In [None]:
# NO CORRA ESTA CELDA, AQUI COMPRUEBA SU CÓDIGO

In [None]:
#PRUEBE AQUI SU CÓDIGO
calculate_stats(df)

(0, 0, 0, 0)

In [None]:
#PRUEBE AQUI SU CÓDIGO
test_calculate_stats(df)

Exception: ignored

# 3. Manipulando Data Frames

## Combinando DataFrames

Hay 3 maneras de combinar DataFrames:
Concatenar (concat)
Fusionar (merge)
Unir (join)

![wget](https://drive.google.com/uc?export=view&id=1wmJo-FJnofniKEkF-3RRR-Mk9IVuc-Nx)

_____
** DataFrames de ejemplo **

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

In [None]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 

In [None]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']},
                        index=[8, 9, 10, 11])

In [None]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [None]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [None]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


### Concatenar (concat)

La concatenación básicamente pega DataFrames, uno después de otro. Hay que tener en cuenta que las dimensiones deben coincidir a lo largo del eje con el que se está concatenando. 

Puede usar **pd.concat** y pasar una lista de DataFrames para concatenarlos:

In [None]:
pd.concat([df1,df2,df3])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [None]:
pd.concat([df1,df2,df3],axis=1)    # axis=1 concatena a lo largo de las columnas, llenando las celdas desconocidas con NaN 

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


___

### Fusionar (merge)

La función **merge** permite fusionar DataFrames utilizando una lógica similar a la combinación de Tablas SQL. Por ejemplo:


In [None]:
izq = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
   
der = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})    

In [None]:
izq

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [None]:
der

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [None]:
pd.merge(izq, der, on='key')    

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


Otro ejemplo más completo:

In [None]:
izq = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})
    
der = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                               'key2': ['K0', 'K0', 'K0', 'K0'],
                                  'C': ['C0', 'C1', 'C2', 'C3'],
                                  'D': ['D0', 'D1', 'D2', 'D3']})

In [None]:
izq

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3


In [None]:
der

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3


In [None]:
pd.merge(izq, der, on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


#### Argumento 'how'

El método merge recibe el argumento 'how'. Éste especifica cómo determinar qué claves se incluirán en la tabla resultante. Si una combinación de dichas llaves no aparece en las tablas izquierda o derecha, los valores en la tabla fusionada serán NaN. 

Aquí hay un resumen de las opciones de 'how' y sus nombres equivalentes en SQL:

	PANDAS	SQL					DESCRIPCIÓN
	inner	INNER JOIN			Usa la intersection de las llaves de ambos dataframes * Por defecto
    left	LEFT OUTER JOIN		Sólo usa las llaves del dataframe izquierdo
	right	RIGHT OUTER JOIN	Sólo usa las llaves del dataframe derecho 
	outer	FULL OUTER JOIN		Usa la unión de las llaves de ambos dataframes

![](https://drive.google.com/uc?export=view&id=1k9cAel1FLYgou8ITAeqKE3vOIFBJydQB)

In [None]:
pd.merge(izq, der, how='outer', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,
5,K2,K0,,,C3,D3


In [None]:
pd.merge(izq, der, how='left', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,


In [None]:
pd.merge(izq, der, how='right', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2
3,K2,K0,,,C3,D3


In [None]:
pd.merge(izq, der, how='right', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2
3,K2,K0,,,C3,D3


### Unión (join)

El join es un método para combinar las columnas de dos DataFrames indexados de forma diferente en un solo DataFrame de resultados.

En vez de columnas como en el merge, en el join se utilizan los índices de los DataFrames para hacer la combinación.


In [None]:
izq = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2']) 

der = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

In [None]:
izq

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [None]:
der

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


In [None]:
izq.join(der)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


In [None]:
der.join(izq)

Unnamed: 0,C,D,A,B
K0,C0,D0,A0,B0
K2,C2,D2,A2,B2
K3,C3,D3,,


In [None]:
izq.join(der, how='outer')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


In [None]:
izq.join(der, how='inner')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K2,A2,B2,C2,D2


## Función Apply

In [None]:
df = pd.DataFrame(np.random.randn(4,5), columns=columns, index=index)
df

Unnamed: 0_level_0,tipo,A,B,A,B,O
Unnamed: 0_level_1,Rh,positivo,positivo,negativo,negativo,positivo
edad,sexo,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
menor,hombre,0.575693,1.982201,0.258404,1.514663,-0.273434
menor,mujer,-1.770301,-1.75334,0.118831,0.692399,-0.794504
adulto,hombre,-0.041619,-1.172345,0.258239,1.329812,0.31135
adulto,mujer,2.180578,1.164602,-1.425489,-2.054804,-0.07195


In [None]:
df['A'].sum()

Rh
positivo    0.944350
negativo   -0.790016
dtype: float64

In [None]:
def times2(x):
    return x*2

In [None]:
df['A']

Unnamed: 0_level_0,Rh,positivo,negativo
edad,sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
menor,hombre,0.575693,0.258404
menor,mujer,-1.770301,0.118831
adulto,hombre,-0.041619,0.258239
adulto,mujer,2.180578,-1.425489


In [None]:
df['A'].apply(times2)

Unnamed: 0_level_0,Rh,positivo,negativo
edad,sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
menor,hombre,1.151385,0.516807
menor,mujer,-3.540603,0.237661
adulto,hombre,-0.083238,0.516477
adulto,mujer,4.361156,-2.850977


In [None]:
df['B']

Unnamed: 0_level_0,Rh,positivo,negativo
edad,sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
menor,hombre,1.982201,1.514663
menor,mujer,-1.75334,0.692399
adulto,hombre,-1.172345,1.329812
adulto,mujer,1.164602,-2.054804


In [None]:
# Apply es muy útil y puede ser usado también con expresiones lambda

df['B'].apply(lambda x: x*0.19)


Unnamed: 0_level_0,Rh,positivo,negativo
edad,sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
menor,hombre,0.376618,0.287786
menor,mujer,-0.333135,0.131556
adulto,hombre,-0.222745,0.252664
adulto,mujer,0.221274,-0.390413


In [None]:
# También se puede usar con funciones predeterminadas como len
df['B'].apply(lambda x: x*2)

Unnamed: 0_level_0,Rh,positivo,negativo
edad,sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
menor,hombre,3.964401,3.029326
menor,mujer,-3.506681,1.384797
adulto,hombre,-2.344689,2.659623
adulto,mujer,2.329204,-4.109608


## Tablas Pivote

In [None]:
data = {'A':['foo','foo','foo','bar','bar','bar'],
     'B':['uno','uno','dos','dos','uno','uno'],
       'C':['categoria 1','categoria 1','categoria 1','categoria 2','categoria 1','categoria 2'],
       'D':[5,3,2,5,4,1]}

df = pd.DataFrame(data)

In [None]:
df

Unnamed: 0,A,B,C,D
0,foo,uno,categoria 1,5
1,foo,uno,categoria 1,3
2,foo,dos,categoria 1,2
3,bar,dos,categoria 2,5
4,bar,uno,categoria 1,4
5,bar,uno,categoria 2,1


In [None]:
df.pivot_table(values='D',index=['A', 'B'],columns=['C'])

Unnamed: 0_level_0,C,categoria 1,categoria 2
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,dos,,5.0
bar,uno,4.0,1.0
foo,dos,2.0,
foo,uno,4.0,


In [None]:
df.pivot_table?

Otro ejemplo:

In [None]:
df = pd.DataFrame({"A": ["foo", "foo", "foo", "foo", "foo",
                         "bar", "bar", "bar", "bar"],
                    "B": ["one", "one", "one", "two", "two",
                          "one", "one", "two", "two"],
                    "C": ["small", "large", "large", "small",
                          "small", "large", "small", "small",
                          "large"],
                    "D": [1, 2, 2, 3, 3, 4, 5, 6, 7]})
df

Unnamed: 0,A,B,C,D
0,foo,one,small,1
1,foo,one,large,2
2,foo,one,large,2
3,foo,two,small,3
4,foo,two,small,3
5,bar,one,large,4
6,bar,one,small,5
7,bar,two,small,6
8,bar,two,large,7


In [None]:
table = df.pivot_table(values='D', index=['A', 'B'],
                     columns=['C'], aggfunc=np.sum)
table

Unnamed: 0_level_0,C,large,small
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4.0,5.0
bar,two,7.0,6.0
foo,one,4.0,1.0
foo,two,,6.0


In [None]:
otro =df.stack()

## Agrupaciones y agregaciones: Groupby

El método groupby permite agrupar filas de datos basándose en el valor de una columna, y llamar a funciones de agregación sobre los datos: suma, conteo, promedio, ...

![](https://drive.google.com/uc?export=view&id=1dxdpTG6ZJovzaxzerMFLPIv8daDlfFvV)

In [None]:
import pandas as pd

# Datos para crear el dataframe
data = {'Empresa':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
       'Persona':['Ana','Carlos','Manuela','Vanessa','Camilo','Sara'],
       'Ventas':[200,120,340,124,243,350]}

In [None]:
df = pd.DataFrame(data)

In [None]:
df

Unnamed: 0,Empresa,Persona,Ventas
0,GOOG,Ana,200
1,GOOG,Carlos,120
2,MSFT,Manuela,340
3,MSFT,Vanessa,124
4,FB,Camilo,243
5,FB,Sara,350


**Ahora usaremos el método .groupby() para agrupar las filas basándose en los datos de una columna. Por ejemplo, el nombre de la compañía. Esto creará un objeto DataFrameGroupBy.**

In [None]:
df.groupby('Empresa')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fa18d349ad0>

Se puede guardar este objeto como una nueva variable:

In [None]:
by_empresa = df.groupby("Empresa")
by_empresa

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fa18d33d690>

In [None]:
df.groupby?

Y luego llamar funciones de agregación sobre este objeto. 
Las funciones de agregación tendrán efecto sobre las columnas que sea posible, es decir, si son funciones numéricas sólo tendrán efecto sobre los datos numéricos: 

In [None]:
by_empresa.mean()

Unnamed: 0_level_0,Ventas
Empresa,Unnamed: 1_level_1
FB,296.5
GOOG,160.0
MSFT,232.0


In [None]:
df.groupby('Empresa').mean()

Unnamed: 0_level_0,Ventas
Empresa,Unnamed: 1_level_1
FB,296.5
GOOG,160.0
MSFT,232.0


Más ejemplos de funciones de agregación:

In [None]:
by_empresa.std()

Unnamed: 0_level_0,Ventas
Empresa,Unnamed: 1_level_1
FB,75.660426
GOOG,56.568542
MSFT,152.735065


In [None]:
df

Unnamed: 0,Empresa,Persona,Ventas
0,GOOG,Ana,200
1,GOOG,Carlos,120
2,MSFT,Manuela,340
3,MSFT,Vanessa,124
4,FB,Camilo,243
5,FB,Sara,350


In [None]:
# En este caso la función min también tiene efecto sobre los datos textuales; se devuelve el menor valor de la cadena
# del nombre de las personas (ordenado lexicograficamente). Nótese que el valor de las ventas, no corresponde al de la persona, 
# sino al valor menor de ventas de la empresa. 

by_empresa.min()

Unnamed: 0_level_0,Persona,Ventas
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
FB,Camilo,243
GOOG,Ana,120
MSFT,Manuela,124


In [None]:
by_empresa.max()

Unnamed: 0_level_0,Persona,Ventas
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
FB,Sara,350
GOOG,Carlos,200
MSFT,Vanessa,340


In [None]:
by_empresa.count()

Unnamed: 0_level_0,Persona,Ventas
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
FB,2,2
GOOG,2,2
MSFT,2,2


In [None]:
by_empresa.sum()

Unnamed: 0_level_0,Ventas
Empresa,Unnamed: 1_level_1
FB,593
GOOG,320
MSFT,464


In [None]:
# Podemos acceder a un solo valor:

by_empresa.sum().loc['FB']

Ventas    593
Name: FB, dtype: int64

In [None]:
# Muchas veces no se crea un objeto groupby de forma explícita, sino que se utiliza directamente:

df.groupby('Empresa').sum().loc['FB']

Ventas    593
Name: FB, dtype: int64

In [None]:
# El metodo describe es útil para presentar mucha información acerca del dataframe:

by_empresa.describe()

Unnamed: 0_level_0,Ventas,Ventas,Ventas,Ventas,Ventas,Ventas,Ventas,Ventas
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Empresa,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
FB,2.0,296.5,75.660426,243.0,269.75,296.5,323.25,350.0
GOOG,2.0,160.0,56.568542,120.0,140.0,160.0,180.0,200.0
MSFT,2.0,232.0,152.735065,124.0,178.0,232.0,286.0,340.0


In [None]:
by_empresa.describe().transpose()

Unnamed: 0,Empresa,FB,GOOG,MSFT
Ventas,count,2.0,2.0,2.0
Ventas,mean,296.5,160.0,232.0
Ventas,std,75.660426,56.568542,152.735065
Ventas,min,243.0,120.0,124.0
Ventas,25%,269.75,140.0,178.0
Ventas,50%,296.5,160.0,232.0
Ventas,75%,323.25,180.0,286.0
Ventas,max,350.0,200.0,340.0


In [None]:
by_empresa.describe().transpose()['GOOG']

Ventas  count      2.000000
        mean     160.000000
        std       56.568542
        min      120.000000
        25%      140.000000
        50%      160.000000
        75%      180.000000
        max      200.000000
Name: GOOG, dtype: float64






## Quiz

Modifique la función return_highest_sodium para retornar el nombre del cereal con más alto contenido en sodio.

La función recibe como argumento el dataframe con los cereales y retorna el string con el nombre de cereal requerido.

In [None]:
df_cereals.head()

Unnamed: 0,name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
0,100% Bran,N,C,70,4,1,130,10.0,5.0,6,280,25,3,1.0,0.33,68.402973
1,100% Natural Bran,Q,C,120,3,5,15,2.0,8.0,8,135,0,3,1.0,1.0,33.983679
2,All-Bran,K,C,70,4,1,260,9.0,7.0,5,320,25,3,1.0,0.33,59.425505
3,All-Bran with Extra Fiber,K,C,50,4,0,140,14.0,8.0,0,330,25,3,1.0,0.5,93.704912
4,Almond Delight,R,C,110,2,2,200,1.0,14.0,8,-1,25,3,1.0,0.75,34.384843


In [None]:
def return_highest_sodium(df_cereals):  
  """
  Parámetros:
     df_cereals: dataframe con las variables de los cereales
     
  Retorna:
     most_sodium_cereal: string con el nombre del cereal con mayor contenido de sodio
     less_sodium_cereal: string con el nombre del cereal con menor contenido de sodio
  """
  most_sodium = ""
  less_sodium = ""
  #Ponga su código acá
  most_sodium1 = df_cereals.sort_values(by=['Sodium'])
  most_sodium = most_sodium1.iloc[0]['Cereal Name']
  less_sodium1 = df_cereals.sort_values(by=['Sodium'])
  less_sodium = less_sodium1.iloc[-1]['Cereal Name']
  return most_sodium, less_sodium


def test_highest_sodium(df_cereals):
  try:
    res = return_highest_sodium(df_cereals)
  except:
    raise Exception("Error en la función")
  #Validar la respuesta
  if res != ("Shredded_Wheat_'n'Bran", 'Product_19'):
    raise Exception("Ese no es el cereal, revisa el código")
  return True

In [None]:
#NO BORRAR ESTA LINEA
return_highest_sodium(df_cereals)

("Shredded_Wheat_'n'Bran", 'Product_19')

In [None]:
#NO BORRAR ESTA LINEA
test_highest_sodium(df_cereals)

True

In [None]:
#PRUEBE AQUI SU CÓDIGO
return_highest_sodium(df_cereals)

("Shredded_Wheat_'n'Bran", 'Product_19')

In [None]:
#PRUEBE AQUI SU CÓDIGO
test_highest_sodium(df_cereals)

True

In [None]:
df_cereals.sort_values?

In [None]:
import pandas as pd
import pandas_datareader.data as web

players = pd.read_html('http://www.usatoday.com/sports/mlb/salaries/2013/player/p/')


df1 = pd.DataFrame(players[0])


df1.drop(df1.columns[[0,3,4, 5, 6]], axis=1, inplace=True)
df1.columns = ['Player', 'Team', 'Avg_Annual']



In [None]:
df1['Avg_Annual'] = df1['Avg_Annual'].replace(',', '')

print (df1.head(10))

             Player Team   Avg_Annual
0         Cliff Lee  PHI  $24,000,000
1     Johan Santana  NYM  $22,916,667
2       CC Sabathia  NYY  $24,400,000
3      Tim Lincecum   SF  $20,250,000
4      Zack Greinke  LAD  $24,500,000
5       Cole Hamels  PHI  $24,000,000
6  Justin Verlander  DET  $25,714,286
7        Barry Zito   SF  $18,000,000
8      Roy Halladay  PHI  $20,000,000
9   Felix Hernandez  SEA  $25,000,000


In [None]:
df1['Avg_Annual'] = df1['Avg_Annual'].str.replace(',', '')
df1['Avg_Annual'] = df1['Avg_Annual'].str.replace('$', '')
df1['Avg_Annual'] = df1['Avg_Annual'].astype(int)

In [None]:
df1['Avg_Annual']

0      24000000
1      22916667
2      24400000
3      20250000
4      24500000
5      24000000
6      25714286
7      18000000
8      20000000
9      25000000
10     16500000
11     17000000
12     14500000
13     30714286
14     16500000
15     17000000
16     13000000
17     15000000
18      9750000
19     13250000
20     13000000
21     13000000
22     12500000
23     11333333
24     13000000
25     12000000
26     12000000
27     10500000
28     14000000
29      6000000
         ...   
301      495000
302      494925
303      494500
304      493600
305      493400
306      493000
307      493000
308      492500
309      492500
310      492000
311      492000
312      491500
313      491400
314      491250
315      491000
316      491000
317      491000
318      491000
319      491000
320      490000
321      490000
322      490000
323      490000
324      490000
325      490000
326      490000
327      490000
328      490000
329      490000
330     6000000
Name: Avg_Annual, Length