# Python para el análisis de datos -  UNAV 2020-2021
---

# Notebook 6: Pandas, índices y métodos

## Índice  <a name="indice"></a>

- [Índices](#pandas_indices)
  - [Indexar con *.loc[]* y *iloc[]*](#indexar_loc_iloc)
  - [Renombrar etiquetas de índices y columnas](#renombrar_etiquetas)
- [Métodos avanzados](#pandas_metodos_avanzados)
  - [Métodos *.apply()* y *.map()*](#metodos_apply_map)
  - [Método *.copy()*](#metodo_copy)
  - [Método *.groupby()*](#metodo_groupby)
  - [Método *.agg()*](#metodo_agg)
  
- [Multi-índices](#pandas_multiindices)
  - [Método *.set_index()*](#pandas_multiindices_set_index)
  - [Método *.get_level_values()*](#pandas_multiindices_get_level_values)
  - [Método *.set_names()*](#pandas_multiindices_set_names)
  - [Indexar con *.loc()*](#pandas_multiindices_loc)
  
- [Ejercicios](#ejercicios)

## Índices<a name="pandas_indices"></a> 
[Volver al índice](#indice)

En la primera sección de esta sesión nos vamos a centrar en diferentes métodos para indexar _DataFrames_. Para mostrar estos métodos vamos a emplear el dataset de películas de James Bond, que contiene la siguiente información:

- Film: nombre de la película.
- Year: año.
- Actor: actor protagonista.
- Director: director de la película.
- Box Office: recaudación en millones de dólares.
- Budget: presupuesto en millones de dólares.
- Bond Actor Salary: salario del actor en millones de dólares.

In [14]:
import pandas as pd
import numpy as np

df_bond = pd.read_csv("S6_datos/jamesbond.csv")
df_bond.head()

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
4,Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


### Métodos *.set_index()* y *.reset_index()*

Por defecto el índice que se nos crea en un _DataFrame_ es numérico y va desde $0$ hasta $n-1$ filas. Podemos cambiar esto y poner nuestro propio índice utilizando el método *.set_index()*. El parámetro *inplace=True* realiza los cambios en el mismo _DataFrame_, y es equivalente a reasignar el resultado de *.set_index()* a la variable *df_bond*.

In [15]:
df_bond.set_index("Film", inplace=True)
df_bond.head()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


Podemos observar que nuestro índice ahora es la columna Film. Si queremos volver al estado anterior de nuestro _DataFrame_ podemos resetear el índice con el método *.reset_index()*.

In [16]:
df_bond.reset_index(drop=False).head()

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
4,Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


El parámetro *drop* le indica al método que el índice que se resetea, debe ser incluido de nuevo en el _DataFrame_. Por defecto *drop=False*.

In [17]:
df_bond.sort_values('Budget', ascending=False).reset_index(drop=True).head()

Unnamed: 0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,2015,Daniel Craig,Sam Mendes,726.7,206.3,
1,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
2,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
3,1999,Pierce Brosnan,Michael Apted,439.5,158.3,13.5
4,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9


In [25]:
df_bond.reset_index(drop=False, inplace=False)
df_bond.head()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


Podemos realizar el cambio de un índice a otro:

In [None]:
df_bond.set_index("Film", inplace=True)
df_bond.head()

Es muy importante resetear el índice antes de volver realizar un *._set_index()* de otro índice.

In [None]:
df_bond.reset_index(inplace=True)
df_bond.set_index("Year", inplace=True)
df_bond.head()

### Indexar con *.loc[]* y *iloc[]*<a name="indexar_loc_iloc"></a> 
[Volver al índice](#indice)

#### Indexar con *.loc[]* a través de etiqueta

Cargamos de nuevo el dataset indicando a pandas que utilice la columan "Film" como índice.

In [26]:
df_bond = pd.read_csv("S6_datos/jamesbond.csv", index_col="Film")

df_bond.sort_index(inplace=True)
df_bond.head()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9


Podemos preguntar si un elemento está en el índice de forma análoga a como lo hacíamos con las listas:

In [27]:
'Goldfinger' in df_bond.index

True

Podemos realizar un acceso a las filas del _DataFrame_ a través del índice, usando el indexador *_loc_*. Por ejemplo, esto nos va a permitir extraer información correspondiente a una película. El resultado de la extracción es un objeto _Series_, cuyos índices son los nombres de las columnas del _DataFrame_.

In [29]:
s_bond_goldfinger = df_bond.loc["Goldfinger"]  #si quieres buscar algo por índice usas loc

print(type(s_bond_goldfinger))
s_bond_goldfinger

<class 'pandas.core.series.Series'>


Year                         1964
Actor                Sean Connery
Director             Guy Hamilton
Box Office                  820.4
Budget                       18.6
Bond Actor Salary             3.2
Name: Goldfinger, dtype: object

También podemos realizar el acceso a esos elementos como hacíamos en el apartado de _Series_:

In [32]:
df_bond.loc["Goldfinger"]["Year"], df_bond.loc["Goldfinger"]["Budget"]

(1964, 18.6)

In [34]:
df_bond.loc["Goldfinger"][["Year", "Budget"]]

Year      1964
Budget    18.6
Name: Goldfinger, dtype: object

Podemos extraer dos o más filas, incluso un rango de filas. En este caso, cuando el resultado es mayor de una fila, el objeto devuelto es un _DataFrame_ con la información a la que accedemos.

In [37]:
df_bond_films = df_bond.loc[["Octopussy", "Moonraker", "Casino Royale"]]  #accediendo por índice

print(type(df_bond_films))
df_bond_films

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Octopussy,1983,Roger Moore,John Glen,373.8,53.9,7.8
Moonraker,1979,Roger Moore,Lewis Gilbert,535.0,91.5,
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


In [38]:
df_bond.loc[:"Dr. No"]

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6


**¡Cuidado! Porque esto último funciona bien porque tenemos el _DataFrame_ ordenado alfabéticamente, si no lo estuviese el comportamiento puede ser inesperado.**

#### Indexar con *.iloc[]* a través de posición

In [39]:
df_bond = pd.read_csv("S6_datos/jamesbond.csv")
df_bond.head()

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
4,Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


De forma similar al acceso a través del índice, podemos acceder a un número de fila utilizando de *._iloc_[]*. De nuevo al acceder a una fila obtenemos un objeto _Series_.

In [45]:
print(type(df_bond.iloc[0]))
df_bond.iloc[0]

<class 'pandas.core.series.Series'>


Film                        Dr. No
Year                          1962
Actor                 Sean Connery
Director             Terence Young
Box Office                   448.8
Budget                           7
Bond Actor Salary              0.6
Name: 0, dtype: object

In [46]:
df_bond.iloc[-5:]  # coges las últimas 5 películas

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
22,Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
24,Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
25,Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


El indexado funciona de forma análoga a una lista y podemos hacer _slicing_ y obtener rangos de datos.

In [47]:
df_bond.iloc[10:15]

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
10,The Spy Who Loved Me,1977,Roger Moore,Lewis Gilbert,533.0,45.1,
11,Moonraker,1979,Roger Moore,Lewis Gilbert,535.0,91.5,
12,For Your Eyes Only,1981,Roger Moore,John Glen,449.4,60.2,
13,Never Say Never Again,1983,Sean Connery,Irvin Kershner,380.0,86.0,
14,Octopussy,1983,Roger Moore,John Glen,373.8,53.9,7.8


In [48]:
df_bond.iloc[-5:]

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
22,Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
24,Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
25,Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


¿Cuándo usar _loc_ o _iloc_? Las reglas básicas son:
* _.loc[]_ para indexado con etiqueta de índice.
* _.iloc[]_ para para indexado por posición de fila.

Estos métodos se pueden utilizar para acceder específicamente a una fila y una columna a la vez. Podemos imaginar que estamos accediendo a una celda de Excel (o un rango de celdas).

In [49]:
df_bond.set_index('Film', inplace=True)
df_bond.head()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


Para acceder al año y actor de una película:

In [50]:
df_bond.loc['Dr. No', ['Year', 'Actor']]

Year             1962
Actor    Sean Connery
Name: Dr. No, dtype: object

In [51]:
df_bond.iloc[0, :2]

Year             1962
Actor    Sean Connery
Name: Dr. No, dtype: object

Acceder a las películas 10 y 11, y las columnas (Director, Box Office, Budget):

In [None]:
df_bond.iloc[10:12, 2:5]

También podemos modificar elementos de nuestro _DataFrame_ mediante el operador de asignación.

In [58]:
df_bond.loc['A View to a Kill', 'Director'] = 'Juan Fernandez'
print(df_bond.loc['A View to a Kill'])  # te devuelve una serie 
df_bond[df_bond.index == 'A View to a Kill']  #te devuelve un dataset

Year                           1985
Actor                   Roger Moore
Director             Juan Fernandez
Box Office                    275.2
Budget                         54.5
Bond Actor Salary               9.1
Name: A View to a Kill, dtype: object


Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,Juan Fernandez,275.2,54.5,9.1


In [59]:
df_bond.iloc[1, 4] = 350
df_bond.head()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,350.0,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


Se pueden realizar varios cambios a la vez:

In [63]:
df_bond.loc["Dr. No", ["Box Office", "Budget", "Bond Actor Salary"]] = [448800000, 7000000, 600000]
df_bond.head()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dr. No,1962,Sean Connery,Terence Young,448800000.0,7000000.0,600000.0
From Russia with Love,1963,Sean Connery,Terence Young,543.8,350.0,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


Podemos realizar cambios a varias celdas a la vez utilizando el indexado booleano. Por ejemplo, vamos a actualizar el título nobiliario a Sean Connery:

In [65]:
df_bond = pd.read_csv("S6_datos/jamesbond.csv")


mask = df_bond["Actor"] == "Sean Connery"
df_bond.loc[mask, "Actor"] = "Sir Sean Connery"

df_bond.loc[mask]

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sir Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sir Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sir Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sir Sean Connery,Terence Young,848.1,41.9,4.7
5,You Only Live Twice,1967,Sir Sean Connery,Lewis Gilbert,514.2,59.9,4.4
7,Diamonds Are Forever,1971,Sir Sean Connery,Guy Hamilton,442.5,34.7,5.8
13,Never Say Never Again,1983,Sir Sean Connery,Irvin Kershner,380.0,86.0,


**¡Cuidado! Esto modifica el _DataFrame_, no devuelve una copia. Al indexar con _.loc[]_ no se devuelve un nuevo _Dataframe_, por el contrario, cuando realizamos _slicing_ sí devuelve una copia.**

In [None]:
df_bond[df_bond['Actor'] == 'Sir Sean Connery']

### Renombrar etiquetas de índices y columnas<a name="renombrar_etiquetas"></a> 
[Volver al índice](#indice)

In [66]:
df_bond = pd.read_csv("S6_datos/jamesbond.csv", index_col="Film")

df_bond.sort_index(inplace=True)
df_bond.head()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9


Podemos renombrar de forma sencilla una columna usando el metodo _.rename()_:

In [67]:
df_bond.rename(columns={"Year" : "Release Date", "Box Office" : "Revenue"}, inplace=True)
df_bond.head()

Unnamed: 0_level_0,Release Date,Actor,Director,Revenue,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9


In [69]:
df_bond.rename(index={"Dr. No" : "Doctor No", 
                      "GoldenEye" : "Golden Eye",
                      "The World Is Not Enough" : "Best Bond Movie Ever"},
               inplace=True)

df_bond

Unnamed: 0_level_0,Release Date,Actor,Director,Revenue,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
Doctor No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
For Your Eyes Only,1981,Roger Moore,John Glen,449.4,60.2,
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Golden Eye,1995,Pierce Brosnan,Martin Campbell,518.5,76.9,5.1
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2


El atributo *.columns* devuelve las columnas del _DataFrame_. Estas columnas pueden renombrarse:

In [70]:
df_bond.columns

Index(['Release Date', 'Actor', 'Director', 'Revenue', 'Budget',
       'Bond Actor Salary'],
      dtype='object')

In [71]:
df_bond.columns = ["Year of Release", "Director", "Gross Revenue", "Cost", "Actor", "Salary"]
df_bond.head()

Unnamed: 0_level_0,Year of Release,Director,Gross Revenue,Cost,Actor,Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9


## Métodos avanzados<a name="pandas_metodos_avanzados"></a> 
[Volver al índice](#indice)

### Métodos *.apply()* y *.map()*<a name="metodos_apply_map"></a> 
[Volver al índice](#indice)

In [73]:
df_bond = pd.read_csv("S6_datos/jamesbond.csv", index_col="Film")

df_bond.sort_index(inplace=True)
df_bond.head()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9


Como vimos en los objetos _Series_, podemos utilizar el metodo _.map()_ para  mapear una función. Esto en _DataFrame_ podemos aprovecharlo y crear una nueva columna. Similar a la función *map()*, ésta nos permite utilizar funciones lambda o funciones definidas.

In [74]:
df_bond['above_5M'] = df_bond['Bond Actor Salary'].map(lambda x: True if x > 5 else False)
df_bond.head()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary,above_5M
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1,True
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3,False
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,,False
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8,True
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9,True


Para _DataFrames_ existe un método llamado _.apply()_ que nos va a permitir actuar a nivel de fila. El concepto es similar a _.map()_ solo que ahora podemos acceder a todos los registros de la fila.

In [80]:
def film_review(row):
    actor = row['Actor']
    budget = row['Budget']
    
    if actor == "Pierce Brosnan":
        return "Cool!"
    elif actor == "Roger Moore" and budget > 40:
        return "Okish"
    else:
        return "No idea"

In [81]:
df_bond["film_review"] = df_bond.apply(film_review, axis="columns")

In [82]:
df_bond.head()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary,above_5M,film_review
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1,True,Okish
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3,False,No idea
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,,False,No idea
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8,True,No idea
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9,True,Cool!


Con este nuevo método hemos aumentado la versatilidad significativamente. La regla general sería:
- _.map()_ para aplicar una función en una columna.
- _.apply()_ para aplicar una función en una fila.


*.apply()* también se puede aplicar en columnas, aunque *.map()* es generalmente más rápido.

### Método *.copy()*<a name="metodo_copy"></a> 
[Volver al índice](#indice)

In [83]:
df_bond = pd.read_csv("S6_datos/jamesbond.csv", index_col="Film")

df_bond.sort_index(inplace=True)
df_bond.head()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9


Como hemos visto en muchas ocasiones, para hacer un uso de memoria eficiente, Python no copia los valores del _DataFrame_, sino que produce una referencia al mismo. En ocasiones nos puede interesar realizar una copia del _DataFrame_, esto se hace con el método _.copy()_.

In [84]:
df_bond_copied = df_bond.copy()

Ahora si modificamos algo, sólo se ve afectado uno de los _DataFrame_.

In [85]:
df_bond.loc[df_bond['Actor'] == 'Roger Moore', 'Actor'] = 'Jeremy Irons'
df_bond.head()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Jeremy Irons,John Glen,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9


In [87]:
df_bond_copied.head()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9


### Método *.groupby()*<a name="metodo_groupby"></a> 
[Volver al índice](#indice)

Pandas radica en su sencillez a la hora de dividir, aplicar funciones y combinar de nuevo. Esto se conoce como la metodología _split-apply-combine_. Vamos a estudiar cómo aplicar todo esto con un _DataFrame_ de empresas americanas. El dataset es:

- Rank: posición de la compañía en la lista Fortune 1000.
- Company: nombre de la compañía.
- Sector: sector de la compañía.
- Industry: industria de la compañía.
- Location: ciudad donde se localizan los HQ.
- Revenue: ingresos en millones de dólares.
- Profits: beneficios en millones de dólares.
- Empleados: número de empleados.

In [88]:
df_fortune = pd.read_csv("S6_datos/fortune1000.csv", index_col="Rank")

df_fortune.head()

Unnamed: 0_level_0,Company,Sector,Industry,Location,Revenue,Profits,Employees
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,Walmart,Retailing,General Merchandisers,"Bentonville, AR",482130,14694,2300000
2,Exxon Mobil,Energy,Petroleum Refining,"Irving, TX",246204,16150,75600
3,Apple,Technology,"Computers, Office Equipment","Cupertino, CA",233715,53394,110000
4,Berkshire Hathaway,Financials,Insurance: Property and Casualty (Stock),"Omaha, NE",210821,24083,331000
5,McKesson,Health Care,Wholesalers: Health Care,"San Francisco, CA",181241,1476,70400


In [89]:
df_fortune.shape

(1000, 7)

Agrupamos por sectores y obtenemos un objeto *groupby*:

In [91]:
sectors = df_fortune.groupby("Sector")

type(sectors)

pandas.core.groupby.generic.DataFrameGroupBy

Ahora de una forma muy sencilla se pueden aplicar funciones de cálculo a cada uno de los grupos.

In [100]:
sectors.sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Revenue,Profits,Employees
Sector,Industry,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Aerospace & Defense,Aerospace and Defense,357940,28742,968057
Apparel,Apparel,95968,8236,346397
Business Services,"Advertising, marketing",22748,1549,124100
Business Services,Diversified Outsourcing Services,64829,4305,708330
Business Services,Education,7485,69,46755
...,...,...,...,...
Transportation,"Trucking, Truck Leasing",35950,1910,170456
Wholesalers,Miscellaneous,8982,17,9200
Wholesalers,Wholesalers: Diversified,176138,5193,233831
Wholesalers,Wholesalers: Electronics and Office Equipment,147906,1857,166661


Se aplica la función _.sum()_ a cada uno de los grupos para todas las columnas numéricas, por eso obtenemos las tres de arriba.

In [93]:
sectors["Revenue"].sum().head()

Sector
Aerospace & Defense     357940
Apparel                  95968
Business Services       272195
Chemicals               243897
Energy                 1517809
Name: Revenue, dtype: int64

In [102]:
sectors.describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,Revenue,Revenue,Revenue,Revenue,Revenue,Revenue,Revenue,Revenue,Profits,Profits,Profits,Profits,Profits,Employees,Employees,Employees,Employees,Employees,Employees,Employees,Employees
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
Sector,Industry,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2
Aerospace & Defense,Aerospace and Defense,20.0,17897.000000,24468.237017,1923.0,2724.25,6832.0,23316.75,96114.0,20.0,1437.100000,...,2011.00,7608.0,20.0,48402.850000,55389.486777,6955.0,11672.75,24803.0,62000.0,197200.0
Apparel,Apparel,15.0,6397.866667,7254.770616,2204.0,2853.00,3963.0,6676.00,30601.0,15.0,549.066667,...,500.50,3273.0,15.0,23093.133333,21833.228179,5978.0,9259.50,13500.0,23100.0,65300.0
Business Services,"Advertising, marketing",2.0,11374.000000,5317.442995,7614.0,9494.00,11374.0,13254.00,15134.0,2.0,774.500000,...,934.25,1094.0,2.0,62050.000000,18172.644276,49200.0,55625.00,62050.0,68475.0,74900.0
Business Services,Diversified Outsourcing Services,14.0,4630.642857,3638.904244,2383.0,2679.25,3037.0,4292.25,14329.0,14.0,307.500000,...,362.75,1453.0,14.0,50595.000000,62874.973956,2400.0,13000.00,18550.0,58675.0,216500.0
Business Services,Education,3.0,2495.000000,543.397644,1910.0,2250.50,2591.0,2787.50,2984.0,3.0,23.000000,...,85.00,140.0,3.0,15585.000000,6768.620613,11585.0,11677.50,11770.0,17585.0,23400.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Transportation,"Trucking, Truck Leasing",9.0,3994.444444,1578.372984,2094.0,2972.00,3321.0,4832.00,6572.0,9.0,212.222222,...,305.00,427.0,9.0,18939.555556,9848.942216,1223.0,13000.00,18415.0,21562.0,33100.0
Wholesalers,Miscellaneous,1.0,8982.000000,,8982.0,8982.00,8982.0,8982.00,8982.0,1.0,17.000000,...,17.00,17.0,1.0,9200.000000,,9200.0,9200.00,9200.0,9200.0,9200.0
Wholesalers,Wholesalers: Diversified,25.0,7045.520000,6221.769671,1917.0,3010.00,5305.0,8718.00,30380.0,25.0,207.720000,...,215.00,1472.0,25.0,9353.240000,9672.691461,500.0,3366.00,5839.0,9300.0,39600.0
Wholesalers,Wholesalers: Electronics and Office Equipment,8.0,18488.250000,14042.640286,3219.0,5370.50,18310.0,26766.25,43026.0,8.0,232.125000,...,324.00,572.0,8.0,20832.625000,24820.478313,2000.0,6240.25,13750.0,21025.0,78500.0


Si queremos saber cuáles son los 5 que tienen la media mas alta, podemos simplemente ordenar el _DataFrame_ y sacar el resultado.

In [97]:
sectors['Revenue'].sum().sort_values(ascending=False).head()

Sector      Industry                                
Energy      Petroleum Refining                          705472
Retailing   General Merchandisers                       684320
Financials  Commercial Banks                            623669
            Insurance: Property and Casualty (Stock)    548027
Retailing   Specialty Retailers: Other                  543958
Name: Revenue, dtype: int64

Las funciones _.head()_ y _.tail()_ son interesantes de aplicar, porque nos permiten acceder a los primeros/últimos $n$ registros de cada grupo. Si ordenamos el _DataFrame_ por ingresos y luego aplicamos una de estas funciones, después de agrupar podemos obtener, de forma sencilla, las empresas de cada sector que más ingresos tienen.

In [103]:
sectors = df_fortune.sort_values('Revenue', ascending=False).groupby("Sector")
sectors.head(1).sort_values("Sector")

Unnamed: 0_level_0,Company,Sector,Industry,Location,Revenue,Profits,Employees
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
24,Boeing,Aerospace & Defense,Aerospace and Defense,"Chicago, IL",96114,5176,161400
91,Nike,Apparel,Apparel,"Beaverton, OR",30601,3273,62600
144,ManpowerGroup,Business Services,Temporary Help,"Milwaukee, WI",19330,419,27000
56,Dow Chemical,Chemicals,Chemicals,"Midland, MI",48778,7685,49495
2,Exxon Mobil,Energy,Petroleum Refining,"Irving, TX",246204,16150,75600
155,Fluor,Engineering & Construction,"Engineering, Construction","Irving, TX",18114,413,38758
4,Berkshire Hathaway,Financials,Insurance: Property and Casualty (Stock),"Omaha, NE",210821,24083,331000
7,CVS Health,Food and Drug Stores,Food and Drug Stores,"Woonsocket, RI",153290,5237,199000
41,Archer Daniels Midland,"Food, Beverages & Tobacco",Food Production,"Chicago, IL",67702,1849,32300
5,McKesson,Health Care,Wholesalers: Health Care,"San Francisco, CA",181241,1476,70400


Podemos agrupar por más de un campo y realizar los cálculos de la misma forma.

In [104]:
sectors = df_fortune.groupby(['Sector','Industry'])
sectors.median()

Unnamed: 0_level_0,Unnamed: 1_level_0,Revenue,Profits,Employees
Sector,Industry,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Aerospace & Defense,Aerospace and Defense,6832.0,566.5,24803.0
Apparel,Apparel,3963.0,233.0,13500.0
Business Services,"Advertising, marketing",11374.0,774.5,62050.0
Business Services,Diversified Outsourcing Services,3037.0,202.5,18550.0
Business Services,Education,2591.0,30.0,11770.0
...,...,...,...,...
Transportation,"Trucking, Truck Leasing",3321.0,198.0,18415.0
Wholesalers,Miscellaneous,8982.0,17.0,9200.0
Wholesalers,Wholesalers: Diversified,5305.0,128.0,5839.0
Wholesalers,Wholesalers: Electronics and Office Equipment,18310.0,212.0,13750.0


Si uno quiere transformar el objeto _groupby_ en un _DataFrame_, es tan sencillo como resetear el índice y ya tenemos un _DataFrame_ con nuestros cálculos.

In [None]:
sectors.median().reset_index()

### Método *.agg()*<a name="metodo_agg"></a> 
[Volver al índice](#indice)

In [105]:
df_fortune = pd.read_csv("S6_datos/fortune1000.csv", index_col="Rank")

sectors = df_fortune.groupby("Sector")
df_fortune.head()

Unnamed: 0_level_0,Company,Sector,Industry,Location,Revenue,Profits,Employees
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,Walmart,Retailing,General Merchandisers,"Bentonville, AR",482130,14694,2300000
2,Exxon Mobil,Energy,Petroleum Refining,"Irving, TX",246204,16150,75600
3,Apple,Technology,"Computers, Office Equipment","Cupertino, CA",233715,53394,110000
4,Berkshire Hathaway,Financials,Insurance: Property and Casualty (Stock),"Omaha, NE",210821,24083,331000
5,McKesson,Health Care,Wholesalers: Health Care,"San Francisco, CA",181241,1476,70400


El método *.agg()* nos va a permitir aplicar varios cálculos sobre diferentes columnas:

In [106]:
sectors.agg({"Revenue" : ["sum", "mean"],
             "Profits" : "sum",
             "Employees" : "mean"})

Unnamed: 0_level_0,Revenue,Revenue,Profits,Employees
Unnamed: 0_level_1,sum,mean,sum,mean
Sector,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Aerospace & Defense,357940,17897.0,28742,48402.85
Apparel,95968,6397.866667,8236,23093.133333
Business Services,272195,5337.156863,28227,26687.254902
Chemicals,243897,8129.9,22628,15455.033333
Energy,1517809,12441.057377,-73447,9745.303279
Engineering & Construction,153983,5922.423077,5304,15642.615385
Financials,2217159,15950.784173,260209,24172.28777
Food and Drug Stores,483769,32251.266667,16759,93026.533333
"Food, Beverages & Tobacco",555967,12929.465116,51417,28177.488372
Health Care,1614707,21529.426667,106114,35710.52


Podemos aplicar _.apply()_ para los grupos. Si queremos calcular cuales son las empresas de cada sector que más profit generan. Usando _.groupby()_ podemos definir una función que llamaremos _ranker()_. Esta función etiqueta cada fila de $1$ a $n$, donde $n$ es el número de empresas en cada sector. Después, llamamos a _.apply()_ para aplicar la función a cada grupo (en este caso cada sector). 

In [107]:
def ranker(df):
    """Asigna una posición en el ranking a cada empresa según 
    su profit siendo 1 la que mas profit genera.
    Asume que los datos estan ordenados de forma descendente."""
    
    df['sector_profit_rank'] = np.arange(1, len(df) + 1)
    return df

In [109]:
df_fortune = pd.read_csv("S6_datos/fortune1000.csv")

df_fortune = df_fortune.sort_values('Profits', ascending=False)
df_fortune.head()

Unnamed: 0,Rank,Company,Sector,Industry,Location,Revenue,Profits,Employees
2,3,Apple,Technology,"Computers, Office Equipment","Cupertino, CA",233715,53394,110000
22,23,J.P. Morgan Chase,Financials,Commercial Banks,"New York, NY",101006,24442,234598
3,4,Berkshire Hathaway,Financials,Insurance: Property and Casualty (Stock),"Omaha, NE",210821,24083,331000
26,27,Wells Fargo,Financials,Commercial Banks,"San Francisco, CA",90033,22894,264700
85,86,Gilead Sciences,Health Care,Pharmaceuticals,"Foster City, CA",32639,18108,8000


In [None]:
df_fortune = df_fortune.groupby('Sector').apply(ranker)
df_fortune[df_fortune['sector_profit_rank'] == 1].head()

## Multi-índices<a name="pandas_multiindices"></a> 
[Volver al índice](#indice)

Los multi-índices nos permiten añadir más de un índice a nuestros _DataFrames_, esto nos sirve para categorizar los _DataFrames_ de mejor forma, ya sea, a través de más índices, o mediante más capas o layers.

Para ver el uso de multi-índices, cargamos un fichero que contiene el precio de la hamburguesa BigMac en varios países:

In [322]:
df_bigmac = pd.read_csv("S6_datos/bigmac.csv")

df_bigmac.sort_values('Price in US Dollars').head()

Unnamed: 0,Date,Country,Price in US Dollars
42,1/2016,Venezuela,0.66
98,7/2015,Venezuela,0.67
151,1/2015,Ukraine,1.2
139,1/2015,Russia,1.36
297,7/2013,India,1.5


In [323]:
df_bigmac.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 652 entries, 0 to 651
Data columns (total 3 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Date                 652 non-null    object 
 1   Country              652 non-null    object 
 2   Price in US Dollars  652 non-null    float64
dtypes: float64(1), object(2)
memory usage: 15.4+ KB


Especificamos a Pandas que trate la columna "Date" como fecha, convertiéndola a tipo *datetime*:

In [324]:
df_bigmac = pd.read_csv("S6_datos/bigmac.csv", parse_dates=["Date"])
df_bigmac.head()

Unnamed: 0,Date,Country,Price in US Dollars
0,2016-01-01,Argentina,2.39
1,2016-01-01,Australia,3.74
2,2016-01-01,Brazil,3.35
3,2016-01-01,Britain,4.22
4,2016-01-01,Canada,4.14


In [None]:
df_bigmac.info()

### Método *.set_index()*<a name="pandas_multiindices_set_index"></a> 
[Volver al índice](#indice)

Ya hemos utilizado *.set_index()* antes para crear un nuevo índice sobre un _DataFrame_, en este caso, lo vamos a hacer para crear uno múltiple, pero primero repasamos como funcionaba con un único parámetro:

In [None]:
df_bigmac_dates = df_bigmac.set_index(keys=["Date"])
df_bigmac_dates.head()

In [None]:
df_bigmac_dates.loc['2016-01-01', 'Price in US Dollars'].mean()

Podemos ver que la columna "Date" se convierte en índice, porque se mueve a la izquierda y está en negrita. Vamos a crear un multiIndex con las columnas "Date" y "Country":

In [325]:
df_bigmac = pd.read_csv("S6_datos/bigmac.csv", parse_dates=["Date"])

df_bigmac.set_index(keys=["Date", "Country"], inplace=True)
df_bigmac.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Price in US Dollars
Date,Country,Unnamed: 2_level_1
2016-01-01,Argentina,2.39
2016-01-01,Australia,3.74
2016-01-01,Brazil,3.35
2016-01-01,Britain,4.22
2016-01-01,Canada,4.14


In [None]:
df_bigmac.loc[('2016-01-01','Argentina')]

In [None]:
df_bigmac.sort_index(ascending=[True, False], inplace=True)
df_bigmac.head()

Vamos a ver qué pasa si intentamos ordenar los índices. Usamos la función *.sort_index()*:

In [None]:
df_bigmac.sort_index(inplace=True)
df_bigmac.head()

Como vemos se ordenan de forma ascendente los dos valores, "Date" y "Country". Veamos como obtener información de los índices.

In [None]:
df_bigmac.index[:5]

In [None]:
df_bigmac.index.names

In [None]:
type(df_bigmac.index)

### Método *.get_level_values()*<a name="pandas_multiindices_get_level_values"></a> 
[Volver al índice](#indice)

Este método nos permite obtener los valores para un índice o layer en concreto. Vamos a crear un multiIndex, pero usando una nueva forma, al leer el dataset con *.read_csv()* le pasamos directamente los índices que queremos usar.

In [None]:
df_bigmac = pd.read_csv("datos/bigmac.csv", parse_dates=["Date"],
                        index_col=["Date", "Country"])

df_bigmac.sort_index(inplace=True)
df_bigmac.head()

In [None]:
df_bigmac.index.get_level_values("Date")

In [None]:
df_bigmac.index.get_level_values("Country")

### Método *.set_names()*<a name="pandas_multiindices_set_names"></a> 
[Volver al índice](#indice)

In [None]:
df_bigmac = pd.read_csv("datos/bigmac.csv", parse_dates=["Date"],
                        index_col=["Date", "Country"])

df_bigmac.sort_index(inplace=True)
df_bigmac.head()

Este método nos permite cambiar el nombre de un índice ya creado en el _DataFrame_.

In [None]:
df_bigmac.index.set_names(["Fecha", "Pais"], inplace=True)
df_bigmac.head()

### Indexar con *.loc()*<a name="pandas_multiindices_loc"></a> 
[Volver al índice](#indice)

Vamos a ver cómo podemos obtener filas de un _DataFrame_ construido con un MultiIndex.

In [None]:
df_bigmac = pd.read_csv("datos/bigmac.csv", parse_dates=["Date"],
                        index_col=["Date", "Country"])

df_bigmac.sort_index(inplace=True)
df_bigmac.head()

El método *.loc[]* puede acceder a una fila del _DataFrame_ y acepta etiquetas como índices; pero en nuestro caso, como tenemos dos índices, debemos usar una tupla para especificar las etiquetas para los índices que vamos a usar, y como último parámetro, especificamos el valor que queremos extraer (la serie o columna), de no ser así, nos devolvería todas las disponibles para las etiquetas suministradas.

In [None]:
df_bigmac.loc[("2010-01-01", ["Brazil", "Argentina"]), "Price in US Dollars"]

In [None]:
df_bigmac.loc[("2015-07-01", "Chile"), "Price in US Dollars"]

## Ejercicios<a name="ejercicios"></a> 
[Volver al índice](#indice)

#### Bloque 1: salarios en la ciudad de Chicago (chicago.csv)

Columnas:
- Name: nombre de la persona.
- Position Title: nombre del trabajo que realiza.
- Department: departamento en el que trabaja.
- Employee Annual Salary: salario de la persona.

1 - Calcula el salario medio de los habitantes de Chicago.

In [167]:
df_chicago = pd.read_csv("S6_datos/chicago.csv")
print(df_chicago.head())
df_chicago["Employee Annual Salary"] = df_chicago["Employee Annual Salary"].str.replace('$','').astype(float)
df_chicago["Employee Annual Salary"].mean()

                  Name            Position Title        Department  \
0      AARON,  ELVIA J          WATER RATE TAKER       WATER MGMNT   
1    AARON,  JEFFERY M            POLICE OFFICER            POLICE   
2       AARON,  KARINA            POLICE OFFICER            POLICE   
3  AARON,  KIMBERLEI R  CHIEF CONTRACT EXPEDITER  GENERAL SERVICES   
4  ABAD JR,  VICENTE M         CIVIL ENGINEER IV       WATER MGMNT   

  Employee Annual Salary  
0              $90744.00  
1              $84450.00  
2              $84450.00  
3              $89880.00  
4             $106836.00  


80204.178633899

2 - Calcula cuantos habitantes ganan más que la media. (_count()_ te puede ayudar)

In [166]:
df_chicago[df_chicago["Employee Annual Salary"] > df_chicago["Employee Annual Salary"].mean()].count()
df_chicago[df_chicago["Employee Annual Salary"] > df_chicago["Employee Annual Salary"].mean()].shape[0]
np.count_nonzero(df_chicago["Employee Annual Salary"] > df_chicago["Employee Annual Salary"].mean())

20013

3 - ¿Cuál es el departamento que emplea a mayor número de personas?

In [202]:
df_chicago.head()
df_chicago.groupby("Department").count().sort_values("Name",ascending = False).index[0]




Unnamed: 0_level_0,Name,Position Title,Employee Annual Salary
Department,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ADMIN HEARNG,39,39,39
ANIMAL CONTRL,67,67,67
AVIATION,1521,1521,1521
BOARD OF ELECTION,117,117,117
BOARD OF ETHICS,9,9,9
BUDGET & MGMT,39,39,39
BUILDINGS,262,262,262
BUSINESS AFFAIRS,161,161,161
CITY CLERK,94,94,94
CITY COUNCIL,396,396,396


In [None]:
df_count = df_chicago.groupby("Department").count()
df_count[df_count == df_count.max]


np.argmax(df_count["Name"])
df_count.iloc[np.argmax(df_count["Name"])]

4 - ¿Cuál es el departamento que tiene un salario medio mayor?

In [207]:
df_chicago.groupby("Department").mean().sort_values("Employee Annual Salary",ascending = False).index[0]
df_chicago.groupby("Department").mean().sort_values("Employee Annual Salary",ascending = False).head(1)


Unnamed: 0_level_0,Employee Annual Salary
Department,Unnamed: 1_level_1
DoIT,96727.294118


5 - Averigua cuales son los 5 departamentos con una media de salario mayor.

In [212]:
df_chicago[["Employee Annual Salary","Department"]].groupby(
    "Department").mean().sort_values("Employee Annual Salary",ascending = False).head(5)
#df_chicago.groupby("Department").mean().sort_values("Employee Annual Salary",ascending = False).head(5)

Unnamed: 0_level_0,Employee Annual Salary
Department,Unnamed: 1_level_1
DoIT,96727.294118
BUILDINGS,96313.738626
FIRE,95700.627306
BUDGET & MGMT,91989.230769
HUMAN RELATIONS,91065.75


6 - ¿Cuál es el departamento con más puestos de trabajo distintos?

In [236]:
df_chicago.head(10)

df_chicago[["Department","Position Title"]].groupby(
    "Department").nunique().sort_values('Position Title', ascending = False).head(1)

Unnamed: 0_level_0,Department,Position Title
Department,Unnamed: 1_level_1,Unnamed: 2_level_1
TRANSPORTN,1,162


7 - ¿Cuál es el trabajo mejor remunerado y en qué departamento se realiza?

In [258]:

df_chicago[df_chicago["Employee Annual Salary"] == df_chicago["Employee Annual Salary"].max()][["Position Title", "Employee Annual Salary"]]
df_chicago.sort_values(["Employee Annual Salary"], ascending = False).iloc[0,1:]

Position Title            COMMISSIONER OF AVIATION
Department                                AVIATION
Employee Annual Salary                      300000
Name: 8184, dtype: object

8 - Averigua cuales son los trabajos de cada departamento que emplean a mayor número de personas.

In [282]:
df_chicago.head(10)
df_chicago1 = df_chicago[["Department", "Position Title", "Name"]].groupby(["Department",
    "Position Title"]).count().sort_values('Name',ascending = False).groupby("Department").head(1)
df_chicago1

Unnamed: 0_level_0,Unnamed: 1_level_0,Name
Department,Position Title,Unnamed: 2_level_1
POLICE,POLICE OFFICER,9184
FIRE,FIREFIGHTER-EMT,1208
STREETS & SAN,SANITATION LABORER,673
OEMC,CROSSING GUARD,560
WATER MGMNT,CONSTRUCTION LABORER,399
AVIATION,POOL MOTOR TRUCK DRIVER,354
GENERAL SERVICES,MACHINIST (AUTOMOTIVE),162
PUBLIC LIBRARY,LIBRARY PAGE,141
FAMILY & SUPPORT,FOSTER GRANDPARENT,134
LAW,ASST CORPORATION COUNSEL,128


9 - Calcula el intervalo de confianza al 95% de los salarios de la ciudad de Chicago

In [291]:
df_chicago.head()
std = df_chicago["Employee Annual Salary"].std()
mean = df_chicago["Employee Annual Salary"].mean()

from scipy import stats
f = stats.norm.ppf(0.975)

mean -f * std, mean + f * std


(31012.35602147231, 129396.0012463257)

10 - ¿Cuál es el departamento con mayor variabiliad de salarios?

In [299]:
df_chicago[["Department","Employee Annual Salary"]].groupby(
    "Department").std().sort_values("Employee Annual Salary", ascending = False).head(1)

Unnamed: 0_level_0,Employee Annual Salary
Department,Unnamed: 1_level_1
MAYOR'S OFFICE,45450.851785


11 - Sube un 10% el salario a aquellas personas que estén en el top 5 de salarios más bajos de su departamento.

In [1]:
df_chicago[["Name","Department","Employee Annual Salary"]].sort_values(
    'Employee Annual Salary', ascending = True).groupby("Department").head(5)
df2 = df_chicago[["Department","Employee Annual Salary"]].sort_values(["Department","Employee Annual Salary", ascending = True)


SyntaxError: invalid syntax (<ipython-input-1-1b538bb7e7fa>, line 3)

12 - Calcula la media del salario de los departamentos 'POLICE', 'POLICE BOARD' y 'FIRE'

In [321]:
df_chicago[df_chicago["Employee Annual Salary"]].mean

KeyError: "None of [Float64Index([ 90744.0,  84450.0,  84450.0,  89880.0, 106836.0,  70764.0,\n               41849.6,  20051.2,  49452.0,  93600.0,\n              ...\n               92682.0,  46668.0,  81588.0,  94328.0,  99528.0,  87384.0,\n               84450.0,  87384.0, 113664.0,      nan],\n             dtype='float64', length=32063)] are in the [columns]"

#### Bloque 2: estudio tratamiento del cáncer (sanity.csv)

Columnas:
- idbus: identificador de la persona en el hospital. 
- sexo: 0 (hombre), 1 (mujer).
- edad: edad de la persona.
- altura: altura de la persona en cm.
- peso: peso de la persona en kg.
- tratamiento: 0 (quimioterapia), 1 (radioterapia).
- supervivencia: años de supervivencia desde el tratamiento.

14 - Calcula la supervivencia media de los participantes del estudio.

15 - Calcula cuantos sobreviven más que la media. ¿Y más que la mediana?. ¿Cuál es el porcentaje de cada uno de los casos?

16 - ¿Cuál es el grupo de personas (hombre o mujer) con mayor supervivencia?

17 - ¿Qué tratamiento alarga más la supervivencia la quimioterapia o la radioterapia?

18 - Asigna una nueva columna que marque como ancianos a los mayores de 60 años y jóvenes al resto.

19 - ¿Puedes ver si las mujeres que pesan más de 60 kilos sobreviven más que las que pesan menos?

20 - Crea una nueva columna que clasifique a las personas en base a su índice de masa corporal (imc) según el siguiente criterio:

- Por debajo de 18.5: por debajo del peso.
- 18.5 a 24.9: saludable.
- 25.0 a 29.9: Sobrepeso.
- 30.0 a 39.9: Obeso.
- Más de 40: Obesidad extrema o de alto riesgo.