---
# Experto Big Data UNAV 2018 - Notebook 10 - Pandas II

---

En el siguiente Notebook seguimos avanzando con Pandas. Veremos los siguientes conceptos:
- Trabajo con indices
- Indexado a traves de los metodos loc, iloc e ix
- Introduccion de Apply y Map methods para DataFrame
- Introduccion al metodo Groupby

## Trabajando con los indices

Vamos a cargar un dataset de peliculas de James Bond con las siguiente informacion:
    
- Film: Nombre de la pelicula
- Year: Año
- Actor: Actor protagonista
- Director: Director de la pelicula
- Box Office: Recaudacion en millones de dolares
- Budget: Presupuesto en millones de dolares
- Bond Actor Salary: Salario del actor en millones de dolares

### Los metodos `.set_index()` y `.reset_index()`

In [23]:
import pandas as pd
import numpy as np
# Vamos a trabajar con un dataset que contiene las peliculas de james_bond
df_bond = pd.read_csv("pandas/jamesbond.csv")
df_bond.head(3)

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2


Por defecto el indice que se nos crea en un DataFrame es numerico y va desde 0 hasta _n-1_ filas. Podemos cambiar esto y poner nuestro propio indice utilizando la funcion *set_index*.

In [24]:
# inplace realiza los cambios en 
df_bond.set_index("Film", inplace = True)

# esto es equivalente a la instruccion anterior solo que sin utilizar inplace
# en este caso reasignamos la variable
#df_bond = df_bond.set_index("Film")
df_bond.head(3)

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2


Como puedes observar nuestro indice ahora es la columna Film. Si queremos volver al estado anterior de nuestro _DataFrame_ podemos resetear el indice.

In [26]:
# el parametro drop le indica al metodo que el indice 
# que reseteamos lo incluya de nuevo en el DataFrame. Por defecto es False
df_bond.reset_index(drop = False, inplace = True)
df_bond.head(3)

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2


Podemos realizar el cambio de un indice a otro.

In [27]:
# set index a Film
df_bond.set_index("Film", inplace = True)
df_bond.head(3)

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2


Es muy importante resetear el indice antes de volver realizar realizar un _set_ de otro indice.

In [28]:
# resetea y set index a Year
df_bond.reset_index(inplace = True)
df_bond.set_index("Year", inplace = True)
df_bond.head(3)

Unnamed: 0_level_0,Film,Actor,Director,Box Office,Budget,Bond Actor Salary
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1962,Dr. No,Sean Connery,Terence Young,448.8,7.0,0.6
1963,From Russia with Love,Sean Connery,Terence Young,543.8,12.6,1.6
1964,Goldfinger,Sean Connery,Guy Hamilton,820.4,18.6,3.2


## El indexado a traves de loc, iloc e ix

### Recuperando info a traves de la etiqueta del indice con `.loc[]`

In [44]:
# cargamos DataFrame y le decimos que nos ponga de indice Film
df_bond = pd.read_csv("pandas/jamesbond.csv", index_col = "Film")
# ordenamos las pelis alfabeticamente
df_bond.sort_index(inplace = True)
df_bond.head(3)

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


Podemos preguntar si un elemento esta en el indice de forma analoga a como lo haciamos con las listas.

In [30]:
'Goldfinger' in df_bond.index

True

Se puede realizar un acceso a las filas del DataFrame a traves del indice usando el indexador _loc_. Por ejmemplo, esto nos va a permitir extraer informacion a traves de la seleccion de una pelicula. El resultado de la extraccion sera un objeto _Series_ cuyos indices seran los nombres de nuestras columnas.

In [31]:
print(type(df_bond.loc["Goldfinger"]))
print(30*'-')
print(df_bond.loc["Goldfinger"])

<class 'pandas.core.series.Series'>
------------------------------
Year                         1964
Actor                Sean Connery
Director             Guy Hamilton
Box Office                  820.4
Budget                       18.6
Bond Actor Salary             3.2
Name: Goldfinger, dtype: object


De hecho podemos realizar el acceso a esos elementos como haciamos en el apartado de _Series_.

In [32]:
# acceso a Year
print(df_bond.loc["Goldfinger"]['Year'])
# acceso a Budget
print(df_bond.loc["Goldfinger"]['Budget'])

1964
18.6


Tambien podemos extraer 2 o mas filas e incluso un rango de filas. En este caso cuando el resultado es mayor de una fila, el objeto devuelto es un _DataFrame_ con la informacion a la que accedemos.

In [33]:
# acceso a dos elementos
df_bond.loc[["Octopussy", "Moonraker"]]

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Octopussy,1983,Roger Moore,John Glen,373.8,53.9,7.8
Moonraker,1979,Roger Moore,Lewis Gilbert,535.0,91.5,


In [34]:
# acceso a tres elementos
df_bond.loc[["Octopussy", "Moonraker","Goldfinger"]]

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Octopussy,1983,Roger Moore,John Glen,373.8,53.9,7.8
Moonraker,1979,Roger Moore,Lewis Gilbert,535.0,91.5,
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2


In [35]:
# Acceso todas las peliculas hasta Dr No
df_bond.loc[:"Dr. No"]

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6


**Ten cuidado porque esto ultimo funciona bien porque tenemos el DataFrame ordenado alfabeticamente. Si no lo estuviera el comportamiento puede ser inesperado.**

### Acceso a filas por posicion `.iloc[]`

In [41]:
# dejamos el indice por defecto (numerico)
df_bond = pd.read_csv("pandas/jamesbond.csv")
df_bond.head(3)

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2


De forma similar al acceso a traves del indice podemos realizar una acceso a traves del numero de fila a traves de _iloc_. De nuevo al acceder a una fila obtenemos un objeto _Series_.

In [37]:
# acceso a la fila 0
print(df_bond.iloc[0])
print(5*'-')
print(df_bond.iloc[5])

Film                        Dr. No
Year                          1962
Actor                 Sean Connery
Director             Terence Young
Box Office                   448.8
Budget                           7
Bond Actor Salary              0.6
Name: 0, dtype: object
-----
Film                 You Only Live Twice
Year                                1967
Actor                       Sean Connery
Director                   Lewis Gilbert
Box Office                         514.2
Budget                              59.9
Bond Actor Salary                    4.4
Name: 5, dtype: object


El indexado se realiza de forma analoga a una lista y podemos hacer _slicing_ y obtener rangos de datos.

In [38]:
# filas 10 a 15
df_bond.iloc[10:15]

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
10,The Spy Who Loved Me,1977,Roger Moore,Lewis Gilbert,533.0,45.1,
11,Moonraker,1979,Roger Moore,Lewis Gilbert,535.0,91.5,
12,For Your Eyes Only,1981,Roger Moore,John Glen,449.4,60.2,
13,Never Say Never Again,1983,Sean Connery,Irvin Kershner,380.0,86.0,
14,Octopussy,1983,Roger Moore,John Glen,373.8,53.9,7.8


In [39]:
# ultimas 5 filas
df_bond.iloc[-5:]

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
21,Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
22,Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
23,Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
24,Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
25,Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


La regla basica en general es:
* Usa _loc_ para indexado con etiqueta de indice
* Usa _iloc_ para para indexado por posicion de fila

Estos metodos se pueden utilizar para acceder especificamente una fila y una columna a la vez. Puedes imaginar que estamos accediendo a una celda de Excel (o un rango de celdas).

In [45]:
# acceso al anio y actor de una peli con indices
df_bond = pd.read_csv("pandas/jamesbond.csv", index_col = "Film")
df_bond.loc['Dr. No', ['Year', 'Actor']]

Year             1962
Actor    Sean Connery
Name: Dr. No, dtype: object

In [46]:
# acceso al a las filas 10 y 11
# acceso a las columnas 2,3,5 (Director, Box Office, Budget)
df_bond.iloc[10:12, 2:5]

Unnamed: 0_level_0,Director,Box Office,Budget
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Licence to Kill,John Glen,250.9,56.7
Live and Let Die,Guy Hamilton,460.3,30.8


Tambien podemos modificar elementos de nuestro _DataFrame_ a traves de los operadores.

In [47]:
# hagamos a Juan Fernande director de A View to a Kill
df_bond.loc['A View to a Kill', 'Director'] = 'Juan Fernandez'
df_bond.head()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,Juan Fernandez,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9


In [48]:
# Cambiemos el presupuesto de Casino Royal a 350 millones
# acceso a la fila 1 y columna 4 (el indice no cuenta como columna)
df_bond.iloc[1,4] = 350
df_bond.head()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,Juan Fernandez,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,350.0,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9


Y se pueden realizar varios cambios a la vez.

In [49]:
df_bond.loc["Dr. No", ["Box Office", "Budget", "Bond Actor Salary"]] = [448800000, 7000000, 600000]
df_bond.head(6)

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,Juan Fernandez,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,350.0,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
Dr. No,1962,Sean Connery,Terence Young,448800000.0,7000000.0,600000.0


Podemos realizar cambios a varias celdas a la vez utilizando el indexado booleano.

In [50]:
# actualicemos nobiliario el titulo a Sean Connery
df_bond = pd.read_csv("pandas/jamesbond.csv")
mask = df_bond["Actor"] == "Sean Connery"
df_bond.loc[mask, "Actor"] = "Sir Sean Connery"
# podemos acceder a las filas que hemos cambiado aplicando la mascara booleana
# y el indexado por loc
df_bond.loc[mask]

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sir Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sir Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sir Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sir Sean Connery,Terence Young,848.1,41.9,4.7
5,You Only Live Twice,1967,Sir Sean Connery,Lewis Gilbert,514.2,59.9,4.4
7,Diamonds Are Forever,1971,Sir Sean Connery,Guy Hamilton,442.5,34.7,5.8
13,Never Say Never Again,1983,Sir Sean Connery,Irvin Kershner,380.0,86.0,


**Cuidado con esto que lo vemos es un vista del nuestro DataFrame no una copia. Al indexar con _loc_ no se devuelve un nuevo _Dataframe_. Esto si ocurre sin embargo cuando realizamos _slicing_.**

In [51]:
# aqui estamos haciendo slicing y lo que vemos es 
#un nuevo DataFrame diferente al que hemos accedido
df_bond[df_bond['Actor'] == 'Sir Sean Connery']

Unnamed: 0,Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
0,Dr. No,1962,Sir Sean Connery,Terence Young,448.8,7.0,0.6
1,From Russia with Love,1963,Sir Sean Connery,Terence Young,543.8,12.6,1.6
2,Goldfinger,1964,Sir Sean Connery,Guy Hamilton,820.4,18.6,3.2
3,Thunderball,1965,Sir Sean Connery,Terence Young,848.1,41.9,4.7
5,You Only Live Twice,1967,Sir Sean Connery,Lewis Gilbert,514.2,59.9,4.4
7,Diamonds Are Forever,1971,Sir Sean Connery,Guy Hamilton,442.5,34.7,5.8
13,Never Say Never Again,1983,Sir Sean Connery,Irvin Kershner,380.0,86.0,


### Renombrado de las etiquetas de indices y columnas en un  `DataFrame`

In [52]:
df_bond = pd.read_csv("pandas/jamesbond.csv", index_col = "Film")
df_bond.sort_index(inplace = True)
df_bond.head(3)

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


Se puede renombrar de forma sencilla una columna usando el metodo _rename_.

In [53]:
# cambiamos Year a Release Date
df_bond.rename(columns = {"Year" : "Release Date", "Box Office" : "Revenue"}, inplace = True)
df_bond.head(2)

Unnamed: 0_level_0,Release Date,Actor,Director,Revenue,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3


Tambien se pueden cambiar etiquetas de los indices.

In [55]:
df_bond.rename(index = {"Dr. No" : "Doctor No", 
                     "GoldenEye" : "Golden Eye",
                    "The World Is Not Enough" : "Best Bond Movie Ever"}, inplace = True)

Y renombrar y reordenar las columnas a nuestro gusto.

In [56]:
df_bond.columns

Index(['Release Date', 'Actor', 'Director', 'Revenue', 'Budget',
       'Bond Actor Salary'],
      dtype='object')

In [57]:
df_bond.columns = ["Year of Release", "Director", "Gross Revenue", "Cost", "Actor", "Salary"]
df_bond.head(2)

Unnamed: 0_level_0,Year of Release,Director,Gross Revenue,Cost,Actor,Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3


Existen muchos mas metodos que sirven para inteartuar con los _DataFrames_. Algunos de ellos son:
- nsmallest y nlargest --> para calcular los _n_ valores mas pequenios y mas grandes de una columna
- query --> permite realizar consultas
- where --> metodo para filtrado 


Puedes acceder a la [informacion de Pandas](https://pandas.pydata.org/pandas-docs/stable/api.html) para obtener informacion detallada de los metodos.

## Metodos  `.apply()` y`.map()`

In [58]:
df_bond = pd.read_csv("pandas/jamesbond.csv", index_col = "Film")
df_bond.sort_index(inplace = True)
df_bond.head(3)

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


Como vimos en los objetos _Series_ podemos utiliza el metodo _map_ para  mapear una funcion. Esto en _DataFrame_ podemos aprovecharlo y crear una nueva columna.

In [122]:
# creamos una funcion al vuelo y la aplicamos.
# El actor que haya ganado mas de 5 kilos en una peli es rico, sino debe seguir currando
df_bond['es_rico'] = df_bond['Bond Actor Salary'].map(
    lambda x: 'Es rico!' if x>5 else 'Sigue Currando!')
df_bond.head()

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary,es_rico
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1,Es rico!
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3,Sigue Currando!
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,,Sigue Currando!
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8,Es rico!
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9,Es rico!


Para _DataFrames_ existe un metodo llamado _apply_ que nos va a permitir actuar a nivel de fila. El concepto es similar a _map_ solo que ahora podemos acceder a todos los registros de la fila.

In [59]:
def good_movie(row):
    
    actor = row['Actor']
    budget = row['Budget']
    
    if actor == "Pierce Brosnan":
        return "Mola mucho!"
    elif actor == "Roger Moore" and budget > 40:
        return "Pasable!"
    else:
        return "No tengo ni idea!"

In [60]:
# llamamos a apply columna por columna
df_bond['es_buena'] = df_bond.apply(good_movie, axis = "columns")

Observa como hemos aumentado la versatilidad significativamente con este nuevo metodo. La regla general a seguir seria:
- Usa _map_ si vas a aplicar una funcion en una columna
- Usa _apply_ si lo vas a hacer sobre filas


Apply tambien se puede aplicar en columnas aunque map es generalmente mas rapido.

### El metodo `.copy()`

Como hemos visto en muchas ocasiones para hacer un uso de memoria eficiente Python no copia los valores del _DataFrame_ sino una referencia la mismo (recuerda las listas). En ocasiones nos puede interesar realizar una copia del _DataFrame_, esto se hace a traves del comando _copy_.

In [138]:
df_bond = pd.read_csv("pandas/jamesbond.csv", index_col = "Film")
df_bond.sort_index(inplace = True)
df_bond.head(3)

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,


In [61]:
# realiza una copia valor a valor del DataFrame
df_bond_copied = df_bond.copy() 

Ahora si modificamos algo, solo se ve afectado uno de los _DataFrame_.

In [62]:
df_bond.loc[df_bond['Actor']=='Roger Moore', 'Actor'] = 'Pepito Grillo'
df_bond.head(3)

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary,es_buena
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
A View to a Kill,1985,Pepito Grillo,John Glen,275.2,54.5,9.1,Pasable!
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3,No tengo ni idea!
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,,No tengo ni idea!


In [63]:
# en la copia valor a valor tenemos al bueno de Roger Moore todavia intacto
df_bond_copied.head(3)

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary,es_buena
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1,Pasable!
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3,No tengo ni idea!
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,,No tengo ni idea!


## Agrupado (split-apply-combine) via `.groupby()`

Uno de los grandes poderios de Pandas radica en su sencillez a la hora de dividir, aplicar funciones y combinar de nuevo. Esto se conoce como la metodologia _split-apply-combine_. Vamos a estudiar como aplicar todo esto con un _DataFrame_ de empresas americanas. El dataset es:

- Rank: Posicion de la compania en la lista Fortune 1000
- Company: Nombre de la compania
- Sector: Sector de la compania
- Industry: Industria de la compania
- Location: Ciudad donde se localizan los HQ
- Revenue: ingresos en millones de dolares
- Profits: beneficios en millones de solares
- Empleados: numero de empleados

In [64]:
# cargamos el DataFrame y le asignamos la columna Rank como indice.
df_fortune = pd.read_csv("pandas/fortune1000.csv", index_col = "Rank")
df_fortune.head(3)

Unnamed: 0_level_0,Company,Sector,Industry,Location,Revenue,Profits,Employees
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,Walmart,Retailing,General Merchandisers,"Bentonville, AR",482130,14694,2300000
2,Exxon Mobil,Energy,Petroleum Refining,"Irving, TX",246204,16150,75600
3,Apple,Technology,"Computers, Office Equipment","Cupertino, CA",233715,53394,110000


In [65]:
# agrupamos por sector. puedes ver que ahora tenemos un objeto groupby 
sectors = df_fortune.groupby("Sector")
type(sectors)

pandas.core.groupby.DataFrameGroupBy

Ahora de una forma muy sencilla se pueden aplicar funciones de calculo a cada uno de los grupos.

In [66]:
# Vamos a ver cuales solo sectores que tienen mas revenues, profits y empleados
sectors.sum().head()

Unnamed: 0_level_0,Revenue,Profits,Employees
Sector,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Aerospace & Defense,357940,28742,968057
Apparel,95968,8236,346397
Business Services,272195,28227,1361050
Chemicals,243897,22628,463651
Energy,1517809,-73447,1188927


Aqui Python intenta aplicar la funcion _sum_ a cada uno de los grupos para todas las columnas numericas, por eso obtenemos las tres de arriba. Cambiar a ver cual es la media de ingresos en los sectores es sencillo.

In [None]:
# Vamos a ver cuales solo sectores que tienen mas revenues, profits y empleados
sectors['Revenue'].sum().head()

Y si queremos saber cuales son los 5 que tienen la media mas alta?. Podemos simplemente ordenar el DataFrame y sacar el resultado.

In [None]:
sectors['Revenue'].sum().sort_values(ascending=False).head()

La funcion _head_ y _tail_ son interesantes de aplicar porque nos permiter acceder a los primeros/ultimos n registros de cada grupo. Si ordenamos el _DataFrame_ por ingresos y luego aplicamos una de estas funciones despues de agrupar podemos obtener de forma sencilla las empresas de cada sector que mas ingresos tienen.

In [None]:
sectors = df_fortune.sort_values('Revenue', ascending=False).groupby("Sector")
# sacamos para cada sector la compania que mas ingresos genera
sectors.head(1)

Se puede agrupar por mas de un campo y realizar los calculos de la misma forma.

In [None]:
sectors = df_fortune.groupby(['Sector','Industry'])
# calcula la mediana de revenue, profit, employees para los grupos Sector, Industry
sectors.median()

A estas altura deberias estar pensando que las posibilidades de esto son infinitas!. Y de manera muy sencilla simplemente con ordenar, agrupar y calcular podemos realizar muchas operaciones. Si uno quiere transformar el objeto _groupby_ en un _DataFrame_ es tan sencillo como resetear el indice y ya tenemos un _DataFrame_ con nuestros calculos.

In [None]:
# creamos un DataFrame con la mediana de las columnas numericas
sectors.median().reset_index()

### El metodo `.agg()` 

In [None]:
df_fortune = pd.read_csv("pandas/fortune1000.csv", index_col = "Rank")
sectors = df_fortune.groupby("Sector")
df_fortune.head(3)

El metodo _agg_ nos va a permitir aplicar de una sola ver diferentes calculos sobre diferentes columnas.

In [None]:
# me interesa la suma y media de los revenues
# la suma de profits
# la media de empleados
sectors.agg({"Revenue" : ["sum", "mean"],
             "Profits" : "sum",
              "Employees" : "mean"})

Y podemos aplicar _apply_ para los grupos!. Imagina que queremos calcular cuales son las empresas de cada sector que mas profit general. Usando _groupby_ podemos definir una funcion que llamaremos _ranker_ que etiquetara cada fila de 1 a N donde N es el empresas en cada sector. Despues, llamamos a _apply_ para aplicar la funcion a cada grupo (en este caso cada sector). 

In [176]:
def ranker(df):
    """Asigna una posicion en el rankin a cada empresa segun 
    su profit siendo 1 la que mas profit genera.
    Asume que los datos estan ordenados de forma descendente."""
    df['sector_profit_rank'] = np.arange(len(df)) + 1
    return df

In [190]:
# nota que aqui no cargamos el indice y dejamos que pandas meta uno por defecto
df_fortune = pd.read_csv("pandas/fortune1000.csv")
df_fortune = df_fortune.sort_values('Profits', ascending=False)
df_fortune.head(3)

Unnamed: 0,Rank,Company,Sector,Industry,Location,Revenue,Profits,Employees
2,3,Apple,Technology,"Computers, Office Equipment","Cupertino, CA",233715,53394,110000
22,23,J.P. Morgan Chase,Financials,Commercial Banks,"New York, NY",101006,24442,234598
3,4,Berkshire Hathaway,Financials,Insurance: Property and Casualty (Stock),"Omaha, NE",210821,24083,331000


In [None]:
# creamos usando apply una nueva columna con el ranking
df_fortune = df_fortune.groupby('Sector').apply(ranker)
# ahora puedo contestar cuales son las empresas que mas beneficio obtuvieron en cada sector
df_fortune[df_fortune['sector_profit_rank'] == 1].head(5)

# Ejercicios

### Los salarios en la ciudad de Chicago

Vamos a jugar con un el dataset de los salarios en la ciudad de Chicago:
- Name: nombre de la persona 
- Position Title: nombre del trabajo que realiza
- Department: departamento en el que trabaja
- Employee Annual Salary: salario de la persona

In [201]:
df_chicago = pd.read_csv('pandas/chicago.csv')

1 - Calcula el salario medio de los habitantes de chicago.

2 - Calcula cuantos habitantes ganan mas que la media. (_count()_ te puede ayudar)

3 - Cual es el departamento que emplea a mayor numero de personas?

4 - Cual es el departamento que tiene un salario medio mayor?

5 - Averigua cuales son los 5 departamentos con una media de salario mayor.

6 - Cual es el departamento con mas puestos de trabajo distintos?

7 - Cual es el trabajo mejor remunerado y en que departamento se realiza?

8 - Averigua cuales son los trabajos de cada departamento que emplean a mayor numero de personas.

9 - Calcula el intervalo de confianza al 95% de los salarios de la ciudad de Chicago

10 - Cual es el departamento con mayor variabiliad de salarios?

11 - Subir un 10% el salario a aquellas personas que esten en el top 5 de salarios mas bajos de su departamento

12 - Compara estadisticamente si existen diferencias significativas entre los salarios de los diferentes departamentos. Para ello deberas utilizar una ANOVA de 1 factor independiente.

13 - Calcula la media del salario de los departamentos 'POLICE', 'POLICE BOARD' y 'FIRE'

### Un estudio del tratamiento del cancer

El dataset contiene datos de un estudio realizado sobre pacientes con cancer de pulmon. Esta estructurado de la forma siguiente:

idbus --> identificador de la persona en el hospital  
sexo --> 0 (varon), 1 (mujer)  
edad --> edad de la persona  
altura --> altura de la persona en cm  
peso --> peso de la persona en kg  
tratamiento --> 0 (quimioterapia), 1 (radioterapia)  
supervivencia --> años de supervivencia desde el tratamiento   



In [207]:
df_sanity = pd.read_csv('pandas/sanity.csv')

14 - Calcula la supervivencia media de los participantes del estudio

15 - Calcula cuantos sobreviven mas que la media. Y mas que la mediana?. El porcentaje de cada uno de los casos?

16 - Cual es el grupo de personas (hombre o mujer) con mayor supervivencia?

17 - Que tratamiento alarga mas la supervivencia la quimio o la radio?

18 - En que grupo Hombre/Mujer y quimio/radio hay mayor supervivencia?

19 - Asigna a una nueva columna que marque como ancianos a los mayores de 60 anios y jovenes al resto?

20 - Puedes ver si las mujeres que pesan mas de 60 kilos sobreviven mas que las que pesan menos??

21 - Parece influir si uno es anciano o no en la supervivencia??

22 - Crea una nueva columna que te clasifique a las personas en base a su indice corporal segun el siguiente crtierio:

- Por debajo de 18.5:	Por debajo del peso  
- 18.5 a 24.9:	Saludable  
- 25.0 a 29.9:	Con sobrepeso  
- 30.0 a 39.9:	Obeso  
- Más de 40:	Obesidad extrema o de alto riesgo 

23 - Cual es el grupo de imc que mas riesgo de morir antes tiene?

24 - Realiza un estudio comparativo que nos diga si existen diferencias entre la supervivencia de hombres y mujeres.

25 - Realiza un intervalo de confianza del 95% que nos diga cual es la supervivencia de tratamiento, sexo, grupo de edad y grupo de IMC.

26 - Anade una nueva columna al dataframe que nos diga en que percentil de supervivencia se encuentra cada persona.

27 - La OMS ha publicado un estudio en el que se hayaron los siguientes resultados:

- Las personas menores de 40 anios tienen una supervivencia estimada del 15% menor que las mayores de esa edad
- Las mujeres tienen una supervivencia de un 5% mayor respecto a los hombres
- Las personas con sobrepeso tienen una supervivencia menor del 7.5% respecto a las que no padecen sobrepeso

Crea una funcion que utilizando _apply_ nos corrija la supervivencia de cada una de las personas en base a lo descrito anteriormente (lo puedes almacenar en una nueva columna llamada 'supervivencia_est'

Para simplificar puedes asumir que los porcentajes se acumulan de forma que una mujer delgada y anciana tendra una supervivencia estimada aumentada por la suma de todos los porcentajes descritos.