# Pandas IV

In [1]:
import pandas as pd
import numpy as np

## Fusionar estructuras

- Tenemos dos formas de fusinar estructuras
    - `concat()` -> Concatenando por filas o columnas o append()
    - `merge()` -> Por cruce de referencias (join)

### Concat()

- Por defecto, se une por filas y se mantienen las filas de ambas estructuras.
- En inglés sería el equivalente a hacer un *append*

In [21]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón']},
            index = ['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']
)
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director
Godzilla,2014,6.0,160.0,Peter Jackson
El Hobbit III,2014,,250.0,Gareth Edwards
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese
Gravity,2013,,,Alfonso Cuarón


In [22]:
peliculas2 = pd.DataFrame(
            {'Año':[2014, 2014], 
             'Valoración':[7.3, 6.3],
             'Director':['Evan Goldberg', ' Rupert Wyatt']},
            index = ['La entrevista', 'El jugador']
)
peliculas2

Unnamed: 0,Año,Valoración,Director
La entrevista,2014,7.3,Evan Goldberg
El jugador,2014,6.3,Rupert Wyatt


In [23]:
pd.concat([peliculas, peliculas2], sort=False)

Unnamed: 0,Año,Valoración,Presupuesto,Director
Godzilla,2014,6.0,160.0,Peter Jackson
El Hobbit III,2014,,250.0,Gareth Edwards
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese
Gravity,2013,,,Alfonso Cuarón
La entrevista,2014,7.3,,Evan Goldberg
El jugador,2014,6.3,,Rupert Wyatt


- Con `axis=1` se puede concatenar por columnas

In [24]:
peliculas3 = pd.DataFrame(
            {'Recaudación':[525, 722, 392]},
            index = ['Godzcilla', 'El Hobbit III', 'El lobo de Wall Street']
)
peliculas3

Unnamed: 0,Recaudación
Godzcilla,525
El Hobbit III,722
El lobo de Wall Street,392


In [25]:
pd.concat([peliculas, peliculas3], axis=1, sort=True)

Unnamed: 0,Año,Valoración,Presupuesto,Director,Recaudación
El Hobbit III,2014.0,,250.0,Gareth Edwards,722.0
El lobo de Wall Street,2013.0,8.75,100.0,Martin Scorsese,392.0
Godzcilla,,,,,525.0
Godzilla,2014.0,6.0,160.0,Peter Jackson,
Gravity,2013.0,,,Alfonso Cuarón,


- En `concat` se puede especificar el tipo de 'join' que se quiere realizar:
    - `inner`. Se queda con lo que está común a los dos
    - `outer`. Se quedas con todo, los que es común y lo que no.
    - `left`. Se quedas con todos los elementos que aparecen en la primera tabla
    - `right`. Se quedas con todos los elementos que están en la segunda tabla

In [9]:
pd.concat([peliculas, peliculas3], axis=1, join='inner')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Recaudación
El Hobbit III,2014,,250.0,Gareth Edwards,722
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese,392


- Existe un parámetros `keys` que permite identificar el origen de los datasets.

In [12]:
multi = pd.concat([peliculas, peliculas2], keys=['dataset1','dataset2'], sort=True)
multi

Unnamed: 0,Unnamed: 1,Año,Director,Presupuesto,Valoración
dataset1,Godzilla,2014,Peter Jackson,160.0,6.0
dataset1,El Hobbit III,2014,Gareth Edwards,250.0,
dataset1,El lobo de Wall Street,2013,Martin Scorsese,100.0,8.75
dataset1,Gravity,2013,Alfonso Cuarón,,
dataset2,La entrevista,2014,Evan Goldberg,,7.3
dataset2,El jugador,2014,Rupert Wyatt,,6.3


- Ahora tendría un **multi-index**. 
- Si se quisiera acceder a "El Lobo de Wall Street" tendría que mencionar ambos índices

In [16]:
multi.index

MultiIndex([('dataset1',               'Godzilla'),
            ('dataset1',          'El Hobbit III'),
            ('dataset1', 'El lobo de Wall Street'),
            ('dataset1',                'Gravity'),
            ('dataset2',          'La entrevista'),
            ('dataset2',             'El jugador')],
           )

In [13]:
multi.loc["dataset1"]

Unnamed: 0,Año,Director,Presupuesto,Valoración
Godzilla,2014,Peter Jackson,160.0,6.0
El Hobbit III,2014,Gareth Edwards,250.0,
El lobo de Wall Street,2013,Martin Scorsese,100.0,8.75
Gravity,2013,Alfonso Cuarón,,


In [14]:
multi.loc[("dataset1", "Godzilla")]

Año                     2014
Director       Peter Jackson
Presupuesto              160
Valoración                 6
Name: (dataset1, Godzilla), dtype: object

In [15]:
multi.loc[("dataset1", "Godzilla"),["Año"]]

Año    2014
Name: (dataset1, Godzilla), dtype: object

### Merge()

- A diferencia del `concat`, `merge`combina diferentes dataframes en base a elementos comunes
    - Es **FUNDAMENTAL** indicar cuáles serán las columnas que sirvan de clave de unión
    - Por defecto elimina las filas para las cuales el cruce no es posible, aunque puede cambiarse el tipo de **join** mediante `how`
    - En el ejemplo de debajo se pide que en el dataframe *peliculas* tome como referencia la columna llamada *director* y que en el dataframe *directores* tome como referencia la columna *Nombre*

In [33]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón'],
             'Título':['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']}
)
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Peter Jackson,Godzilla
1,2014,,250.0,Gareth Edwards,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity


In [34]:
directores = pd.DataFrame(
            {'Director':['Gareth Edwards', 'Martin Scorsese', 'Pedro Almodovar'],
             'AñoNacimiento':[1975, 1942, 1949],
             'Nacionalidad': ['England', 'USA', 'Spain']
             }
)
directores

Unnamed: 0,Director,AñoNacimiento,Nacionalidad
0,Gareth Edwards,1975,England
1,Martin Scorsese,1942,USA
2,Pedro Almodovar,1949,Spain


In [36]:
directores.columns = ['Nombre', 'Nacimineto', 'Nacionalidad']
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimineto,Nacionalidad
0,2014,,250.0,Gareth Edwards,El Hobbit III,Gareth Edwards,1975,England
1,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942,USA


- Se puede especificar el tipo de join que queremos.
    - left join
    - right join
    - inner join
    - outer join

In [29]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='left')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimineto,Nacionalidad
0,2014,6.0,160.0,Peter Jackson,Godzilla,,,
1,2014,,250.0,Gareth Edwards,El Hobbit III,Gareth Edwards,1975.0,England
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942.0,USA
3,2013,,,Alfonso Cuarón,Gravity,,,


In [30]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='right')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimineto,Nacionalidad
0,2014.0,,250.0,Gareth Edwards,El Hobbit III,Gareth Edwards,1975,England
1,2013.0,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942,USA
2,,,,,,Pedro Almodovar,1949,Spain


In [31]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='outer')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimineto,Nacionalidad
0,2014.0,6.0,160.0,Peter Jackson,Godzilla,,,
1,2014.0,,250.0,Gareth Edwards,El Hobbit III,Gareth Edwards,1975.0,England
2,2013.0,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942.0,USA
3,2013.0,,,Alfonso Cuarón,Gravity,,,
4,,,,,,Pedro Almodovar,1949.0,Spain


## Operaciones de agrupación

- Análogo al 'group by' de SQL
- Muy utilizado

In [37]:
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Peter Jackson,Godzilla
1,2014,,250.0,Gareth Edwards,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity


In [38]:
by_year = peliculas.groupby('Año')

In [41]:
by_year

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000288C6232808>

In [38]:
dir(by_year)

['Año',
 'Director',
 'Presupuesto',
 'Título',
 'Valoración',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_accessors',
 '_add_numeric_operations',
 '_agg_examples_doc',
 '_agg_see_also_doc',
 '_aggregate',
 '_aggregate_generic',
 '_aggregate_item_by_item',
 '_aggregate_multiple_funcs',
 '_apply_filter',
 '_apply_to_column_groupbys',
 '_apply_whitelist',
 '_assure_grouper',
 '_block_agg_axis',
 '_bool_agg',
 '_builtin_table',
 '_choose_path',
 '_concat_objects',
 '_constructor',
 '_cumcount_array',
 '_cython_agg_blocks',
 '_cython_agg_general',
 '_cython_table',
 '_cython_transform',
 '_decide_output_index',

- Existen diversas funciones optimizadas para los groupby
    - `count()` -> Cuenta valores que no son na.
    - `sum()` -> Suma valores que no son na.
    - `mean()` -> Media de los valores que no son na.
    - `median()` -> Mediana de los valores que no son na.
    - `std()` -> Desviación estandar de los valores que no son na (no sesgada).
    - `var()` -> Varianza de los valores que no son na (no sesgada).
    - `min()` -> Mínimo de los valores que no son na.
    - `max()` -> Máximo de los valores que no son na.
    - `prod()` -> Producto de los valores que no son na.
    - `first()` -> Primero de los valores que no son na.
    - `last()` -> Último de los valores que no son na.

In [31]:
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Peter Jackson,Godzilla
1,2014,,250.0,Gareth Edwards,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity


In [33]:
by_year.count()

Unnamed: 0_level_0,Valoración,Presupuesto,Director,Título
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2013,1,1,2,2
2014,1,2,2,2


In [34]:
by_year.mean()

Unnamed: 0_level_0,Valoración,Presupuesto
Año,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,8.75,100.0
2014,6.0,205.0


- Podemos realizar agrupaciones múltiples

In [43]:
df = peliculas.groupby(['Año', 'Director']).sum()
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Valoración,Presupuesto
Año,Director,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,Alfonso Cuarón,0.0,0.0
2013,Martin Scorsese,8.75,100.0
2014,Gareth Edwards,0.0,250.0
2014,Peter Jackson,6.0,160.0


- Como es un dataframe con multi-index le puedo llamar de estas maneras.

In [44]:
df.loc[2013]

Unnamed: 0_level_0,Valoración,Presupuesto
Director,Unnamed: 1_level_1,Unnamed: 2_level_1
Alfonso Cuarón,0.0,0.0
Martin Scorsese,8.75,100.0


In [40]:
df.loc[(2013, 'Martin Scorsese')]

Valoración       8.75
Presupuesto    100.00
Name: (2013, Martin Scorsese), dtype: float64

- También podemos hacer una agrupación con una función predefinida.

- En el ejemplo de debajo estoy asignado primero el título como índice

In [41]:
def titulo_largo(title):
    if len(title) > 10:
        return "Largo"
    else:
        return "Corto"
peliculas.index = peliculas['Título']    
peliculas.groupby(titulo_largo).sum()

Unnamed: 0,Año,Valoración,Presupuesto
Corto,4027,6.0,160.0
Largo,4027,8.75,350.0


In [48]:
def titulo_largo(title):
    if len(title) > 10:
        return "Largo"
    else:
        return "Corto"
peliculas.index = peliculas['Título']
peliculas

Unnamed: 0_level_0,Año,Valoración,Presupuesto,Director,Título
Título,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Godzilla,2014,6.0,160.0,Peter Jackson,Godzilla
El Hobbit III,2014,,250.0,Gareth Edwards,El Hobbit III
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
Gravity,2013,,,Alfonso Cuarón,Gravity


In [49]:
def titulo_largo(title):
    if len(title) > 10:
        return "Largo"
    else:
        return "Corto"
peliculas.index = peliculas['Título']    
peliculas.groupby(titulo_largo).sum()

Unnamed: 0,Año,Valoración,Presupuesto
Corto,4027,6.0,160.0
Largo,4027,8.75,350.0


- Podemos usar una función específica con `apply()`. En este caso, la función recibe cada grupo.

In [51]:
def custom_fun(x):
    return x.Título.map(str.upper)
peliculas.groupby('Año').apply(custom_fun)

Año   Título                
2013  El lobo de Wall Street    EL LOBO DE WALL STREET
      Gravity                                  GRAVITY
2014  Godzilla                                GODZILLA
      El Hobbit III                      EL HOBBIT III
Name: Título, dtype: object

## Tablas pivote
- Sirve para crear una nueva estructura expandiendo a partir de valores en una columna dada.
- Son como las pivot tables de Excel

In [43]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón'],
             'Título':['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']}
)
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Peter Jackson,Godzilla
1,2014,,250.0,Gareth Edwards,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity


In [44]:
peliculas.pivot(index='Año', columns='Director', values='Título')

Director,Alfonso Cuarón,Gareth Edwards,Martin Scorsese,Peter Jackson
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2013,Gravity,,El lobo de Wall Street,
2014,,El Hobbit III,,Godzilla


In [45]:
peliculas.pivot(index='Año', columns='Director', values=['Título', 'Presupuesto'])

Unnamed: 0_level_0,Título,Título,Título,Título,Presupuesto,Presupuesto,Presupuesto,Presupuesto
Director,Alfonso Cuarón,Gareth Edwards,Martin Scorsese,Peter Jackson,Alfonso Cuarón,Gareth Edwards,Martin Scorsese,Peter Jackson
Año,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
2013,Gravity,,El lobo de Wall Street,,,,100.0,
2014,,El Hobbit III,,Godzilla,,250.0,,160.0


In [46]:
pd.pivot_table(peliculas, index='Director', columns='Año', values='Presupuesto')

Año,2013,2014
Director,Unnamed: 1_level_1,Unnamed: 2_level_1
Gareth Edwards,,250.0
Martin Scorsese,100.0,
Peter Jackson,,160.0


- También podemos crear tablas pivote utilizando una función de agregación para los valores, de forma que se haga una agrupación de resultados.
- En este caso se usa `pivot_table()`.

In [49]:
peliculas['Valoración'] = [6, 6, 5, 5]
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6,160.0,Peter Jackson,Godzilla
1,2014,6,250.0,Gareth Edwards,El Hobbit III
2,2013,5,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,5,,Alfonso Cuarón,Gravity


In [50]:
pd.pivot_table(peliculas, 
               values='Presupuesto', 
               index=['Año'], 
               columns=['Valoración'], 
               aggfunc=np.mean)

Valoración,5,6
Año,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,100.0,
2014,,205.0
