# Pandas IV

In [1]:
import pandas as pd
import numpy as np

## Fusionar estructuras

- Tenemos dos formas de fusinar estructuras
    - `concat()` -> Concatenando por filas o columnas
    - `merge()` -> Por cruce de referencias (join)

### Concat()

- Por defecto, se une por filas y se mantienen las filas de ambas estructuras.

In [2]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón']},
            index = ['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']
)
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director
Godzilla,2014,6.0,160.0,Peter Jackson
El Hobbit III,2014,,250.0,Gareth Edwards
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese
Gravity,2013,,,Alfonso Cuarón


In [3]:
peliculas2 = pd.DataFrame(
            {'Año':[2014, 2014], 
             'Valoración':[7.3, 6.3],
             'Director':['Evan Goldberg', ' Rupert Wyatt']},
            index = ['La entrevista', 'El jugador']
)
peliculas2

Unnamed: 0,Año,Valoración,Director
La entrevista,2014,7.3,Evan Goldberg
El jugador,2014,6.3,Rupert Wyatt


In [4]:
pd.concat([peliculas, peliculas2])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,Año,Director,Presupuesto,Valoración
Godzilla,2014,Peter Jackson,160.0,6.0
El Hobbit III,2014,Gareth Edwards,250.0,
El lobo de Wall Street,2013,Martin Scorsese,100.0,8.75
Gravity,2013,Alfonso Cuarón,,
La entrevista,2014,Evan Goldberg,,7.3
El jugador,2014,Rupert Wyatt,,6.3


In [5]:
pd.concat([peliculas, peliculas2], sort=True)

Unnamed: 0,Año,Director,Presupuesto,Valoración
Godzilla,2014,Peter Jackson,160.0,6.0
El Hobbit III,2014,Gareth Edwards,250.0,
El lobo de Wall Street,2013,Martin Scorsese,100.0,8.75
Gravity,2013,Alfonso Cuarón,,
La entrevista,2014,Evan Goldberg,,7.3
El jugador,2014,Rupert Wyatt,,6.3


- También podemos concatenar por columnas

In [6]:
peliculas3 = pd.DataFrame(
            {'Recaudación':[525, 722, 392]},
            index = ['Godzilla', 'El Hobbit III', 'El lobo de Wall Street']
)
peliculas3

Unnamed: 0,Recaudación
Godzilla,525
El Hobbit III,722
El lobo de Wall Street,392


In [7]:
pd.concat([peliculas, peliculas3], axis=1, sort=True)

Unnamed: 0,Año,Valoración,Presupuesto,Director,Recaudación
El Hobbit III,2014,,250.0,Gareth Edwards,722.0
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese,392.0
Godzilla,2014,6.0,160.0,Peter Jackson,525.0
Gravity,2013,,,Alfonso Cuarón,


- Podemos especificar el tipo de 'join' que queremos

In [None]:
inner join te quedas con los que esta en cada una de las tablas completo. outer te quedas con todo. right lo que esta en la derecha y left lo que esta en la izquierda

In [8]:
pd.concat([peliculas, peliculas3], axis=1, join='inner')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Recaudación
Godzilla,2014,6.0,160.0,Peter Jackson,525
El Hobbit III,2014,,250.0,Gareth Edwards,722
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese,392


- Existe un parámetros `keys` que permite identificar el origen de los datasets.

In [9]:
multi = pd.concat([peliculas, peliculas2], keys=['dataset1','dataset2'], sort=True)
multi

Unnamed: 0,Unnamed: 1,Año,Director,Presupuesto,Valoración
dataset1,Godzilla,2014,Peter Jackson,160.0,6.0
dataset1,El Hobbit III,2014,Gareth Edwards,250.0,
dataset1,El lobo de Wall Street,2013,Martin Scorsese,100.0,8.75
dataset1,Gravity,2013,Alfonso Cuarón,,
dataset2,La entrevista,2014,Evan Goldberg,,7.3
dataset2,El jugador,2014,Rupert Wyatt,,6.3


In [10]:
multi.index

MultiIndex(levels=[['dataset1', 'dataset2'], ['El Hobbit III', 'El jugador', 'El lobo de Wall Street', 'Godzilla', 'Gravity', 'La entrevista']],
           labels=[[0, 0, 0, 0, 1, 1], [3, 0, 2, 4, 5, 1]])

In [11]:
multi['dataset1']

KeyError: 'dataset1'

In [12]:
multi['Godzilla']

KeyError: 'Godzilla'

In [13]:
multi[('dataset1', 'Godzilla')]

KeyError: ('dataset1', 'Godzilla')

In [14]:
multi.loc['dataset1']

Unnamed: 0,Año,Director,Presupuesto,Valoración
Godzilla,2014,Peter Jackson,160.0,6.0
El Hobbit III,2014,Gareth Edwards,250.0,
El lobo de Wall Street,2013,Martin Scorsese,100.0,8.75
Gravity,2013,Alfonso Cuarón,,


In [15]:
_.index

Index(['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity'], dtype='object')

In [16]:
multi.loc['Godzilla']

KeyError: 'the label [Godzilla] is not in the [index]'

In [17]:
multi.loc[('dataset1', 'Godzilla')]

Año                     2014
Director       Peter Jackson
Presupuesto              160
Valoración                 6
Name: (dataset1, Godzilla), dtype: object

In [18]:
multi

Unnamed: 0,Unnamed: 1,Año,Director,Presupuesto,Valoración
dataset1,Godzilla,2014,Peter Jackson,160.0,6.0
dataset1,El Hobbit III,2014,Gareth Edwards,250.0,
dataset1,El lobo de Wall Street,2013,Martin Scorsese,100.0,8.75
dataset1,Gravity,2013,Alfonso Cuarón,,
dataset2,La entrevista,2014,Evan Goldberg,,7.3
dataset2,El jugador,2014,Rupert Wyatt,,6.3


In [19]:
multi.iloc[0,0]

2014

### Merge()

In [20]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón'],
             'Título':['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']}
)
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Peter Jackson,Godzilla
1,2014,,250.0,Gareth Edwards,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity


In [21]:
directores = pd.DataFrame(
            {'Director':['Gareth Edwards', 'Martin Scorsese', 'Pedro Almodovar'],
             'AñoNacimiento':[1975, 1942, 1949],
             'Nacionalidad': ['England', 'USA', 'Spain']
             }
)
directores

Unnamed: 0,Director,AñoNacimiento,Nacionalidad
0,Gareth Edwards,1975,England
1,Martin Scorsese,1942,USA
2,Pedro Almodovar,1949,Spain


In [22]:
pd.merge(peliculas, directores)

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,AñoNacimiento,Nacionalidad
0,2014,,250.0,Gareth Edwards,El Hobbit III,1975,England
1,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,1942,USA


- La diferencia con `pd.concat()` es que `pd.merge()` fusiona la estructuras identificando las columnas que son iguales, mientras que `pd.concat()` simplemente las une teniendo en cuenta el índice.

In [23]:
pd.concat([peliculas, directores], axis=1)

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Director.1,AñoNacimiento,Nacionalidad
0,2014,6.0,160.0,Peter Jackson,Godzilla,Gareth Edwards,1975.0,England
1,2014,,250.0,Gareth Edwards,El Hobbit III,Martin Scorsese,1942.0,USA
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Pedro Almodovar,1949.0,Spain
3,2013,,,Alfonso Cuarón,Gravity,,,


- La función busca por defecto claves de columnas que coincidan y realiza el cruce, y elimina las filas para las cuales el cruce no es posible.
- También se pueden especificar las columnas que se deben usar para las claves

In [24]:
directores.columns = ['Nombre', 'Nacimineto', 'Nacionalidad']
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimineto,Nacionalidad
0,2014,,250.0,Gareth Edwards,El Hobbit III,Gareth Edwards,1975,England
1,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942,USA


- Se puede especificar el tipo de join que queremos.
    - left join
    - right join
    - inner join
    - outer join

In [25]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='left')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimineto,Nacionalidad
0,2014,6.0,160.0,Peter Jackson,Godzilla,,,
1,2014,,250.0,Gareth Edwards,El Hobbit III,Gareth Edwards,1975.0,England
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942.0,USA
3,2013,,,Alfonso Cuarón,Gravity,,,


In [26]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='right')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimineto,Nacionalidad
0,2014.0,,250.0,Gareth Edwards,El Hobbit III,Gareth Edwards,1975,England
1,2013.0,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942,USA
2,,,,,,Pedro Almodovar,1949,Spain


In [27]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='outer')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimineto,Nacionalidad
0,2014.0,6.0,160.0,Peter Jackson,Godzilla,,,
1,2014.0,,250.0,Gareth Edwards,El Hobbit III,Gareth Edwards,1975.0,England
2,2013.0,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942.0,USA
3,2013.0,,,Alfonso Cuarón,Gravity,,,
4,,,,,,Pedro Almodovar,1949.0,Spain


## Operaciones de agrupación

- Análogo al 'group by' de SQL

In [28]:
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Peter Jackson,Godzilla
1,2014,,250.0,Gareth Edwards,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity


In [29]:
by_year = peliculas.groupby('Año')

In [63]:
by_year

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000019280E21648>

- La estrucutra que devuelve groupby es un iterador.
- Los iteradores los podemos recorrer con list comprehension por ejemplo.

In [30]:
[g for g in by_year]

[(2013,
      Año  Valoración  Presupuesto         Director                  Título
  2  2013        8.75        100.0  Martin Scorsese  El lobo de Wall Street
  3  2013         NaN          NaN   Alfonso Cuarón                 Gravity),
 (2014,     Año  Valoración  Presupuesto        Director         Título
  0  2014         6.0        160.0   Peter Jackson       Godzilla
  1  2014         NaN        250.0  Gareth Edwards  El Hobbit III)]

In [31]:
_[0]

(2013,
     Año  Valoración  Presupuesto         Director                  Título
 2  2013        8.75        100.0  Martin Scorsese  El lobo de Wall Street
 3  2013         NaN          NaN   Alfonso Cuarón                 Gravity)

In [32]:
{year: df for year, df in by_year}

{2013:     Año  Valoración  Presupuesto         Director                  Título
 2  2013        8.75        100.0  Martin Scorsese  El lobo de Wall Street
 3  2013         NaN          NaN   Alfonso Cuarón                 Gravity,
 2014:     Año  Valoración  Presupuesto        Director         Título
 0  2014         6.0        160.0   Peter Jackson       Godzilla
 1  2014         NaN        250.0  Gareth Edwards  El Hobbit III}

In [33]:
dict([g for g in by_year])

{2013:     Año  Valoración  Presupuesto         Director                  Título
 2  2013        8.75        100.0  Martin Scorsese  El lobo de Wall Street
 3  2013         NaN          NaN   Alfonso Cuarón                 Gravity,
 2014:     Año  Valoración  Presupuesto        Director         Título
 0  2014         6.0        160.0   Peter Jackson       Godzilla
 1  2014         NaN        250.0  Gareth Edwards  El Hobbit III}

In [34]:
from utils import midir
midir(by_year)

['Año',
 'Director',
 'Presupuesto',
 'Título',
 'Valoración',
 '_accessors',
 '_add_numeric_operations',
 '_agg_doc',
 '_aggregate',
 '_aggregate_generic',
 '_aggregate_item_by_item',
 '_aggregate_multiple_funcs',
 '_apply_filter',
 '_apply_to_column_groupbys',
 '_apply_whitelist',
 '_assure_grouper',
 '_block_agg_axis',
 '_bool_agg',
 '_builtin_table',
 '_choose_path',
 '_concat_objects',
 '_constructor',
 '_cumcount_array',
 '_cython_agg_blocks',
 '_cython_agg_general',
 '_cython_table',
 '_cython_transform',
 '_decide_output_index',
 '_def_str',
 '_define_paths',
 '_deprecations',
 '_dir_additions',
 '_dir_deletions',
 '_fill',
 '_get_cythonized_result',
 '_get_data_to_aggregate',
 '_get_index',
 '_get_indices',
 '_gotitem',
 '_group_selection',
 '_insert_inaxis_grouper_inplace',
 '_internal_names',
 '_internal_names_set',
 '_is_builtin_func',
 '_is_cython_func',
 '_iterate_column_groupbys',
 '_iterate_slices',
 '_make_wrapper',
 '_obj_with_exclusions',
 '_post_process_cython_aggre

In [35]:
by_year.groups

{2013: Int64Index([2, 3], dtype='int64'),
 2014: Int64Index([0, 1], dtype='int64')}

In [36]:
[by_year.get_group(g) for g in by_year.groups]

[    Año  Valoración  Presupuesto         Director                  Título
 2  2013        8.75        100.0  Martin Scorsese  El lobo de Wall Street
 3  2013         NaN          NaN   Alfonso Cuarón                 Gravity,
     Año  Valoración  Presupuesto        Director         Título
 0  2014         6.0        160.0   Peter Jackson       Godzilla
 1  2014         NaN        250.0  Gareth Edwards  El Hobbit III]

- Existen diversas funciones optimizadas para los groupby
    - `count()` -> Cuenta valores que no son na.
    - `sum()` -> Suma valores que no son na.
    - `mean()` -> Media de los valores que no son na.
    - `median()` -> Mediana de los valores que no son na.
    - `std()` -> Desviación estandar de los valores que no son na (no sesgada).
    - `var()` -> Varianza de los valores que no son na (no sesgada).
    - `min()` -> Mínimo de los valores que no son na.
    - `max()` -> Máximo de los valores que no son na.
    - `prod()` -> Producto de los valores que no son na.
    - `first()` -> Primero de los valores que no son na.
    - `last()` -> Último de los valores que no son na.
    
- Al aplicar estas funciones sí obtenemos un pandas dataframe.

In [37]:
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Peter Jackson,Godzilla
1,2014,,250.0,Gareth Edwards,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity


In [38]:
by_year.count()

Unnamed: 0_level_0,Valoración,Presupuesto,Director,Título
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2013,1,1,2,2
2014,1,2,2,2


In [39]:
by_year.mean()

Unnamed: 0_level_0,Valoración,Presupuesto
Año,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,8.75,100.0
2014,6.0,205.0


In [40]:
type(_)

pandas.core.frame.DataFrame

- Podemos realizar agrupaciones múltiples

In [41]:
peliculas.groupby(['Año', 'Director']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Valoración,Presupuesto
Año,Director,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,Alfonso Cuarón,0.0,0.0
2013,Martin Scorsese,8.75,100.0
2014,Gareth Edwards,0.0,250.0
2014,Peter Jackson,6.0,160.0


In [76]:
_.index

MultiIndex([(2013,  'Alfonso Cuarón'),
            (2013, 'Martin Scorsese'),
            (2014,  'Gareth Edwards'),
            (2014,   'Peter Jackson')],
           names=['Año', 'Director'])

In [42]:
df = peliculas.groupby(['Año', 'Director']).sum()
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Valoración,Presupuesto
Año,Director,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,Alfonso Cuarón,0.0,0.0
2013,Martin Scorsese,8.75,100.0
2014,Gareth Edwards,0.0,250.0
2014,Peter Jackson,6.0,160.0


In [43]:
df.loc[2013]

Unnamed: 0_level_0,Valoración,Presupuesto
Director,Unnamed: 1_level_1,Unnamed: 2_level_1
Alfonso Cuarón,0.0,0.0
Martin Scorsese,8.75,100.0


In [44]:
df.loc[(2013, 'Martin Scorsese')]

Valoración       8.75
Presupuesto    100.00
Name: (2013, Martin Scorsese), dtype: float64

- También podemos hacer una agrupación con una función predefinida.

In [45]:
def titulo_largo(title):
    if len(title) > 10:
        return "Largo"
    else:
        return "Corto"
peliculas.index = peliculas['Título']    
peliculas.groupby(titulo_largo).sum()

Unnamed: 0,Año,Valoración,Presupuesto
Corto,4027,6.0,160.0
Largo,4027,8.75,350.0


- Podemos usar una función específica con `apply()`. En este caso, la función recibe cada grupo.

In [46]:
def custom_fun(x):
    return x.Título.map(str.upper)
peliculas.groupby('Año').apply(custom_fun)

Año   Título                
2013  El lobo de Wall Street    EL LOBO DE WALL STREET
      Gravity                                  GRAVITY
2014  Godzilla                                GODZILLA
      El Hobbit III                      EL HOBBIT III
Name: Título, dtype: object

In [47]:
type(_)

pandas.core.series.Series

## Tablas pivote
- Sirve para crear una nueva estructura expandiendo a partir de valores en una columna dada.

In [48]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón'],
             'Título':['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']}
)
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Peter Jackson,Godzilla
1,2014,,250.0,Gareth Edwards,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity


In [49]:
peliculas.pivot(index='Año', columns='Director', values='Título')

Director,Alfonso Cuarón,Gareth Edwards,Martin Scorsese,Peter Jackson
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2013,Gravity,,El lobo de Wall Street,
2014,,El Hobbit III,,Godzilla


In [50]:
peliculas.pivot(index='Año', columns='Director', values=['Título', 'Presupuesto'])

Unnamed: 0_level_0,Título,Título,Título,Título,Presupuesto,Presupuesto,Presupuesto,Presupuesto
Director,Alfonso Cuarón,Gareth Edwards,Martin Scorsese,Peter Jackson,Alfonso Cuarón,Gareth Edwards,Martin Scorsese,Peter Jackson
Año,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
2013,Gravity,,El lobo de Wall Street,,,,100.0,
2014,,El Hobbit III,,Godzilla,,250.0,,160.0


In [51]:
peliculas.pivot(index='Director', columns='Año', values='Presupuesto')

Año,2013,2014
Director,Unnamed: 1_level_1,Unnamed: 2_level_1
Alfonso Cuarón,,
Gareth Edwards,,250.0
Martin Scorsese,100.0,
Peter Jackson,,160.0


- También podemos crear tablas pivote utilizando una función de agregación para los valores, de forma que se haga una agrupación de resultados.
- En este caso se usa `pivot_table()`.

In [52]:
peliculas['Valoración'] = [6, 6, 5, 5]
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6,160.0,Peter Jackson,Godzilla
1,2014,6,250.0,Gareth Edwards,El Hobbit III
2,2013,5,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,5,,Alfonso Cuarón,Gravity


In [53]:
pd.pivot_table(peliculas, 
               values='Presupuesto', 
               index=['Año'], 
               columns=['Valoración'], 
               aggfunc=np.mean)

Valoración,5,6
Año,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,100.0,
2014,,205.0
