### Pandas basics 3

In [1]:
import pandas as pd

### Combinacions
 
En moltes ocasions haurem de con
Quan realitzem operacions en conjunts de dades, de vegades haurem de combinar diferents DataFrames i/o Sèries. 
Per fer això Pandas ofereix tres mètodes bàsics per fer-ho: `concat()`, `join()`, `merge()`.

In [2]:
# exemple 
treballadors = pd.DataFrame({'treballador_id': [111,222,333,444],
                    'nom': ['Pere','Marta','Joan','Alice'],
                    'departament_id': [10, 20, 10,None]
                    });

directius = pd.DataFrame({'treballador_id': [556, 689, 690],
                    'nom': ['Jaume','Sílvia','Anna'],
                    'departament_id': [30, 50, 50]
                    });

departaments = pd.DataFrame({'departament_id': [10, 20, 30, 40, 50],
                    'nom': ['IT', 'Administració', 'Manteniment', 'Logística', 'Direcció']
                    })

#### `concat()`

El mètode de combinació més senzill és concat(). Donada una llista d'elements, aquest mètode agruparà aquests elements al llarg d'un eix.

- pot actuar per files o per columnes

In [3]:
personal = pd.concat((treballadors, directius), axis = 0)
personal

Unnamed: 0,treballador_id,nom,departament_id
0,111,Pere,10.0
1,222,Marta,20.0
2,333,Joan,10.0
3,444,Alice,
0,556,Jaume,30.0
1,689,Sílvia,50.0
2,690,Anna,50.0


### Concat &rarr; agafa una taula i la posa a sota de l'altre

És un metode de pandas, no del dataframe. No farem mai cotxes.fuel.get_dummies() perquè get_dummies es una funció de pandas que rep com a argument un pandas series, però no s'aplica el metode directament al pandas series. 

- El primer paràmetre concat és una funció de pandas que rep de parametre una tula que la tupla té els **tots** dataframes que volem concatenar. 

Hauríen de tenir les mateixes columnes, peruqè sino hi posarà ``Nan`` i en general és mala idea. 

S'ha hauría de fer servir quan són la mateixa informació però amb taules separades. 

- El segon parametre, és perquè podem concatenar per files o per columnes. 
    - axis = 0, per files (les posa a sota).
    - axis = 1, per columnes (les posa de costat) &rarr; per tant també li podem passar un pandas series per concatener-lo.

### `join()`

El mètode `join()` permet combinar diferents objectes DataFrame que tenen un **índex** en comú. És molt semblant a l'operador JOIN d'SQL.

Per exemple, per treure vídeos que van ser tendència el mateix dia tant al Canadà com al Regne Unit, podríem fer el següent:


In [4]:
personal.set_index('departament_id').join(departaments.set_index('departament_id'), lsuffix='_TRB', rsuffix='_DEP')

Unnamed: 0_level_0,treballador_id,nom_TRB,nom_DEP
departament_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10.0,111,Pere,IT
10.0,333,Joan,IT
20.0,222,Marta,Administració
30.0,556,Jaume,Manteniment
50.0,689,Sílvia,Direcció
50.0,690,Anna,Direcció
,444,Alice,


### `merge()`

El mètode `merge` de pandas és molt més potent que el join ja que podem especificar:
* Paràmetre `how` especifiquem el tipus de JOIN  a fer({‘left’, ‘right’, ‘outer’, ‘inner’, ‘cross’}, default ‘inner’)
* Paràmetre `on` especifiquem la columna o una llista de columnes per fer el join.


In [5]:
## INNER JOIN
pd.merge(personal, departaments, on = 'departament_id')

Unnamed: 0,treballador_id,nom_x,departament_id,nom_y
0,111,Pere,10.0,IT
1,333,Joan,10.0,IT
2,222,Marta,20.0,Administració
3,556,Jaume,30.0,Manteniment
4,689,Sílvia,50.0,Direcció
5,690,Anna,50.0,Direcció


In [6]:
## LEFT JOIN
pd.merge(personal, departaments, how = 'left', on = 'departament_id')

Unnamed: 0,treballador_id,nom_x,departament_id,nom_y
0,111,Pere,10.0,IT
1,222,Marta,20.0,Administració
2,333,Joan,10.0,IT
3,444,Alice,,
4,556,Jaume,30.0,Manteniment
5,689,Sílvia,50.0,Direcció
6,690,Anna,50.0,Direcció


In [7]:
# RIGHT JOIN 
pd.merge(personal, departaments, how = 'right', on = 'departament_id')

Unnamed: 0,treballador_id,nom_x,departament_id,nom_y
0,111.0,Pere,10.0,IT
1,333.0,Joan,10.0,IT
2,222.0,Marta,20.0,Administració
3,556.0,Jaume,30.0,Manteniment
4,,,40.0,Logística
5,689.0,Sílvia,50.0,Direcció
6,690.0,Anna,50.0,Direcció


In [8]:
# OUTER JOIN
pd.merge(personal, departaments, how = 'outer', on = 'departament_id')

Unnamed: 0,treballador_id,nom_x,departament_id,nom_y
0,111.0,Pere,10.0,IT
1,333.0,Joan,10.0,IT
2,222.0,Marta,20.0,Administració
3,444.0,Alice,,
4,556.0,Jaume,30.0,Manteniment
5,689.0,Sílvia,50.0,Direcció
6,690.0,Anna,50.0,Direcció
7,,,40.0,Logística


In [9]:
# CROSS JOIN
pd.merge(personal, departaments, how = 'cross')

Unnamed: 0,treballador_id,nom_x,departament_id_x,departament_id_y,nom_y
0,111,Pere,10.0,10,IT
1,111,Pere,10.0,20,Administració
2,111,Pere,10.0,30,Manteniment
3,111,Pere,10.0,40,Logística
4,111,Pere,10.0,50,Direcció
5,222,Marta,20.0,10,IT
6,222,Marta,20.0,20,Administració
7,222,Marta,20.0,30,Manteniment
8,222,Marta,20.0,40,Logística
9,222,Marta,20.0,50,Direcció


## Pandasql
-----------

Si estàs acostumat a treballar amb SQL mira't la llibreria Pandasql. Aquesta llibreria permet manipular Dataframes de Pandas utilitzant SQL.

[https://towardsdatascience.com/query-pandas-dataframe-with-sql](https://towardsdatascience.com/query-pandas-dataframe-with-sql-2bb7a509793d)