### Pandas basics 3

In [1]:
import pandas as pd

### Combinacions
 
En moltes ocasions haurem de combinar dades de diferents taules.

Per fer això Pandas ofereix tres mètodes bàsics per fer-ho: `concat()`, `join()`, `merge()`.

In [2]:
# exemple 
treballadors = pd.DataFrame({'treballador_id': [111,222,333,444],
                    'nom': ['Pere','Marta','Joan','Glòria'],
                    'formacio': ['sistemes', 'sistemes', 'programació', 'programació'],
                    'departament_id': [10, 20, 10,None]
                    });

directius = pd.DataFrame({'treballador_id': [556, 444, 689, 690],
                    'nom': ['Jaume','Glòria','Sílvia','Anna'],
                    'formacio': ['sistemes', None, 'gestió', 'gestió'],  
                    'departament_id': [30, None, 50, 50]
                    });

departaments = pd.DataFrame({'departament_id': [10, 20, 30, 40, 50],
                    'nom': ['IT', 'Administració', 'Manteniment', 'Logística', 'Direcció']
                    })

In [3]:
treballadors

Unnamed: 0,treballador_id,nom,formacio,departament_id
0,111,Pere,sistemes,10.0
1,222,Marta,sistemes,20.0
2,333,Joan,programació,10.0
3,444,Glòria,programació,


In [4]:
departaments

Unnamed: 0,departament_id,nom
0,10,IT
1,20,Administració
2,30,Manteniment
3,40,Logística
4,50,Direcció


### concat()

El mètode de combinació més senzill és concat(). Donada una llista d'elements, aquest mètode agruparà aquests elements al llarg d'un eix.

- pot actuar per files (*axis = 0*)
- o per columnes (*axis = 1*) &rarr; una al costat de l'altre

In [5]:
personal = pd.concat((treballadors, directius), axis = 0)
personal

Unnamed: 0,treballador_id,nom,formacio,departament_id
0,111,Pere,sistemes,10.0
1,222,Marta,sistemes,20.0
2,333,Joan,programació,10.0
3,444,Glòria,programació,
0,556,Jaume,sistemes,30.0
1,444,Glòria,,
2,689,Sílvia,gestió,50.0
3,690,Anna,gestió,50.0


In [6]:
# reindexem (l'índex original passa a ser una columna)
personal.reset_index()

Unnamed: 0,index,treballador_id,nom,formacio,departament_id
0,0,111,Pere,sistemes,10.0
1,1,222,Marta,sistemes,20.0
2,2,333,Joan,programació,10.0
3,3,444,Glòria,programació,
4,0,556,Jaume,sistemes,30.0
5,1,444,Glòria,,
6,2,689,Sílvia,gestió,50.0
7,3,690,Anna,gestió,50.0


In [7]:
# reindexem inplace i eliminem l'index antic
personal.reset_index(inplace = True, drop = True)
personal

Unnamed: 0,treballador_id,nom,formacio,departament_id
0,111,Pere,sistemes,10.0
1,222,Marta,sistemes,20.0
2,333,Joan,programació,10.0
3,444,Glòria,programació,
4,556,Jaume,sistemes,30.0
5,444,Glòria,,
6,689,Sílvia,gestió,50.0
7,690,Anna,gestió,50.0


##### concat() (per columnes)

In [8]:
# un cas típic és quan fem ús de get_dummies() -> separa 
# per la variable categorica, crea una columna per cada i posa un 1 a la que es
pd.get_dummies(personal.formacio)

Unnamed: 0,gestió,programació,sistemes
0,0,0,1
1,0,0,1
2,0,1,0
3,0,1,0
4,0,0,1
5,0,0,0
6,1,0,0
7,1,0,0


In [9]:
personal = pd.concat((personal, pd.get_dummies(personal.formacio)), axis = 1)
personal

Unnamed: 0,treballador_id,nom,formacio,departament_id,gestió,programació,sistemes
0,111,Pere,sistemes,10.0,0,0,1
1,222,Marta,sistemes,20.0,0,0,1
2,333,Joan,programació,10.0,0,1,0
3,444,Glòria,programació,,0,1,0
4,556,Jaume,sistemes,30.0,0,0,1
5,444,Glòria,,,0,0,0
6,689,Sílvia,gestió,50.0,1,0,0
7,690,Anna,gestió,50.0,1,0,0


### duplicated()

- el mètode *duplicated()* localitza registres duplicats 

El 5, indica que aquell id ja l'ha vist abans

In [10]:
personal.duplicated('treballador_id')




0    False
1    False
2    False
3    False
4    False
5     True
6    False
7    False
dtype: bool

In [11]:
# Per comprobar varios camps: 
personal.duplicated(['treballador_id', 'formacio'])

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
dtype: bool

#### drop_duplicates()

In [12]:
# eliminem registres duplicats
personal.drop_duplicates('treballador_id', keep = 'first')

Unnamed: 0,treballador_id,nom,formacio,departament_id,gestió,programació,sistemes
0,111,Pere,sistemes,10.0,0,0,1
1,222,Marta,sistemes,20.0,0,0,1
2,333,Joan,programació,10.0,0,1,0
3,444,Glòria,programació,,0,1,0
4,556,Jaume,sistemes,30.0,0,0,1
6,689,Sílvia,gestió,50.0,1,0,0
7,690,Anna,gestió,50.0,1,0,0


In [13]:
# eliminem els registres duplicats definitivament i fem un rest de l'índex
personal.drop_duplicates('treballador_id', inplace = True)
personal.reset_index(inplace = True, drop = True)
personal

Unnamed: 0,treballador_id,nom,formacio,departament_id,gestió,programació,sistemes
0,111,Pere,sistemes,10.0,0,0,1
1,222,Marta,sistemes,20.0,0,0,1
2,333,Joan,programació,10.0,0,1,0
3,444,Glòria,programació,,0,1,0
4,556,Jaume,sistemes,30.0,0,0,1
5,689,Sílvia,gestió,50.0,1,0,0
6,690,Anna,gestió,50.0,1,0,0


###  join()

El ***mètode*** *join()* permet combinar diferents objectes DataFrame que tenen un **índex** en comú. És molt semblant a l'operador JOIN d'SQL.

- Indexem el personal per departament_id i li fem el join. 
- 

In [14]:
personal.set_index('departament_id').join(departaments.set_index('departament_id'), lsuffix='_TRB', rsuffix='_DEP')

# Si el guardessim a personal_joined = ... podrime fer: 

# personal_joined.reset_index()

# Això vol dir que el set_index, nomès serveix per vincular una taula amb l'altre

Unnamed: 0_level_0,treballador_id,nom_TRB,formacio,gestió,programació,sistemes,nom_DEP
departament_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
10.0,111,Pere,sistemes,0,0,1,IT
10.0,333,Joan,programació,0,1,0,IT
20.0,222,Marta,sistemes,0,0,1,Administració
30.0,556,Jaume,sistemes,0,0,1,Manteniment
50.0,689,Sílvia,gestió,1,0,0,Direcció
50.0,690,Anna,gestió,1,0,0,Direcció
,444,Glòria,programació,0,1,0,


###  merge()

La ***funció*** *merge()* de pandas és molt més potent que el join ja que podem especificar:
* Paràmetre `how` especifiquem el tipus de JOIN  a fer({‘left’, ‘right’, ‘outer’, ‘inner’, ‘cross’}, default ‘inner’)
* Paràmetre `on` especifiquem la columna o una llista de columnes per fer el join.


Si hi han columnes iguals, posa el sufix nov_x i nov_v. Li podem posar sufixes
```python
pd.merge(personal, departaments, on = 'departament_id', suffixes = ['_per', '_dep'])
```

---

Que pasaría si fem un merge amb un que el seu codi que el relaciona, no el té assignat. 
- Li podem dir que ho ignori
- Que ho volem veure amb NaN

Si la gloria no té departament i fem un inner, no li posarem. 

El departament que no el té ningú no apareix i la gloria tampoc perque no te departament (NaN)

In [15]:
## INNER Merge
pd.merge(personal, departaments, on = 'departament_id')

Unnamed: 0,treballador_id,nom_x,formacio,departament_id,gestió,programació,sistemes,nom_y
0,111,Pere,sistemes,10.0,0,0,1,IT
1,333,Joan,programació,10.0,0,1,0,IT
2,222,Marta,sistemes,20.0,0,0,1,Administració
3,556,Jaume,sistemes,30.0,0,0,1,Manteniment
4,689,Sílvia,gestió,50.0,1,0,0,Direcció
5,690,Anna,gestió,50.0,1,0,0,Direcció


In [16]:
## LEFT JOIN
# Glòria apareix en el join tot ique no està assignada a cap departament
pd.merge(personal, departaments, how = 'left', on = 'departament_id')

Unnamed: 0,treballador_id,nom_x,formacio,departament_id,gestió,programació,sistemes,nom_y
0,111,Pere,sistemes,10.0,0,0,1,IT
1,222,Marta,sistemes,20.0,0,0,1,Administració
2,333,Joan,programació,10.0,0,1,0,IT
3,444,Glòria,programació,,0,1,0,
4,556,Jaume,sistemes,30.0,0,0,1,Manteniment
5,689,Sílvia,gestió,50.0,1,0,0,Direcció
6,690,Anna,gestió,50.0,1,0,0,Direcció


Si fem un left join, independemnt ment que algún no tingui departament (el volem veure igual) tots els que estan a les esquerra + la informació de la dreta (surt la gloria (NaN)). 

Logistica segueix sense apareixer perque volem les dades de la esquerra. 

In [17]:
# RIGHT JOIN
# logística apareix en el join tot i que no hi ha ningú assignat a logística
pd.merge(personal, departaments, how = 'right', on = 'departament_id')

Unnamed: 0,treballador_id,nom_x,formacio,departament_id,gestió,programació,sistemes,nom_y
0,111.0,Pere,sistemes,10.0,0.0,0.0,1.0,IT
1,333.0,Joan,programació,10.0,0.0,1.0,0.0,IT
2,222.0,Marta,sistemes,20.0,0.0,0.0,1.0,Administració
3,556.0,Jaume,sistemes,30.0,0.0,0.0,1.0,Manteniment
4,,,,40.0,,,,Logística
5,689.0,Sílvia,gestió,50.0,1.0,0.0,0.0,Direcció
6,690.0,Anna,gestió,50.0,1.0,0.0,0.0,Direcció


RIGHT JOIN: 
- Aquí veurem els que sempre veurem són els de departament (si n'hi ha algun que no té ningú assignat) tindrà NaN (el dept. de logística. 

In [18]:
# OUTER JOIN
# apareixen tots els registres que no tenen join en qualsevol dels sentits
pd.merge(personal, departaments, how = 'outer', on = 'departament_id')

Unnamed: 0,treballador_id,nom_x,formacio,departament_id,gestió,programació,sistemes,nom_y
0,111.0,Pere,sistemes,10.0,0.0,0.0,1.0,IT
1,333.0,Joan,programació,10.0,0.0,1.0,0.0,IT
2,222.0,Marta,sistemes,20.0,0.0,0.0,1.0,Administració
3,444.0,Glòria,programació,,0.0,1.0,0.0,
4,556.0,Jaume,sistemes,30.0,0.0,0.0,1.0,Manteniment
5,689.0,Sílvia,gestió,50.0,1.0,0.0,0.0,Direcció
6,690.0,Anna,gestió,50.0,1.0,0.0,0.0,Direcció
7,,,,40.0,,,,Logística


OUTER: 
- Els volem veure tots (al inner nomès veiem els que tenien tot)
- Gloria no té dept, surt amb nan
- Dept no té ningú surt NaN

In [19]:
# CROSS JOIN
pd.merge(personal, departaments, how = 'cross')

Unnamed: 0,treballador_id,nom_x,formacio,departament_id_x,gestió,programació,sistemes,departament_id_y,nom_y
0,111,Pere,sistemes,10.0,0,0,1,10,IT
1,111,Pere,sistemes,10.0,0,0,1,20,Administració
2,111,Pere,sistemes,10.0,0,0,1,30,Manteniment
3,111,Pere,sistemes,10.0,0,0,1,40,Logística
4,111,Pere,sistemes,10.0,0,0,1,50,Direcció
5,222,Marta,sistemes,20.0,0,0,1,10,IT
6,222,Marta,sistemes,20.0,0,0,1,20,Administració
7,222,Marta,sistemes,20.0,0,0,1,30,Manteniment
8,222,Marta,sistemes,20.0,0,0,1,40,Logística
9,222,Marta,sistemes,20.0,0,0,1,50,Direcció


No és tant important, però: 

CROSS: 
- Per cada registre de personal, et crea un registre amb cada departament que hi hagi. 
- Mostra totes les combinacions
- Vàris sous per cada departament, i volem saber que cobraria en Pere per cada dept. Sería un producte cartesia (tots per tots). 

## Pandasql
-----------

Si estàs acostumat a treballar amb SQL mira't la llibreria Pandasql. Aquesta llibreria permet manipular Dataframes de Pandas utilitzant SQL.

[https://towardsdatascience.com/query-pandas-dataframe-with-sql](https://towardsdatascience.com/query-pandas-dataframe-with-sql-2bb7a509793d)