# Rimozione dei duplicati
Vediamo come rimuovare i valori duplicati per evitare errori nelle nostre valutazioni.

In [1]:
import pandas as pd
import numpy as np
from pandas import Series, DataFrame


In [2]:
DF = DataFrame({"Column 1": [1,1,2,2,3,3,3],
               "Column 2": ["a","a","b","b","c","c","c"],
               "Column 3": ["A","A","B","B","C","C","A"]})
DF

Unnamed: 0,Column 1,Column 2,Column 3
0,1,a,A
1,1,a,A
2,2,b,B
3,2,b,B
4,3,c,C
5,3,c,C
6,3,c,A


In [3]:
# La funzione duplicated() ci indica per ogni riga se sono presenti dei valori duplicati.
# Un duplicato è considerato tale quando riporta valori uguali per ogni colonna rispetto ad una delle misurazioni precedenti.
DF.duplicated()

0    False
1     True
2    False
3     True
4    False
5     True
6    False
dtype: bool

In [6]:
# Con la funzione drop_duplicates() andiamo a rimuovere le misurazioni duplicate.
DF.drop_duplicates()

Unnamed: 0,Column 1,Column 2,Column 3
0,1,a,A
2,2,b,B
4,3,c,C
6,3,c,A


In [7]:
DF = DataFrame({"Column 1": [1,1,2,2,3,3,3],
               "Column 2": ["a","a","b","b","c","c","c"],
               "Column 3": ["A","A","B","B","C","C","D"]})
DF

Unnamed: 0,Column 1,Column 2,Column 3
0,1,a,A
1,1,a,A
2,2,b,B
3,2,b,B
4,3,c,C
5,3,c,C
6,3,c,D


In [8]:
# Possiamo anche decidere di rimuovere le misurazioni che riportano un valore duplicato anche solo per una colonna.
D1 = DF.drop_duplicates(["Column 2"])
D1

Unnamed: 0,Column 1,Column 2,Column 3
0,1,a,A
2,2,b,B
4,3,c,C


In [9]:
D2 = DF.drop_duplicates(["Column 3"])
D2

Unnamed: 0,Column 1,Column 2,Column 3
0,1,a,A
2,2,b,B
4,3,c,C
6,3,c,D


## Concatenating and tranformation
Possiamo andare a concatenare due DataFrame utilizzando la funzione concat().
Di default la concatenazione avviene aggiungendo nuove colonne al DataFrame, ma possiamo utilizzare l'opzione *axis=1* per andare a concatenare i valori come se fossero nuove misurazioni ovvero nuove righe.

Gli eventuali valori mancanti a causa della diversa forma dei DataFrame verranno considerati valori mancanti (NAN).


In [17]:
DF = pd.DataFrame(np.arange(36).reshape(6,6))
DF

Unnamed: 0,0,1,2,3,4,5
0,0,1,2,3,4,5
1,6,7,8,9,10,11
2,12,13,14,15,16,17
3,18,19,20,21,22,23
4,24,25,26,27,28,29
5,30,31,32,33,34,35


In [18]:
DF_1 = pd.DataFrame(np.arange(15).reshape(5,3))
DF_1


Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11
4,12,13,14


In [19]:
pd.concat([DF,DF_1])

Unnamed: 0,0,1,2,3,4,5
0,0,1,2,3.0,4.0,5.0
1,6,7,8,9.0,10.0,11.0
2,12,13,14,15.0,16.0,17.0
3,18,19,20,21.0,22.0,23.0
4,24,25,26,27.0,28.0,29.0
5,30,31,32,33.0,34.0,35.0
0,0,1,2,,,
1,3,4,5,,,
2,6,7,8,,,
3,9,10,11,,,


In [20]:
# Concateniamo le colonne.
pd.concat([DF,DF_1], axis =1)

Unnamed: 0,0,1,2,3,4,5,0.1,1.1,2.1
0,0,1,2,3,4,5,0.0,1.0,2.0
1,6,7,8,9,10,11,3.0,4.0,5.0
2,12,13,14,15,16,17,6.0,7.0,8.0
3,18,19,20,21,22,23,9.0,10.0,11.0
4,24,25,26,27,28,29,12.0,13.0,14.0
5,30,31,32,33,34,35,,,


## Drop Data
Con la funzione drop() andiamo a rimuovere dei dati dal nostro DataFrame.
Possiamo indicare il valore degli indici da rimuovere oppure il valore delle colonne.

In [21]:
DF.drop([0,2])

Unnamed: 0,0,1,2,3,4,5
1,6,7,8,9,10,11
3,18,19,20,21,22,23
4,24,25,26,27,28,29
5,30,31,32,33,34,35


In [22]:
DF.drop([0,2], axis=1)

Unnamed: 0,1,3,4,5
0,1,3,4,5
1,7,9,10,11
2,13,15,16,17
3,19,21,22,23
4,25,27,28,29
5,31,33,34,35


In [31]:
DF_day = pd.DataFrame(np.arange(42).reshape(6,7), columns=["Dom","Lun","Mar","Mer","Gio", "Ven","Sab"])
DF_day

Unnamed: 0,Dom,Lun,Mar,Mer,Gio,Ven,Sab
0,0,1,2,3,4,5,6
1,7,8,9,10,11,12,13
2,14,15,16,17,18,19,20
3,21,22,23,24,25,26,27
4,28,29,30,31,32,33,34
5,35,36,37,38,39,40,41


In [32]:
# Per la gioia dei lavoratori andiamo a rimuovere due giornate dalla settimana lavorativa...
DF_day.drop(["Mar", "Gio"], axis=1)

Unnamed: 0,Dom,Lun,Mer,Ven,Sab
0,0,1,3,5,6
1,7,8,10,12,13
2,14,15,17,19,20
3,21,22,24,26,27
4,28,29,31,33,34
5,35,36,38,40,41


## Adding data
Oltre a **concat** possiamo andare ad aggiungere dei dati ad un DataFrame aggiungendo una Serie di misurazioni attraverso le funzioni *join()* o *append()*.


In [51]:
series_obj = Series(np.arange(6))
series_obj.name = "Added Series"
series_obj

0    0
1    1
2    2
3    3
4    4
5    5
Name: Added Series, dtype: int32

In [52]:
# Con il metodo join() possiamo andare ad aggiungere una nuova colonna al nostro Dataframe.
DF_added =pd.DataFrame.join(DF, series_obj)
DF_added

Unnamed: 0,0,1,2,3,4,5,Added Series
0,0,1,2,3,4,5,0
1,6,7,8,9,10,11,1
2,12,13,14,15,16,17,2
3,18,19,20,21,22,23,3
4,24,25,26,27,28,29,4
5,30,31,32,33,34,35,5


In [49]:
# Il comando append() e molto simile a concat(), in entrambi possiamo usare l'opzione ignore_index.
DF_added = DF_added.append(DF_added, ignore_index=True)
DF_added

Unnamed: 0,0,1,2,3,4,5,Added Series
0,0,1,2,3,4,5,0
1,6,7,8,9,10,11,1
2,12,13,14,15,16,17,2
3,18,19,20,21,22,23,3
4,24,25,26,27,28,29,4
5,30,31,32,33,34,35,5
0,0,1,2,3,4,5,0
1,6,7,8,9,10,11,1
2,12,13,14,15,16,17,2
3,18,19,20,21,22,23,3


## Sorting Data
Possiamo andare ad ordinare i dati di un DataFrame in base ai valori di una specifica colonna.

In [60]:
# Ordiniamo in modo ascendente in base ai valori della colonna 5
DF_sorted = DF.sort_values(by=(5), ascending=[False])
DF_sorted

Unnamed: 0,0,1,2,3,4,5
4,24,25,26,27,28,29
3,18,19,20,21,22,23
2,12,13,14,15,16,17
1,6,7,8,9,10,11
0,0,1,2,3,4,5
5,30,31,32,33,34,2


In [63]:
# MOdifichiamo un valore della colonna 5 ed ordiniamo nuovamente il nostro dataset.
DF.loc[5,5] = 2
DF_sorted = DF.sort_values(by=(5), ascending=[False])
DF_sorted

Unnamed: 0,0,1,2,3,4,5
4,24,25,26,27,28,29
3,18,19,20,21,22,23
2,12,13,14,15,16,17
1,6,7,8,9,10,11
0,0,1,2,3,4,5
5,30,31,32,33,34,2


In [66]:
# Se il valore ascending è omesso viene considerato True di default.
DF_sorted = DF_sorted.sort_values(by=(2))
DF_sorted

Unnamed: 0,0,1,2,3,4,5
0,0,1,2,3,4,5
1,6,7,8,9,10,11
2,12,13,14,15,16,17
3,18,19,20,21,22,23
4,24,25,26,27,28,29
5,30,31,32,33,34,2
