# Håndtere dubletter i Python

### Avsnitt i denne noten:
<font size=2>Vi tar utgangspunkt i datasettet med landenes innbyggertall.
<ol>
<li>Lese inn og vise dataframe ved bruk av Dapla Python-pakken
<li>Sortere dataframe etter kolonne
<li>Telle opp antall duplikater i form av identiske rader i dataframen og vise i liste
<li>Telle opp antall duplikater i en kolonne og vise i liste
<li>Fjerne duplikater der radene er identiske og teller opp antall rader i den nye dataframen
<li>Fjerne/droppe rader med duplikat på en kolonne og teller opp antall rader i den nye dataframen 
</ol>
</font>

#### Importerer biblioteker

In [None]:
import dapla as dp
import pandas as pd

### 1. Lese inn og vise dataframe ved bruk Dapla Python-pakken 
<font size=2>Lese inn dataframe:<code><i>dp.read_pandas('/felles/sti')</i></code>

#### Leser inn og viser dataframen "df_innbyggertall" 

In [None]:
#Her leses dataframen inn fra dataplattformen som vi ønsker å undersøke nærmere for dubletter
df_innbyggerantall = dp.read_pandas('/felles/veiledning/pyspark/eksempler/innbyggerantall/2020')

# Her vises dataframen vi har lest inn 
df_innbyggerantall

### 2. Sortere dataframe etter kolonner
<font size=2>Sortere dataframe etter kolonner:<code><i>df.sort_values(by=['kol1', 'kol2'])</i></code>

#### Sortert etter variabelen 'Land', 'År' og 'Innbyggerantall'

In [None]:
#Sorterer dataframen etter variablene "land", "År" og "Innbyggerantall" ved hjelp av:  
df_land_sort = df_innbyggerantall.sort_values(by=['Land', 'År', 'Innbyggerantall'])

In [None]:
#lister ut den sorterte dataframen
df_land_sort

### 3. Telle opp antall duplikater i form av identiske rader i dataframen og vise i liste
<font size=2>Finne identiske rader i en dataframe:<code><i>df.duplicated(keep = False)</i></code>

In [None]:
# Må sette 'keep = False' for å be funksjonen telle alle forekomster. Hvis vi velger 'keep = First' eller 'keep = Last' telles 
#alle duplikate rader bortsett fra den første eller siste. First' er default.
print(df_land_sort.duplicated(keep = False).sum())

#### Printer ut alle identiske rader.

In [None]:
# Skriver ut alle identiske rader i dataframen
df_land_sort[df_land_sort.duplicated(keep=False)]

#### Kan også velge å vise alle duplikate rader bortsett fra den første eller siste

In [None]:
# Hvis vi ønsker å velge alle duplikate rader bortsett fra den første eller siste, kan vi sette keep='first' eller 'last'. 
#'First' er default.
df_land_sort[df_land_sort.duplicated(keep= 'last')]

### 4. Telle opp antall duplikater i en kolonne og vise i liste
<font size=2>Finne duplikater i en kolonne i en dataframe:<code><i>df.duplicated(subset = ['kolnavn'])</i></code>

#### Antall duplikater i variabelen 'Land' i dataframen 'df_innbyggerantall' 

In [None]:
# Siden 'keep = False' over, får vi her med alle duplikater på 'Land'
df_land_sort.duplicated(subset = ['Land'], keep = False).sum()

#### Lager ny dataframe 'df_land_dup' med dublettene i variabelen 'land' (kode)

In [None]:
#lager ny dataframe bestående av land og tilhørende duplikater. Velger her å ta med alle duplikater. 
df_land_dup = df_land_sort[df_land_sort.duplicated(subset = ['Land'], keep = False)]
df_land_dup

#### Tar ut oversikt over antall duplikater i variabelen 'Land'

In [None]:
# Tar ut oversikt over antall duplikater på kolonnen 'Land'. Siden 'keep = False' over, får vi her alle duplikater på 'Land'
df_land_dup.pivot_table(index = ['Land'], aggfunc ='size') 

### 5. Fjerne duplikater der radene er identiske og teller opp antall rader i den nye dataframen
<font size=2>Fjerne duplikater i en dataframe:<code><i>df.drop_duplicates()</i></code>

#### Fjerne/dropper rader som er helt like

In [None]:
# 'Keep = False' dropper alle like duplikater, Keep = 'first' dropper alle bortsett fra første og Keep = 'last' dropper alle bortsett fra siste.
df_land_udup = df_land_sort.drop_duplicates(keep = 'last')
df_land_udup

#### Teller opp antall rader i dataframen der de identiske radene unntatt den siste er fjernet

In [None]:
# Teller opp antall rader 
len(df_land_udup)

#### Lister ut duplikatene

In [None]:
df_dupl = df_land_sort[df_land_sort.duplicated(keep = 'last')]
df_dupl

### 6. Fjerne/droppe rader med duplikat på en kolonne og teller opp antall rader i den nye dataframen 
<font size=2>Fjerne rader med duplikat på en kolonne i en dataframe:<code><i>df.drop_duplicates(subset = ['kolnavn'])</i></code>

#### Vil beholde observasjonen med høyest innbyggerantall fra år 2020

In [None]:
#Fjerner/dropper rader med duplikat på land og beholder den med høyest innbyggerantall fra år 2020. Dette får vi ved å bruke 
# 'keep = 'last'' fordi vi allerede har sortert dataframen stigende etter land, år og innbyggerantall.
df_land_koludup = df_land_sort.drop_duplicates(subset = ['Land'], keep = 'last')
df_land_koludup

In [None]:
# Teller opp antall rader 
len(df_land_koludup)

#### Lister ut duplikatene

In [None]:
df_dup = df_land_sort[df_land_sort.duplicated(subset = ['Land'], keep = 'last')]
df_dup