# Import av biblioteker

In [1]:
import pandas as pd

# Gjennomgang Betalinger

In [2]:
df_betalinger = pd.read_csv('data/Datagrunnlag-Betalinger.csv', sep=';')

print(f"Nullverdier:\n{df_betalinger.isnull().sum()}")

df_betalinger.head()

Nullverdier:
Medlemsnummer     0
Beløp             0
Periode           0
Innbetalt_dato    0
dtype: int64


Unnamed: 0,Medlemsnummer,Beløp,Periode,Innbetalt_dato
0,62,750,2023,14.05.2023
1,87,900,2023,18.05.2023
2,99,900,2023,30.06.2023
3,71,750,2023,03.05.2023
4,52,900,2023,14.05.2023


Starter med et raskt overblikk over dataene i CSV-filen og ser at kolonnenavnene har mellomrom i seg. Vi har heldigvis ingen nullverdier.

In [3]:
print(df_betalinger['Medlemsnummer'].value_counts())

s_medlemsnummer = df_betalinger['Medlemsnummer'].sort_values()

print()
print(s_medlemsnummer.head(3))

print()
print(s_medlemsnummer.tail(3))

Medlemsnummer
42    3
87    1
62    1
71    1
52    1
     ..
12    1
85    1
72    1
73    1
68    1
Name: count, Length: 83, dtype: int64

34    1
50    2
76    3
Name: Medlemsnummer, dtype: int64

11    96
18    98
2     99
Name: Medlemsnummer, dtype: int64


Det ser ut til at vi har et medlem som har betalt for seg flere ganger. Dette virker rart med tanke på at ingen andre har gjort det, samt at de mest sannsynlig har betalt flere ganger i innen samme årsperiode.

In [4]:
print(df_betalinger['Beløp '].value_counts())

Beløp 
750    45
900    37
400     3
Name: count, dtype: int64


**Problem**: Kolonna 'Beløp ' har et mellomrom i seg.

Vi har noen avvik på 400 kroner i betalinger, men dette trenger ikke være et problem. Kan høre med kunde, samt sjekke kontigentdataene.

In [5]:
print(df_betalinger['Periode '].value_counts())

Periode 
2023    84
2022     1
Name: count, dtype: int64


**Problem**: Kolonna 'Periode ' har et mellomrom i seg.

I analysen av Periode legger man merke til at det er én verdi fra 2022, mens alle andre verdier er fra 2023. Dette kan være en feil i data og vi må sjekke med kunden om dette er riktig.

In [6]:
print(df_betalinger['Innbetalt_dato'].value_counts())

Innbetalt_dato
14.05.2023    22
18.05.2023    21
03.05.2023    21
30.06.2023    20
30.12.2023     1
Name: count, dtype: int64


I analysen av Innbetalt_dato ser man at det er en innbetaling gjort 2023-30-12. Man spør seg om dette er en outlier.

# Gjennomgang Kontigent

In [7]:
df_kontigent = pd.read_csv('data/Datagrunnlag-kontingent.csv', sep=';')

print(f"Nullverdier:\n{df_kontigent.isnull().sum()}")

df_kontigent.head()

Nullverdier:
Medlemstype     0
kontingent      0
Periode         0
Aldersgruppe    0
dtype: int64


Unnamed: 0,Medlemstype,kontingent,Periode,Aldersgruppe
0,Senior,900,2023,18-60
1,Junior,400,2023,10-17
2,Veteran,750,2023,60 +
3,Senior,850,2022,18-60
4,Junior,350,2022,10-17


Denne fila er betydelig mer overkommelig og vi leser rett fra teksteditor.

Noterer følgende feil:
- Kolonna 'kontingent ' har liten K og mellomrom på slutten.
- Aldersgruppe '60 + ' har mellomrom på slutten.

# Gjennomgang Medlemmer

In [8]:
df_medlemmer = pd.read_csv('data/Datagrunnlag-Medlemmer.csv', sep=';')

print(f"Nullverdier:\n{df_medlemmer.isnull().sum()}")
print(f"Datarammens lengde: {len(df_medlemmer)}")

df_medlemmer.head()

Nullverdier:
Medlemsnummer     0
Fornavn           0
Etternavn         1
Fødselsdato       0
Kjønn             0
Medlemstype       0
Gateadresse       0
Postnummer        0
Poststed          1
Unnamed: 9       99
Unnamed: 10      99
dtype: int64
Datarammens lengde: 99


Unnamed: 0,Medlemsnummer,Fornavn,Etternavn,Fødselsdato,Kjønn,Medlemstype,Gateadresse,Postnummer,Poststed,Unnamed: 9,Unnamed: 10
0,62,Sahra,AAS,28.03.1963,F,Veteran,Nytrøa,6166,Sæbø,,
1,87,Hanne,AASEN,22.05.1970,F,Senior,Krokveien,6399,Vestnes,,
2,99,Solveig,ABRAHAMSEN,08.05.1974,F,Senior,Langsæterlia,6687,Valsøyfjorden,,
3,71,Karen,AHMED,23.07.1966,F,Veteran,Rødalsveien,6239,Sykkylven,,
4,52,Emma,ALI,05.11.1957,F,Veteran,Sottdalen,6051,Valderøy,,


Vi ser raskt at:
- Etternavn har en nullverdi
- Kolonne 9 og 10 er tomme, sannsynligvis lagt inn ved et uhell, f.eks. eksportert fra Excel.
- Skal etternavn være med store bokstaver?

In [9]:
print(df_medlemmer['Medlemsnummer'].value_counts())

Medlemsnummer
42    4
62    1
99    1
87    1
52    1
     ..
66    1
81    1
97    1
78    1
90    1
Name: count, Length: 96, dtype: int64


Det kan virke som at medlem #42 er lagt inn flere ganger.

In [10]:
df_medlemmer[df_medlemmer['Medlemsnummer'] == 42]

Unnamed: 0,Medlemsnummer,Fornavn,Etternavn,Fødselsdato,Kjønn,Medlemstype,Gateadresse,Postnummer,Poststed,Unnamed: 9,Unnamed: 10
52,42,Stein,JØRGENSEN,19.12.1940,M,veteran,Vollanveien,6239,Sykkylven,,
59,42,Ludvig,LARSEN,08.02.1914,M,veteran,Frendstadgjelen,6065,Ulsteinvik,,
80,42,Hansd,RASMUSSEN,19.02.1953,M,senior,Støa,6639,Torvikbukt,,
86,42,Karl,SOLBERG,10.09.1947,M,veteran,Storinnsjøveien,6390,Vestnes,,


Her er det definitivt noe snusk vi må ta tak i med kunden.

In [None]:
df_med_nona = df_medlemmer.dropna()

for col in df_medlemmer.columns:
    try:
        has_errors = df_medlemmer[df_medlemmer[col].str.startswith(' ') | df_medlemmer[col].str.endswith(' ')]
        if len(has_errors) > 0:
            print(f"--- {col} ---")
            print(f"Antall feil: {len(has_errors)}")
            print()
            print(has_errors)
            print()
    except:
        print(f"Kunne ikke tolke {col} som string.")

Kunne ikke tolke Medlemsnummer som string.
--- Gateadresse ---
Antall feil: 3
    Medlemsnummer   Fornavn    Etternavn Fødselsdato Kjønn Medlemstype  \
38             15   William       HAUGEN  22.01.1929     M     veteran   
57              8   Theodor  KRISTIANSEN  14.03.1915     M     veteran   
82             72  Ingeborg      RØNNING  23.07.2009     F      junior   

          Gateadresse  Postnummer Poststed  Unnamed: 9  Unnamed: 10  
38  Kviknebronaveien         6201  Stranda         NaN          NaN  
57  Brevadsæterveien         6101    Volda         NaN          NaN  
82            Stølen         6250  Stordal         NaN          NaN  

Kunne ikke tolke Postnummer som string.
Kunne ikke tolke Unnamed: 9 som string.
Kunne ikke tolke Unnamed: 10 som string.


Vi ser at Gateadresse har feilen vi la merke til tidligere med mellomrom foran/bak.

In [12]:
print(df_medlemmer['Postnummer'].value_counts())

Postnummer
6601    3
6399    2
6166    2
6239    2
6051    2
6630    2
6067    2
6213    2
6070    2
6264    2
6656    2
6642    2
6686    2
6650    2
6214    2
6100    2
6390    2
6230    2
6687    2
6058    2
6392    2
6396    2
6283    2
6170    2
6144    2
6050    2
6281    2
6280    2
6210    2
6250    2
6265    2
6201    2
6645    2
6259    2
6393    2
6263    2
6065    2
6639    2
6140    2
6165    2
6101    2
6494    2
6211    2
6310    2
6398    2
6600    2
6683    2
554     1
6260    1
6688    1
6200    1
Name: count, dtype: int64


Legger merke til at postnumrene er lagt inn som tall. Er dette hensiktsmessig? Verdien 554 burde kanskje hatt en ledende 0. Samtidig, dette kan jo være 6554.

In [13]:
print(df_medlemmer['Medlemstype'].value_counts())

Medlemstype
veteran    53
senior     35
junior      5
Veteran     4
Senior      2
Name: count, dtype: int64


Medlemstype må vaskes.