# Data science project in Python

Doormiddel van numpy, pandas, matplotlib & SciKit-learn

Door Louis D'Hont - Elektronica-ICT - 2021

## Project omschrijving

Het doel van deze opdracht is om op basis van bepaalde features het type klanten dat over gaat tot een nieuwe boeking te bepalen met een algoritme. Deze features zijn gehaald uit de hieronder beschreven data beschikbaar gesteld door TrailFinders. Ze organiseren paardrijvakanties over de hele wereld en helpen daarnaast ook om de vlucht, accomodatie, huurwagen, verzekeringen en dergelijke te regelen.

In [1]:
#delete row that is not useful
#to_drop = ['Straat + nr.', 'Telefoon']
#df.drop(to_drop, inplace = True, axis = 1)()

#df_klanten['age'] = df_klanten['age'].astype('int64')


# Replace numerical value with string
#df['gender'].replace(0, 'Female', inplace=True)
#df['gender'].replace(1, 'Male', inplace=True)
# Replace all values that equal a specific variable
#df = df.replace(valueToReplace =["current", "alsoCurrent"],value ="newvalue")

#else:
#print(df.iloc[index]['Familienaam'])
#for index, data in enumerate(df_deelnemers['Familienaam']):
#    df['Geboortedatum'] = np.where(df.iloc[index]['Familienaam'] == data, df_deelnemers['Geboortedatum'], 'False')
         
#for index, data in enumerate(df_deelnemers['Familienaam']): #Voornaam
    #df['Geboortedatum'] = np.where(df['Familienaam'] == data, df_deelnemers['Geboortedatum'], 'False')
    #print(df['Geboortedatum'])
    #df['Geb. datum'] = pd.to_datetime(df['Geb. datum'])
    #df['Geb. datum'] = df['Geboortedatum'].astype('datetime64[ns]')


#check how many values are null
#df_klanten.isnull().sum()
#df_klanten.dtypes

#df.info()
#print(df.isnull().sum())

#values count
#df.Email.value_counts(dropna=False)

#df_klanten.shape

#df_deelnemers.loc[2082]
#df_klanten.loc[df_klanten['Familienaam'] == '6fed459d39a65d1a']
#df.loc[df['Familienaam'] == '6fed459d39a65d1a']

In [2]:
# Importeren van gebruikte bibliotheken
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import datetime

## Data analyse

### Inlezen van data en features bepalen

Hieronder wordt de data die is aangeleverd ingelezen en in een DataFrame geplaatst.

In [3]:
klanten = pd.read_csv("../data/klanten.csv", sep=';') 
artikels = pd.read_csv("../data/artikels.csv", sep=';') 
bestellingen = pd.read_csv("../data/bestellingen.csv", sep=';') 
deelnemers = pd.read_csv("../data/deelnemers.csv", sep=';')

df_klanten = pd.DataFrame(klanten)
df_artikels = pd.DataFrame(artikels)
df_bestellingen = pd.DataFrame(bestellingen)
df_deelnemers = pd.DataFrame(deelnemers)

## Klantenlijst

Hieronder wordt de data uit de klantenlijst opgeruimd en aangepast.
After review, there is 1 volcano event that doesn't have an age. The record that has a null value for the year, also has a null value for location, country, lat, long, etc. This record does not help analysis and will be dropped.

To keep the default dataframe in tact, I've created a new dataframe and will clean up the data in this new dataframe. This is to ensure data is not skewed and can be compared after transformation.

### Data Quality

- Create new dataframe
 * Rename columns (change abbreviations to defined full words)
 * Change data types for columns
 * Handle null/NaN values


In [4]:
# Create a new dataframe (deep copy)
df = df_klanten.copy()
df = df_deelnemers.merge(df, left_on=['Familienaam','Voornaam'], right_on=['Familienaam','Voornaam'], how='inner')

In [5]:
def convert_land(df):
    namen_belgie = ['belgium', 'be', 'belgië', 'belgïe', 'west-vlaanderen', 'b', 'belgie', 'belg', 'begie', 'ybelgie', 'be', 'oost-vlaanderen - belgium', 'oost-vlaanderen', 'belgiê', 'beglië']
    namen_nederland = ['nl', 'nederand', 'nederlands', 'ned', 'nerdland', 'holland', 'netherland', 'groningen', 'noord holland', 'noord-brabant', 'hengelo ov', 'nederland', 'nederlandse', 'the netherlands', 'pays bas (holland)', 'nerderland', 'nld', 'ndl', 'ned.', 'utrecht', 'noor holland', 'noord-holland', 'netherlands', 'zuid-holland', 'nederkand', 'nedeland']
    namen_frankrijk = ['france', 'frankrijk']
    namen_duitsland = ['duitsland', 'germany']
    namen_verenigd_koninkrijk = ['groot-brittanie ', 'united kingdom']
    #namen_verwijderen = ['27', 'NaN', 'df', 'z', 'nan', 'Kies...', 'jelle', '- -', '-', 'test', '0633799726', 'Selecteer een staat', 'Selecteer een gebied, staat of provincie a.u.b.']

    #dit stuk moet korter
    df.drop(df.index[df['Land'] == 'NaN'], inplace = True)
    df.drop(df.index[df['Land'].isnull()], inplace = True)
    df.drop(df.index[df['Land'] == 'df'], inplace = True)
    df.drop(df.index[df['Land'] == '27'], inplace = True)
    df.drop(df.index[df['Land'] == 'z'], inplace = True)
    df.drop(df.index[df['Land'] == 'Kies...'], inplace = True)
    df.drop(df.index[df['Land'] == 'jelle'], inplace = True)
    df.drop(df.index[df['Land'] == '- -'], inplace = True)
    df.drop(df.index[df['Land'] == '-'], inplace = True)
    df.drop(df.index[df['Land'] == 'test'], inplace = True)
    df.drop(df.index[df['Land'] == '0633799726'], inplace = True)
    df.drop(df.index[df['Land'] == 'Selecteer een staat'], inplace = True)
    df.drop(df.index[df['Land'] == 'Selecteer een gebied, staat of provincie a.u.b.'], inplace = True)

    for index, land in enumerate(df['Land']):
        #if str(land) in namen_verwijderen:
        #print(land)
        if (str(land).lower()) in namen_belgie:
            df.loc[index, 'Land'] = 'be'
        if (str(land).lower()) in namen_nederland:
            df.loc[index, 'Land'] = 'nl'
        if (str(land).lower()) in namen_frankrijk:
            df.loc[index, 'Land'] = 'fr'
        if (str(land).lower()) in namen_duitsland:
            df.loc[index, 'Land'] = 'de'
        if (str(land).lower()) in namen_verenigd_koninkrijk:
            df.loc[index, 'Land'] = 'gb'
        if (str(land).lower()) == 'luxemburg':
            df.loc[index, 'Land'] = 'lux'
        if (str(land).lower()) == 'scotland':
            df.loc[index, 'Land'] = 'sco'
        if (str(land).lower()) == 'portugal':
            df.loc[index, 'Land'] = 'pt'
        if (str(land).lower()) == 'suriname':
            df.loc[index, 'Land'] = 'sr'
        if (str(land).lower()) == 'hong kong':
            df.loc[index, 'Land'] = 'cn'
        if (str(land).lower()) == 'oostenrijk':
            df.loc[index, 'Land'] = 'aut'
        if (str(land).lower()) == 'canada':
            df.loc[index, 'Land'] = 'ca'
        if (str(land).lower()) == 'italy':
            df.loc[index, 'Land'] = 'it'
        if (str(land).lower()) == 'spanje':
            df.loc[index, 'Land'] = 'es'
        if (str(land).lower()) == 'chile':
            df.loc[index, 'Land'] = 'cl'

convert_land(df)

print("All unique values in the : " + str(df.Land.unique()))
print("Aantal rijen en kolommen: " + str(df.shape))
#df.describe()
#df.sample(5)

All unique values in the : ['nl' 'be' 'de' 'aut' 'fr' 'cl' 'lux' 'pt' 'sco' 'it' 'es' 'gb']
Aantal rijen en kolommen: (3445, 21)


In [6]:
df.drop(columns=['Geb. datum', 'Klantnummer CMS', 'Telefoon', 'Stad', 'Straat + nr._x', 'Straat + nr._y', 'Postcode_x', 'GSM', 'Email_x', 'Locatie', 'Postcode_x'], inplace=True)
df.rename(columns={'Email_y': 'Email', 'Postcode_y': 'Postcode'}, inplace = True)

In [7]:
#df.sample(5)

# - verwijder Straat + nr. kolom en persoonlijke informatie
# Verander de kolom namen
# wijzig het type voor de 'Creatie datum' en 'Geb. datum' kolommen
# gebruik klantnummer als index voor het dataframe
# - Zet de Land kolom om naar 1 land (Be, BE, Belgium,..) = België
# vervang NaN in Geboortedatum met de geboortedatum uit de deelnemers lijst
#now = datetime.datetime.now()

#def convert_datatypes(df):
    # Creatie datum
    # Geboortedatum
    #for index, date in enumerate(df['Geboortedatum']):
        #if (pd.notnull(date)):
           # if (int(date[-4:]) > now.year):
               # df.drop(df.index[index], inplace = True)

In [8]:
now = datetime.datetime.now()

# Opvullen van alle lege NaN waarden en verwijderen van null waarden, hierna wijzigen van float64 naar int64
df['Dossier'].fillna(0)
df.drop(df.index[df['Dossier'].isnull()], inplace = True)
df['Dossier'] = df['Dossier'].astype(int)

df_bestellingen['Dos. jaar'].fillna(now.year)
df_bestellingen.drop(df_bestellingen.index[df_bestellingen['Dos. jaar'].isnull()], inplace = True)
df_bestellingen['Dos. jaar'] = df_bestellingen['Dos. jaar'].astype(int)

df_bestellingen['Dos. nr.'].fillna(0)
df_bestellingen.drop(df_bestellingen.index[df_bestellingen['Dos. nr.'].isnull()], inplace = True)
df_bestellingen['Dos. nr.'] = df_bestellingen['Dos. nr.'].astype(int)
df_bestellingen.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4038 entries, 0 to 4037
Data columns (total 20 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Status              4038 non-null   float64
 1   Dos. jaar           4038 non-null   int64  
 2   Dos. nr.            4038 non-null   int64  
 3   Email               3989 non-null   object 
 4   Klantnummer         4035 non-null   object 
 5   Klantnummer CMS     2343 non-null   object 
 6   Datum creatie       4038 non-null   object 
 7   D. vertrek          4010 non-null   object 
 8   Datum terug         4006 non-null   object 
 9   Totaalprijs         4038 non-null   object 
 10  Betalingen dossier  4038 non-null   object 
 11  Openstaand dossier  4038 non-null   object 
 12  Touroperator        3960 non-null   object 
 13  Land klant          4024 non-null   object 
 14  Bestemming          3995 non-null   object 
 15  Regio               0 non-null      float64
 16  Reisty

In [9]:
#df_artikels.sample(10)

# verwijder ArticlePoNummer kolom
# zet Boekingsdatum en Vertrekdatum om naar juiste type datetime
# vervang Volledige naam klant door klantennummer uit klantenlijst door te zoeken met dossier nummer
# vervang DossierStatus 'Ok' met 1 of 0
# zet Artikelprijs en Totaal dossier om naar float
# maak dataframe (labels) met alle bestemmingen



df_bestellingen.drop(df_bestellingen.index[df_bestellingen['Dos. jaar'].isnull()], inplace = True)
df_bestellingen.drop(df_bestellingen.index[df_bestellingen['Dos. nr.'].isnull()], inplace = True)
df = df_bestellingen.merge(df, left_on=['Klantnummer', 'Dos. nr.'], right_on=['Klantnummer', 'Dossier'], how='inner')

In [10]:
#df_artikels.shape
df.drop(columns=['Dos. nr.', 'Klantnummer CMS', 'Email_x', 'Land klant', 'Email_y', 'Pakket Code', 'Postcode', 'Bestemming_y', 'Familienaam', 'Voornaam', 'Regio', 'Creatie datum'], inplace=True)
df.rename(columns={'Dossier': 'Dossier nr.', '# pass.': 'Aantal reizigers', 'Bestemming_x': 'Bestemming', 'D. vertrek': 'Datum vertrek'}, inplace = True)

df.isnull().sum()
#df.info()
#df.columns


Status                   0
Dos. jaar                0
Klantnummer              0
Datum creatie            0
Datum vertrek            7
Datum terug             11
Totaalprijs              0
Betalingen dossier       0
Openstaand dossier       0
Touroperator            24
Bestemming              21
Reistype              2139
Aantal reizigers         0
Gefactureerd             0
Dossier nr.              0
Vertrekdatum             7
Geboortedatum          252
Land                     0
dtype: int64

In [11]:
#df_bestellingen.iloc[3308]
df_bestellingen.sample(20)

# Dos.jaar = 2021.0 - moet date worden en niet float zijn
# kolomnaam D.vertrek en Datum terug hernoemen
# status -1 en 0 omzetten naar 1 of 0
# verwijder laatste rij - is het totaal van alles opgeteld
# verwijder de regio kolom (veel NaN)
# verwijder de gefactureerd kolom of zet om naar 1 of 0 - type int64
# verwijder de Pakket Code kolom
# verwijder Status kolom
# verwijder Touroperator kolom (Waarschijnlijk niet relevant)
# Zet 'Datum creatie', 'D. vertrek' en 'Datum terug' om naar datetime type
# Zet bestemming en 'Land klant' om naar 1 land (Be, BE, Belgium,..) = België
# zet Totaalprijs en Openstaand dossier om naar het type int64
# verwijder # pass. kolom
# verwijder Openstaand dossier kolom
# verwijder Betalingen dossier kolom
# 

# status: 0 = bevestigd -1 = geannuleerd



Unnamed: 0,Status,Dos. jaar,Dos. nr.,Email,Klantnummer,Klantnummer CMS,Datum creatie,D. vertrek,Datum terug,Totaalprijs,Betalingen dossier,Openstaand dossier,Touroperator,Land klant,Bestemming,Regio,Reistype,# pass.,Pakket Code,Gefactureerd
3007,0.0,2018,3704,b748e4891d5df6ef,818c0199d26e48ce,90e6ae9a486b5b41,27.04.2018 09:28:59,04.10.2018,10.10.2018,2280,2280,0,b188f86a296dffe5,Nederland,Spanje,,,2.0,,True
3865,0.0,2020,20200152,b7d0b538fdcfc902,1395a1f0f51096cc,,27.02.2020 21:26:11,16.10.2021,21.10.2021,151953,151953,0,ad6d1fbff823ca85,nl,Portugal,,Ruitervakantie,0.0,PTHPVP,False
3227,0.0,2018,3979,771588b75301fb02,84c5cbc3130dff69,7624f9c17bdd227c,13.10.2018 00:00:00,08.05.2019,12.05.2019,900,900,0,d5b44b89737b542f,Nederland,France,,Ruitervakantie,2.0,FRDOFMTP,True
382,0.0,2012,536,afe2fcfe7224d021,7126bae9e758bef8,,06.06.2012 12:13:19,29.07.2012,04.08.2012,3051,3051,0,5fe2d3c83a0a7947,Belgium,Brabant,,,1.0,,True
654,0.0,2013,889,5f267dfa40b302ef,3e3c519d011f9a3c,63a65fcd23a6d7b2,01.04.2013 00:00:00,23.07.2013,31.07.2013,440,440,0,5cd604c9ab9e47fb,België,Beginnersweek te paard in Beieren,,,1.0,,True
2581,0.0,2017,3149,8bd977496d14bd50,4793726571bab6c5,eb589a649ddfedf3,10.07.2017 00:00:00,21.07.2017,23.07.2017,19592,19592,0,27ef3947de4c44d2,Belgie,Paardrijden op het strand in Zeeland,,,1.0,,True
3161,0.0,2018,3901,5b5de6fe5898e3a5,6c231fcb70c72e00,,06.08.2018 12:09:13,,,550,550,0,bdf819e626431aa3,Nederland,Nederland,,,1.0,,True
410,0.0,2012,576,b00d6f3f42dd6304,7ade9d0015c8a442,,01.07.2012 17:17:05,20.07.2012,22.07.2012,429,429,0,0d646d6c024cd6a0,Nederland,Westernranch Duitsland,,,2.0,,True
3493,0.0,2019,20190246,9273802c23c48ee5,0b9aa6d025703b1a,,18.04.2019 20:51:10,28.08.2019,01.09.2019,720,720,0,d5b44b89737b542f,be,Frankrijk,,Ruitervakantie,0.0,FRDOFMTP,False
2349,0.0,2017,2876,842b79092a86bcff,a5fce11d0d486651,,28.02.2017 16:54:59,11.03.2017,17.03.2017,1086,1086,0,e337c6d12873ed15,Belgium,Andalusie Spanje,,,1.0,,True


In [12]:
#df_bestellingen.shape

In [13]:
df_deelnemers.sample(10)

# verwijder GSM kolom
# vewijder email kolom (veel NaN) - ook prive data
# zet Postcode om naar het type int64
# zet Vertrekdatum om naar datetime
# verwijder cijfers uit Stad bv: Brussel 15
# 

Unnamed: 0,Dossier,Vertrekdatum,Familienaam,Voornaam,Bestemming,Geboortedatum,Email,GSM,Straat + nr.,Postcode,Stad
6940,20190455,06.10.2019,66299db8c66867a4,0b4edc0adcf10440,Albanie,05.12.1968,,,,,
7373,20200308,16.10.2020,615d5925371238ac,82240720ea3da427,Nederland,15.10.1974,,,,,
7226,20200181,23.08.2020,5cda618a054ce6ba,427b239e9e8d3c6c,Spanje,18.07.2007,,,,,
7063,20190562,09.07.2020,5648031c4a559816,79d1ea3ab867e721,Griekenland,25.08.2007,,,,,
599,385,20.07.2012,84f98be543a2fc9c,bdac87297889cbc9,Blanes Spanje,02.11.1999,,,59fef6a2a0386495,3220.0,HOLSBEEK
5575,3554,27.04.2018,8bc7cc38a438d357,99a9568fcc2f03d4,Belgie,04.08.1998,,,,,
6139,3959,20.10.2018,55868394f0401912,9f973fc471e4daaf,Duitsland,16.11.1996,,,,,
2932,1856,07.08.2015,020678a702ad7168,23430c4657fc68d9,Buitenritten in de Ongerepte Natuur van de Loo...,02.08.1984,,,,,
6682,20190243,26.04.2019,d1c4f51ce5c9c073,5b4054017d0822f6,Nederland,05.12.1977,,,,,
5153,3260,03.11.2017,7f48242d968d0e1b,5123b01fa69eada7,Paardrijden in het Brabantse land,13.09.1978,,,,,


In [14]:
#df['Klantnummer'].is_unique

#make specific row as index
#df.set_index('Klantnummer', inplace=True)
#df

In [15]:
# aantal waarden die null zijn in de klantenlijst
#df.isnull().sum()

In [16]:
df.dtypes

Status                float64
Dos. jaar               int64
Klantnummer            object
Datum creatie          object
Datum vertrek          object
Datum terug            object
Totaalprijs            object
Betalingen dossier     object
Openstaand dossier     object
Touroperator           object
Bestemming             object
Reistype               object
Aantal reizigers      float64
Gefactureerd           object
Dossier nr.             int64
Vertrekdatum           object
Geboortedatum          object
Land                   object
dtype: object

In [17]:
#df.info()

In [18]:
df_bestellingen

Unnamed: 0,Status,Dos. jaar,Dos. nr.,Email,Klantnummer,Klantnummer CMS,Datum creatie,D. vertrek,Datum terug,Totaalprijs,Betalingen dossier,Openstaand dossier,Touroperator,Land klant,Bestemming,Regio,Reistype,# pass.,Pakket Code,Gefactureerd
0,-1.0,2021,0,0d484d11bfafa789,e7a25456cafdac84,,04.01.2021 15:11:00,11.09.2021,18.09.2021,0,0,0,c723acdbab5e366e,nl,Spanje,,,1.0,ESOVFIHEXP,False
1,0.0,2011,1,36710cc356dbbc5f,756abea9c3e90efe,,28.01.2011 15:01:35,10.07.2011,17.07.2011,1452,1452,0,,Belgium,Netherlands,,,1.0,,True
2,0.0,2011,3,37459dca4934080f,cc44932a4b289e81,,07.04.2011 10:17:02,13.05.2011,15.05.2011,620,620,0,dbaa85d88e7fdc52,Netherlands,Belgium,,Autovakantie Europa,2.0,,False
3,0.0,2011,4,fe82fc76bd814dcf,17a916e5222e39a0,,08.04.2011 15:02:33,22.05.2011,28.05.2011,1620,1620,0,e11db4bae17e4d63,Nederland,Spain,,,0.0,,False
4,0.0,2011,9,7418f4b177e773ac,94bc0881cd24a1b5,,27.04.2011 15:01:28,08.05.2011,15.05.2011,5040,5040,0,,Netherlands,Botswana,,Safari,2.0,,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4033,0.0,2021,20210038,79b02a5d2836b188,9d70a9409fd86d4e,,01.05.2021 12:22:08,21.06.2021,24.06.2021,500,0,500,59fd5bafb3a477af,be,België,,Weekendje weg,1.0,BEWETLWMWP,False
4034,0.0,2021,20210039,a098cd64ef46d3e6,550888291b01a2d4,67e59fd90cae0e70,02.05.2021 16:15:33,16.06.2021,18.06.2021,335,0,335,3124a9d2236ff8eb,Nederland,Nederland,,Weekendje weg,1.0,NLMALW9P,False
4035,-1.0,2021,20210040,9d9fcbd34601d5be,5ca1958fcc9b6d75,,03.05.2021 12:42:36,09.05.2021,11.05.2021,440,0,440,27ef3947de4c44d2,nl,Nederland,,,2.0,NLSTWPAP,False
4036,0.0,2021,20210041,737f64db006800d3,19b236bfce3aba00,86359749d0859dbf,03.05.2021 14:12:47,11.06.2021,13.06.2021,315,0,315,5b0d4a8fc474f56d,Nederland,Nederland,,Weekendje weg,1.0,NLRIJVPWP,False


In [19]:
#df.boxplot(column='Email', by='Telefoon', rot=90)

# Features bepalen

Enkele interessante features die in de data te vinden zijn:

* Feature1

### importeren
 