# Data science project in Python

Doormiddel van numpy, pandas, matplotlib & SciKit-learn

Door Louis D'Hont - Elektronica-ICT - 2021

## Project omschrijving

Het doel van deze opdracht is om op basis van bepaalde features het type klanten dat over gaat tot een nieuwe boeking te bepalen met een algoritme. Deze features zijn gehaald uit de hieronder beschreven data beschikbaar gesteld door TrailFinders. Ze organiseren paardrijvakanties over de hele wereld en helpen daarnaast ook om de vlucht, accomodatie, huurwagen, verzekeringen en dergelijke te regelen.

In [36]:
#Importeren van gebruikte bibliotheken
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Data analyse

### Inlezen van data en features bepalen

Hieronder wordt de data die is aangeleverd behandeld.

In [69]:
klanten = pd.read_csv("../data/klanten.csv", sep=';') 
artikels = pd.read_csv("../data/artikels.csv", sep=';') 
bestellingen = pd.read_csv("../data/bestellingen.csv", sep=';') 
deelnemers = pd.read_csv("../data/deelnemers.csv", sep=';')

df_klanten = pd.DataFrame(klanten)
df_artikels = pd.DataFrame(artikels)
df_bestellingen = pd.DataFrame(bestellingen)
df_deelnemers = pd.DataFrame(deelnemers)

#delete row that is not useful
#to_drop = ['Straat + nr.', 'Telefoon']
#df.drop(to_drop, inplace = True, axis = 1)()

### Klantenlijst

Hieronder wordt de data uit de klantenlijst opgeruimd en aangepast.

In [70]:
#df_klanten['age'] = df_klanten['age'].astype('int64')
df_klanten.dtypes

Familienaam        object
Voornaam           object
Straat + nr.       object
Telefoon           object
Klantnummer        object
Klantnummer CMS    object
Email              object
Creatie datum      object
Geb. datum         object
Locatie            object
Postcode           object
Land               object
dtype: object

In [None]:
df_klanten['']

In [71]:
#check how many values are null
df_klanten.isnull().sum()

Familienaam           5
Voornaam             65
Straat + nr.         32
Telefoon           1334
Klantnummer           0
Klantnummer CMS    1656
Email                40
Creatie datum      1473
Geb. datum         2321
Locatie              31
Postcode             38
Land                  2
dtype: int64

In [62]:
# Replace numerical value with string
#df['gender'].replace(0, 'Female', inplace=True)
#df['gender'].replace(1, 'Male', inplace=True)
# Replace all values that equal a specific variable
#df = df.replace(valueToReplace =["current", "alsoCurrent"],value ="newvalue")

After review, there is 1 volcano event that doesn't have an age. The record that has a null value for the year, also has a null value for location, country, lat, long, etc. This record does not help analysis and will be dropped.

To keep the default dataframe in tact, I've created a new dataframe and will clean up the data in this new dataframe. This is to ensure data is not skewed and can be compared after transformation.

### Data Quality
- Create new dataframe
 * Rename columns (change abbreviations to defined full words)
 * Change data types for columns
 * Handle null/NaN values
 
There is only 1 record missing a year (and a number of key variables). This record doesn't help the analysis and will be dropped.

Additionally, a number of the columns are either float or objects. After reviewing each column, the fields that are descriptive should be object instead of float.

In [102]:
# Create a new dataframe (keeping df_klanten integrity in tact). 
vdf = df_klanten

#vdf.sample(10)

In [108]:
df_klanten.sample(10)

# verwijder Straat + nr. kolom
# Verander de kolom namen
# wijzig het type voor de 'Creatie datum' en 'Geb. datum' kolommen
# gebruik klantnummer als index voor het dataframe
# gebruik het Klantnummer voor de NaN waarden in Klantnummer CMS
# verwijder de initialen (bv: JL of BS) en spaties uit de Postcode kolom
# Zet de Land kolom om naar 1 land (Be, BE, Belgium,..) = België
# vervang NaN in Geboortedatum met de geboortedatum uit de deelnemers lijst waar de familienaam en voornaam overeenkomen
# 

Unnamed: 0,Familienaam,Voornaam,Straat + nr.,Telefoon,Klantnummer,Klantnummer CMS,Email,Creatie datum,Geb. datum,Locatie,Postcode,Land
3354,bf89f80a487ce42f,34694cab861bc5c6,b07fe19c5ed2900b,699bcff73af4324d,fb229c9ae2b7fce8,,e67b9c13e11bfd0b,09.02.2019,20.08.1961,Dongen,5103BL,nl
707,2fbce8799c8694a0,cb863496b066dde2,c8dcc85319802093,45c5263859017cfc,9551b5e23cc7bbe6,,6ed763c6b70a6343,30.07.2013,,ZAVENTEM,1930,Belgium
744,2a01e38fb6b33f71,f836873ed9e19a4e,f067b242fcbca841,,86757bda286ef32f,6726b32f113fc54c,6ccf84bd03d61661,,,Utrecht,3581cl,Nederlands
3591,8717da881c71803e,c8aad0434684dfd6,11801a2781e91f6c,cd274f21321f134e,6acd2b2b43df6352,f7e80f1b4ca80c85,f746ebaed342cf30,26.12.2015,,Heilig Landstichting,6564 AT,0633799726
2614,c3e6b04eee898799,9e613d3d0a66730c,b3154f468b1ec820,4d41885c2c07d79b,781836942bf7aa5f,1427d8d1ab6cc290,65902455b8536221,05.02.2018,,Vleuten,3452 CR,Nederland
2113,f108d43aa32dbd75,f160020b0a7c3c41,df64b5b56134b56b,,70c55c19c5e2dd8b,2f2b76f52ac32717,a1d6ca1df78797f1,,,Nieuwenrode,1880,Belgie
3367,1f12c3a58f9de4fc,be9b409aefc6f5b6,a79c448f165fa6fb,,ecc36a12406ba615,,5e9cb40d0e7a4f78,07.06.2013,08.04.1988,Hilversum,1211 NM,Belgium
1463,99b61aa2d4d2e389,9a5d9b7453a8ba70,beb0be4eae649260,15e6e62f8d793741,f41fdd12d5508f53,f27cd171019c7a6a,e135842f8e54ea91,,,belfeld,5951 JC,nederland
145,d629a987e31b0aec,e56c0326e8052f2d,3d4ccd4bddf30438,58a24d65581955dc,f38b6d7042ea8f5a,,5e7ec7f52fac02d0,10.10.2013,23.02.1951,IZEGEM,8870,Belgium
3088,b4eb1c39edb7e990,cff05efbf075a827,c01b1060fdca52bb,97f7ed3d2b0e0f96,7ce1ecaff4c0c368,,f4dc74b36390325b,09.01.2012,25.02.1975,Cothen,3945 BR,Nederland


In [105]:
#df_klanten.shape

In [91]:
df_artikels.sample(10)

# verwijder ArticlePoNummer kolom
# zet Boekingsdatum en Vertrekdatum om naar juiste type datetime
# vervang Volledige naam klant door klantennummer uit klantenlijst door te zoeken met dossier nummer
# vervang DossierStatus 'Ok' met 1 of 0
# maak dataframe (labels) met alle bestemmingen


Unnamed: 0,Dos. nr.,DossierStatus,Boekingsdatum,Vertrekdatum,Volledige naam klant,Bestemming,ArticlePoNummer,Artikelcode,Omschrijving,Artikelprijs,Totaal dossier
5940,1093,Ok,24.07.2013 21:24:13,02.08.2013 00:00:00,87e1254aff8b713f,Estartit Spanje,,5603505c44a65622,Dynamigo Estartit Plus,2900,79400
12496,20190291,Ok,15.05.2019 22:10:54,22.05.2019 00:00:00,eef5791b1b677dc4,Minitrip in Zuid-Frankrijk,,fae29d340036a451,Verzameltransfer,000,50630
12636,20190413,Ok,02.08.2019 16:51:22,06.10.2019 00:00:00,b0bc4c0ddfcf8a96,Beach and Meadows trektocht,,6fda33407485b945,Toeristenbelasting,700,"2.907,00"
8308,2196,Ok,19.01.2016 00:00:00,09.10.2016 00:00:00,0bd34b7eac71c5e0,Te paard door de vier valleien van het Gredos-...,,cab3a360a079380d,Trektocht Vier Valleien van de Gredos,"1.150,00","1.150,00"
12920,20190550,Ok,11.12.2019 11:13:51,25.09.2020 00:00:00,57c454ac0aa404c3,Nederland,,ec40042ba9accb21,"Ramsjo-special NOK 13.100,- eerste en laatste ...","1.287,00",68537
7428,1782,Ok,16.03.2015 08:35:45,05.07.2015 00:00:00,51b068d078f48ff4,"Wekerom, Veluwe, Nederland",,88c28cd844903eb8,Korting NG Junior,000,57000
7530,1830,Ok,08.04.2015 00:00:00,12.09.2015 00:00:00,4cee6605af5db834,Dalmatie trektocht,,,Vlucht Brussel - Split,41046,"2.325,46"
86,817,Ok,03.03.2013 00:00:00,05.07.2013 00:00:00,0831d0ecbda287bb,Paardrijden met IJslanders in de Ardennen,,2c3990e373fce35f,Paardrijweekend IJslanders Ardennen,62000,76000
11760,3871,Ok,17.07.2018 00:00:00,16.08.2018 00:00:00,dc2411af110ff0a9,Mongolie,,87c30f637cd21cd0,Aeroflot vluchtreservering,70246,"3.981,46"
3424,150,Ok,04.08.2011 10:48:13,07.10.2001 00:00:00,80bd69298b33cba5,Ardennen Belgie,,4e06bdc84db28683,"Weekend Ardennen ontdekken, 2 pk gezamenlijk s...",52000,55420


In [106]:
#df_artikels.shape

In [93]:
dfBestellingen.sample(10)

# Dos.jaar = 2021.0 - moet date worden en niet float zijn
# kolomnaam D.vertrek en Datum terug hernoemen
# status -1 en 0 omzetten naar 1 of 0
# verwijder laatste rij - is het totaal van alles opgeteld
# verwijder de regio kolom (veel NaN)
# verwijder de gefactureerd kolom of zet om naar 1 of 0 - type int64
# verwijder de Pakket Code kolom
# verwijder Touroperator kolom (Waarschijnlijk niet relevant)
# Zet Datum creatie, D. vertrek en Datum terug om naar datetime type
# Zet bestemming en 'Land klant' om naar 1 land (Be, BE, Belgium,..) = België
# zet Totaalprijs en Openstaand dossier om naar het type int64
# 


Unnamed: 0,Status,Dos. jaar,Dos. nr.,Email,Klantnummer,Klantnummer CMS,Datum creatie,D. vertrek,Datum terug,Totaalprijs,Betalingen dossier,Openstaand dossier,Touroperator,Land klant,Bestemming,Regio,Reistype,# pass.,Pakket Code,Gefactureerd
3883,0.0,2020.0,20200178,911f574852c24223,845e2be869bec98e,,04.06.2020 10:06:19,17.07.2020,19.07.2020,600,600,0,59fd5bafb3a477af,nl,België,,,2.0,BEWETLWKP,True
31,0.0,2011.0,45,47d5ced2f4e37c7c,836ed014bdf68e6e,,19.05.2011 12:08:02,15.07.2011,17.07.2011,29038,29038,0,80ea2db9dbc6f9fd,Netherlands,Twente,,,1.0,,True
3291,0.0,2018.0,4171,83139054b6a11223,5069f81b40d0d92b,36e47b015fbf9f0a,18.12.2018 19:55:10,19.05.2019,25.05.2019,33016398,330164,-2,84eade0373defc7f,be,Schotland,,Ruitervakantie,2.0,GBSCETRP,False
2632,0.0,2017.0,3210,9f6c02bc9591beaa,01db6ffe4f6bd8d4,d503e5dcdec91197,12.08.2017 00:00:00,23.08.2017,27.08.2017,435,435,0,d5b44b89737b542f,Nederland,Paardrijden en gastronomisch genieten in Zuid-...,,,1.0,,True
1536,0.0,2015.0,1948,0d8adea50f0b7bb2,b39b7e400b46d662,a1d04193ab96b666,12.06.2015 00:00:00,13.07.2015,17.07.2015,606,606,0,27ef3947de4c44d2,België,Paardrijden op het strand in Zeeland,,,2.0,,True
2897,0.0,2018.0,3558,5169b4821788fff1,f80c0c468f1aa0b0,,01.03.2018 10:52:10,30.09.2018,07.10.2018,1586,1586,0,7db3edcc64762299,Nederland,Montenegro,,,1.0,,True
129,-1.0,2011.0,166,6b4bfa846590dddf,86f033218b01dc22,,19.08.2011 12:22:57,11.09.2011,18.09.2011,190185,190185,0,7526875b2e15e594,Nederland,Galway Ierland,,,1.0,,True
3571,0.0,2019.0,20190355,9a598f6e6544197f,124a6fbc21c6b514,7ada21e52d2fc8a2,24.06.2019 08:11:08,04.08.2019,10.08.2019,1115,1115,0,4481a08dd57dc705,nl,Frankrijk,,Ruitervakantie,1.0,FRCHAGVP,True
2050,0.0,2016.0,2543,1a346cd9f5d2aa94,462ebf0beb9b4519,31fc2d0337ff95b9,30.06.2016 00:00:00,26.09.2016,02.10.2016,15453,15453,0,f0f28f3a76ecde1d,Nederland,Beach and Bush Rides,,,1.0,,True
2038,0.0,2016.0,2530,fe590b92546d179b,5933f2b8e8beff60,2a7d852524ac7d0f,20.06.2016 00:00:00,24.07.2016,30.07.2016,1060,1060,0,68ede1259463edeb,Nederland,Transsylvanië - Trektocht eeuwen terug in de tijd,,,1.0,,True


In [107]:
#df_bestellingen.shape

In [99]:
df_deelnemers.sample(10)

# verwijder GSM kolom
# vewijder email kolom (veel NaN) - ook prive data
# zet Postcode om naar het type int64
# zet Vertrekdatum om naar datetime
# verwijder cijfers uit Stad bv: Brussel 15
# 

Unnamed: 0,Dossier,Vertrekdatum,Familienaam,Voornaam,Bestemming,Geboortedatum,Email,GSM,Straat + nr.,Postcode,Stad
3799,2397,18.05.2016,ba564cdced717785,7f34aaff6575be84,,22.07.1972,,,603cf213567d1d53,1073 CW,Amsterdam
1547,983,28.06.2013,13e3b28b7c2e8177,3ab19e38d4515950,Western paardrijden in de Algarve,12.07.1979,,,,,
1303,829,28.06.2013,31c0b699dc243c04,c4b164876985eccc,Jura Frankrijk,08.09.1958,,,603cf213567d1d53,1073 CW,Amsterdam
6767,20190310,20.07.2019,18be5c1ec4af9cb6,947a131bc3cdfdf0,Ierland,10.10.1956,,,,,
4277,2702,25.03.2017,065a5ad87a48ad59,89633fd3420af8bf,Een onvergetelijke reis doorheen het winters l...,14.10.1994,,,,,
1872,1198,26.07.2014,7e82411ca3760d63,43a243417550dfb1,Lesbos -een echt paardeneiland in Griekenland,22.08.1966,,,,,
7345,20200277,31.07.2020,51d599c297c5a262,4c4eb9449e2e7186,Nederland,19.05.1997,,,,,
6466,20190104,27.07.2019,3a0a6f773d6da573,9ad124aabe38821d,Frankrijk,04.01.1954,,,,,
4741,2973,23.06.2017,400b37f3df0d5865,4eef05d035288259,"Belgie, ardennen",12.03.1990,,,,,
4944,3101,02.07.2017,4d4f0e3025560653,496181b08c1d0f31,"Paardrijden in de Elzas, door de Vogezen",04.09.1959,,,,,


In [15]:
#df['Klantnummer'].is_unique

#make specific row as index
#df.set_index('Klantnummer', inplace=True)
#df

In [11]:
# aantal waarden die null zijn in de klantenlijst
#df.isnull().sum()

Familienaam           5
Voornaam             65
Klantnummer           0
Klantnummer CMS    1656
Email                40
Creatie datum      1473
Geb. datum         2321
Locatie              31
Postcode             38
Land                  2
dtype: int64

In [16]:
df.columns

Index(['Familienaam', 'Voornaam', 'Straat + nr.', 'Telefoon',
       'Klantnummer CMS', 'Email', 'Creatie datum', 'Geb. datum', 'Locatie',
       'Postcode', 'Land'],
      dtype='object')

In [None]:
#land lijst opruimen (België, belgium, BE) wijzigen naar 1 formaat
#achternaam van deelnemers kunnen worden gelinked met het klantennummer van een bestelling
#Geboortedatum in kantenlijst kan ge



In [17]:
df.dtypes

Familienaam        object
Voornaam           object
Straat + nr.       object
Telefoon           object
Klantnummer CMS    object
Email              object
Creatie datum      object
Geb. datum         object
Locatie            object
Postcode           object
Land               object
dtype: object

In [59]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3677 entries, 0 to 3676
Data columns (total 12 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Familienaam      3672 non-null   object
 1   Voornaam         3612 non-null   object
 2   Straat + nr.     3645 non-null   object
 3   Telefoon         2343 non-null   object
 4   Klantnummer      3677 non-null   object
 5   Klantnummer CMS  2021 non-null   object
 6   Email            3637 non-null   object
 7   Creatie datum    2204 non-null   object
 8   Geb. datum       1356 non-null   object
 9   Locatie          3646 non-null   object
 10  Postcode         3639 non-null   object
 11  Land             3675 non-null   object
dtypes: object(12)
memory usage: 344.8+ KB


In [18]:
#values count
df.Email.value_counts(dropna=False)

NaN                 40
1849215198727a0e     3
f53d3a92477e4351     3
378c4185c3deca7e     3
796c9ac12c162681     3
                    ..
af3509085b43bd51     1
f9fb57ba6b04e378     1
f97519ab8da32fe6     1
1c6c43f6f34d4020     1
bb43c4e59617e9c8     1
Name: Email, Length: 3575, dtype: int64

In [100]:
df_klanten.describe()

Unnamed: 0,Familienaam,Voornaam,Straat + nr.,Telefoon,Klantnummer,Klantnummer CMS,Email,Creatie datum,Geb. datum,Locatie,Postcode,Land
count,3672,3612,3645,2343,3677,2021,3637,2204,1356,3646,3639,3675
unique,2998,1610,3568,2298,3677,2020,3574,968,1286,1583,2710,82
top,bf89f80a487ce42f,1f952ba892536b36,424c2e99b6f2dc7f,a056db0fd0bfa0b5,8c7cca2fb7a135ea,1fe831773451dd74,f53d3a92477e4351,23.03.2017,04.04.1982,Amsterdam,2600,Nederland
freq,16,33,4,4,1,2,3,12,4,181,20,1472


In [27]:
#df.boxplot(column='Email', by='Telefoon', rot=90)

# Features bepalen

Enkele interessante features die in de data te vinden zijn:

* Feature1

### importeren

Voordat 