# Data science project in Python

Doormiddel van numpy, pandas, matplotlib & SciKit-learn

Door Louis D'Hont - Elektronica-ICT - 2021

## Project omschrijving

Het doel van deze opdracht is om op basis van bepaalde features het type klanten dat over gaat tot een nieuwe boeking te bepalen met een algoritme. Deze features zijn gehaald uit de hieronder beschreven data beschikbaar gesteld door TrailFinders. Ze organiseren paardrijvakanties over de hele wereld en helpen daarnaast ook om de vlucht, accomodatie, huurwagen, verzekeringen en dergelijke te regelen.

bepalen van de beste bestemming bepalen

In [2]:
#Importeren van gebruikte bibliotheken
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Data analyse

### Inlezen van data en features bepalen

Hieronder wordt de data die is aangeleverd behandeld.

In [3]:
klanten = pd.read_csv("../data/klanten.csv", sep=';') 
artikels = pd.read_csv("../data/artikels.csv", sep=';') 
bestellingen = pd.read_csv("../data/bestellingen.csv", sep=';') 
deelnemers = pd.read_csv("../data/deelnemers.csv", sep=';')

df_klanten = pd.DataFrame(klanten)
df_artikels = pd.DataFrame(artikels)
df_bestellingen = pd.DataFrame(bestellingen)
df_deelnemers = pd.DataFrame(deelnemers)

#delete row that is not useful
#to_drop = ['Straat + nr.', 'Telefoon']
#df.drop(to_drop, inplace = True, axis = 1)()

### Klantenlijst

Hieronder wordt de data uit de klantenlijst opgeruimd en aangepast.

In [4]:
#df_klanten['age'] = df_klanten['age'].astype('int64')
df_klanten.dtypes

Familienaam        object
Voornaam           object
Straat + nr.       object
Telefoon           object
Klantnummer        object
Klantnummer CMS    object
Email              object
Creatie datum      object
Geb. datum         object
Locatie            object
Postcode           object
Land               object
dtype: object

In [5]:
#df_klanten['']

In [6]:
#check how many values are null
df_klanten.isnull().sum()

Familienaam           5
Voornaam             65
Straat + nr.         32
Telefoon           1334
Klantnummer           0
Klantnummer CMS    1656
Email                40
Creatie datum      1473
Geb. datum         2321
Locatie              31
Postcode             38
Land                  2
dtype: int64

In [7]:
# Replace numerical value with string
#df['gender'].replace(0, 'Female', inplace=True)
#df['gender'].replace(1, 'Male', inplace=True)
# Replace all values that equal a specific variable
#df = df.replace(valueToReplace =["current", "alsoCurrent"],value ="newvalue")

After review, there is 1 volcano event that doesn't have an age. The record that has a null value for the year, also has a null value for location, country, lat, long, etc. This record does not help analysis and will be dropped.

To keep the default dataframe in tact, I've created a new dataframe and will clean up the data in this new dataframe. This is to ensure data is not skewed and can be compared after transformation.

### Data Quality
- Create new dataframe
 * Rename columns (change abbreviations to defined full words)
 * Change data types for columns
 * Handle null/NaN values
 
There is only 1 record missing a year (and a number of key variables). This record doesn't help the analysis and will be dropped.

Additionally, a number of the columns are either float or objects. After reviewing each column, the fields that are descriptive should be object instead of float.

In [8]:
# Create a new dataframe (keeping df_klanten integrity in tact). 
vdf = df_klanten

#vdf.sample(10)

In [9]:
df_klanten.sample(10)

# verwijder Straat + nr. kolom
# Verander de kolom namen
# wijzig het type voor de 'Creatie datum' en 'Geb. datum' kolommen
# gebruik klantnummer als index voor het dataframe
# gebruik het Klantnummer voor de NaN waarden in Klantnummer CMS
# verwijder de initialen (bv: JL of BS) en spaties uit de Postcode kolom
# Zet de Land kolom om naar 1 land (Be, BE, Belgium,..) = België
# vervang NaN in Geboortedatum met de geboortedatum uit de deelnemers lijst waar de familienaam en voornaam overeenkomen


Unnamed: 0,Familienaam,Voornaam,Straat + nr.,Telefoon,Klantnummer,Klantnummer CMS,Email,Creatie datum,Geb. datum,Locatie,Postcode,Land
3549,c824c7c8641e9f73,bce73eaeffa24058,1ad146dea0d4341b,,e73eaf39d1f91b7a,,b17b60fc0ad05b49,01.07.2012,06.01.1990,herne,1540,Belgium
1282,36778e0e3e460e86,01f27a56fb041efb,fdc1f1562db794c6,fd01ca4963dea20c,e6c23b176ff04245,777a47a844fa131b,ca7df9dcd743e26a,03.07.2018,10.08.1950,Rolde,9451 BP,Nederland
2622,bd0159da31ac292a,8309fd4756bb04e1,81d5fd0775660e30,,3abbf1e720da2ec4,,257768973de216a5,20.08.2015,10.01.1989,Leeuwarden,8918 DL,Nederland
641,0da801df53808903,16a8720d5af0664b,0faf0f4942037636,,906c157501806fb4,e307d99b855cfabc,ea79cd7265846f95,,,Geel,2440,Belgie
838,129df154ec04c58f,8c4191448fb62fbb,a4f9966ecaccd5ff,a003fa79897b37ed,f30b6e050b68e67e,,35cff156c9298996,24.01.2012,,Brugge,8310,Belgium
3409,13462e7fb5ea8693,c6c4b84bfc7cd3c8,1677d9beb11c4b31,,5d106a43728953ad,,ab740b764d46376c,,16.09.1990,Utrecht,3583 RT,Netherlands
743,cd7985d4ac016b38,131de8c3709f911c,8e9e4b9b6a51dacb,ee570c902cc358ff,ce51468d723e88b6,9055bf17e1d4248e,efe566f681da646d,13.12.2016,,Westmalle,2390,België
1122,7d3b80e5ee217cb9,b6a9d6250f74f1b0,0e73079e7fd46bdb,,a77a8ef9abfa3aa5,8d118b7abe207c2b,a692ddb685f2abd2,,,Sneek,8605AW,Nederland
3119,6e2aa974f6039948,1c33486cf3079ca5,b704c5fdf80c73fa,7182d01c024d38c0,fc309e159247481f,0b90627db2f0f9bb,d51a0be507685598,06.06.2016,,IJsselstein,3402 BA,Nederland
2030,c96891ac7ca56bcc,f6035be9947e97c6,f44ba30863350ab5,a7894da9f75ef6aa,1c646289d2836715,,9e62634e7ebf82d7,,17.07.1990,Bennekom,6721SM,nl


In [65]:
#df_klanten.shape

In [67]:
df_artikels.

# verwijder ArticlePoNummer kolom
# zet Boekingsdatum en Vertrekdatum om naar juiste type datetime
# vervang Volledige naam klant door klantennummer uit klantenlijst door te zoeken met dossier nummer
# vervang DossierStatus 'Ok' met 1 of 0
# zet Artikelprijs en Totaal dossier om naar float
# maak dataframe (labels) met alle bestemmingen


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13561 entries, 0 to 13560
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Dos. nr.              13561 non-null  int64  
 1   DossierStatus         13561 non-null  object 
 2   Boekingsdatum         13561 non-null  object 
 3   Vertrekdatum          13490 non-null  object 
 4   Volledige naam klant  13561 non-null  object 
 5   Bestemming            13486 non-null  object 
 6   ArticlePoNummer       0 non-null      float64
 7   Artikelcode           12588 non-null  object 
 8   Omschrijving          13554 non-null  object 
 9   Artikelprijs          13561 non-null  object 
 10  Totaal dossier        13561 non-null  object 
dtypes: float64(1), int64(1), object(9)
memory usage: 1.1+ MB


In [12]:
#df_artikels.shape

In [60]:
#df_bestellingen.iloc[3308]
df_bestellingen.sample(20)

# Dos.jaar = 2021.0 - moet date worden en niet float zijn
# kolomnaam D.vertrek en Datum terug hernoemen
# status -1 en 0 omzetten naar 1 of 0
# verwijder laatste rij - is het totaal van alles opgeteld
# verwijder de regio kolom (veel NaN)
# verwijder de gefactureerd kolom of zet om naar 1 of 0 - type int64
# verwijder de Pakket Code kolom
# verwijder Status kolom
# verwijder Touroperator kolom (Waarschijnlijk niet relevant)
# Zet 'Datum creatie', 'D. vertrek' en 'Datum terug' om naar datetime type
# Zet bestemming en 'Land klant' om naar 1 land (Be, BE, Belgium,..) = België
# zet Totaalprijs en Openstaand dossier om naar het type int64
# verwijder # pass. kolom
# verwijder Openstaand dossier kolom
# verwijder Betalingen dossier kolom
# 

# status: 0 = bevestigd -1 = geannuleerd



Unnamed: 0,Status,Dos. jaar,Dos. nr.,Email,Klantnummer,Klantnummer CMS,Datum creatie,D. vertrek,Datum terug,Totaalprijs,Betalingen dossier,Openstaand dossier,Touroperator,Land klant,Bestemming,Regio,Reistype,# pass.,Pakket Code,Gefactureerd
2663,0.0,2017.0,3246,c1d7fd937902ad98,db828f76f9027aee,9f684406078356ab,04.09.2017 00:00:00,30.09.2017,07.10.2017,890,890,0,f5ecb98c8c5d97ac,nl,De Balkan trail,,,1.0,,True
131,0.0,2011.0,168,6851669992a96ba9,9176c08d72c1f0bc,,19.08.2011 15:37:21,27.08.2011,03.09.2011,1180,1180,0,f5ecb98c8c5d97ac,Nederland,Bulgarije,,,1.0,,True
3907,0.0,2020.0,20200212,3301e21c4eb1f6b0,afcb339ed6632716,,24.06.2020 22:10:10,10.07.2020,12.07.2020,510,510,0,3124a9d2236ff8eb,nl,Nederland,,Ruitervakantie,2.0,NLMALW7P,True
3737,0.0,2019.0,20190572,58ff09752c6f72b3,0402aa14b1aa5ea1,,26.12.2019 14:26:27,03.08.2020,07.08.2020,1150,1150,0,145a6c443d10d78c,nl,Frankrijk,,Ruitervakantie,2.0,FRPAMSTPP,True
20,0.0,2011.0,31,68c0a4ff2d1cc8be,af54b0a5a5dd01cd,,13.05.2011 15:47:39,12.07.2011,19.07.2011,9017,9017,0,9178e7686e56d28f,Netherlands,Frankrijk Haut Languedoc,,,1.0,,True
129,-1.0,2011.0,166,6b4bfa846590dddf,86f033218b01dc22,,19.08.2011 12:22:57,11.09.2011,18.09.2011,190185,190185,0,7526875b2e15e594,Nederland,Galway Ierland,,,1.0,,True
2253,0.0,2017.0,2770,b6353804e27efd0a,f3e0a241f6cea4a1,2653bc934e2a44db,15.01.2017 00:00:00,19.08.2017,24.08.2017,730,730,0,4267f0cb3b5cc762,NETHERLANDS,Met de Huifkar door Ierland,,,5.0,,True
2039,0.0,2016.0,2531,145f594d20195835,2a84452cf6f4362f,28040a840774dd65,27.06.2016 00:00:00,17.07.2016,22.07.2016,495,495,0,efbd72ddf0eb500d,Belgium,Paardrijden en Frans leren,,,1.0,,True
3193,0.0,2018.0,3937,aa8641549110d09b,2b79001882723d33,2fcedf93f180a25c,03.09.2018 10:22:12,22.03.2019,24.03.2019,390,390,0,59fd5bafb3a477af,Nederland,"Belgie, Ardennen",,Ruitervakantie,2.0,,True
3312,0.0,2019.0,20190005,cfbf5d9446379df7,c61cd01c212424f6,d3f3e988a2f2261e,03.01.2019 09:56:57,28.04.2019,05.05.2019,2835,2835,0,38cd84b2be544d50,nl,Spanje,,Ruitervakantie,3.0,ESANRAPTTP,True


In [28]:
#df_bestellingen.shape

In [55]:
df_deelnemers.sample(10)

# verwijder GSM kolom
# vewijder email kolom (veel NaN) - ook prive data
# zet Postcode om naar het type int64
# zet Vertrekdatum om naar datetime
# verwijder cijfers uit Stad bv: Brussel 15
# 

Unnamed: 0,Dossier,Vertrekdatum,Familienaam,Voornaam,Bestemming,Geboortedatum,Email,GSM,Straat + nr.,Postcode,Stad
394,242,09.06.2012,25cd7bb55e6b87d8,3c1b6f55e3e8eacd,Italie Molise Abruzzen,24.01.1953,8899b113810cfe6b,,a2fbe6543b63ba37,2286 LE,Rijswijk
2426,1558,12.10.2014,9f8899da5ad92169,37df274da3b4289c,Working Ranch Montana - Authentieke cowboyerva...,12.05.1988,,,,,
4324,2729,13.08.2017,62c1f0e83fd79fd5,f76a31467e8c3674,Avontuurlijke trektocht naar het hart van de T...,29.08.1983,,,,,
4940,3101,02.07.2017,4d4f0e3025560653,9f2a07c17802c803,"Paardrijden in de Elzas, door de Vogezen",15.09.1992,,,,,
7237,20200189,04.07.2020,153048ce64be1fac,e92987c9cd27ae77,Frankrijk,04.08.1963,17f5b4593c8b1ab8,1e0ec27ba4693af8,01ef79e8e6f5da98,7721 BL,Dalfsen
3291,2097,19.06.2016,69c12836421eddb4,63c2fc30119b2fde,Zuid Frankrijk,,a3bd966062542815,572cd0dec0cd6ec8,1890a2c1a915cf1a,9880,AALTER
5961,3833,11.08.2018,793b715532b58761,93461f0159d4aa7f,Ierland,08.04.2009,,,,,
764,480,13.07.2012,bf39d682ed7117ab,19e0d711b572e173,"Blanes, Spanje",23.12.1992,,,68f44938fbf6e9c6,2530,BOECHOUT
7,9,08.05.2011,3b909bbcc68e9b16,9193bc0b8720b6a2,Botswana,18.06.1950,7418f4b177e773ac,81e8411da7b9ca4a,c458b7d47cb458e9,9403 PN,Assen
5868,3760,30.05.2018,a52838be2948e013,6a823f374e893ee3,Paardrijden in Zuid-Frankrijk,27.05.1999,,,,,


In [16]:
#df['Klantnummer'].is_unique

#make specific row as index
#df.set_index('Klantnummer', inplace=True)
#df

In [17]:
# aantal waarden die null zijn in de klantenlijst
#df.isnull().sum()

In [18]:
df.columns

NameError: name 'df' is not defined

In [19]:
#land lijst opruimen (België, belgium, BE) wijzigen naar 1 formaat
#achternaam van deelnemers kunnen worden gelinked met het klantennummer van een bestelling
#Geboortedatum in kantenlijst kan ge



In [20]:
df.dtypes

NameError: name 'df' is not defined

In [21]:
df.info()

NameError: name 'df' is not defined

In [72]:
#values count
#df.Email.value_counts(dropna=False)

In [71]:
df_bestellingen

Unnamed: 0,Status,Dos. jaar,Dos. nr.,Email,Klantnummer,Klantnummer CMS,Datum creatie,D. vertrek,Datum terug,Totaalprijs,Betalingen dossier,Openstaand dossier,Touroperator,Land klant,Bestemming,Regio,Reistype,# pass.,Pakket Code,Gefactureerd
0,-1.0,2021.0,0,0d484d11bfafa789,e7a25456cafdac84,,04.01.2021 15:11:00,11.09.2021,18.09.2021,0,0,0,c723acdbab5e366e,nl,Spanje,,,1.0,ESOVFIHEXP,False
1,0.0,2011.0,1,36710cc356dbbc5f,756abea9c3e90efe,,28.01.2011 15:01:35,10.07.2011,17.07.2011,1452,1452,0,,Belgium,Netherlands,,,1.0,,True
2,0.0,2011.0,3,37459dca4934080f,cc44932a4b289e81,,07.04.2011 10:17:02,13.05.2011,15.05.2011,620,620,0,dbaa85d88e7fdc52,Netherlands,Belgium,,Autovakantie Europa,2.0,,False
3,0.0,2011.0,4,fe82fc76bd814dcf,17a916e5222e39a0,,08.04.2011 15:02:33,22.05.2011,28.05.2011,1620,1620,0,e11db4bae17e4d63,Nederland,Spain,,,0.0,,False
4,0.0,2011.0,9,7418f4b177e773ac,94bc0881cd24a1b5,,27.04.2011 15:01:28,08.05.2011,15.05.2011,5040,5040,0,,Netherlands,Botswana,,Safari,2.0,,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4034,0.0,2021.0,20210039,a098cd64ef46d3e6,550888291b01a2d4,67e59fd90cae0e70,02.05.2021 16:15:33,16.06.2021,18.06.2021,335,0,335,3124a9d2236ff8eb,Nederland,Nederland,,Weekendje weg,1.0,NLMALW9P,False
4035,-1.0,2021.0,20210040,9d9fcbd34601d5be,5ca1958fcc9b6d75,,03.05.2021 12:42:36,09.05.2021,11.05.2021,440,0,440,27ef3947de4c44d2,nl,Nederland,,,2.0,NLSTWPAP,False
4036,0.0,2021.0,20210041,737f64db006800d3,19b236bfce3aba00,86359749d0859dbf,03.05.2021 14:12:47,11.06.2021,13.06.2021,315,0,315,5b0d4a8fc474f56d,Nederland,Nederland,,Weekendje weg,1.0,NLRIJVPWP,False
4037,0.0,2021.0,20210043,b985f67e6b21ddb7,5436dead6768cd27,,05.05.2021 10:33:07,25.07.2021,01.08.2021,6118,0,6118,0af23110f6efa1a3,Nederland,Kroatië,,Ruitervakantie,3.0,,False


In [27]:
#df.boxplot(column='Email', by='Telefoon', rot=90)

# Features bepalen

Enkele interessante features die in de data te vinden zijn:

* Feature1

### importeren

Voordat 