# Opdracht – Click Through Rate

## Deel 1: Gegevens inlezen, opschonen & voorbewerken

1. Lees alle gegevens in; let op hoe je de Excel/CSV-bestanden leest zodat de
gegevens correct worden gescheiden. Om dit te controleren, kun je de CSVbestanden
eerst openen in een teksteditor zoals Sublime Text of Notepad.

In [1]:
# De data staat opgeslagen in 4 aparte bestanden: 3 csv's en 1 excelbestand.
# Wanneer we de opmaak van de csv's bekijken, zien we dat ze elke een aparte separator gebruiken:
# 1) clicks: ;
# 2) users: |
# 3) websites: , (standaard)

# Wanneer we de data dus gaan inlezen in aparte dataframes, moeten we hier rekening mee houden.

In [2]:
import numpy as np
import pandas as pd

In [3]:
df_clicks = pd.read_csv(r'C:\Users\Carl\Desktop\Syntra - Data Scientist\Notities Lessen\Les 26 - Examen Data Exploration\data\clicks.csv', sep = ';')
df_users = pd.read_csv(r'C:\Users\Carl\Desktop\Syntra - Data Scientist\Notities Lessen\Les 26 - Examen Data Exploration\data\users.csv', sep='|')
df_websites = pd.read_csv(r'C:\Users\Carl\Desktop\Syntra - Data Scientist\Notities Lessen\Les 26 - Examen Data Exploration\data\websites.csv')
df_ads = pd.read_excel(r'C:\Users\Carl\Desktop\Syntra - Data Scientist\Notities Lessen\Les 26 - Examen Data Exploration\data\ads.xlsx')

In [4]:
df_clicks.head(5)

Unnamed: 0,click_id,website,user_id,ad_id,did_click
0,click0,http://www.facebook.com,user0,112,False
1,click1,http://www.facebook.com,user0,117,False
2,click2,www.facebook.com,user0,58,False
3,click3,www.imdb.com,user0,109,False
4,click4,www.imdb.com,user0,123,False


In [5]:
df_users.head(5)

Unnamed: 0,id,ads_shown,age,gender,location
0,user0,13,52,M,Netherlands
1,user1,19,85,M,France
2,user2,42,36,female,France
3,user3,44,27,male,Germany
4,user4,62,23,female,Netherlands


In [6]:
df_websites.head(5)

Unnamed: 0,url,category,target_age
0,www.sporza.be,sports,20-60
1,www.facebook.com,social,18-35
2,www.imdb.com,movies,30-50


In [7]:
df_ads.head(5)

Unnamed: 0,id,category,topic,target_age
0,0,sports,fitness,18-24
1,1,sports,fitness,25-34
2,2,sports,fitness,35-44
3,3,sports,fitness,45-54
4,4,sports,fitness,55+


In [8]:
# Nu is al onze data correct ingelezen, in 4 aparte dataframes.

Ruim de gegevens op in df_clicks:
- website kolom: De url wordt soms getypt als http, soms als https en soms zonder.
Pas deze kolom aan zodat er slechts 3 unieke waarden zijn:
- www.sporza.be
- www.imdb.com
- www.facebook.com

In [9]:
df_clicks['website'].unique()

array(['http://www.facebook.com', 'www.facebook.com', 'www.imdb.com',
       'http://www.imdb.com', 'https://www.facebook.com',
       'https://www.imdb.com', 'www.sporza.be', 'https://www.sporza.be',
       'http://www.sporza.be'], dtype=object)

In [10]:
# We gaan 'http://' en 'https://' vervangen door ''


df_clicks['website'] = df_clicks['website'].str.replace('http://', '')
df_clicks['website'] = df_clicks['website'].str.replace('https://', '')

In [11]:
df_clicks.head(10)

Unnamed: 0,click_id,website,user_id,ad_id,did_click
0,click0,www.facebook.com,user0,112,False
1,click1,www.facebook.com,user0,117,False
2,click2,www.facebook.com,user0,58,False
3,click3,www.imdb.com,user0,109,False
4,click4,www.imdb.com,user0,123,False
5,click5,www.facebook.com,user0,49,False
6,click6,www.facebook.com,user0,59,True
7,click7,www.imdb.com,user0,61,False
8,click8,www.facebook.com,user0,70,True
9,click9,www.facebook.com,user0,32,False


In [12]:
print(df_clicks['website'].unique())

['www.facebook.com' 'www.imdb.com' 'www.sporza.be']


In [13]:
# Dat ziet er ok uit.

3. Ruim de gegevens op in df_users zodat:
   - gender: Deze kolom wordt soms weergegeven als M/V en soms als man/vrouw. Pas deze kolom aan zodat alleen M/V hier verschijnt.
   - age: Dit wordt altijd weergegeven als een exact getal in de gegevens. Maak een nieuwe kolom (en behoud de originele kolom):
      - user_age_intervals_ad met dezelfde leeftijdscategorieën als die in df_ads worden gebruikt.


In [14]:
# Gender: eens kijken welke waarden we allemaal terugvinden.

print(df_users['gender'].unique())

['M' 'female' 'male' 'F']


In [15]:
# We voeren opnieuw string replacement door.

df_users['gender'] = df_users['gender'].str.replace('female', 'F')
df_users['gender'] = df_users['gender'].str.replace('male', 'M')

In [16]:
print(df_users['gender'].unique())

['M' 'F']


In [17]:
# Age: eerst eens kijken welke intervallen er gebruikt worden in df_ads

list_target_ages = df_ads['target_age'].unique().tolist()
print(list_target_ages)

['18-24', '25-34', '35-44', '45-54', '55+']


In [18]:
# Vreemd dat er geen categorie -18 is? Eens controleren of er in df_users geen rijen staan waar age lager is dan 18.

all_ages = sorted(df_users['age'].unique())
print(all_ages)

[18, 19, 20, 21, 22, 23, 25, 26, 27, 28, 29, 30, 31, 32, 33, 35, 36, 37, 38, 39, 40, 41, 42, 43, 45, 46, 47, 48, 49, 50, 51, 52, 53, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 73, 74, 75, 76, 77, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99]


In [19]:
# Dat ziet er dus ok uit.

# Nu gaan we een nieuwe kolom maken.
df_users['user_age_intervals_ad'] = ''



# Het is wellicht niet de beste manier, maar via een for-loop kunnen we bij iedere rij nagaan in welk interval de leeftijd zich bevindt.
# Op basis daarvan wordt dan een nieuwe waarde toegewezen aan de kolom 'target_age' op deze specifieke rij. 

for index, row in df_users.iterrows():
    age = row['age']
    if 18 <= age <= 24:
        df_users.at[index, 'user_age_intervals_ad'] = '18-24'
    elif 25 <= age <= 34:
        df_users.at[index, 'user_age_intervals_ad'] = '25-34'
    elif 35 <= age <= 44:
        df_users.at[index, 'user_age_intervals_ad'] = '35-44'
    elif 45 <= age <= 54:
        df_users.at[index, 'user_age_intervals_ad'] = '45-54'
    elif age >= 55:
        df_users.at[index, 'user_age_intervals_ad'] = '55+'

    

In [20]:
df_users.head(10)

Unnamed: 0,id,ads_shown,age,gender,location,user_age_intervals_ad
0,user0,13,52,M,Netherlands,45-54
1,user1,19,85,M,France,55+
2,user2,42,36,F,France,35-44
3,user3,44,27,M,Germany,25-34
4,user4,62,23,F,Netherlands,18-24
5,user5,48,26,M,Luxembourg,25-34
6,user6,25,91,F,Luxembourg,55+
7,user7,44,29,M,France,25-34
8,user8,18,60,M,Germany,55+
9,user9,10,20,M,Luxembourg,18-24


In [21]:
# Dat ziet er goed uit.

4. Voeg de verschillende tabellen samen, maar let op:
   - We hebben in totaal 4 waarden voor target age, geef deze kolommen betekenisvolle namen, zoals:
      - user_age_exact
      - user_age_intervals_ad
      - target_age_ad
      - target_age_website


In [22]:
# We gaan eerst de kolomnamen aanpassen.

df_users.rename(columns={'age': 'user_age_exact'}, inplace=True)
df_websites.rename(columns={'target_age': 'target_age_website'}, inplace=True)
df_ads.rename(columns={'target_age': 'target_age_ad'}, inplace=True)


In [23]:
# Nu moeten we die 4 tabellen samenvoegen. 
# We willen dus geen nieuwe rijen toevoegen, maar de gegevens van 2 tabellen samenvoegen op basis van een gemeenschappelijke kolom.
# Dit kan via de merge() methode van pandas

In [24]:
# de tabel 'clicks' bevat de kolommen 'user_id', 'ad_id' en 'website'. Het lijkt me dus logisch om de andere tabellen hieraan te mergen.
# We zullen eerst de user-gegevens toevoegen.

# Eerst ga ik de naam van deze kolom nog even aanpassen.
df_users.rename(columns={'id': 'user_id'}, inplace=True)

# Dan kan ik mergen op basis van deze gemeenschappelijke kolom
df_clicks.merge(df_users, on = 'user_id')

Unnamed: 0,click_id,website,user_id,ad_id,did_click,ads_shown,user_age_exact,gender,location,user_age_intervals_ad
0,click0,www.facebook.com,user0,112,False,13,52,M,Netherlands,45-54
1,click1,www.facebook.com,user0,117,False,13,52,M,Netherlands,45-54
2,click2,www.facebook.com,user0,58,False,13,52,M,Netherlands,45-54
3,click3,www.imdb.com,user0,109,False,13,52,M,Netherlands,45-54
4,click4,www.imdb.com,user0,123,False,13,52,M,Netherlands,45-54
...,...,...,...,...,...,...,...,...,...,...
30564,click5,www.facebook.com,user999,67,True,10,96,M,Luxembourg,55+
30565,click6,www.imdb.com,user999,71,False,10,96,M,Luxembourg,55+
30566,click7,www.facebook.com,user999,1,False,10,96,M,Luxembourg,55+
30567,click8,www.facebook.com,user999,89,False,10,96,M,Luxembourg,55+


In [25]:
# Nu gaan we de info van de ads-database toevoegen. Zelfde manier van werken.

df_ads.rename(columns={'id': 'ad_id'}, inplace=True)
df_clicks.merge(df_ads, on = 'ad_id')

Unnamed: 0,click_id,website,user_id,ad_id,did_click,category,topic,target_age_ad
0,click0,www.facebook.com,user0,112,False,health,gadgets,35-44
1,click19,www.facebook.com,user3,112,False,health,gadgets,35-44
2,click60,www.facebook.com,user4,112,False,health,gadgets,35-44
3,click13,www.facebook.com,user5,112,False,health,gadgets,35-44
4,click11,www.imdb.com,user7,112,False,health,gadgets,35-44
...,...,...,...,...,...,...,...,...
30564,click14,www.sporza.be,user977,87,False,finance,gadgets,35-44
30565,click10,www.facebook.com,user979,87,False,finance,gadgets,35-44
30566,click11,www.facebook.com,user981,87,False,finance,gadgets,35-44
30567,click16,www.facebook.com,user986,87,False,finance,gadgets,35-44


In [26]:
# Ok.. Dat werkt dus niet zoals ik verwacht had.
# Er wordt steeds een merge van de 2 dataframes geprint, maar het origineel 'df_clicks' werd niet aangepast.
# Ik ga een nieuw dataframe 'df' aanmaken en begin opnieuw.


df = df_clicks.merge(df_ads, on = 'ad_id')
df = df.merge(df_users, on = 'user_id')

In [27]:
df.head()

Unnamed: 0,click_id,website,user_id,ad_id,did_click,category,topic,target_age_ad,ads_shown,user_age_exact,gender,location,user_age_intervals_ad
0,click0,www.facebook.com,user0,112,False,health,gadgets,35-44,13,52,M,Netherlands,45-54
1,click1,www.facebook.com,user0,117,False,health,investing,35-44,13,52,M,Netherlands,45-54
2,click2,www.facebook.com,user0,58,False,technology,movies,45-54,13,52,M,Netherlands,45-54
3,click3,www.imdb.com,user0,109,False,health,movies,55+,13,52,M,Netherlands,45-54
4,click4,www.imdb.com,user0,123,False,health,wellness,45-54,13,52,M,Netherlands,45-54


In [28]:
# Dat ziet er beter uit.
# Nu voegen we nog de derde en laatste tabel toe, df_websites
df_websites.rename(columns={'url': 'website'}, inplace=True)
df = df.merge(df_websites, on = 'website')


In [29]:
df.head()

Unnamed: 0,click_id,website,user_id,ad_id,did_click,category_x,topic,target_age_ad,ads_shown,user_age_exact,gender,location,user_age_intervals_ad,category_y,target_age_website
0,click0,www.facebook.com,user0,112,False,health,gadgets,35-44,13,52,M,Netherlands,45-54,social,18-35
1,click1,www.facebook.com,user0,117,False,health,investing,35-44,13,52,M,Netherlands,45-54,social,18-35
2,click2,www.facebook.com,user0,58,False,technology,movies,45-54,13,52,M,Netherlands,45-54,social,18-35
3,click5,www.facebook.com,user0,49,False,entertainment,wellness,55+,13,52,M,Netherlands,45-54,social,18-35
4,click6,www.facebook.com,user0,59,True,technology,movies,55+,13,52,M,Netherlands,45-54,social,18-35


- Valideer dat de samenvoeging correct is uitgevoerd; een eenvoudige manier om dit te valideren is door te controleren of het totale aantal rijen voor en na de samenvoeging hetzelfde is.

In [33]:
if len(df_clicks) == len (df):
    print('De samenvoeging is correct uitgevoerd, we tellen nog steeds evenveel rijen!')
else:
    print('Lap, er is ergens iets misgegaan!')

De samenvoeging is correct uitgevoerd, we tellen nog steeds evenveel rijen!


- Sommige kolommen zijn gedupliceerd:


      - Id-kolommen: maak 1 kolom voor elk type id (click_id, user_id, ad_id) en verwijder de andere id-kolommen.
      - Category: gebruik _ad of _website om aan te geven welke categorie wordt bedoeld.
      - Website vs url: Behoud alleen de kolom url en verwijder de kolom website.


- Maak topic duidelijker door het topic_ad te noemen.


In [30]:
df.rename(columns={'category_x': 'category_add'}, inplace=True)
df.rename(columns={'category_y': 'category_website'}, inplace=True)
df.rename(columns={'topic': 'topic_ad'}, inplace=True)
df.rename(columns={'website': 'url'}, inplace=True)

In [35]:
df.head()

Unnamed: 0,click_id,url,user_id,ad_id,did_click,category_add,topic_ad,target_age_ad,ads_shown,user_age_exact,gender,location,user_age_intervals_ad,category_website,target_age_website
0,click0,www.facebook.com,user0,112,False,health,gadgets,35-44,13,52,M,Netherlands,45-54,social,18-35
1,click1,www.facebook.com,user0,117,False,health,investing,35-44,13,52,M,Netherlands,45-54,social,18-35
2,click2,www.facebook.com,user0,58,False,technology,movies,45-54,13,52,M,Netherlands,45-54,social,18-35
3,click5,www.facebook.com,user0,49,False,entertainment,wellness,55+,13,52,M,Netherlands,45-54,social,18-35
4,click6,www.facebook.com,user0,59,True,technology,movies,55+,13,52,M,Netherlands,45-54,social,18-35


## Deel 2: Analyse & visualisatie

6. Krijgen mannen en vrouwen hetzelfde aantal advertenties te zien?
& Hebben we ongeveer evenveel mannen en vrouwen in onze dataset?
   - De oplossing voor deze vragen kan gewoon cijfers zijn.


In [None]:
# Voor beide vragen gebruiken we de tabel df_users.

In [41]:
# 1) Krijgen ze evenveel advertenties te zien?
# Onderstaande kan wellicht korter/eleganter, maar het werkt wel..
df_men = df[df['gender'] == 'M']
df_women = df[df['gender'] == 'F']
ads_men = df_men['ads_shown'].mean()
ads_women = df_women['ads_shown'].mean()


print(f'Mannen kregen gemiddeld {ads_men} advertenties te zien, vrouwen gemiddeld {ads_women}.')

Mannen kregen gemiddeld 42.79962870494847 advertenties te zien, vrouwen gemiddeld 41.83342253144233.


In [40]:
# 2) Aantal mannen en vrouwen in onze dataset:

print(df_users['gender'].value_counts())

gender
M    500
F    500
Name: count, dtype: int64


7. Is er een significante relatie tussen leeftijd en het aantal weergegeven advertenties? Bekijk deze relatie per geslacht (M/V).
- Bekijk het totale aantal weergegeven advertenties per leeftijd. Dit kan bijvoorbeeld worden weergegeven via een grafiek (maar voel je vrij om creatiever te zijn).


-0.4171678596827049


- Bekijk het totale aantal weergegeven advertenties per persoon voor elke leeftijd. 

8. Extra: Toon hoe vaak de verschillende websitecategorieën werden doorgeklikt per land.