In [None]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

## Zwembadbezoekers

In [None]:
zwembadbezoekers_df = pd.read_excel('zwembadbezoekers_noorderparkbad_21.xlsx')

# remove this column because it doesn't add any value
del zwembadbezoekers_df['Unnamed: 0']

# delete the column since it has only one value
del zwembadbezoekers_df['logging_divisie']

In [None]:
print('There are ' + str(len(zwembadbezoekers_df)) + ' loggings with ' + str(len(zwembadbezoekers_df.columns)) + ' columns.')

In [None]:
for index, row in zwembadbezoekers_df.iterrows():
    for column in list(zwembadbezoekers_df.columns):
        print('Column name: ' + column)
        print('Column value (first row): ' + str(row[column]))
        print('Number of unique values in column: ' + str(len(zwembadbezoekers_df[column].unique())))
        print('Number of NaN values in column: ' + str(zwembadbezoekers_df[column].isna().sum()))
        print('\n')
    break
    
print('Remaining number of columns: ' +str(len(zwembadbezoekers_df.columns)))

### Addressid

In [None]:
print('YES')

### Date data

In [None]:
print('For each observation, there is a purchase and logging datetime. These have different formats so I have reformated them.')

# Classify date column by format type
zwembadbezoekers_df['format'] = 1
zwembadbezoekers_df.loc[zwembadbezoekers_df['logging_creatiedatum'].str.contains('.'), 'format'] = 2
zwembadbezoekers_df['logging_date'] = pd.to_datetime(zwembadbezoekers_df['logging_creatiedatum'])

# Convert to datetime with two different format settings
zwembadbezoekers_df.loc[zwembadbezoekers_df['format'] == 1, 'logging_date'] = pd.to_datetime(zwembadbezoekers_df.loc[zwembadbezoekers_df['format'] == 1, 'logging_creatiedatum'], format = '%Y-%m-%d %H:%M:%S').dt.strftime('%Y-%m-%d %H:%M:%S')
zwembadbezoekers_df.loc[zwembadbezoekers_df['format'] == 2, 'logging_date'] = pd.to_datetime(zwembadbezoekers_df.loc[zwembadbezoekers_df['format'] == 2, 'logging_creatiedatum'], format = '%Y-%m-%d %H:%M:%S.%f').dt.strftime('%Y-%m-%d %H:%M:%S')

del zwembadbezoekers_df['logging_creatiedatum']
del zwembadbezoekers_df['format']

# Classify date column by format type
zwembadbezoekers_df['format'] = 1
zwembadbezoekers_df.loc[zwembadbezoekers_df['purchasedate'].str.contains('.'), 'format'] = 2
zwembadbezoekers_df['purchase_date'] = pd.to_datetime(zwembadbezoekers_df['purchasedate'])

# Convert to datetime with two different format settings
zwembadbezoekers_df.loc[zwembadbezoekers_df['format'] == 1, 'purchase_date'] = pd.to_datetime(zwembadbezoekers_df.loc[zwembadbezoekers_df['format'] == 1, 'purchasedate'], format = '%Y-%m-%d %H:%M:%S').dt.strftime('%Y-%m-%d %H:%M:%S')
zwembadbezoekers_df.loc[zwembadbezoekers_df['format'] == 2, 'purchase_date'] = pd.to_datetime(zwembadbezoekers_df.loc[zwembadbezoekers_df['format'] == 2, 'purchasedate'], format = '%Y-%m-%d %H:%M:%S.%f').dt.strftime('%Y-%m-%d %H:%M:%S')

del zwembadbezoekers_df['purchasedate']
del zwembadbezoekers_df['format']

In [None]:
zwembadbezoekers_df['purchase_date'] =  pd.to_datetime(zwembadbezoekers_df['purchase_date'], format='%Y-%m-%d %H:%M:%S')
zwembadbezoekers_df['logging_date'] =  pd.to_datetime(zwembadbezoekers_df['logging_date'], format='%Y-%m-%d %H:%M:%S')


In [None]:
%%time

plt.hist(zwembadbezoekers_df['purchase_date'].dt.year)
plt.title('Aantal verkochte artikelen per jaar')
plt.show()


plt.hist(zwembadbezoekers_df['logging_date'].dt.year)
plt.title('Aantal bezoeken per jaar')
plt.xticks([2017,2018, 2019,2020])
plt.show()

plt.hist(zwembadbezoekers_df['purchase_date'].dt.month)
plt.title('Verdeling van de verkochte artikelen over de maanden')
plt.xticks([x for x in range(1, 13)], ['Januari', 'Februari', 'Maart', 'April', 'Mei', 'Juni', 'Juli', 'Augustus', 'September', 'Oktober', 'November', 'December'], rotation=90)
plt.show()


plt.hist(zwembadbezoekers_df['logging_date'].dt.month)
plt.title('Verdeling van de bezoeken over de maanden')
plt.xticks([x for x in range(1, 13)], ['Januari', 'Februari', 'Maart', 'April', 'Mei', 'Juni', 'Juli', 'Augustus', 'September', 'Oktober', 'November', 'December'], rotation=90)
plt.show()


In [None]:
print('Find max loggings and purchases on a given day/datetime')

In [None]:
plt.hist(zwembadbezoekers_df['logging_date'].dt.month)
plt.title('Distribution of the loggings per month')
plt.xticks([x for x in range(1, 13)], ['January', 'February', 'March', 'April', 'May', 'June', 'July', 'August', 'September', 'October', 'November', 'December'], rotation=90)
plt.show()

### Articles: 

    abonnement_artikel
    artikel_omschrijving
    artikelgroep
    artikelgroep_omschrijving

#### Subscription article and its description: abonnement_artikel + artikel_omschrijving

In [None]:
# Create a dataframe with the amount of sales per article group

artikelen, artikelen_len = [], []

for artikel, artikel_df in zwembadbezoekers_df.groupby('abonnement+omschrijving'):
    artikelen.append(artikel)
    artikelen_len.append(len(artikel_df))
    
abonnement_artikelen_df = pd.DataFrame({'Abonnement artikel':artikelen, 'Aantal verkocht': artikelen_len})

plt.hist(abonnement_artikelen_df['Aantal verkocht'], bins=400)
plt.title('Distribution of amount of units sold per article')
plt.show()

print('As we can see most articles are sold between 1 and 1000 times. ')

plt.hist(abonnement_artikelen_df['Aantal verkocht'], bins=400)
plt.title('Distribution of amount of articles sold per article (1-1000 sales)')
plt.xlim(0, 1000)
plt.show()


# Count amount of variables under a thousand sales and how much of total sales.
count = 0
total_sales = 0

for artikel, artikel_df in zwembadbezoekers_df.groupby('abonnement+omschrijving'):
    if len(artikel_df) < 1000: 
        #print(artikel)
        #print(artikel_df['omschrijving_artikel'].unique())
        total_sales += (len(artikel_df))
        count += 1
    
print('127 out of 180 articles are sold between once and a thousand times. These account for ' + str(round(total_sales/len(zwembadbezoekers_df)*100, 2)) + '% of total sales.')

plt.hist(abonnement_artikelen_df['Aantal verkocht'], bins=400)
plt.title('Verdeling van het aantal artikelen verkocht per artikel (1000 - 80000 verkochte artikelen)')
plt.xlim(1000, 80000)
plt.ylim(0,5)
plt.show()

print('The remaining 53 articles account for the remaining 95% of the sales.')

pareto_20_80 = round((abonnement_artikelen_df.sort_values('Aantal verkocht')[-36:]['Aantal verkocht'].sum()/len(zwembadbezoekers_df))*100,2)

 
print('\nActually the article sales almost follow a pareto distribution in which the top 20% (36) most sold products account for ' + str(pareto_20_80) + '% of all sales.')



In [None]:
abonnement_artikelen_df.sort_values('Aantal verkocht', ascending=False).head(10)

In [None]:
abonnement_artikelen_df.sort_values('Aantal verkocht', ascending=False)

In [None]:
# welke artikelen zijn dit nou?

In [None]:
print('I choose to keep this data as it is, but I combine the article with its description into one column in order to reduce the amount of columns.')

zwembadbezoekers_df['abonnement+omschrijving'] = zwembadbezoekers_df['abonnement_artikel'] + '_:_' + zwembadbezoekers_df['omschrijving_artikel'] 

del zwembadbezoekers_df['abonnement_artikel']
del zwembadbezoekers_df['omschrijving_artikel'] 

In [None]:
# Create a dataframe with the amount of sales per article group

artikelgroepen, artikelgroepen_len = [], []

for artikelgroep, artikelgroep_df in zwembadbezoekers_df.groupby('artikelgroep+omschrijving'):
    artikelgroepen.append(artikelgroep)
    artikelgroepen_len.append(len(artikelgroep_df))
    
artikelgroepen_df = pd.DataFrame({'Artikel groep':artikelgroepen, 'Aantal verkocht': artikelgroepen_len})

artikelgroepen_df = artikelgroepen_df.sort_values('Aantal verkocht', ascending=False)

plt.bar(artikelgroepen_df['Artikel groep'], artikelgroepen_df['Aantal verkocht'])
plt.xticks(rotation=90)
plt.title('Aantal verkochte artikelen per artikel groep')
plt.show()

pareto_20_80 = round((artikelgroepen_df.sort_values('Aantal verkocht')[-2:]['Aantal verkocht'].sum()/len(zwembadbezoekers_df))*100,2)

print('As we can see the article groups logically also follow an approximate pareto distribution. Actually, the two article groups NPB-01 and NPB-02 account for ' + str(pareto_20_80) + '% of total articles used/sold.')


In [None]:
artikelgroepen_df.sort_values('Aantal verkocht')[:-1]

In [None]:
round((artikelgroepen_df.sort_values('Aantal verkocht')[-2:]['Aantal verkocht'].sum()/len(zwembadbezoekers_df))*100,2)

In [None]:
print('I choose to keep this data as it is, but I combine the articlegroup with its description into one column in order to reduce the amount of columns.')

zwembadbezoekers_df['artikelgroep+omschrijving'] = zwembadbezoekers_df['artikelgroep'] + '_:_' + zwembadbezoekers_df['artikelgroep_omschrijving'] 

del zwembadbezoekers_df['artikelgroep']
del zwembadbezoekers_df['artikelgroep_omschrijving'] 

### Subscription data

In [None]:
print(str(round(zwembadbezoekers_df["abonnement_#_beurten"].isna().sum()/len(zwembadbezoekers_df)*100,2))+ '% of data is missing for the number of days, weeks or months (or amount) of entries remaining.')

# checking the data by zwembadbezoekers_df[zwembadbezoekers_df['abonnement_#_beurten'].isna()]['abonnement+omschrijving'].unique()

print('\nAfter checking, this data concerns single entries to the swimming pool. Thus, I choose to merge the days, weeks and months into a single column and add one if the data is missing for the days as well as the number of entries.')



In [None]:
zwembadbezoekers_df['abonnement_dagen'] = zwembadbezoekers_df['abonnement_aantal_dagen_geldig'] + zwembadbezoekers_df['abonnement_aantal_weken_geldig']*7 + zwembadbezoekers_df['abonnement_aantal_maanden_geldig']*30
zwembadbezoekers_df['abonnement_beurten'] = zwembadbezoekers_df['abonnement_#_beurten']

zwembadbezoekers_df['abonnement_dagen'] = zwembadbezoekers_df['abonnement_dagen'].fillna(1)
zwembadbezoekers_df['abonnement_beurten'] = zwembadbezoekers_df['abonnement_beurten'].fillna(0)

del zwembadbezoekers_df['abonnement_aantal_dagen_geldig'] 
del zwembadbezoekers_df['abonnement_aantal_weken_geldig']
del zwembadbezoekers_df['abonnement_aantal_maanden_geldig']
del zwembadbezoekers_df['abonnement_#_beurten']

In [None]:
print(str(round(zwembadbezoekers_df["verkooppunt"].isna().sum()/len(zwembadbezoekers_df)*100,2))+ '% of data is missing for the salespoint.')


print(str(round(zwembadbezoekers_df["abonnement_artikelprijs_incl._btw"].isna().sum()/len(zwembadbezoekers_df)*100,2))+ '% of data is missing for the price per article.')

print('\nShould I discard this data?\n')

print(str(round(zwembadbezoekers_df["sub_scription_start_date"].isna().sum()/len(zwembadbezoekers_df)*100,2))+ '% of data is missing for subscription start and end dates.')
print('I choose to discard the start and end dates, since it does not any relevant information for this study.')

del zwembadbezoekers_df["sub_scription_start_date"]
del zwembadbezoekers_df["subscription_end_date"]
del zwembadbezoekers_df["verkooppunt"]
del zwembadbezoekers_df["abonnement_artikelprijs_incl._btw"]


In [None]:
toegangsgroepen, toegangsgroepen_observations = [], []

for groep, groep_df in zwembadbezoekers_df.groupby('toegangsgroep'):
    toegangsgroepen.append(groep)
    toegangsgroepen_observations.append(len(groep_df))
    
toegangsgroep_df = pd.DataFrame({'Toegangsgroep':toegangsgroepen, 'Aantallen': toegangsgroepen_observations})

toegangsgroep_df = toegangsgroep_df.sort_values('Aantallen')

plt.bar(toegangsgroep_df['Toegangsgroep'], toegangsgroep_df['Aantallen'])
plt.xticks(rotation=90)
plt.title('Aantal bezoeken per toegangsgroep')

plt.show()

In [None]:
zwembadbezoekers_df[zwembadbezoekers_df['country'].isna()

In [None]:
print('I chose to remove the country data since it does not add any new information. \nThere are ' + str(round(zwembadbezoekers_df['country'].isna().sum()/len(zwembadbezoekers_df)*100,2)) + '% missing values. A quick view at these missing values reveal that many are tied to an association, which probably means these visitors were also from The Netherlands.')
      
del zwembadbezoekers_df['country']      

In [None]:
buurten, buurten_observations = [], []

for buurt, buurt_df in zwembadbezoekers_df.groupby('buurt_code'):
    buurten.append(buurt)
    buurten_observations.append(len(buurt_df))
    
buurten_df = pd.DataFrame({'Neighbourhood':buurten, 'Aantallen':buurten_observations})
    
buurten_df = buurten_df.sort_values('Aantallen')[-34:]

plt.bar(buurten_df['Neighbourhood'], buurten_df['Aantallen'])
plt.xticks(rotation=90)
plt.title('Top 20% of number of entries per neighbourhood')

plt.show()


In [None]:
# buurtcodes naar wijken transformeren

In [None]:
leeftijd_groepen, leeftijd_groepen_aantallen = [], []

for leeftijd_groep, leeftijd_groep_df in zwembadbezoekers_df.groupby('klant_leeftijd_groep'):
    leeftijd_groepen.append(leeftijd_groep)
    leeftijd_groepen_aantallen.append(len(leeftijd_groep_df))
    
leeftijdgroepen_df = pd.DataFrame({'Age groups':leeftijd_groepen, 'Aantallen':leeftijd_groepen_aantallen})
    
leeftijdgroepen_df = leeftijdgroepen_df.sort_values('Aantallen', ascending=False)

plt.bar(leeftijdgroepen_df['Age groups'], leeftijdgroepen_df['Aantallen'])
plt.xticks(rotation=90)
plt.title('Number of entries per age groups')

plt.show()


In [None]:
for index, row in zwembadbezoekers_df.iterrows():
    for column in list(zwembadbezoekers_df.columns):
        print('Column name: ' + column)
        print('Column value (first row): ' + str(row[column]))
        print('Number of unique values in column: ' + str(len(zwembadbezoekers_df[column].unique())))
        print('Number of NaN values in column: ' + str(zwembadbezoekers_df[column].isna().sum()))
        print('\n')
    break
    
print('Remaining number of columns: ' +str(len(zwembadbezoekers_df.columns)))

## Zwembadverkopen

In [None]:
zwembadverkopen_df = pd.read_excel('zwembadverkopen_noorderparkbad_21.xlsx')

In [None]:
print('There are ' + str(len(zwembadverkopen_df)) + ' loggings with ' + str(len(zwembadverkopen_df.columns)) + ' columns.')

In [None]:
for index, row in zwembadverkopen_df.iterrows():
    for column in list(zwembadverkopen_df.columns):
        print('Column name: ' + column)
        print('Column value (first row): ' + str(row[column]))
        print('Number of unique values in column: ' + str(len(zwembadverkopen_df[column].unique())))
        print('Number of NaN values in column: ' + str(zwembadverkopen_df[column].isna().sum()))
        print('\n')
    break
    
print('Remaining number of columns: ' +str(len(zwembadverkopen_df.columns)))

In [None]:
# remove this column because it doesn't add any value
del zwembadverkopen_df['Unnamed: 0']

#### Addressid


#### Sale date

In [None]:
print('For each observation, there is a sales datetime. I had to reformat them.')

# Classify date column by format type
zwembadverkopen_df['format'] = 1
zwembadverkopen_df.loc[zwembadverkopen_df['verkoop_datum'].str.contains('.'), 'format'] = 2
zwembadverkopen_df['verkoopdatum'] = pd.to_datetime(zwembadverkopen_df['verkoop_datum'])

# Convert to datetime with two different format settings
zwembadverkopen_df.loc[zwembadverkopen_df['format'] == 1, 'verkoopdatum'] = pd.to_datetime(zwembadverkopen_df.loc[zwembadverkopen_df['format'] == 1, 'verkoop_datum'], format = '%Y-%m-%d %H:%M:%S').dt.strftime('%Y-%m-%d %H:%M:%S')
zwembadverkopen_df.loc[zwembadverkopen_df['format'] == 2, 'verkoopdatum'] = pd.to_datetime(zwembadverkopen_df.loc[zwembadverkopen_df['format'] == 2, 'verkoop_datum'], format = '%Y-%m-%d %H:%M:%S.%f').dt.strftime('%Y-%m-%d %H:%M:%S')

del zwembadverkopen_df['verkoop_datum']
del zwembadverkopen_df['format']

In [None]:
zwembadverkopen_df['verkoopdatum'] =  pd.to_datetime(zwembadverkopen_df['verkoopdatum'], format='%Y-%m-%d %H:%M:%S')

In [None]:
%%time

plt.hist(zwembadverkopen_df['verkoopdatum'].dt.year)
plt.title('Distribution of the purchases per year')
plt.xticks([2017,2018, 2019,2020])
plt.show()


plt.hist(zwembadverkopen_df['verkoopdatum'].dt.month)
plt.title('Distribution of the purchases per month')
plt.xticks([x for x in range(1, 13)], ['January', 'February', 'March', 'April', 'May', 'June', 'July', 'August', 'September', 'October', 'November', 'December'], rotation=90)
plt.show()


#### Sales data

In [None]:
print('Verkoop_documenttype has two unique values: '+str(zwembadverkopen_df['verkoop_documenttype'].unique()))
print('This column is deleted until further notice.')


In [None]:
print('There are five verkooppunten: '+str(zwembadverkopen_df['verkoop_verkooppunt'].unique()))

# Create a dataframe with the amount of sales per article group

verkooppunten, verkooppunten_len = [], []

for verkoopppunt, verkooppunt_df in zwembadverkopen_df.groupby('verkoop_verkooppunt'):
    verkooppunten.append(verkoopppunt)
    verkooppunten_len.append(len(verkooppunt_df))
    
verkooppunten_df = pd.DataFrame({'Verkooppunt':verkooppunten, 'Aantallen': verkooppunten_len})

plt.bar(verkooppunten_df['Verkooppunt'], verkooppunten_df['Aantallen'])
plt.xticks(rotation=90)
plt.title('Aantal artikelen verkocht per verkooppunt')
plt.show()

In [None]:
## interesting the evolution over the years? 

In [None]:
print('The number of sales is deleted because it does not seem to add additional information.')

del zwembadverkopen_df['aantal']

In [None]:
print('The euro amount of the sale is kept because it can be used later to link to the visitor data?')

In [None]:
print('The columns "verkoopsregel_artikelafdeling division", "verkoopsregel_grootboekrekening" and "verkoopsregel_kostenplaats" are deleted.')

del zwembadverkopen_df['verkoopsregel_artikelafdeling']
del zwembadverkopen_df['verkoopsregel_grootboekrekening']
del zwembadverkopen_df['verkoopsregel_kostenplaats']


In [None]:
print('I choose to keep this data as it is, but I combine the article with its description into one column in order to reduce the amount of columns.')

zwembadverkopen_df['artikelgroep+omschrijving'] = zwembadverkopen_df['artikelgroep'] + '_:_' + zwembadverkopen_df['itemgroupdescription']  

del zwembadverkopen_df['artikelgroep']
del zwembadverkopen_df['itemgroupdescription']


In [None]:
print('I choose to keep this data as it is, but I combine the article with its description into one column in order to reduce the amount of columns.')

zwembadverkopen_df['artikelcode+omschrijving+verkoopsregel'] = zwembadverkopen_df['verkoopsregel_artikelcode'] + '_:_' + zwembadverkopen_df['artikelomschrijving']  + '_:_' + zwembadverkopen_df['verkoopsregel_omschrijving']  

del zwembadverkopen_df['verkoopsregel_artikelcode']
del zwembadverkopen_df['artikelomschrijving'] 
del zwembadverkopen_df['verkoopsregel_omschrijving']


In [None]:
for index, row in zwembadverkopen_df.iterrows():
    for column in list(zwembadverkopen_df.columns):
        print('Column name: ' + column)
        print('Column value (first row): ' + str(row[column]))
        print('Number of unique values in column: ' + str(len(zwembadverkopen_df[column].unique())))
        print('Number of NaN values in column: ' + str(zwembadverkopen_df[column].isna().sum()))
        print('\n')
    break
    
print('Remaining number of columns: ' +str(len(zwembadverkopen_df.columns)))

In [None]:
print('The invoice column is deleted because it does not add any additional information')

del zwembadverkopen_df['factuur']

In [None]:
print('The sales number is deleted since it does not add any additional information.')

del zwembadverkopen_df['verkoop_nummer']

In [None]:
print('The discount column is deleted since it does not add any additional information.')

print(str(len(zwembadverkopen_df[zwembadverkopen_df['verkoopsregel_kortingspercentage'] == 0])) + ' of the entries have 0 discount.' )
print(str(len(zwembadverkopen_df[zwembadverkopen_df['verkoopsregel_kortingspercentage'] != 0])) + ' of the entries have a discount.' )

del zwembadverkopen_df['verkoopsregel_kortingspercentage']

In [None]:
print('There are six accounting ledgers: '+str(zwembadverkopen_df['grootboekrekening_omschrijving'].unique()))

# Create a dataframe with the amount of sales per article group

grootboekrekeningen, grootboekrekeningen_len = [], []

for grootboekrekening, grootboekrekening_df in zwembadverkopen_df.groupby('grootboekrekening_omschrijving'):
    grootboekrekeningen.append(grootboekrekening)
    grootboekrekeningen_len.append(len(grootboekrekening_df))
    
grootboekrekening_df = pd.DataFrame({'Grootboekrekening':grootboekrekeningen, 'Aantallen': grootboekrekeningen_len})

plt.bar(grootboekrekening_df['Grootboekrekening'], grootboekrekening_df['Aantallen'])
plt.xticks(rotation=90)
plt.title('Amount of articles sold per accounting ledger')
plt.show()

In [None]:
grootboekrekening_df.sort_values('Aantallen', ascending=False)

In [None]:
print('There are three article divisions: '+str(zwembadverkopen_df['artikelafdeling__omschrijving'].unique()))

# Create a dataframe with the amount of sales per article group

artikelafdelingen, artikelafdelingen_len = [], []

for artikelafdeling, artikelafdeling_df in zwembadverkopen_df.groupby('artikelafdeling__omschrijving'):
    artikelafdelingen.append(artikelafdeling)
    artikelafdelingen_len.append(len(artikelafdeling_df))
    
artikelafdeling_df = pd.DataFrame({'Artikelafdeling':artikelafdelingen, 'Aantallen': artikelafdelingen_len})

plt.bar(artikelafdeling_df['Artikelafdeling'], artikelafdeling_df['Aantallen'])
plt.xticks(rotation=90)
plt.title('Amount of articles sold per article division')
plt.show()

In [None]:
print('Why are there almost 30.000 entries for the Zuiderbad while the purchase division is Noorderparkbad?')
artikelafdeling_df

In [None]:
buurten, buurten_observations = [], []

for buurt, buurt_df in zwembadverkopen_df.groupby('buurt_code'):
    buurten.append(buurt)
    buurten_observations.append(len(buurt_df))
    
buurten_df = pd.DataFrame({'Neighbourhood':buurten, 'Aantallen':buurten_observations})
    
buurten_df = buurten_df.sort_values('Aantallen')[-(20):]

plt.bar(buurten_df['Neighbourhood'], buurten_df['Aantallen'])
plt.xticks(rotation=90)
plt.title('Top 20 wijken met de meeste aankopen')

plt.show()


In [None]:
leeftijd_groepen, leeftijd_groepen_aantallen = [], []

for leeftijd_groep, leeftijd_groep_df in zwembadverkopen_df.groupby('klant_leeftijd_groep'):
    leeftijd_groepen.append(leeftijd_groep)
    leeftijd_groepen_aantallen.append(len(leeftijd_groep_df))
    
leeftijdgroepen_df = pd.DataFrame({'Age groups':leeftijd_groepen, 'Aantallen':leeftijd_groepen_aantallen})
    
leeftijdgroepen_df = leeftijdgroepen_df.sort_values('Aantallen', ascending=True)

plt.bar(leeftijdgroepen_df['Age groups'], leeftijdgroepen_df['Aantallen'])
plt.xticks(rotation=90)
plt.title('Aantal aankopen per leeftijdsgroep')

plt.show()


In [None]:
for index, row in zwembadverkopen_df.iterrows():
    for column in list(zwembadverkopen_df.columns):
        print('Column name: ' + column)
        print('Column value (first row): ' + str(row[column]))
        print('Number of unique values in column: ' + str(len(zwembadverkopen_df[column].unique())))
        print('Number of NaN values in column: ' + str(zwembadverkopen_df[column].isna().sum()))
        print('\n')
    break
    
print('Remaining number of columns: ' +str(len(zwembadverkopen_df.columns)))