# Onderzoeksvraag 2: Als we wijnen categoriseren op basis van de chemische samenstelling, zijn er bepaalde categorieën die mannelijke proevers anders beoordelen dan vrouwelijke proevers?


We willen bij deze onderzoeksvraag mannelijke en vrouwelijke proevers vergelijken door te kijken of de ene groep een bepaalde voorkeur heeft voor een bepaalde categorie wijn.

In [None]:
import pandas as pd
import numpy as np

import nltk
from nltk.corpus import stopwords
# nltk.download()

import matplotlib as mpl
import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib.patches import Polygon

from scipy import stats

from sklearn.cluster import KMeans
from sklearn.mixture import GaussianMixture
from sklearn.metrics import accuracy_score

pd.set_option('display.max_columns', None)

In [None]:
wine = pd.read_csv('redwine.csv', delimiter=';')
chemColNames = ['fixed acidity','volatile acidity','citric acid','residual sugar','chlorides','free sulfur dioxide','total sulfur dioxide','density','pH','sulphates','alcohol']
chem = wine[chemColNames]

colErrorPairs = {
    'density'    : [' . '],
    'citric acid': [' - ',' -   '],
    'alcohol'    : ['100.333.333.333.333','11.066.666.666.666.600','956.666.666.666.667','923.333.333.333.333']}

for colName in colErrorPairs:
    for faultyString in colErrorPairs[colName]:
        wine[colName] = wine[colName].replace(faultyString,np.nan)
        
wine['alcohol'] = wine['alcohol'].astype(float)
wine['density'] = wine['density'].astype(float)
wine['citric acid'] = wine['citric acid'].astype(float)

wine['taster_name'] = wine['taster_name'].apply(lambda name: name.split(" ")[0])

# 1. Inlezen externe dataset

In [None]:
name = pd.read_csv('names.csv', usecols=['Name','Gender', 'Year','Count'])

In [None]:
name.head()

In [None]:
name.sort_values(by=['Count'],ascending=False, inplace=True)
name.drop_duplicates(subset=['Name'], keep='first', inplace=True)
name.sort_values(by=['Name'], inplace=True)

# 2. Datasets mergen

In [None]:
merge = wine.merge(name, left_on='taster_name', right_on='Name', how="left")
merge.drop(['Count','Name','Year'], axis = 1, inplace=True)
merge.head()

# 3. Data verkennen

Nu printen we de tabel waarbij we de naam van de proever en het geslacht tonen en het aantal wijnen dat ze hebben geproeft.

In [None]:
nameCount = merge.groupby(['taster_name', 'Gender']).size().reset_index(name='count')
nameCount.sort_values(by='count',ascending=False)

De bovenste twee proevers hebben samen 1.014 wijnen geproeft, dit is bijna de helft van alle records uit de dataset. Het kan nuttig zijn om te bekijken hoe veel procent van de proevers mannen en hoeveel procent van de proevers vrouwen zijn. Die verdeling zien we in de piechart hieronder. 

In [None]:
count = merge['Gender'].value_counts()
count.plot.pie(y ='Gender', figsize = (5,5), colors = ['lightblue', 'pink'])

Van de piechart kunnen we aflezen dat ruim 2/3 van wijnen geproefd zijn door mannen. 

# 4. Clusteren


### 4.1 Standaardiseren

We willen de wijnen gaan clusteren op basis van hun chemische samenstelling. We maken een kopie van de bestaande dataset met alleen de Z-scores van de chemische samenstelling. 

In [None]:
chemColNames = ['pH','fixed acidity','volatile acidity','citric acid','residual sugar','chlorides','free sulfur dioxide','total sulfur dioxide','density','sulphates','alcohol']

In [None]:
wineZscore = merge.copy()

In [None]:
for col in chemColNames:
    wineZscore[col] = (wine[col] - wine[col].mean())/wine[col].std(ddof=0)


In [None]:
wineZscore = wineZscore.dropna(subset=chemColNames)
chemZscore = wineZscore[chemColNames]
chemZscore.shape, wineZscore.shape

In [None]:
kMeansData = chemZscore.copy()
kMeansData.head(10)

In [None]:
kMeansData = kMeansData.values

In [None]:
n_cluster = 20

We gaan de wijnen verdelen over 20 clusters zodat er een goede conclusie kan worden getrokken. Bij minder clusters worden de clusters te groot. 

## 4.2 Cluster visualisatie 

### KMeans 

Aangezien we niet alle 11 kolommen kunnen visualiseren in een scatterplot, hebben we er een gemaakt met de eerste twee kolommen: pH en fixed acidity. Op basis van deze twee kolommen tonen we de 20 clusters met de cluster middelpunten. 

In [None]:
fig, (kmeansClustorPlot) = plt.subplots()
fig.set_size_inches(18, 7)
plt.ylabel('pH waarde')
plt.xlabel('Fixed Acidity')

kmeans = KMeans(n_clusters=n_cluster, random_state=10)
kmeans_cluster_labels = kmeans.fit_predict(kMeansData)


colors = mpl.cm.nipy_spectral(kmeans_cluster_labels.astype(float) / n_cluster)
kmeansClustorPlot.scatter(kMeansData[:,0], kMeansData[:,1],marker='.', s=30, lw=0, alpha=0.7, c = colors, edgecolor='k')

centers = kmeans.cluster_centers_
kmeansClustorPlot.scatter(centers[:, 0], centers[:, 1], marker='o', c="white", alpha=1, s=200, edgecolor='k')
kmeans.score(kMeansData)

De score van kMeans wordt bepaald door voor alle meetwaarden de gekwadrateerde afstand tot het clustermiddelpunt te berekenen. Hoe dichter bij 0, hoe beter. Wat precies een score van -7778 betekend weten we niet zo goed, maar het ziet er niet heel goed uit. 

In [None]:
wineZscore['kmeans_cluster'] = kmeans_cluster_labels

### Gaussian Mixture Model

Wederom gaan we, nu aan de hand van GMM, clusteren. We hebben weer dezelfde kolommen in de scatterplot gevisualiseerd. Hier komt ongeveer hetzelfde uit als bij KMeans.  

In [None]:
gmm = GaussianMixture(n_components=n_cluster, random_state=10, covariance_type='full')
gmm_cluster_labels = gmm.fit_predict(kMeansData)


fig, (gmmClustorPlot) = plt.subplots()
fig.set_size_inches(18, 7)

colors = mpl.cm.nipy_spectral(gmm_cluster_labels.astype(float) / n_cluster)

gmmClustorPlot.scatter(kMeansData[:,0], kMeansData[:,1],marker='.', s=30, lw=0, alpha=0.7, c = colors, edgecolor='k')
# gmmClustorPlot.scatter(centers[:, 0], centers[:, 1], marker='o', c="white", alpha=1, s=200, edgecolor='k')
gmm.score(kMeansData)

In [None]:
relevant = ['id','points','price','taster_name','Gender','kmeans_cluster','gmm_cluster']
wineZscore['gmm_cluster'] = gmm_cluster_labels
wineZscore[relevant].head()

## 4.3 Clusters bestuderen

## K Means


Hieronder gaan per cluster de gemiddelde score uitrekenen. Ook gaan we kijken naar het gemiddelde aantal punten voor gegeven door mannen en vrouwen aan een bepaald cluster. Als hier een groot verschil tussen zit, kunnen we daar dus uit opmaken dat mannen of vrouwen voorkeur hebben voor een bepaald cluster. 

In [None]:
# wineZscore.groupby('kmeans_cluster').filter(like='M').count()
totalAmount = wineZscore.shape[0]
for i in range(n_cluster):
    m = wineZscore['Gender'][(wineZscore['Gender'] == "M") & (wineZscore['kmeans_cluster'] == i)].count()
    f = wineZscore['Gender'][(wineZscore['Gender'] == "F") & (wineZscore['kmeans_cluster'] == i)].count()
    
    mScore = wineZscore['points'][(wineZscore['Gender'] == "M") & (wineZscore['kmeans_cluster'] == i)].sum()
    fScore = wineZscore['points'][(wineZscore['Gender'] == "F") & (wineZscore['kmeans_cluster'] == i)].sum()
    
    clusterScore = wineZscore['points'][(wineZscore['kmeans_cluster'] == i)].sum()
    
    tasterCount = m + f
    print(f'Kmeans cluster: {i} Count Males: {m}/ Females: {f}')
    print(f'Average cluster score: {clusterScore/tasterCount}')
    print(f'Per gender score: Males: {mScore/m},Females: {fScore/f}\n')

# wineZscore['Gender'][(wineZscore['Gender'] == "M") & (wineZscore['kmeans_cluster'] == 3)].count()
# wineZscore[(wineZscore['Gender'] == "F")].count()

### KMeans conclusie
We willen de data van hierboven enigzins visualiseren zodat we wat beter kunnen zien wat we nou precies berekend hebben. Hiervoor hebben we een bar plot gemaakt. We hebben voor 4 random clusters de score van mannen en vrouwen vergeleken, om zo te kijken of er een significant verschil zit tussen de beoordelingen per geslacht per cluster. 

In [None]:
labels = ['5', '10', '15', '20']
men_means = [87.03225806451613, 86.7560975609756, 90.92592592592592, 88.50847457627118]
women_means = [87.03225806451613,86.86666666666666 , 91.44444444444444, 88.07042253521126]

x = np.arange(len(labels))  # the label locations
width = 0.35  # the width of the bars

fig, ax = plt.subplots()
rects1 = ax.bar(x - width/2, men_means, width, label='Men', color = 'lightblue')
rects2 = ax.bar(x + width/2, women_means, width, label='Women', color = 'pink')

ax.set_ylabel('Scores')
ax.set_xlabel('Cluster')
ax.set_title('KMeans Scores Male vs Female')
ax.set_xticks(x)
ax.set_xticklabels(labels)
ax.legend()


## Gaussian Mixture Model 

We gaan nu met behulp van het Gaussian Mixture Model de clusters bestuderen. Het verschil tussen GMM en KMeans is dat je bij GMM meerdere parameters hebt die je kunt aanpassen om zo een betere score te bereiken. 

In [None]:
for i in range(n_cluster):
    m = wineZscore['Gender'][(wineZscore['Gender'] == "M") & (wineZscore['gmm_cluster'] == i)].count()
    f = wineZscore['Gender'][(wineZscore['Gender'] == "F") & (wineZscore['gmm_cluster'] == i)].count()
    
    mScore = wineZscore['points'][(wineZscore['Gender'] == "M") & (wineZscore['gmm_cluster'] == i)].sum()
    fScore = wineZscore['points'][(wineZscore['Gender'] == "F") & (wineZscore['gmm_cluster'] == i)].sum()
    
    clusterScore = wineZscore['points'][(wineZscore['gmm_cluster'] == i)].sum()
    
    tasterCount = m + f
    print(f'GMM cluster: {i} Count Males: {m}/ Females: {f}')
    print(f'Average cluster score: {clusterScore/tasterCount}')
    print(f'Per gender score: Males: {mScore/m},Females: {fScore/f}\n')

### GMM Conclusie
Ook voor GMM willen we een stukje van de data visualiseren. Hierbij plotten we ook weer voor 5 clusters de beoordeling van de mannelijke tegenover die van de vrouwelijke proevers. 

In [None]:
labels = ['5', '10', '15', '20']
men_means = [90.22767857142857, 88.18518518518519, 90.47826086956522, 88.73333333333333]
women_means = [89.86538461538461,88.25 , 89.0, 88.0]

x = np.arange(len(labels))  # the label locations
width = 0.35  # the width of the bars

fig, ax = plt.subplots()
rects1 = ax.bar(x - width/2, men_means, width, label='Men', color = 'lightblue')
rects2 = ax.bar(x + width/2, women_means, width, label='Women', color = 'pink')

ax.set_ylabel('Scores')
ax.set_xlabel('Cluster')
ax.set_title('GMM Scores Male vs Female')
ax.set_xticks(x)
ax.set_xticklabels(labels)
ax.legend()


# 5. Conclusie


Wat we kunnen opmaken uit de hierboven gegeven informatie is; mannen of vrouwelijke proevers reageren niet per definitie beter op één bepaald cluster. Dit wil zeggen dat het geslacht van de proever niks zegt over hoe zij/hij reageert op een bepaalde chemische samenstelling. 