# Analyse over Wijn
- Stan Meyberg (TICT-AI-V2A-19)
- Roeland Oostdam (TICT-AI-V2A-19)
- Ruben Klinkenberg (TICT-AI-V2A-19)


## onderzoeksvragen
1. In hoeverre is de score van een Portugese Red te voorspellen op basis van de chemische kenmerken?  
2. In hoeverre speelt de prijs een rol in de beoordeling van de wijn?
3. In hoeverre kan op basis van de chemische kenmerken voorspelt worden of het een witte of rode wijn is?
4. Welke kernwoorden zijn typerend voor een hoog scorende wijn?  

Wij zullen deze onderzoeksvragen zo goed mogelijk proberen te beantwoorden.
Voor de beantwoording van deze vragen maken wij gebruik van het Data Science proces.  
Dit proces ziet er als volgt uit:
### Het data science proces
1. Data collection
2. Data processing
3. Data cleaning
4. Data exploration & analysis
5. Model building
6. Visualization
7. Communication


Allereerst zullen we de benodigde libraries importeren.
Deze libraries zullen we gebruiken voor het analyseren en het visualiseren van de data.

In [None]:
# data analysis libraries 
import numpy as np
import pandas as pd

# visualization libraries
import matplotlib.pyplot as plt
import seaborn as sns


## Data Collection
De eerste dataset die we gaan gebruiken is aan ons aangeleverd. De dataset is een csv bestand en heet: 'redwine.csv'. In de dataset staat informatie en chemische kenmerken van wijnen in Portugal. 

Allereerst beginnen we met het importeren van de dataset en kijken we of de dataset correct is geïmporteerd door de eerste 5 regels op te vragen.

In [None]:
# import the data files
df_red_wine = pd.read_csv("data/redwine.csv", sep=";")
df_red_wine.head()

### externe dataset
Aangezien onze eerste dataset alleen maar kenmerken van rode wijn bevat zijn wij gaan zoeken naar een dataset met kenmerken van witte wijn.  
  
De dataset komt van de volgende website: https://archive.ics.uci.edu/ml/datasets/wine+quality  
  
Ook deze dataset gaan we importeren om hierna te controleren of hij goed geïmporteerd is.

In [None]:
df_white_wine = pd.read_csv("data/winequality-white.csv", sep=";")
df_white_wine.head()

## Data Processing
Aangezien de bestanden met de data al in een csv bestand staan kunnen deze direct in een dataframe worden ingelezen.  
Nu is het nog aan ons om te beslissen of er nog kolomnamen zijn die aangepast moeten worden en welke kolommen we gaan droppen.  
In totaal heeft deze dataset 22 kolommen. Om uit te zoeken welke kolommen essentieel zijn voor het verdere proces gaan we nu eerste kijken hoe de kolommen heten.

In [None]:
df_red_wine.columns

Om goed te kunnen begrijpen met welke data we hier mee te maken hebben is hieronder voor iedere kolom de betekenis van de data die erin staat gegeven.  

- **id**  
    Een uniek nummer voor iedere rij.
- **Country**  
    Het land waar de wijn vandaan komt.
- **Description**  
    De beschrijving van de wijn.
- **Designation**  
    De wijngaard waar tenminste 85% van de druiven vandaan komen.
- **Points**  
    De hoeveelheid punten die de wijn heeft gekregen van de proever.
- **Price**  
    De prijs van de wijn.
- **Province**  
    De provincie waar de wijn.
- **Taster_name**  
    De volledige naam van de proever.
- **Title**  
    De titel die normaliter op het wijnetiket staat.
- **Variety**  
    Het type druif dat gebruikt wordt.
- **Winery**  
    Het bedrijf waar de wijn geproduceerd is.
- **Fixed acidity**  
    Zuren zijn zeer belangrijke bestanddelen van wijn en voegen zeer veel toe aan de smaak. Hoe hoger de hoeveelheid zuren des te zuurder de wijn wordt.
- **Volatile acidity**  
    De hoeveelheid azijnzuur in de wijn. Kan leiden tot een azijnachtige smaak als het in te grote hoeveelheden aanwezig is.
- **Citric acid**  
    Een zuur die gebruikt kan worden als natuurlijk conserveermiddel. Citroenzuur kan bijdragen aan de frisheid en smaak van de wijn.
- **Residual sugar**  
    De hoeveelheid suiker die over is na de fermentatie van de wijn. De hoeveelheid suiker in de wijn geeft de type van de wijn aan (droog, halfdroog, zoet).
- **Chlorides**  
    De hoeveelheid zout in de wijn.
- **Free sulfur dioxide**  
    De hoeveelheid zwaveldioxide dat vrij in de wijn zit. (Wat dus niet gebonden is aan andere chemicaliën in de wijn).
    Het zwaveldioxide voorkomt oxidatie van de wijn en wordt als conserveringsmiddel in veel levensmiddelen gebruikt.
    Zwaveldioxide wat niet vrij is, en dus al gebonden is aan andere stoffen in de wijn, heeft geen antioxiderende werking meer.
- **Total sulfur dioxide**  
    De totale hoeveelheid zwaveldioxide dat in de wijn zit.  
    Een te hoge concentratie zwaveldioxide kan de smaak verpesten.
    Een te lage concentratie zwaveldioxide kan ervoor zorgen dat er teveel bacteriën in de wijn blijven zitten waardoor het gevaarlijk kan zijn om te drinken.
- **Density**  
    De dichtheid van de wijn. De dichtheid kan verminderen door toevoeging van meer alcohol.
- **pH**  
    Is een maat voor de zuurgraad van een waterige oplossing. De schaal gaat van 0 (zuur) tot 14 (basisch). De meeste wijnen zitten tussen de 2.8 en de 4.0.
- **Sulphates (sulfites)**  
    Een additief die bijdraagt aan het vermeerderen van het gas zwaveldioxide.
- **Alcohol**  
    Het percentage alcohol in de wijn.

Voor het uitzoeken van de betekenis van deze termen/kolommen zijn de volgende bronnen gebruikt:  
- https://www.gall.nl/ontdek/wijn/de-zuurgraad-van-wijn/
- https://winecompliancealliance.com/vinyard-designation-on-a-wine-label/
- https://wineserver.ucdavis.edu/industry-info/enology/methods-and-techniques/common-chemical-reagents/citric-acid
- https://waterhouse.ucdavis.edu/whats-in-wine/volatile-acidity
- http://rstudio-pubs-static.s3.amazonaws.com/80458_5000e31f84df449099a872ccf40747b7.html


Bij deze dataset hebben we al de voorkennis dat al deze wijnen uit Portugal komen. Hierdoor hoeven we de kolom 'country' niet te gebruiken. Verder geeft 'variety' aan met wat voor druif we te maken hebben, waarschijnlijk zal dit ook maar één unieke waarde hebben.  
Voordat we deze kolommen weggooien checken we nog voor de zekerheid of onze aannames kloppen. 

In [None]:
df_red_wine['country'].unique()

In [None]:
df_red_wine['variety'].unique()

Onze aannames blijken te kloppen. We hebben hier twee keer te maken met een kolom met maar één unieke waarde. Deze kolommen kunnen dus gedropt worden.

In [None]:
df_red_wine.drop(['country', 'variety'], axis=1, inplace=True)

Op basis van onze onderzoeksvragen kunnen we ook de kolommen 'Designation', 'winery' en 'Province' laten vallen. Dit omdat we voor de beantwoording van onze onderzoeksvragen geen onderscheid hoeven te maken tussen de verschillende provincies of de wijngaarden waar de wijn vandaan kan komen.

In [None]:
df_red_wine.drop(['designation', 'province', 'winery'], axis=1, inplace=True)

Verder maken we van de kolom 'id' de index

In [None]:
df_red_wine.set_index('id', inplace=True)
df_red_wine.head()

## Data cleaning
Nu de data bewerkt is kunnen we tot de volgende stap overgaan: het opschonen van de data. Hierbij gaan we op zoek naar missende en dubbele waarden, outliers en onvolkomenheden.  
Allereerst gaan we opzoek naar rijen waar waarden missen.

In [None]:
len(df_red_wine)

In [None]:
pd.isnull(df_red_wine).sum()

Hier zien we dat er 269 missende waarden zijn en dat die waarden zich allemaal in de 'price' kolom bevinden. Deze waarde hebben we echter wel voor één van de onderzoeksvragen. Hier hebben wij de afweging gemaakt om deze waarden te verwijderen.  
Deze keuze is gebaseerd op het feit dat we nu ongeveer 12% van de data weggooien en we dus nog genoeg data behouden om te onderzoeken of er een relatie zit tussen de prijs en de hoeveelheid punten van een fles wijn.  
We droppen dus alle rijen met missende waardes en tegelijkertijd verwijderen we duplicate rijen.

In [None]:
# deleting the rows with empty values
df_red_wine.dropna(inplace=True)
# deleting the duplicates rows
df_red_wine.drop_duplicates(inplace=True)

Nu moeten we nog checken of elke kolom de geschikte datatype heeft.

In [None]:
df_red_wine.dtypes

In de bovenstaande tabel valt te zien dat de kolom 'density', 'citric acid' en 'alcohol' niet de gewenste datatypen hebben. We willen hier floats hebben terwijl ze nu aangegeven worden als Strings.  
Om dit op te lossen gaan we over de kolommen heen en zetten iedere String om tot een float. Wanneer dit niet kan omdat de waarde dit niet toelaat wordt er een NaN ingevuld.

In [None]:
df_red_wine['citric acid'] = pd.to_numeric(df_red_wine['citric acid'], errors='coerce')
df_red_wine['density'] = pd.to_numeric(df_red_wine['density'], errors='coerce')
df_red_wine['alcohol'] = pd.to_numeric(df_red_wine['alcohol'], errors='coerce')

pd.isnull(df_red_wine).sum()

In de bovenstaande tabel valt te lezen dat in totaal 194 waarden zijn omgezet tot NaN. Deze waardes kunnen we nu automatisch vullen door te interpoleren. Deze keuze hebben we gemaakt omdat we op zoek zijn naar bepaalde kenmerken en door te interpoleren blijven deze unieke kenmerken tussen de waardes die ze uniek maakt.

In [None]:
df_red_wine.interpolate(inplace=True)
pd.isnull(df_red_wine).sum()

## Data Exploration

### De wijnproevers
Aangezien we met wijnproevers te maken hebben is alle data over de punten die aan een wijn toegedeeld zijn subjectief. Allereerst willen we dus wat inzicht krijgen over het gedrag van deze groep bij de toekenning van de punten.  
  
Eerst gaan we kijken met hoeveel wijnproevers we in totaal te maken hebben.

In [None]:
len(df_red_wine['taster_name'].unique())

We hebben dus met 18 verschillende wijnproevers te maken.  
Hierna gaan we kijken of de hoeveelheid gegeven beoordelingen van de wijnproevers gelijk verdeeld zijn.

In [None]:
df_red_wine['taster_name'].value_counts()

In de bovenstaande tabel valt te zien dat deze verdeling niet echt gelijk verdeeld is.  
Om deze data nog iets overzichtelijker te maken zetten we deze tabel om tot een grafiek.

In [None]:
# selecting the data
df_tasting_freq = df_red_wine['taster_name'].value_counts()

# parsing the data
fig, ax = plt.subplots(figsize=(10,4), dpi=150)
ax.bar(df_tasting_freq.index, df_tasting_freq, width= 0.8)

# setting the axis
plt.xticks(rotation=90)
plt.yticks([n for n in range(0, 650, 50)])

# setting the style, labels and title
plt.xlabel('Naam proever')
plt.ylabel('Hoeveelheid beoordelingen')
plt.title('Hoeveelheid geregistreerde beoordelingen per proever')
sns.set_style("whitegrid")

# printing the plot
plt.show()

De aannames die de tabel aanwakkeren worden door de grafiek bevestigd. Uit de grafiek valt nog beter te zien dat de hoeveelheid beoordelingen per proever zeer onevenredig verdeeld zijn. Sommige proevers hebben zeer veel beoordelingen gegeven terwijl andere proevers veel minder hebben gegeven.  
  
Hierna willen we graag weten wat de minimale, maximale en gemiddelde score is per proever.

In [None]:
# prepare the data_frame
df_taster_index = df_red_wine.copy()
df_taster_index = df_taster_index[['taster_name', 'points']]
df_taster_index.set_index('taster_name', inplace=True)

# getting the min, max and average per taster
taster_avg = df_taster_index.groupby('taster_name').mean()
taster_min = np.min(df_taster_index.groupby('taster_name'))
taster_max = np.max(df_taster_index.groupby('taster_name'))

# building a new dataframe with all the info per taster
df_taster_stats = pd.concat([taster_min, taster_max, taster_avg], axis=1)
df_taster_stats.columns = ['min points', 'max points', 'avg points']
df_taster_stats.sort_values(['avg points'])

Uit deze tabel valt te lezen dat het gemiddeld aantal punten ongeveer rond de 88 punten zal liggen. Om nog iets meer duidelijkheid te creeëren rondom de puntenverdeling zullen we de gegeven punten in een grafiek plotten.

In [None]:
# selecting the data
data = df_red_wine['points'].value_counts().sort_index()

# parsing the data
fix, ax = plt.subplots(figsize=(10,4), dpi=150)
ax.bar(data.index, data)

# setting the axis
plt.xticks([n for n in range(80, 101, 1)])

# setting the style, labels and title
plt.xlabel('Puntenaantal')
plt.ylabel('Hoeveelheid stemmen')
plt.title('Verdeling van de hoeveelheid stemmen per puntenaantal')
sns.set_style("whitegrid")

# printing the plot
plt.show()


Zoals in de grafiek te zien is valt zal het gemiddelde ongeveer rond de 88 liggen. Verder is de modus ook 88. Het interessante van deze grafiek is het feit dat zo rond 89 punten een kleine dip is. Dit kan ook mede komen door de aangeleverde data.

### Prijs analyse
Om wat meer informatie te vergaren over de prijzen is het bevorderlijk om de verdeling van de prijzen te plotten.

### Chemische kenmerken
Ook qua chemische kenmerken hebben willen we graag wat analyses doen over de dataset. Deze analyses kunnen we dan hopelijk gebruiken bij het selecteren van de variabelen om de twee soorten wijnen te klassificeren.  
  
Allereerst vragen we de algemene statistieken op over alle chemische kenmerken.

In [None]:
df_red_wine.describe()

Op het eerste gezicht zeggen deze waardes nog niet zoveel. Pas wanneer we de kolommen met de minimale, maximale en gemiddelde waarden van alle kenmerken met van de witte en rode wijn zullen (hopelijk) deze waardes veel meer zeggen. 
  
Dus gaan we nu voor alle chemische kenmerken de minimale, maximale en gemiddelde waardes van witte en rode wijn met elkaar vergelijken.

## onderzoeksvraag 1

## onderzoeksvraag 2

## onderzoeksvraag 3
Eerst voegen de dataframes van de rode en witte wijnen samen. Daarbij voegen we een eigenschap toe die aangeeft wat voor wijn het is.

In [None]:
df_red_wine.insert(0,'isRed',1)
df_white_wine.insert(0,'isRed',0)
df_all = pd.merge(df_red_wine,df_white_wine,how='outer',copy=False)

De onnodige kolommen halen we er uit.

In [None]:
df_all.drop(['description','points','price','taster_name','title','quality'],axis=1,inplace=True)
df_all.head()

Hieronder zien we in de gemiddeldes gelijk een significant verschil in total/free sulfur dioxide. Verder is het onduidelijk welke andere variabelen een significante correlatie hebben.

In [None]:
df_all.where(df_all['isRed']==0).mean()

In [None]:
df_all.where(df_all['isRed']==1).mean()

Hier kijken we naar de correlatie tussen wijntype rood en alle andere kolommen.
Alle waardes van kleiner dan -0,5 en groter dan 0,5 worden groen weergegeven voor het gemak.
Gelijk valt op dat er 5 eigenschappen een hoge correlatie lijken te hebben.

In [None]:
from scipy import stats
for column in df_all.columns:
    c = stats.pearsonr(df_all['isRed'],df_all[column])
    if(c[0]>0.5 or c[0]<-0.5):
        print("\033[92m",column,c[0])
    else:
        print("\x1b[31m",column,c[0])

We hebben gekozen voor KNeighborsClassifier omdat ten eerste supervised learning logisch leek omdat we alle data al wisten en daarnaast proberen we 2 groepen te onderscheiden.

In eerste instantie hebben we getest met alle groene eigenschappen van hierboven. Na wat uitproberen kregen we de hoogste score door het gebruiken van volatile acidity en total sulfur dioxide.

Deze geeft een score van 94,1%

In [None]:
from sklearn.model_selection import train_test_split
# train_df,test_df = train_test_split(df_all,random_state=0)

X = df_all[['volatile acidity','total sulfur dioxide']]
y = df_all['isRed']

X_train, X_test, y_train, y_test = train_test_split(X,y, random_state=0)
# print(len(train_df),len(test_df))

from sklearn.neighbors import KNeighborsClassifier
reg = KNeighborsClassifier()
reg.fit(X_train,y_train)
reg.score(X_test,y_test)

Hieronder is nog een visualisatie te zien van de echte waarden en de voorspelde.

In [None]:
colorGroup = ['red' if x==1 else 'blue' for x in df_all['isRed']]

fig = plt.figure(figsize=[10,10])
ax = fig.add_subplot()

ax.scatter(df_all['volatile acidity'],df_all['total sulfur dioxide'],c=colorGroup)

ax.set_xlabel('Volatile acidity')
ax.set_ylabel('Total sulfur dioxide')
ax.set_title("Type wijn (echte waarden van volledige database)")

plt.show()

In [None]:
colorGroup = reg.predict(X_test)
colorGroup = ['red' if x==0 else 'blue' for x in colorGroup]
# X_test.plot.scatter('volatile acidity','chlorides',c=colorGroup)

# colorGroup = ['red' if x==1 else 'blue' for x in df_all['isRed']]

fig = plt.figure(figsize=[10,10])
ax = fig.add_subplot()

ax.scatter(X_test['volatile acidity'],X_test['total sulfur dioxide'],c=colorGroup)

ax.set_xlabel('Volatile acidity')
ax.set_ylabel('Total sulfur dioxide')
ax.set_title("Type wijn (voorspelde waarden van test dataframe)")

plt.show()

## onderzoeksvraag 4