# title: "Preprocessing en dimensie reductie met behulp van Python"


## Inleiding.

Een van de belangrijkste aspecten in wetenschap is om modellen te ontwikkelen die zo éénvoudig mogelijk zijn. Hoe minder variabelen we nodig hebben om accuraat een bepaald gegeven te voorspellen hoe beter. Het maakt ons model eenvoudiger en bovendien kunnen we zo ook overfitting voorkomen.
Ook zal onze data in real life veel ongeldige of niet-ingevulde velden kennen. 

In dit hoofdstuk zullen we verschillende technieken bekijken om dimensie reductie zo ver mogelijk door te drijven.

## Aantal dimensies en eerste inspectie van de data

### Eerste inspectie: Shape, dtypes, describe, head 

We onderstellen dat we gegevens zijn ingeladen in een pandas dataframe df.
In deze dataframe zorgen we er eerst voor dat de kolommen overeenkomen met de variabelen. Stel dat in onderstaande dataframe a,b,c de variabelen zijn die de vector y moeten voorspellen.

Gebruik in Python de volgende code:

In [115]:
import pandas as pd
import numpy as np
df2 = pd.DataFrame(np.array([[1, 2, 3], [2, 5, 6], [7, 8, 9],[1, 11, 3],[4, 5, 6]]),columns=['a', 'b', 'c'])
print(df2)
df2.shape



   a   b  c
0  1   2  3
1  2   5  6
2  7   8  9
3  1  11  3
4  4   5  6


(5, 3)

De pandas tabel of dataframe bevat hier 3 kolommen en 5 rijen. M.b.v. het shape attribuut kunnen we dit onmiddelijk zien. Het aantal kolommmen geeft eigenlijk het aantal variabelen (ook wel dimensie genoemd) van onze dataset weer. Om te weten welke kolommen er in onze dataframe staan gebruiken we:

In [27]:
print(df2.columns)

Index(['a', 'b', 'c'], dtype='object')


Een eerste idee van de variabelen krijgen we door de beschrijving op te vragen:

In [28]:
df2.describe()

Unnamed: 0,a,b,c
count,5.0,5.0,5.0
mean,3.0,6.2,5.4
std,2.54951,3.420526,2.50998
min,1.0,2.0,3.0
25%,1.0,5.0,3.0
50%,2.0,5.0,6.0
75%,4.0,8.0,6.0
max,7.0,11.0,9.0


Een andere nuttig commando is

In [25]:
print(df2.dtypes)

a    int64
b    int64
c    int64
dtype: object


In het voorbeeld df2 gaat het om een kleine tabel. De tabel kan echter meer dan duizenden rijen bevatten en honderden kolommen. Om toch een idee the hebben van het soort gegevens dat er in de tabel staat is het goed om de eerste 5 rijen te bekijken. Dit doen we door de methode head() toe te passen.

In [92]:
cereals=pd.read_csv('Desktop/datascience/datasets/cereal.csv')
print(cereals)
print(cereals.dtypes)

                         name mfr type  calories  protein  fat  sodium  fiber  \
0                   100% Bran   N    C        70        4    1     130   10.0   
1           100% Natural Bran   Q    C       120        3    5      15    2.0   
2                    All-Bran   K    C        70        4    1     260    9.0   
3   All-Bran with Extra Fiber   K    C        50        4    0     140   14.0   
4              Almond Delight   R    C       110        2    2     200    1.0   
..                        ...  ..  ...       ...      ...  ...     ...    ...   
72                    Triples   G    C       110        2    1     250    0.0   
73                       Trix   G    C       110        1    1     140    0.0   
74                 Wheat Chex   R    C       100        3    1     230    3.0   
75                   Wheaties   G    C       100        3    1     200    3.0   
76        Wheaties Honey Gold   G    C       110        2    1     200    1.0   

    carbo  sugars  potass  

De kolommen kunnen van verschillend type zijn:

object:string/gemengde types
int64:integer
float64:float
maar ook belangrijk zijn datetime64(of timedelta):datumtijd variabele

Het is belangrijk dat we nakijken of de kolommen van het juiste type zijn.
Soms moeten we het data type van een kolom wijzigen.
Stel dat we een dataframe df3 hebben en kolom 'lengte' heeft datatype object doch we zien dat er staat 7.1, 8.1,3.2,.... in de kolom. We kunnen dan het type wijzigen als volgt:

In [18]:

import numpy as np
df3 = pd.DataFrame(np.array([[1, 2, 3], [2, 5, 6], [7, 8, 9],[1, 11, 3],[None,None,None]]),columns=['lengte', 'breedte', 'hoogte'])
df3['lengte']=df3['lengte'].astype("float")
print(df3)
print(df3.dtypes)
print('------')
# PS: de info methode geeft ons meer informatie dan het dtypes attribuut, het geeft ook weer welke waarden er niet null zijn 
df3.info()

   lengte breedte hoogte
0     1.0       2      3
1     2.0       5      6
2     7.0       8      9
3     1.0      11      3
4     NaN    None   None
lengte     float64
breedte     object
hoogte      object
dtype: object
------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
lengte     4 non-null float64
breedte    4 non-null object
hoogte     4 non-null object
dtypes: float64(1), object(2)
memory usage: 248.0+ bytes


Als we de rijen willen schrappen waar minstens 1 variabele ontbreekt kunnen we df.dropna() gebruiken.
Axis duidt erop of we rijen al dan niet kolommen willen schrappen. De how parameter staat standaard op any (minstens 1 null waarde). 

In [117]:
df3['gewicht']=[2, None , 2, 3, None ]
print(df3)

   lengte breedte hoogte  gewicht
0     1.0       2      3      2.0
1     2.0       5      6      NaN
2     7.0       8      9      2.0
3     1.0      11      3      3.0
4     NaN    None   None      NaN


In grote dataframe is het niet gemakkelijk om na te gaan waar de NaN staan en hoeveel er zijn. We kunnen gerbuik maken van de isna() methode.

In [119]:
df3.isna() # we krijgen een mooi overzicht waar de fouten staan


Unnamed: 0,lengte,breedte,hoogte,gewicht
0,False,False,False,False
1,False,False,False,True
2,False,False,False,False
3,False,False,False,False
4,True,True,True,True


In [120]:
df3.isna().sum() #geeft aan hoeveel waarden er ontbreken voor iedere kolom

lengte     1
breedte    1
hoogte     1
gewicht    2
dtype: int64

In [98]:
df4=df3.dropna(axis=1,how='all')
df5=df3.dropna(axis=0)
df6=df3.dropna()
print(df3)
print(df4)# niks wordt geschrapt want geen enkele kolom bevat allemaal NaN
print(df5)# rij 1 en rij 4 bevatten minstens 1 NaN of None
print(df6)# standaard is axis=0 en how='any'

   lengte breedte hoogte  gewicht
0     1.0       2      3      2.0
1     2.0       5      6      NaN
2     7.0       8      9      2.0
3     1.0      11      3      3.0
4     NaN    None   None      NaN
   lengte breedte hoogte  gewicht
0     1.0       2      3      2.0
1     2.0       5      6      NaN
2     7.0       8      9      2.0
3     1.0      11      3      3.0
4     NaN    None   None      NaN
   lengte breedte hoogte  gewicht
0     1.0       2      3      2.0
2     7.0       8      9      2.0
3     1.0      11      3      3.0
   lengte breedte hoogte  gewicht
0     1.0       2      3      2.0
2     7.0       8      9      2.0
3     1.0      11      3      3.0


Een alternatief voor het droppen van een waarde is om de NaN te vervangen door een andere waarde, bijvoorbeeld 0 of een gemiddelde waarde.

In [121]:
df3.fillna(0) #we vervangen de ontbrekende waarden door nul

Unnamed: 0,lengte,breedte,hoogte,gewicht
0,1.0,2,3,2.0
1,2.0,5,6,0.0
2,7.0,8,9,2.0
3,1.0,11,3,3.0
4,0.0,0,0,0.0


## Data wijzigen.

In de praktijk zijn de ontbrekende waarden niet steeds ingevuld als een NaN of None waarde. In de dataset kan er bijvoorbeeld staan code 7 betekent 'niet ingevuld' en code 8 betekent 'weigert te antwoorden'. In beide gevallen dienen we de code 7 en 8 te vervangen door NaN. 

Een andere de reden dat men de data wil wijzigen kan bijvoorbeeld zijn dat het antwoord op een vraag is gecodeerd als bijvoorbeeld 'Ja' of Nee' of 1 of 2. Het kan nodig zijn voor sommige analyses dat we dichotome variabelen hercoderen als 1 of 0 (bijvoorbeeld 'ja' als 1 en 'Neen' als 0). Hoe kunnen we dit doen?


In andere gevallen kan het ook zijn dat we een string willen omzetten naar een geheel getal of een float-type. Stel dat de bedragen staan in dollar met het dollar teken naast het cijfer zoals bijvoorbeeld bij 200$ 

In [9]:
# voorbeeld een dataframe met 
import pandas as pd
df4=pd.DataFrame([['SSDkaart','100$',5],['CPU','300$',1],['GPU','120$',1]],columns=['naam','prijs','aantal'])
print(df4.head())                                                 
                                                      
                                         

       naam prijs  aantal
0  SSDkaart  100$       5
1       CPU  300$       1
2       GPU  120$       1


Het omzetten van de variabele prijs naar int-type of float-type gaat niet zomaar we moeten hier eerst het dollar teken wegstrippen.

In [13]:
df4['prijs']=df4['prijs'].str.strip('$')
# vervolgens kunnen we de string converteren
df4['prijs']=df4['prijs'].astype(int)
print(df4.head()) 
# we gaan na met een assert statement dat ale waarden nu int zijn

       naam  prijs  aantal
0  SSDkaart    100       5
1       CPU    300       1
2       GPU    120       1


In [None]:
# we kunnen het type 

## Variabelen zonder invloed

Wanneer weten we dat een variabele geen invloed zal hebben op onze doelvector y?

    Als de waarde voor iedere waarneming dezelfde is
    Als de waarde voor iedere waarneming onbekend is

Hoe kunnen we dit zien?
Als de waarde voor iedere waarneming dezelfde is

Voor numerieke gegevens is dit gemakkelijk te achterhalen als voor variabele a std(a)=0 dan is a constant.

df.describe() geeft van ieder variabele de mean,std,... als dus std =0 dan kunnen we deze variabele droppen uit de dataframe.

Voor niet numerieke waarden zoals categoriën. Kunnen we dit opmerken door van deze gegevens in een histogram af te drukken. Bijvoorbeeld hieronder is c een nutteloos kenmerk omdat iedere rij voor c dezelfde waarde heeft.

In [100]:
df2 = pd.DataFrame(np.array([[1, 2, 3], [2, 5, 3], [7, 8, 3],[1, 11, 3],[4, 5, 3]]),columns=['a', 'b', 'c'])
print(df2)
df2.shape
print(df2.describe())

   a   b  c
0  1   2  3
1  2   5  3
2  7   8  3
3  1  11  3
4  4   5  3
             a          b    c
count  5.00000   5.000000  5.0
mean   3.00000   6.200000  3.0
std    2.54951   3.420526  0.0
min    1.00000   2.000000  3.0
25%    1.00000   5.000000  3.0
50%    2.00000   5.000000  3.0
75%    4.00000   8.000000  3.0
max    7.00000  11.000000  3.0


#### Als de waarde voor iedere waarneming onbekend is

df.isna().sum() geeft voor iedere kolom in df het aantal waarden waarvoor er geen waarde is gedefinieerd.

#### Wat als bijna aan beide voorwaarden is voldaan?

Indien aan 1 of beide voorwaarden bijna voldaan is dan zullen we zelf moeten beoordelen of we de variabele verwijderen of niet.


In [108]:
df2 = pd.DataFrame(np.array([[1, 2, 3], [2, 5, 3], [7, None, 3],[1, 11, 3],[4, 5, 3]]),columns=['a', 'b', 'c'])
df2.c=[None,None,None,None,None]
print(df2)
df2.isna().sum()

   a     b     c
0  1     2  None
1  2     5  None
2  7  None  None
3  1    11  None
4  4     5  None


a    0
b    1
c    5
dtype: int64


### Gecorreleerde variabelen

Een andere reden om variabele te verwijderen is correlatie. Bijvoorbeeld stel dat we het gewicht in kg en het gewicht 
in ponden hebben van een persoon. Uiteraard zal één variabele voldoende zijn en zal men 1 van de 2 mogen schrappen.

Nu hoeft de correlatie niet zo sterk te zijn als hierboven, maar gaat men bij 2 sterk gecorreleerde gegevens met een 
correlatie coefficient r waarvoor geldt dat abs(r) bijna 1, één van de twee verwijderen. 

In [114]:
df2 = pd.DataFrame(np.array([[1, 2, 3], [2, 5, 6], [7, 8, 9],[1, 11, 3],[4, 5, 6]]),columns=['a', 'b', 'c'])
print(df2)
print(df2.corr())# we zien tussen a en c een sterke correlatie 


   a   b  c
0  1   2  3
1  2   5  6
2  7   8  9
3  1  11  3
4  4   5  6
          a         b         c
a  1.000000  0.172005  0.937614
b  0.172005  1.000000  0.104828
c  0.937614  0.104828  1.000000


In [None]:
### Hoe Train-test-split gebruiken?

Bij iedere analyse zullen we de dataset opsplitsen in een gedeelte om ons model te trainen (X_train en Y_train) en 
een ander deel gebruiken we om te kijken hoe goed ons model het doet op nieuwe data (X_test en y_test of test data)

Indien de y waarden bestaan uit slechts 2 labels bijvoorbeeld 'ja' en 'neen' dan willen we in de training en de test
data dezelfde verhouding terug zien van 'ja' en 'neen' waarden. Dit noemen we gestratifieerd splitsen. Door de 
volgende instructie zorgt Python dat de y_test en y_train data dus een zelfde verhouding aan 'ja/neen' waarden hebben.
X_train,X_test,y_train,y_test = train_test_split(X,y, stratify=y)

### Normalisatie en standarisatie van de gegevens

#### Standarddeviatie op 1 zetten en gemiddelde op nul

Het kan voor veel analyses die we op de data willen loslaten een voordeel zijn dat de gegevens allemaal gemiddelde nul hebben en standaardafwijking 1. De StandardScaler is de klasse die methodes heeft om dit voor ieder numeriek kenmerk te bewerkstelligen. Het is een klasse die behoort tot  sklearn.preprocessing.


#### Log normalizatie

Door de natuurlijke logaritme te nemen van een getal kunnen we de variantie van de gegevens sterk verminderen. Opgepast we kunnen dit enkel toepassen op positieve getallen.

#### Niet-numerieke gegevens preprocessen.

Niet numerieke gegevens zoals tekst willen we graag toch omzetten in numerieke waarden, omdat we dan meer tools kunnen gebruiken om deze gegevens te verwerken.

Dit kan gebeuren op verschillende manieren

Bijvoorbeeld:

Stel dat we dataframe hebben met daarin verschillende kleuren.




## Regularisatie

### LogisticRegression and RFE

### RandomForestClassifier and RFE




### Lasso

Lasso (Least Absolute Shrinkage and Selection Operator) bespreken. 
Voor welke alpha is de R^2 optimaal?
Zoek evenwicht tussen aantal variabelen en score!

LassoCv laat toe om automatisch optimale alpha te bepalen

### Elastic Net

Probeert nadaelen van Lasso op te heffen. Welke zijn dit?

### Wegstemmen van variabelen
Met RandomForestRegression
Lasso
SGRegressor kunnen we variabele selecteren die in de 3 modellen van belang zijn. Wat is de performantie?


### Kenmerken extractie (Feature extraction)

I.p.v. kenmerken te schrappen kunnen we ook kenmerken combineren.

Bijvoorbeeld indien we het kenmerk zwaarlijvigheid willen gebruiken bij het analyseren van de gegevens. Kunnen we de kenmerken lichaamslengte en gewicht combineren in de BMI.

De BMI is een kenmerk dat waar we min of meer iets kunnen bij voorstellen, andere kenmerken die we in dit hoofdstuk zullen bekomen zullen moeilijker te interpreteren zijn.

Andere mogelijkheden zijn bijvoorbeeld dat we over een variabele verschillende metingen hebben en we vervangen deze metingen door telkens het gemiddelde te nemen.

#### PCA

![PCA ](~/Desktop/datascience/images/GS.png)


Hierboven wordt het verband tussen 2 kenmerken getoond. We zien dat indien we de X en Y-as keren en de assen leggen volgens de 2 pijlen in de wolk. We merken dat langs de lange as 1 kenmerk de meeste variantie verklaart. Dit kenmerk behouden we het andere kenmerk kunnen we droppen.

Voor we de techniek van Principal Component Analysis toepassen, zorgen we er voor dat we de gegevens standarizeren.

In python:
import pandas as pd
from sklearn.preprocessing import StandardScaler
scaler=StandardScaler()
data_std=pd.DataFrame(scaler.fit_transform(data),columns=data.columns)

We kunnen nu de getransformeerde data_std verder transformeren m.b.v. PCA

from sklearn.decomposition import PCA
pca=PCA()
print(pca.fit_transform(data_std))
print(pca.explained_variance_ratio_)

om de totale variantie te bekijken gebruiken we:
print(pca.explained_variance_ratio_.cumsum())


Aangezien we steeds de gegevens steeds standariseren voordat we pca toepassen kunnen we dit samen met de analyse die we willen toepassen in een pijplijn plaatsen.
Zoals bijvoorbeeld:

pipe = Pipeline([
('scaler'
, StandardScaler()),
('pcareducer'
, PCA(n_components=4)),
('classifier'
, RandomForestClassifier())])

pipe.fit(X_train, y_train)
print(pipe.steps[1])
pipe.steps[1][1].explained_variance_ratio_.cumsum()
print(pipe.score(X_test, y_test))

Bij de parameter n_components kan men ook een waarde tussen 0 en 1 plaatsen. Bijvoorbeeld 0.9 in dit geval gaat PCA zoveel componenten behouden tot hij minstens 90% van de variatie kan verklaren.

Wat is nu een goede trade-off tussen verklaarde variantie en aantal componenten. We kunnen op de Y-as de verklaarde variantie en op de X-as het aantal behouden componenten uitzetten.
![Explained Variance](~/Desktop/datascience/images/explvar.png)


We zien hier dat de variantie sterk daalt tot 3. We zitten als het ware in de knik van de elleboog dicht bij de ideale verhouding tussen weinig componenten en veel verklaarde variantie.


[id]: https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006907

[id] https://www.datacamp.com/community/tutorials/tutorial-ridge-lasso-elastic-net

[id3] https://kavita-ganesan.com/tfidftransformer-tfidfvectorizer-usage-differences/#.XlwKt5NKiWY


### Variabelen zonder invloed

Wanneer weten we dat een variabele geen invloed zal hebben op onze doelvector y? 

* Als de waarde voor iedere waarneming dezelfde is
* Als de waarde voor iedere waarneming onbekend is


Hoe kunnen we dit zien?

#### Als de waarde voor iedere waarneming dezelfde is

Voor numerieke gegevens is dit gemakkelijk te achterhalen 
als voor variabele a std(a)=0 dan is a constant.

df.describe() geeft van ieder variabele de mean,std,...
als dus std =0 dan kunnen we deze variabele droppen uit de dataframe.

Voor niet numerieke waarden zoals categoriën. Kunnen wse dit op^merken door van deze gegevens een hsitogram af te drukken.

#### Als de waarde voor iedere waarneming onbekend is

df.isna().sum() geeft voor iedere kolom in df het aantal waarden waarvoor er geen waarde is gedefinieerd.

#### Wat als bijna aan beide voorwaarden is voldaan?

Indien aan 1 of beide voorwaarden bijna voldaan is dan zullen we zelf moeten beoordelen of we de variabele verwijderen of niet.

### Gecorreleerde variabelen

Een andere reden om variabele te verwijderen is correlatie. Bijvoorbeeld stel dat we het gewicht in kg en  het gewicht in ponden hebben van een persoon. Uiteraard zal een variabele voldoende zijn en zal men 1 van de 2 mogen schrappen.

Nu hoef de correlatie niet zo sterk te zijn als hierboven maar gaat men bij 2 sterk gecorreleerde gegevens met een correlatie coefficient r waarvoor geldt dat abs(r) bijna 1, één van de twee verwijderen. 

### Hoe Train-test-split gebruiken?

Bij iedere analyse zullen we de dataset opsplitsen in een gedeelte om ons model te trainen (X_train en Y_train) en een ander deel gebruiken we om te kijken hoe goed ons model het doet op nieuwe data (X_test en y_test of test data)

Indien de y waarden bestaan uit slechts 2 labels bijvoorbeeld 'ja' en 'neen' dan willen we in de training en de test data dezelfde verhouding terug zien van 'ja' en 'neen' waarden. Dit noemen we gestratifieerd splitsen. Door de volgende instructie zorgt Python dat de y_test en y_train data dus een zelfde verhouding aan 'ja/neen' waarden hebben.
X_train,X_test,y_train,y_test = train_test_split(X,y, stratify=y)

### Normalisatie en standarisatie van de gegevens

#### Standarddeviatie op 1 zetten en gemiddelde op nul

Het kan voor veel analyses die we op de data willen loslaten een voordeel zijn dat de gegevens allemaal gemiddelde nul hebben en standaardafwijking 1. De StandardScaler is de klasse die methodes heeft om dit voor ieder numeriek kenmerk te bewerkstelligen. Het is een klasse die behoort tot  sklearn.preprocessing.


#### Log normalizatie

Door de natuurlijke logaritme te nemen van een getal kunnen we de variantie van de gegevens sterk verminderen. Opgepast we kunnen dit enkel toepassen op positieve getallen.

#### Niet-numerieke gegevens preprocessen.

Niet numerieke gegevens zoals tekst willen we graag toch omzetten in numerieke waarden, omdat we dan meer tools kunnen gebruiken om deze gegevens te verwerken.

Dit kan gebeuren op verschillende manieren

Bijvoorbeeld:

Stel dat we dataframe hebben met daarin verschillende kleuren.




## Regularisatie

### LogisticRegression and RFE

### RandomForestClassifier and RFE




### Lasso

Lasso (Least Absolute Shrinkage and Selection Operator) bespreken. 
Voor welke alpha is de R^2 optimaal?
Zoek evenwicht tussen aantal variabelen en score!

LassoCv laat toe om automatisch optimale alpha te bepalen

### Elastic Net

Probeert nadaelen van Lasso op te heffen. Welke zijn dit?

### Wegstemmen van variabelen
Met RandomForestRegression
Lasso
SGRegressor kunnen we variabele selecteren die in de 3 modellen van belang zijn. Wat is de performantie?


### Kenmerken extractie (Feature extraction)

I.p.v. kenmerken te schrappen kunnen we ook kenmerken combineren.

Bijvoorbeeld indien we het kenmerk zwaarlijvigheid willen gebruiken bij het analyseren van de gegevens. Kunnen we de kenmerken lichaamslengte en gewicht combineren in de BMI.

De BMI is een kenmerk dat waar we min of meer iets kunnen bij voorstellen, andere kenmerken die we in dit hoofdstuk zullen bekomen zullen moeilijker te interpreteren zijn.

Andere mogelijkheden zijn bijvoorbeeld dat we over een variabele verschillende metingen hebben en we vervangen deze metingen door telkens het gemiddelde te nemen.

#### PCA

![PCA ](~/Desktop/datascience/images/GS.png)


Hierboven wordt het verband tussen 2 kenmerken getoond. We zien dat indien we de X en Y-as keren en de assen leggen volgens de 2 pijlen in de wolk. We merken dat langs de lange as 1 kenmerk de meeste variantie verklaart. Dit kenmerk behouden we het andere kenmerk kunnen we droppen.

Voor we de techniek van Principal Component Analysis toepassen, zorgen we er voor dat we de gegevens standarizeren.

In python:
import pandas as pd
from sklearn.preprocessing import StandardScaler
scaler=StandardScaler()
data_std=pd.DataFrame(scaler.fit_transform(data),columns=data.columns)

We kunnen nu de getransformeerde data_std verder transformeren m.b.v. PCA

from sklearn.decomposition import PCA
pca=PCA()
print(pca.fit_transform(data_std))
print(pca.explained_variance_ratio_)

om de totale variantie te bekijken gebruiken we:
print(pca.explained_variance_ratio_.cumsum())


Aangezien we steeds de gegevens steeds standariseren voordat we pca toepassen kunnen we dit samen met de analyse die we willen toepassen in een pijplijn plaatsen.
Zoals bijvoorbeeld:

pipe = Pipeline([
('scaler'
, StandardScaler()),
('pcareducer'
, PCA(n_components=4)),
('classifier'
, RandomForestClassifier())])

pipe.fit(X_train, y_train)
print(pipe.steps[1])
pipe.steps[1][1].explained_variance_ratio_.cumsum()
print(pipe.score(X_test, y_test))

Bij de parameter n_components kan men ook een waarde tussen 0 en 1 plaatsen. Bijvoorbeeld 0.9 in dit geval gaat PCA zoveel componenten behouden tot hij minstens 90% van de variatie kan verklaren.

Wat is nu een goede trade-off tussen verklaarde variantie en aantal componenten. We kunnen op de Y-as de verklaarde variantie en op de X-as het aantal behouden componenten uitzetten.
![Explained Variance](~/Desktop/datascience/images/explvar.png)


We zien hier dat de variantie sterk daalt tot 3. We zitten als het ware in de knik van de elleboog dicht bij de ideale verhouding tussen weinig componenten en veel verklaarde variantie.




[id]: https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006907

[id] https://www.datacamp.com/community/tutorials/tutorial-ridge-lasso-elastic-net

[id3] https://kavita-ganesan.com/tfidftransformer-tfidfvectorizer-usage-differences/#.XlwKt5NKiWY

[id4] https://nlp.stanford.edu/IR-book/html/htmledition/tf-idf-weighting-1.html
