In [None]:
library(FactoMineR)
library(corrplot)
library(ggplot2)
library(factoextra)

## IMPORTATION DES DONNEES

In [None]:
def = read.csv('./Donnees/Plusieurs_pays/Defensive.csv', header = TRUE)

In [None]:
pas_complet = read.csv('./Donnees/Plusieurs_pays/Passing.csv', header = TRUE)

In [None]:
of = read.csv('./Donnees/Plusieurs_pays/Offensive.csv', header = TRUE)

## ANALYSE DESCRIPTIVE DES DONNEES DEFENSIVES

#### Analyse de la corrélation

In [None]:
options(repr.plot.width=18, repr.plot.height=8)
par(mfrow=c(1,3))
par(cex.axis=2)
boxplot(def[c(1,3,10)], las = 2)
boxplot(def[c(2,4,5,6,13)], las = 2)
boxplot(def[c(7,8,9,11,12,14,15,16,17)], las = 2)

On remarque que les variables `Cards_Red` et `Saves_SixYardBox` ont une étendue très faible donc, à première vue, il ne semble pas nécessaire de les garder pour l'étude.

In [None]:
options(repr.plot.width=18, repr.plot.height=18)
corr_def=cor(def[-18])
corrplot.mixed(corr_def, upper = "ellipse", diag = 'u', tl.pos = 'lt')

On remarque que les variables `TotalTackles` et `TotalAttemptedTackles` sont très corrélées linéairement. De même pour `SavesTotal` et `SavesPenaltyArea`, ainsi que `savesTotal` et `SavesOutOfBox`. Cela est sûrement dû au fait que  `savesTotal` regroupe ces deux variables, et qu'elles doivent représenter une grande partie de cette variable totale.  
Ce qui nous intéresse c'est les variables corrélées avec la variable `Rating`. Au vu du scatter matrix, la variable `Clearances_Total` est corrélée linéairement négativement.

#### Analyse en composantes principales

In [None]:
pca_def=PCA(def,scale.unit=T,graph=F, quanti.sup = 19, quali.sup = 18)

#barplot(pca$eig[,1], main = "Ebouli des valeurs propres", cex.main = 3)
fviz_eig(pca_def, addlabels = TRUE, ylim = c(0, 30))

Au vu de l'ébouli des valeurs propres, on peut garder deux ou trois composantes principales.

In [None]:
fviz_pca_var(pca_def)

In [None]:
fviz_pca_biplot(pca_def, #repel = TRUE,
                col.var = "darkslategrey", # Variables color
                habillage = def[,18], # Individuals color
                col.quanti.sup = "red",
                col.circle = "darkslategrey"
                )

Pour l'ACP des dimensions 1 et 2 (pour seulement 44% de l'information), on remarque que `Rating` est corrélé négativement avec `Clearances`, `Saves_Total`, `ShotsBlocked`, `Saves_PenaltyArea`. On voit aussi que dans ce plan, il ne semble pas y avoir de relations entre le nombre de cartons, jaunes ou rouge, ou la quantité de tacles avec la variable `Rating`.  
`Rating` est la seule variable orientée vers la gauche, alors que toutes les autres variables sont orientées vers la gauche. Ce sont les données défensives. Par conséquent, lorsque une équipe défend beaucoup, elle est en difficulté, et elle a de plus fortes chances d'avoir un score faible.

On remarque aussi que l'Argentine possède un style de jeu défensif bien particulier. En effet, toutes les équipes argentines sont regroupées en bas à droite, et semblent avoir un jeu plus agressif.

In [None]:
fviz_pca_var(pca_def, axes = c(2,3))

Dans ce plan, les tacles sont pas très bien expliqués, mais semblent corrélés positivement avec `Rating`. On voit que la variable `Clearance` est toujours très corrélée négativement.  
Dans ce plan, les variables `Fouls_Fouls` (=fautes effectuées par notre équipe), `CrossesBlocked` et `Saves_OutOfBox` sont négativement corrélée avec `Rating`.

In [None]:
fviz_pca_biplot(pca_def, #repel = TRUE,
                axes = c(2,3),
                col.var = "darkslategrey", # Variables color
                habillage = def[,18], # Individuals color
                col.quanti.sup = "red",
                col.circle = "darkslategrey"
                )

Dans ces dimensions, l'Italie semble se démarquer par un jeu plutôt défensif. L'Argentine possède encore un jeu agressif, avec un groupe autour des fautes et des cartons. La France n'a pas de jeu particulier.

## ANALYSE DESCRIPTIVE DONNEES PASSING

#### Analyse de la corrélation

On remarque qu'une variable est quasiment tout le temps à 0. On va l'enlever.

In [None]:
pas = pas_complet[-c(5)]

In [None]:
options(repr.plot.width=18, repr.plot.height=8)
par(mfrow=c(1,3))
par(cex.axis=2)
boxplot(pas[c(7,10)], las = 2)
boxplot(pas[c(8,9,11)], las = 2)
boxplot(pas[c(12,13,16,17,18,20,26)], las = 2)
boxplot(pas[c(21,19,15,14,6)], las = 2)
boxplot(pas[-c(7,8,9,10,11,12,13,16,17,18,20,26,27,28,21,19,15,14,6)], las = 2)

On a fait plusieurs boxplot car les unités des variables ne sont pas les mêmes.Certaines variables sont très étendues : `PassesLength_Total` et `PassesLength_AccSP`. Certaines sont très peu étendues : `KeyPassesType_Throwing`, `KeyPassesType_Corner`, `KeyPassesType_Throughball` et `KeyPassesType_Freekicks`.

In [None]:
options(repr.plot.width=18, repr.plot.height=18)
corr_pas = cor(pas[-27])
corrplot.mixed(corr_pas, upper = "ellipse", diag = 'u', tl.pos = 'lt')

Les variables `PassesLength_AccSP` et `PassesLength_InAccLB`, `PassesLength_InAccLB` et `PassesLength_Total`, `PassesType_InAccFrK` avec `PassesLength_AccSP` sont corrélées deux à deux négativement.  
`KeyPasssesType_Other` et `KeyPassesLength_Total`, `KeyPassesType_Other` et `KeyPassesLength_Short`, `KeyPassesLength_Short` avec `KeyPassesLength_Total`, et `Assists_Total` et `Assists_Other`, `PassesType_AccCr` et `KeyPassesType_Cross` sont corrélées entre elles.

#### Analyse en composantes principales

In [None]:
pca_pas = PCA(pas, scale.unit=T, graph=F, quali.sup = 27, quanti.sup = 28)

In [None]:
fviz_eig(pca_def, addlabels = TRUE, ylim = c(0, 30))

On garde deux composantes principales.

In [None]:
options(repr.plot.width=18, repr.plot.height=18)
fviz_pca_var(pca_pas)

La variable `Rating` semble très fortement corrélée aux variables `KeyPassesType_others`, `Assists_Total`, `KeyPassesLength_Short`, `PassesLength_Total`, `PassesLength_AccSP` . 
Les variables `KeyPassesType_Freekick` et `KeyPassesType_Throwing` qui représentent respectivement les passes clés sur un coup franc et les passes clés sur une touche sont corrélées négativement avec `Rating`. Il en est de même pour `PassesLength_InAccLB` et `PassesType_InAccFrk` qui sont respectivement les ballons longs ratés et les coups francs ratés.

In [None]:
fviz_pca_biplot(pca_pas, #repel = TRUE,
                col.var = "darkslategrey", # Variables color
                habillage = def[,18], # Individuals color
                col.quanti.sup = "red",
                col.circle = "darkslategrey"
                )

On retrouve encore un regroupement de l'Argentine qui semble privilégier les passes ratées.  
Les clubs Eibar, Inter et Barcelone se démarquent.

## ANALYSE DESCRIPTIVE DONNEES OFFENSIVES

In [None]:
boxplot(of, las = 2)

In [None]:
options(repr.plot.width=18, repr.plot.height=8)
par(mfrow=c(1,3))
par(cex.axis=2)
boxplot(of[c(1,2,4,5,9,11,13,14,15,31,32,35)], las = 2)
boxplot(of[c(38,37,36,34,33)], las = 2)
boxplot(of[c(6,8,10,16,18,20,22,23,24,25,28,29)], las = 2)
boxplot(of[-c(1,2,4,5,9,11,13,14,15,31,32,35,38,37,36,34,33,6,8,10,16,18,20,22,23,24,25,28,29,39,40)], las = 2)

Comme avant, les variables sont plus ou moins étendues, d'où les différents boxplots. La variable `GoalsBodyParts_Other` est toujours à 0. On va la supprimer.

In [None]:
of = of[-30]

In [None]:
options(repr.plot.width=18, repr.plot.height=18)
corr_of = cor(of[-38])
corrplot.mixed(corr_of, upper = "ellipse", diag = 'u', tl.pos = 'lt')

Les variables `Shots_Total` et `ShotsSituations_OpenPlay`, `Goals_Total` et `GoalsSituations_OpenPlay`, `Goals_Total` et `GoalsSituations_Normal`, `Dribbles_Successful` et `Dribbles_Total`, `Aerial_Total` avec `Aerial_Won` et `Aerial_Lost` sont corrélées positivement.  
On n'observe que très peu de corrélations négatives, et elles sont généralement faibles.  
La variables `Rating` est corrélée positivement avec les variables `ShotsAccuracy_OnTarget`, `Goals_Total`, `GoalsSituations_Normal`, `GoalsZones_PenaltyArea` et `GoalsSituations_OpenPlay`. Le score est meilleur lorsque des buts sont marqués (quelle surprise).

#### Analyse en composantes principales

In [None]:
pca_of = PCA(of, scale.unit=T, graph=F, quali.sup = 38, quanti.sup = 39)

In [None]:
fviz_eig(pca_of, addlabels = TRUE)

Vu l'ébouli, deux composantes principales sont largement suffisantes pour expliquer une bonne partie de la variance.

In [None]:
options(repr.plot.width=18, repr.plot.height=18)
fviz_pca_var(pca_of)

Comme les variables très corrélées avec `Rating` ne sont pas lisibles sur l'ACP, on calcule la distance entre `Rating` et chacune des variables dans ce plan factoriel.

In [None]:
dist = list()
dist[[1]] = colnames(of)[1:37]
dist[[2]] = rep(0,37)

for (i in 1:37){
    dist[[2]][i] = (pca_of$quanti.sup$coord[1] - pca_of$var$coord[i,1])**2 + 
    (pca_of$quanti.sup$coord[2] - pca_of$var$coord[i,2])**2
}
data.frame(matrix(unlist(dist), ncol=length(dist), byrow=F))

Les variables `Shots_Total`, `ShotSituations_OpenPlay` et `GoalsBodyParts_LeftFoot` sont très corrélées avec `Rating`. Les variables `ShotsAccuracy_OnTarget`, `ShotsAccuracy_Blocked`, `ShotsBodyParts_LeftFoot`, `Goals_Total`, `GoalsZones_PenaltyArea`, `GoalsSituations_OpenPlay` et `GoalsBodyPart_RightFoot` sont corrélées avec la variable explicative.  
Plusieurs autres variables sont aussi corrélées, mais un peu moins.

In [None]:
fviz_pca_biplot(pca_of, #repel = TRUE,
                col.var = "darkslategrey", # Variables color
                habillage = def[,18], # Individuals color
                col.quanti.sup = "red",
                col.circle = "darkslategrey"
                )

A part l'Argentine on ne remarque pas trop de blocs de pays. Tous les clubs sont en général répartis sur l'axe 1, qui porte `Rating`.  
Nice, Burnley et le Bayern sont assez isolés par rapport aux autres clubs.

## Analyse de toutes les données réunies

#### Concaténation des dataframes

In [None]:
data_tot = read.csv('./Donnees/Plusieurs_pays/Total.csv', header = TRUE)
data_tot = data_tot[-c(47,60)]

#### Analyse de la corrélation

In [None]:
options(repr.plot.width=18, repr.plot.height=18)
corr_tot=cor(data_tot[-81])
corrplot.mixed(corr_tot, upper = "ellipse", diag = 'u', tl.pos = 'lt')

On n'y voit rien mais on peut zoomer si on tient à regarder.

#### Analyse en composantes principales

In [None]:
pca_tot = PCA(data_tot, scale.unit=T, graph=F, quali.sup = 81, quanti.sup = 82)

In [None]:
fviz_eig(pca_tot, addlabels = TRUE)

Il semble judicieux de garder 3 composantes principales.

In [None]:
options(repr.plot.width=18, repr.plot.height=18)
fviz_pca_var(pca_tot)

On remarque deux types de variables qui se séparent selon l'axe 1 :  
* les variables liées aux duels aériens, aux fautes, aux tacles et les pertes de balle (entre autres)  
* les variables sur la longueur des passes, les tirs et les buts  
Le deuxième groupe de variables est corrélé positivement à la variable `Rating` alors que le premier l'est négativement.

In [None]:
fviz_pca_biplot(pca_tot, #repel = TRUE,
                col.var = "grey", # Variables color
                habillage = data_tot[,81], # Individuals color
                col.quanti.sup = "red",
                col.circle = "darkslategrey"
                )

Les bons clubs semblent former un arc de cercle autour de la variable `Rating`. Tous les clubs argentins se situent à gauche dans l'ACP, comme de nombreux clubs français. L'Angleterre n'est que très peu dispersée selon le deuxième axe.