# Projet 4 - NBA

---

Voici la présentation du jeu de données :

- `GAME_ID` : ID du match
- `LOCATION` : Lieu du match (*Home* / *Away*)
- `GAME_RESULT` : Résultat du match (*Won* / *Lost*)
- `PERIOD` : Numéro de quart-temps et prolongations éventuelles
- `SHOT_CLOCK` : Durée de la possession de l'équipe au moment du tir
- `DRIBBLES` : Nombre de dribbles avant le tir
- `TOUCH_TIME` : Durée de la possession du joueur avant le tir
- `SHOT_DIST` : Distance de tir en *foot* (*1 foot = 0,30 mètre*)
- `PTS_TYPE` : Tentative à 2 ou 3 points (les lancers francs à 1 point ne sont pas répertoriés)
- `SHOT_RESULT` : Résultat du tir (*made* / *missed*)
- `CLOSE_DEF_DIST` : Distance entre le tireur et le défenseur le plus proche en *foot* (*1 foot = 0,30 
mètre*)
- `SHOOTER` : Nom du tireur

---
---

## Exercice 1 : Importer les données

---

### a. Importer le jeu de données `NBA.csv` avec la fonction `read.csv()`.

In [None]:
df <- read.csv("NBA.csv")
df

---

### b. Combien de lignes, colonnes sont présentes dans ce dataset (utilisez les fonctions adaptées) ?

In [None]:
sprintf("Nombre de lignes: %s", dim(df)[1])
sprintf("Nombre de colonnes: %s", dim(df)[2])

---

### c. Afficher le nom des colonnes.

In [None]:
writeLines(sprintf("Nom colonne %s: %s", 1:12, colnames(df)))

---

### d. Afficher le type des colonnes avec la fonction adaptée.

In [None]:
sapply(df, class)

---

### e. On souhaite analyser les variables `PERIOD`, `PTS_TYPE`, et `SHOOTER` en tant que variables qualitatives. Modifier le type de ces variables pour les transformer en type factor.

In [None]:
names <- c('PERIOD', 'PTS_TYPE', 'SHOOTER')
df[names] <- lapply(df[names], factor)

---

### f. Combien de niveaux (*levels*) sont présents dans ces variables ?

In [None]:
str(df[names])

---

### g. Afficher un résumé des données avec la fonction adaptée.

In [None]:
summary(df)

---
---

## Exercice 2 : Statistiques descriptives

---

### a. Calculer l'écart-type de la variable présentant la distance de tir (`SHOT_DIST`).

In [None]:
sprintf("Ecart-type de la colonne `SHOT_DIST` : %s", round(sd(na.omit(df$SHOT_DIST)), 2))

---

### b. Calculer l'écart-type de la variable présentant la durée de la possession de l'équipe au moment du tir (`SHOT_CLOCK`).

In [None]:
sprintf("Ecart-type de la colonne `SHOT_CLOCK` : %s", round(sd(na.omit(df$SHOT_CLOCK)), 2))

---

### c. Calculer la répartition du nombre de tirs manqués et réussis (`SHOT_RESULT`).

In [None]:
missed <- round((sum(df$SHOT_RESULT == "missed") / length(df$SHOT_RESULT)) * 100, 2)
made <- round((sum(df$SHOT_RESULT == "made") / length(df$SHOT_RESULT)) * 100, 2)

sprintf("Tirs réussis : %s%%", missed)
sprintf("Tirs ratés : %s%%", made)

---

### d. Calculer les **quartiles** de la variable présentant le nombre de dribbles avant un tir (`DRIBBLES`).


In [None]:
quartiles <- c('0%' ,'25%', '50%', '75%', '100%')
writeLines(sprintf("Quartile %s de la colonne `DRIBBLES` : %s", quartiles, quantile(na.omit(df$DRIBBLES))))

---

### e. Calculer les **déciles** de la variable présentant la distance entre le tireur et le défenseur le plus proche (`CLOSE_DEF_DIST`).

In [None]:
deciles <- c('10%' ,'20%', '30%', '40%', '50%', '60%' ,'70%', '80%', '90%')
writeLines(sprintf("Décile %s de la colonne `CLOSE_DEF_DIST` : %s", deciles, quantile(na.omit(df$CLOSE_DEF_DIST), probs = seq(.1, .9, by = .1))))

---

### f. Combien de matchs se sont déroulés lors de cette saison de basket ?

In [None]:
sprintf("Il y a eu %s matchs cette saison", length(unique(df$GAME_ID)))

---

### g. Combien y-a-t-il de `SHOOTER` différents ?

In [None]:
sprintf("Il y a eu %s tireurs différents", length(unique(df$SHOOTER)))

---
---

## Exercice 3 : Modifier le jeu de données

---

### a. Créer une variable `SHOT_DIST_METRE` qui affiche la variable `SHOT_DIST` convertit en mètre (*1 foot = 0,30 mètre*).

In [None]:
df$SHOT_DIST_METRE <- (df$SHOT_DIST * 0.3)
df

---

### b. Créer une variable `PTS_MARQUES` qui prend la valeur 0, 2 ou 3 en fonction de l'issue du tir.

In [None]:
df$PTS_MARQUES <- ifelse(df$SHOT_RESULT == "missed", 0, ifelse(df$SHOT_DIST < 23.75, 2, 3))
df

---

### c. Supprimer la variable `GAME_RESULT` car elle est inutile.

In [None]:
df <- subset(df, select = -GAME_RESULT)
df

---
---

## Exercice 4 : Interroger les données

Attention, certaines questions peuvent nécessiter plusieurs étapes. Penser à vérifier vos requêtes 
avec la fonction `dim()` ou `View()`.Pour chaque question, affecter le résultat ddans un objet comme 
dans l'exemple ci-dessous.

```{r}
#Selectionnez les deux premières colonnes du data frame
requete_0 <- NBA[, c(1,2)]
```

---

### a. On souhaite extraire uniquement la colonne `SHOOTER` , `SHOT_RESULT` et `PTS_TYPE` dans cet ordre.

In [None]:
select <- subset(df, select = c(SHOOTER, SHOT_RESULT, PTS_TYPE))
select

---

### b. On souhaite extraire uniquement les 50 premières lignes.

In [None]:
select <- df[1:50,]
select

---

### c. On souhaite extraire toutes les colonnes sauf la première.

In [None]:
select <- df[,2:13]
select

---

### d. On souhaite extraire uniquement les 100 **tirs tentés** avec les `SHOT_DIST` les plus loin.

In [None]:
select <- df[order(-df$SHOT_DIST),][1:100,]
select

---

### e. On souhaite extraire uniquement les 100 **tirs réussis** avec les `SHOT_DIST` les plus loin.

In [None]:
select <- df[df$SHOT_RESULT == 'made',]
select <- select[order(-select$SHOT_DIST),][1:100,]
select

---

### f. On souhaite extraire uniquement les tirs réussis à 3 points de *kobe bryant*.

In [None]:
select <- df[df$SHOOTER == 'kobe bryant',]
select <- select[select$PTS_MARQUES == 3,]
select

---

### g. On souhaite construire un data frame avec les 5 `SHOOTER` qui ont inscrit le plus de points.

In [None]:
select <- aggregate(PTS_MARQUES ~ SHOOTER, data = df, FUN = sum)

select <- select[order(-select$PTS_MARQUES),]

select[1:5,]