# Projet 2 - Pokemon

---

On utilise le fichier `pokemon.xlsx` qui décrit les statistiques des pokemon des deux premières 
générations.

- `pokedex_number` : numéro du pokemon
- `nom` : nom du pokemon
- `generation` : le numéro de génération dont est issu le pokemon
- `is_legendary` : Oui / Non si le pokemon est légendaire
- `type` : le type du pokemon
- `weight_kg` : le poids du pokemon en kg
- `height_m` : la taille du pokemon en mètre
- `attack` : la puissance d'attaque du pokemon
- `defense` : la puissance de défense du pokemon
- `speed` : la vitesse du pokemon

---
---

## Exercice 1 : Importer les données

---

### a. Importez le jeu de données `pokemon.xlsx` à l'aide du package `readxl`.

In [None]:
library(readxl)

df <-read_excel(path = "./pokemon.xlsx", sheet="pokemon")
df

---

### b. Combien de lignes, colonnes sont présentes dans ce dataset (utilisez les fonctions adaptées) ?

In [None]:
sprintf("Nombre de lignes: %s", dim(df)[1])
sprintf("Nombre de colonnes: %s", dim(df)[2])

---

### c. Affichez le nom des colonnes.

In [None]:
writeLines(sprintf("Nom colonne %s: %s", 1:10, colnames(df)))

---

### d. Affichez le type des colonnes avec la fonction adaptée.


In [None]:
sapply(df, class)

---

### e. On souhaite analyser les variables `generation`, `is_legendary`, et `type` en tant que variables qualitatives. Modifier le type de ces variables pour les transformer en type factor.

In [None]:
names <- c('generation', 'is_legendary')
df[names] <- lapply(df[names], factor)

---

### f. Combien de niveaux (*levels*) sont présents dans ces variables ?

In [None]:
str(df[names])

---

### g. Affichez un résumé des données avec la fonction adaptée.

In [None]:
summary(df)

---
---

## Exercice 2 : Statistiques descriptives

---

### a. Déterminer la moyenne de la variable `weight_kg`.

In [None]:
sprintf("Moyenne de la colonne `weight_kg` : %s", mean(na.omit(df$weight_kg)))

---

### b. Déterminer la médiane de la variable `weight_kg`.

In [None]:
sprintf("Médiane de la colonne `weight_kg` : %s", median(na.omit(df$weight_kg)))

---

### d. Déterminer les quartiles de la variable `height_m`.

In [None]:
quartiles <- c('0%' ,'25%', '50%', '75%', '100%')
writeLines(sprintf("Quartile %s de la colonne `height_m` : %s", quartiles, quantile(na.omit(df$height_m))))

---

### e. Déterminer les déciles de la variable `height_m`.

In [None]:
deciles <- c('10%' ,'20%', '30%', '40%', '50%', '60%' ,'70%', '80%', '90%')
writeLines(sprintf("Décile %s de la colonne `height_m` : %s", deciles, quantile(na.omit(df$height_m), probs = seq(.1, .9, by = .1))))

---

### f. Déterminer la variance et l'écart-type de la variable `weight_kg`.

In [None]:
sprintf("Variance de la colonne `weight_kg` : %s", var(na.omit(df$weight_kg)))
sprintf("Ecart-type de la colonne `weight_kg` : %s", sd(na.omit(df$weight_kg)))

---

### g. Déterminer un tri à plat pour compter les effectifs des modalités de chaque variable *factor* en triant chaque sortie par ordre décroissant.

In [None]:
sapply(df[names], function(x) sort(table(x)))

---
---

## Exercice 3 : Tris et Selections

Pour chaque question suivante, affectez le résultat de la requête dans un objet puis calculez sa 
dimension.

---

### a. Sélectionnez la colonne `nom` et `is_legendary`.

In [None]:
sel <- df[c('nom', 'is_legendary')]

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel

---

### b. Sélectionnez les 50 premières lignes et les deux premières colonnes.

In [None]:
sel <- df[1:50, 1:2]

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel

---

### c. Sélectionnez les 10 premières lignes et toutes les colonnes.

In [None]:
sel <- df[1:10,]

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel

---

### d. Sélectionnez toutes les colonnes sauf la dernière.

In [None]:
sel <- df[,1:dim(df)[2]-1]

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel

---

### e. Sélectionnez les colonnes 2,8,9 et 10.

In [None]:
sel <- df[c(2, 8, 9, 10)]

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel

---

### f. Sélectionnez les lignes 20 à 30 et 80 à 100.

In [None]:
sel <- df[c(20:30, 80:100),]

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel

---

### g. Triez le dataset par ordre alphabétique et afficher le `nom` du pokemon dela première ligne.

In [None]:
sel <- df[order(df$nom),]

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel[1, "nom"]

---

### h. Triez le dataset par `weight_kg` en ordre **décroissant**, et afficher le `nom`du pokemon de la première ligne.

In [None]:
sel <- df[order(-df$weight_kg),]

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel[1, "nom"]


---

### i. Triez le dataset par `attack` en ordre **décroissant** puis par `speed` en ordre **croissant**, et afficher le `nom` des pokemons des 10 premières lignes.

In [None]:
sel <- df[c(order(-df$attack), order(df$speed)),]

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel[1:10, "nom"]

---
---

## Exercice 4 : Tris et Filtres

Pour chaque question suivante, affectez le résultat de la requête dans un objet puis calculez sa 
dimension. Pour faciliter la lecture, sélectionnez la colonne `nom`et les colonnes concernées par le 
filtre. 

---

### a. Filtrez sur les pokemons qui ont 150 ou plus d'`attack` puis trier le résultat par ordre décroissant d'`attack`. 

In [None]:
sel <- df[df$attack >= 150,]
sel <- sel[order(-sel$attack),]

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel[c("nom", "attack")]

---

### b. Filtrez sur les pokemons de `type` *dragon*, *ghost*, *psychic* et *dark*.

In [None]:
sel <- df[df$type %in% c('dragon', 'ghost', 'psychic', 'dark'),]

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel[c("nom", "type")]

---

### c. Filtrez sur les pokemons de `type` *fire* avec plus de 100 d'`attack`, puis trier le résultat par ordre décroissant d'`attack`. 

In [None]:
sel <- df[df$type == 'fire' & df$attack >= 100,]
sel <- sel[order(-sel$attack),]

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel[c("nom", "type", "attack")]

---

### d. Filtrez sur les pokemons qui ont entre 100 et 150 de `speed`. Les trier par `speed` décroissant.

In [None]:
sel <- df[df$speed >= 100 & df$speed <= 150,]
sel <- sel[order(-sel$speed),]

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel[c("nom", "speed")]

---

### e. Filtrez sur les pokemons pesant plus de 250 kg et affichez le résultat pour vérifier.

In [None]:
sel <- na.omit(df[df$weight_kg >= 250,])

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel[c("nom", "weight_kg")]

---

### f. Filtrez sur les pokémons qui ont des valeurs manquantes sur la variable `height_m`.

In [None]:
sel <- df[is.na(df$height_m),]

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel[c("nom", "height_m")]

---

### g. Filtrez sur les pokemons qui ont des valeurs renseignées à la fois pour la variable `weight_kg` **et** la variable `height`.

In [None]:
sel <- df[complete.cases(df$height_m) & complete.cases(df$weight_kg),]

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel[c("nom", "height_m", 'weight_kg')]

---
---

## Exercice 5 : Agregations

Pour chaque question suivante, affectez le résultat de la requête dans un objet puis calculez sa 
dimension. 

---

### a. Calculez l'`attack` moyenne en fonction de la variable `type`, puis filtrez sur les 3 types avec les moyennes les plus élevées.

In [None]:
sel <- aggregate(attack ~ type, data = df, mean)

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel[order(-sel$attack)[1:3],]

---

### b. Calculez le nombre de pokemon par `type` , puis triez par ordre décroissant ces effectifs.

In [None]:
sel <- sort(table(df$type), decreasing = T)

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel

---

### c. Calculez la médiane de `weight_kg` par `type`.

In [None]:
sel <- aggregate(weight_kg ~ type, data = df, median)

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel

---

### d. Calculez le nombre de pokemon par `type` et `generation`.

In [None]:
sel <- table(df$type, df$generation)

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel

---

### e. Calculez la moyenne de chaque critère (`weight_kg`, `height_m`, `attack`, `defense` et `speed`) en fonction de chaque `type`.


In [None]:
sel <- aggregate(cbind(weight_kg, height_m, attack, defense, speed) ~ type, data = df, mean)

sprintf("Nombre de lignes: %s", dim(sel)[1])
sprintf("Nombre de colonnes: %s", dim(sel)[2])

sel