
# TP Pokemon première partie

## Modules necessaires

* PANDAS 0.24.2  => Permet la manipulation et l'analyse de données
* NUMPY 1.16.3   => Permet la manipulation de tableaux et matrices

Dans ce TP, nous allons découvrir à travers un cas pratique les premières étapes pour mener à bien un projet de Machine Learning. Cet exemple permet d'aborder un large panel de techniques propres au Machine Learning et à l'analyse de données.

## L'univers des Pokémons

Un Pokémon est un animal issu du monde des jeux vidéo. Chaque Pokémon possède des caractéristiques qui lui sont propres, à savoir son type (Pokémon d'herbe, Pokémon de feu ... ) lui donnant alors des facultés spéciales. Ainsi, le Pokémon nommé `Dracofeu`, de type `Feu` est capable de cracher du feu. De plus, on note l'existence de Pokémons légendaires très rares et très puissants (Pokémon diamant, Pokémon platine...).

Les Pokémons sont également de différentes générations faisant référence à l'évolution de l'univers des Pokémons. Les Pokémons de première génération sont ceux ayant pris naissance au tout début de la création de l'univers (création de 151 Pokémons) pour arriver à la huitième génération avec plus de 800 Pokémons (2020)!

Dans cet univers viennent ensuite les dresseurs de Pokémons. Les dresseurs les collectionnent et les élèvent dans le but de les faire combattre entre eux jusqu'au KO. Lors d'un combat de Pokémons, opposant deux dresseurs, l'un choisit l'animal qui sera le premier à entrer dans l'arène. En fonction de ce premier Pokémon, le second dresseur choisit un animal dans sa collection qui sera en mesure de battre le premier Pokémon. Si le premier Pokémon présent dans l'arène est de type feu, il y a de fortes chances que le Pokémon choisi par l'adversaire soit de type eau afin de contrer les attaques du premier.

Cela nécessite pour le dresseur d'avoir une bonne connaissance de chaque Pokémon pour choisir celui qui pourra devenir vainqueur du combat. Pour l'aider dans son choix, les caractéristiques des Pokémons sont répertoriées dans un document appelé Pokédex.

# Mission : choisir le bon Pokémon!

En tant que dresseurs de Pokémon du 21e siècle, on vous demande de faire appel au Machine Learning pour faire le bon choix de Pokémon et ainsi gagner nos combats. Pour cela, vous pouvez vous appuyer sur des données en provenance du Pokédex, mais aussi sur des données issues des différents combats afin de trouver le bon modèle de prédiction qui pourra alors nous assurer une victoire lors de chaque bataille!


# Des données pour un apprentissage supervisé

## Des données basées sur l'expérience

Le Machine Learning est basé sur l'utilisation de données afin de permettre à notre ordinateur d'apprendre et de pouvoir réaliser des prédictions. Ces données doivent être en relation avec la mission qui nous est confiée et basée sur l'expérience. Dans notre cas, l'expérience consiste à connaître les issues de combats de Pokémons.


## Disposer d'un grand nombre de données d'apprentissage

Une machine n'est pas capable d'apprendre sur un petit jeu de données, car elle doit pouvoir étudier toutes les possibilités pour réaliser ses prédictions. Par conséquent, plus le nombre de cas d'études pour résoudre un problème est important, plus les prédictions seront précises.

## Des données d'apprentissage et des données de tests

Tout comme l'être humain, il est nécessaire de valider l'apprentissage de la machine afin de pouvoir corriger les écarts d'apprentissage (appelés biais) et ajuster ou modifier le modèle d'apprentissage. Pour cela, nous avons besoin de données d'apprentissage et de données de tests.

# Les étapes à réaliser pour mener à bien un projet de Machine Learning

Mener à bien un projet de Machine Learning consiste à réaliser six étapes consécutives :

1. Définition du problème à résoudre
2. Acquisition des données d'apprentissages et de tests
3. Préparer et nettoyer les données
4. Analyser, explorer les données
5. Choisir un modèle d'apprentissage
6. Visualiser les résultats, et ajuster ou modifier le modèle d'apprentissage

La phase de préparation des données est la plus importante dans un projet de Machine Learning, car en tant qu'humains, nous devons essayer de trouver les données les plus intéressantes qui nous permettront de répondre au problème donné.

Bien plus qu'une simple analyse des données, il faut déterminer comment il nous est possible de résoudre manuellement le problème, à partir des informations dont nous disposons, avant de le confier à la machine.
Ainsi, un même jeu de données peut être exploité différemment en fonction du problème donné.


# Étape 1 : définir le problème à résoudre

- Donner une défintion du problème à résoudre.

Nous devons entrainer une intelligence artificielle afin qu'elle soit capable de prédire au mieux quel Pokemon parmi deux gagnera un combat en 1 contre 1.
Pour cela nous avons :
- Un Pokedex : ce sont les caractéristiques de chaque Pokemon (numéro, nom, type(s), points de vie, d'attaque, de défence...)
- Les résultats de 50000 combats de Pokemons en 1 contre 1
- 10000 combats de Pokemons en 1 contre 1 sans les résultats pour tester notre modèle

# Étape 2: acquérir des données d'apprentissage et de tests

- Importer les librairies `os` et `pandas`

- Télécharger et copier les fichiers comportant les données nécessaires à la résolution du problème : 
    1. Le fichier Pokedex.csv contient la liste des Pokémons et leurs caractéristiques. 
    2. Le fichier Combats.csv est la base de connaissance et d'apprentissage, car il contient une liste de combats de Pokémons et le résultat de chacun d'entre eux. 
    3. Enfin, le fichier tests.csv permettra de valider le modèle d'apprentissage.

- Afficher la liste des fichiers dans le répertoire du projet


In [1]:
import os
import pandas


os.listdir("data")

['combats.csv', 'pokedex.csv', 'tests.csv']

# Étape 3 : préparation des données

Dans cette troisième étape, l'objectif est de réaliser une lecture approfondie des données afin de comprendre leur rôle et les impacts qu'elles peuvent avoir dans notre objectif de prédiction. C'est une sorte de résolution manuelle du problème en formulant des hypothèses et en essayant de sélectionner les données qui répondront à celles-ci.

L'étude des données passe notamment par leur description (nom, type...), ainsi que par divers processus de traitement tels que le nettoyage (suppression des données inutiles, recherche des données manquantes) et enfin la combinaison entre elles, aussi appelée agrégation, dans le but de disposer d'un jeu de connaissances (observations) utilisables et appropriées à l'apprentissage et à l'atteinte de notre objectif.

## De quelles données disposons-nous?

#### - Quelle est la structure des données?
- Les données sont organisées dans des fichier CSV (chaque ligne est une observation avec plusieurs variables)
- Le fichier pokedex.csv est composé des données de 800 Pokemons, ayant 12 caractéristiques :
    - NUMERO : numerical
    - NOM : text
    - TYPE_1 : categorical
    - TYPE_2 : categorical
    - POINTS_DE_VIE : numerical
    - POINTS_ATTAQUE : numerical
    - POINTS_DEFFENCE : numerical
    - POINTS_ATTAQUE_SPECIALE : numerical
    - POINTS_DEFENSE_SPECIALE : numerical
    - POINTS_VITESSE : numerical
    - NOMBRE_GENERATIONS : categorical
    - LEGENDAIRE : categorical

#### - Afficher les 10 premières lignes

In [2]:
# Chargement du dataframe avec pandas
pokedex = pandas.read_csv("data/pokedex.csv", delimiter=';')
display(pokedex[:10])

Unnamed: 0,NUMERO,NOM,TYPE_1,TYPE_2,POINTS_DE_VIE,POINTS_ATTAQUE,POINTS_DEFFENCE,POINTS_ATTAQUE_SPECIALE,POINT_DEFENSE_SPECIALE,POINTS_VITESSE,NOMBRE_GENERATIONS,LEGENDAIRE
0,1,Bulbizarre,Herbe,Poison,45,49,49,65,65,45,1,FAUX
1,2,Herbizarre,Herbe,Poison,60,62,63,80,80,60,1,FAUX
2,3,Florizarre,Herbe,Poison,80,82,83,100,100,80,1,FAUX
3,4,Mega Florizarre,Herbe,Poison,80,100,123,122,120,80,1,FAUX
4,5,Salamèche,Feu,,39,52,43,60,50,65,1,FAUX
5,6,Reptincel,Feu,,58,64,58,80,65,80,1,FAUX
6,7,Dracaufeu,Feu,Vol,78,84,78,109,85,100,1,FAUX
7,8,Mega Dracaufeu X,Feu,Dragon,78,130,111,130,85,100,1,FAUX
8,9,Mega Dracaufeu Y,Feu,Vol,78,104,78,159,115,100,1,FAUX
9,10,Carapuce,Eau,,44,48,65,50,64,43,1,FAUX


#### - Quelles sont les features de catégorisation ?
- Les features de catégorisation sont :
    - TYPE_1
    - TYPE_2
    - NOMBRE_GENERATIONS
    - LEGENDAIRE

#### - Est-ce qu'il existe des données de catégorisation ordinale ?
- LEGENDAIRE

#### - Préciser dans un tableau le type des données.
- cf. Etape 3 - Question 1

#### - Quel est l'intérêt de connaitre les features de catégorisation ?
- 

#### - Quelles données sont de type numérique (Préciser discrètes ou continues)?
- Les features de type numérique sont :
    - NUMERO : numerical - discrètes
    - POINTS_DE_VIE : numerical - continues
    - POINTS_ATTAQUE : numerical - continues
    - POINTS_DEFFENCE : numerical - continues
    - POINTS_ATTAQUE_SPECIALE : numerical - continues
    - POINTS_DEFENSE_SPECIALE : numerical - continues
    - POINTS_VITESSE : numerical - continues

#### - Pourquoi il est important de les connaitre ?
- Il est important de les connaître afin de normaliser ces données

#### - Que faut-il penser de la feature LEGENDAIRE ?
- Elle aura sûrement un gros poids dans le réseau

#### - Transformer la feature $Legendaire$ en entier 0= FAUX et 1=VRAI

In [3]:
# pokedex.LEGENDAIRE = pokedex.LEGENDAIRE.replace({"FAUX": 0, "VRAI": 1})
display(pokedex[:10])

Unnamed: 0,NUMERO,NOM,TYPE_1,TYPE_2,POINTS_DE_VIE,POINTS_ATTAQUE,POINTS_DEFFENCE,POINTS_ATTAQUE_SPECIALE,POINT_DEFENSE_SPECIALE,POINTS_VITESSE,NOMBRE_GENERATIONS,LEGENDAIRE
0,1,Bulbizarre,Herbe,Poison,45,49,49,65,65,45,1,FAUX
1,2,Herbizarre,Herbe,Poison,60,62,63,80,80,60,1,FAUX
2,3,Florizarre,Herbe,Poison,80,82,83,100,100,80,1,FAUX
3,4,Mega Florizarre,Herbe,Poison,80,100,123,122,120,80,1,FAUX
4,5,Salamèche,Feu,,39,52,43,60,50,65,1,FAUX
5,6,Reptincel,Feu,,58,64,58,80,65,80,1,FAUX
6,7,Dracaufeu,Feu,Vol,78,84,78,109,85,100,1,FAUX
7,8,Mega Dracaufeu X,Feu,Dragon,78,130,111,130,85,100,1,FAUX
8,9,Mega Dracaufeu Y,Feu,Vol,78,104,78,159,115,100,1,FAUX
9,10,Carapuce,Eau,,44,48,65,50,64,43,1,FAUX


#### - Combien avons-nous d'observations ?
- Nous avons 800 observations

#### - Afficher une description des données.

In [4]:
pokedex.describe()

Unnamed: 0,NUMERO,POINTS_DE_VIE,POINTS_ATTAQUE,POINTS_DEFFENCE,POINTS_ATTAQUE_SPECIALE,POINT_DEFENSE_SPECIALE,POINTS_VITESSE,NOMBRE_GENERATIONS
count,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0
mean,400.5,69.25875,79.00125,73.8425,72.82,71.9025,68.2775,3.32375
std,231.0844,25.534669,32.457366,31.183501,32.722294,27.828916,29.060474,1.66129
min,1.0,1.0,5.0,5.0,10.0,20.0,5.0,1.0
25%,200.75,50.0,55.0,50.0,49.75,50.0,45.0,2.0
50%,400.5,65.0,75.0,70.0,65.0,70.0,65.0,3.0
75%,600.25,80.0,100.0,90.0,95.0,90.0,90.0,5.0
max,800.0,255.0,190.0,230.0,194.0,230.0,180.0,6.0


#### - Afficher les informations le jeu de données

In [5]:
pokedex.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 12 columns):
NUMERO                     800 non-null int64
NOM                        799 non-null object
TYPE_1                     800 non-null object
TYPE_2                     413 non-null object
POINTS_DE_VIE              800 non-null int64
POINTS_ATTAQUE             800 non-null int64
POINTS_DEFFENCE            800 non-null int64
POINTS_ATTAQUE_SPECIALE    800 non-null int64
POINT_DEFENSE_SPECIALE     800 non-null int64
POINTS_VITESSE             800 non-null int64
NOMBRE_GENERATIONS         800 non-null int64
LEGENDAIRE                 800 non-null object
dtypes: int64(8), object(4)
memory usage: 75.1+ KB


#### - Manque-t-il des données? Si oui, discuter. 
- Oui. Comme on peut le voir dans les informations sur le jeu de données ci-dessus, il manque le NOM d'un Pokemon ainsi qu'une catégorie None pour le second type de quasiment 400 Pokemons.

### Recherche des features manquantes

####  - Chercher le Pokemon dont le nom est manquant

In [6]:
pokedex[pokedex.NOM.isnull()]

Unnamed: 0,NUMERO,NOM,TYPE_1,TYPE_2,POINTS_DE_VIE,POINTS_ATTAQUE,POINTS_DEFFENCE,POINTS_ATTAQUE_SPECIALE,POINT_DEFENSE_SPECIALE,POINTS_VITESSE,NOMBRE_GENERATIONS,LEGENDAIRE
62,63,,Combat,,65,105,60,60,70,95,1,FAUX


####  - Comment traiter les observations manquantes ?
- Le nom est une feature redondante avec le numéro du Pokemon, on peut la supprimer
- Il faudrait que les Pokemons ayant un seul type aient deux fois le même

# Partie 2

##  Observations des combats

#### - Refaire les étapes précédentes pour analyser les observation sur les combats (fichier `combats.csv`) :

- Chargement du fichier
- Affichage des features
- Affichage des dix premières observations
- Classement des features: donnée catégorielle, numérique continue ou numérique discrète
- 10 premières lignes, Comptage du nombre d'observations, affichage des informations  et recherche d'éventuelles données absentes

#### - Discuter les résultats de l'analyse


#### - Calucler le nombre de combats menés par chaque Pokémon
Lors d'un combat, un Pokémon peut être utilisé en première position ou en seconde position.

#### - Calucler le nombre de combats gagnés par chaque Pokémon 

#### - Faire l'assemblage des observations

#### - Quel est le Pockémon qui a gagné le plus de combats? 

#### - Existe-t-il des Pokémons n'ayant jamais gagné?





# Partie 3

## Agrégation des données avec le Pokédex

Cette agrégation va nous permettre d'avoir une vue centralisée des données et de permettre une analyse plus approfondie.

#### - Créer une liste comportant :
- Les numéros des Pokémons
- Le nombre de combats menés
- Le nombre de combats gagnés
- Le pourcentage de victoires par rapport au nombre de combats menés

#### - Créer un nouveau Pokedex comportant les noms de Pokemons et leur victoire
