# PARTIE 1 - Découverte

## Partie 1 - Pokedex

### Étape 1 : définir le problème à résoudre

**Définition du problème :** Nous devons entrainer une intelligence artificielle afin qu'elle soit capable de prédire au mieux quel Pokemon parmi deux gagnera un combat en 1 contre 1. Pour cela nous avons :
- Un Pokedex : ce sont les caractéristiques de chaque Pokemon (numéro, nom, type(s), points de vie, d'attaque, de défence...)
- Les résultats de 50000 combats de Pokemons en 1 contre 1
- 10000 combats de Pokemons en 1 contre 1 sans les résultats pour tester notre modèle

### Étape 2 : acquérir des données d'apprentissage et de tests

In [1]:
import os
import pandas as pd

os.listdir("data")

['combats.csv', 'pokedex.csv', 'tests.csv']

### Étape 3 : préparation des données

#### Structure des données
Les données sont organisées dans des fichier CSV (chaque ligne est une observation avec plusieurs variables)

Le fichier pokedex.csv est composé des données de 800 Pokemons, ayant 12 caractéristiques :
- NUMERO : numerical
- NOM : text
- TYPE_1 : categorical
- TYPE_2 : categorical
- POINTS_DE_VIE : numerical
- POINTS_ATTAQUE : numerical
- POINTS_DEFFENCE : numerical
- POINTS_ATTAQUE_SPECIALE : numerical
- POINTS_DEFENSE_SPECIALE : numerical
- POINTS_VITESSE : numerical
- NOMBRE_GENERATIONS : categorical
- LEGENDAIRE : categorical

#### Affichage des 10 premières lignes

In [2]:
# Chargement du dataframe avec pandas
pokedex = pd.read_csv("data/pokedex.csv", delimiter=';')
display(pokedex[:10])

Unnamed: 0,NUMERO,NOM,TYPE_1,TYPE_2,POINTS_DE_VIE,POINTS_ATTAQUE,POINTS_DEFFENCE,POINTS_ATTAQUE_SPECIALE,POINT_DEFENSE_SPECIALE,POINTS_VITESSE,NOMBRE_GENERATIONS,LEGENDAIRE
0,1,Bulbizarre,Herbe,Poison,45,49,49,65,65,45,1,FAUX
1,2,Herbizarre,Herbe,Poison,60,62,63,80,80,60,1,FAUX
2,3,Florizarre,Herbe,Poison,80,82,83,100,100,80,1,FAUX
3,4,Mega Florizarre,Herbe,Poison,80,100,123,122,120,80,1,FAUX
4,5,Salamèche,Feu,,39,52,43,60,50,65,1,FAUX
5,6,Reptincel,Feu,,58,64,58,80,65,80,1,FAUX
6,7,Dracaufeu,Feu,Vol,78,84,78,109,85,100,1,FAUX
7,8,Mega Dracaufeu X,Feu,Dragon,78,130,111,130,85,100,1,FAUX
8,9,Mega Dracaufeu Y,Feu,Vol,78,104,78,159,115,100,1,FAUX
9,10,Carapuce,Eau,,44,48,65,50,64,43,1,FAUX


#### Features de catégorisation
Les features de catégorisation sont :
- TYPE_1
- TYPE_2
- NOMBRE_GENERATIONS
- LEGENDAIRE

#### Données de catégorisation ordinale
LEGENDAIRE

#### Type des données.
cf. Etape 3 - Question 1

#### Intérêt de connaitre les features de catégorisation
???

#### Données de type numérique (discrètes ou continues)
Les features de type numérique sont :
- NUMERO : numerical - discrètes
- POINTS_DE_VIE : numerical - continues
- POINTS_ATTAQUE : numerical - continues
- POINTS_DEFFENCE : numerical - continues
- POINTS_ATTAQUE_SPECIALE : numerical - continues
- POINTS_DEFENSE_SPECIALE : numerical - continues
- POINTS_VITESSE : numerical - continues

#### Importance de les connaitre
Il est important de les connaître afin de normaliser ces données

#### Que faut-il penser de la feature LEGENDAIRE ?
Elle aura sûrement un gros poids dans le réseau

#### Transformer la feature $Legendaire$ en entier 0= FAUX et 1=VRAI

In [3]:
pokedex.LEGENDAIRE = pokedex.LEGENDAIRE.replace({"FAUX": 0, "VRAI": 1})
display(pokedex[:10])

Unnamed: 0,NUMERO,NOM,TYPE_1,TYPE_2,POINTS_DE_VIE,POINTS_ATTAQUE,POINTS_DEFFENCE,POINTS_ATTAQUE_SPECIALE,POINT_DEFENSE_SPECIALE,POINTS_VITESSE,NOMBRE_GENERATIONS,LEGENDAIRE
0,1,Bulbizarre,Herbe,Poison,45,49,49,65,65,45,1,0
1,2,Herbizarre,Herbe,Poison,60,62,63,80,80,60,1,0
2,3,Florizarre,Herbe,Poison,80,82,83,100,100,80,1,0
3,4,Mega Florizarre,Herbe,Poison,80,100,123,122,120,80,1,0
4,5,Salamèche,Feu,,39,52,43,60,50,65,1,0
5,6,Reptincel,Feu,,58,64,58,80,65,80,1,0
6,7,Dracaufeu,Feu,Vol,78,84,78,109,85,100,1,0
7,8,Mega Dracaufeu X,Feu,Dragon,78,130,111,130,85,100,1,0
8,9,Mega Dracaufeu Y,Feu,Vol,78,104,78,159,115,100,1,0
9,10,Carapuce,Eau,,44,48,65,50,64,43,1,0


#### Combien avons-nous d'observations ?
Nous avons 800 observations

#### Afficher une description des données.

In [4]:
pokedex.describe()

Unnamed: 0,NUMERO,POINTS_DE_VIE,POINTS_ATTAQUE,POINTS_DEFFENCE,POINTS_ATTAQUE_SPECIALE,POINT_DEFENSE_SPECIALE,POINTS_VITESSE,NOMBRE_GENERATIONS,LEGENDAIRE
count,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0
mean,400.5,69.25875,79.00125,73.8425,72.82,71.9025,68.2775,3.32375,0.08125
std,231.0844,25.534669,32.457366,31.183501,32.722294,27.828916,29.060474,1.66129,0.27339
min,1.0,1.0,5.0,5.0,10.0,20.0,5.0,1.0,0.0
25%,200.75,50.0,55.0,50.0,49.75,50.0,45.0,2.0,0.0
50%,400.5,65.0,75.0,70.0,65.0,70.0,65.0,3.0,0.0
75%,600.25,80.0,100.0,90.0,95.0,90.0,90.0,5.0,0.0
max,800.0,255.0,190.0,230.0,194.0,230.0,180.0,6.0,1.0


#### Afficher les informations le jeu de données

In [5]:
pokedex.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 12 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   NUMERO                   800 non-null    int64 
 1   NOM                      799 non-null    object
 2   TYPE_1                   800 non-null    object
 3   TYPE_2                   413 non-null    object
 4   POINTS_DE_VIE            800 non-null    int64 
 5   POINTS_ATTAQUE           800 non-null    int64 
 6   POINTS_DEFFENCE          800 non-null    int64 
 7   POINTS_ATTAQUE_SPECIALE  800 non-null    int64 
 8   POINT_DEFENSE_SPECIALE   800 non-null    int64 
 9   POINTS_VITESSE           800 non-null    int64 
 10  NOMBRE_GENERATIONS       800 non-null    int64 
 11  LEGENDAIRE               800 non-null    int64 
dtypes: int64(9), object(3)
memory usage: 75.1+ KB


#### Manque-t-il des données? Si oui, discuter. 

Oui. Comme on peut le voir dans les informations sur le jeu de données ci-dessus, il manque le NOM d'un Pokemon ainsi qu'une catégorie None pour le second type de quasiment 400 Pokemons.

#### Chercher le Pokemon dont le nom est manquant

In [6]:
pokedex[pokedex.NOM.isnull()]

Unnamed: 0,NUMERO,NOM,TYPE_1,TYPE_2,POINTS_DE_VIE,POINTS_ATTAQUE,POINTS_DEFFENCE,POINTS_ATTAQUE_SPECIALE,POINT_DEFENSE_SPECIALE,POINTS_VITESSE,NOMBRE_GENERATIONS,LEGENDAIRE
62,63,,Combat,,65,105,60,60,70,95,1,0


#### Comment traiter les observations manquantes ?

Le nom est une feature redondante avec le numéro du Pokemon, on peut la supprimer

Il faudrait que les Pokemons ayant un seul type aient deux fois le même

## Partie 2 - Combats

### Chargement du fichier

In [7]:
# Chargement du dataframe avec pandas
combats = pd.read_csv("data/combats.csv", delimiter=',')

### Affichage des features

In [8]:
combats.describe().columns

Index(['First_pokemon', 'Second_pokemon', 'Winner'], dtype='object')

### Affichage des dix premières observations
- NUMERO : numerical

In [9]:
display(combats[:10])

Unnamed: 0,First_pokemon,Second_pokemon,Winner
0,266,298,298
1,702,701,701
2,191,668,668
3,237,683,683
4,151,231,151
5,657,752,657
6,192,134,134
7,73,545,545
8,220,763,763
9,302,31,31


### Structure des données
Le fichier combats.csv est composé des données de 50000 combats de Pokemons (1v1), ce fichier est composé de 3 features :
- First_pokemon : numerical
- Second_pokemon : numerical
- Winner : numerical

In [10]:
combats.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype
---  ------          --------------  -----
 0   First_pokemon   50000 non-null  int64
 1   Second_pokemon  50000 non-null  int64
 2   Winner          50000 non-null  int64
dtypes: int64(3)
memory usage: 1.1 MB


Il n'y a pas de données absentes

### Nombre de combats menés par chaque Pokemon

In [24]:
nb_combats_pp = pd.concat([combats.First_pokemon, combats.Second_pokemon]).value_counts()
nb_combats_pp = pd.DataFrame({'index': nb_combats_pp.keys(), 'nb_combats': nb_combats_pp.values})
nb_combats_pp

Unnamed: 0,index,nb_combats
0,163,164
1,344,160
2,667,159
3,214,158
4,758,158
...,...,...
779,605,99
780,122,98
781,263,97
782,112,95


### Nombre de combats gagnés par chaque Pokemon

In [27]:
nb_victoires = combats.Winner.value_counts()
nb_victoires = pd.DataFrame({'index': nb_victoires.keys(), 'nb_victoires': nb_victoires.values})
nb_victoires

Unnamed: 0,index,nb_victoires
0,163,152
1,438,136
2,154,136
3,428,134
4,314,133
...,...,...
778,577,5
779,237,4
780,639,4
781,290,3


### Assemblage des observations