
# TP Pokemon première partie

## Modules necessaires

* PANDAS 0.24.2  => Permet la manipulation et l'analyse de données
* NUMPY 1.16.3   => Permet la manipulation de tableaux et matrices

Dans ce TP, nous allons découvrir à travers un cas pratique les premières étapes pour mener à bien un projet de Machine Learning. Cet exemple permet d'aborder un large panel de techniques propres au Machine Learning et à l'analyse de données.

## L'univers des Pokémons

Un Pokémon est un animal issu du monde des jeux vidéo. Chaque Pokémon possède des caractéristiques qui lui sont propres, à savoir son type (Pokémon d'herbe, Pokémon de feu ... ) lui donnant alors des facultés spéciales. Ainsi, le Pokémon nommé `Dracofeu`, de type `Feu` est capable de cracher du feu. De plus, on note l'existence de Pokémons légendaires très rares et très puissants (Pokémon diamant, Pokémon platine...).

Les Pokémons sont également de différentes générations faisant référence à l'évolution de l'univers des Pokémons. Les Pokémons de première génération sont ceux ayant pris naissance au tout début de la création de l'univers (création de 151 Pokémons) pour arriver à la huitième génération avec plus de 800 Pokémons (2020)!

Dans cet univers viennent ensuite les dresseurs de Pokémons. Les dresseurs les collectionnent et les élèvent dans le but de les faire combattre entre eux jusqu'au KO. Lors d'un combat de Pokémons, opposant deux dresseurs, l'un choisit l'animal qui sera le premier à entrer dans l'arène. En fonction de ce premier Pokémon, le second dresseur choisit un animal dans sa collection qui sera en mesure de battre le premier Pokémon. Si le premier Pokémon présent dans l'arène est de type feu, il y a de fortes chances que le Pokémon choisi par l'adversaire soit de type eau afin de contrer les attaques du premier.

Cela nécessite pour le dresseur d'avoir une bonne connaissance de chaque Pokémon pour choisir celui qui pourra devenir vainqueur du combat. Pour l'aider dans son choix, les caractéristiques des Pokémons sont répertoriées dans un document appelé Pokédex.

# Mission : choisir le bon Pokémon!

En tant que dresseurs de Pokémon du 21e siècle, on vous demande de faire appel au Machine Learning pour faire le bon choix de Pokémon et ainsi gagner nos combats. Pour cela, vous pouvez vous appuyer sur des données en provenance du Pokédex, mais aussi sur des données issues des différents combats afin de trouver le bon modèle de prédiction qui pourra alors nous assurer une victoire lors de chaque bataille!


# Des données pour un apprentissage supervisé

## Des données basées sur l'expérience

Le Machine Learning est basé sur l'utilisation de données afin de permettre à notre ordinateur d'apprendre et de pouvoir réaliser des prédictions. Ces données doivent être en relation avec la mission qui nous est confiée et basée sur l'expérience. Dans notre cas, l'expérience consiste à connaître les issues de combats de Pokémons.


## Disposer d'un grand nombre de données d'apprentissage

Une machine n'est pas capable d'apprendre sur un petit jeu de données, car elle doit pouvoir étudier toutes les possibilités pour réaliser ses prédictions. Par conséquent, plus le nombre de cas d'études pour résoudre un problème est important, plus les prédictions seront précises.

## Des données d'apprentissage et des données de tests

Tout comme l'être humain, il est nécessaire de valider l'apprentissage de la machine afin de pouvoir corriger les écarts d'apprentissage (appelés biais) et ajuster ou modifier le modèle d'apprentissage. Pour cela, nous avons besoin de données d'apprentissage et de données de tests.

# Les étapes à réaliser pour mener à bien un projet de Machine Learning

Mener à bien un projet de Machine Learning consiste à réaliser six étapes consécutives :

1. Définition du problème à résoudre
2. Acquisition des données d'apprentissages et de tests
3. Préparer et nettoyer les données
4. Analyser, explorer les données
5. Choisir un modèle d'apprentissage
6. Visualiser les résultats, et ajuster ou modifier le modèle d'apprentissage

La phase de préparation des données est la plus importante dans un projet de Machine Learning, car en tant qu'humains, nous devons essayer de trouver les données les plus intéressantes qui nous permettront de répondre au problème donné.

Bien plus qu'une simple analyse des données, il faut déterminer comment il nous est possible de résoudre manuellement le problème, à partir des informations dont nous disposons, avant de le confier à la machine.
Ainsi, un même jeu de données peut être exploité différemment en fonction du problème donné.


# Étape 1 : définir le problème à résoudre

- Donner une défintion du problème à résoudre.

- On dispose de différents pokémon ainsi que d'exemples de combat. Le but sera d'aider un dresseur de pokémon à associer le meilleur pokémon pour chaque combat qu'il aura à réaliser. 

# Étape 2: acquérir des données d'apprentissage et de tests

- Importer les librairies `OS` et `pandas`

- Télécharger et copier les fichiers comportant les données nécessaires à la résolution du problème : 
    1. Le fichier Pokedex.csv contient la liste des Pokémons et leurs caractéristiques. 
    2. Le fichier Combats.csv est la base de connaissance et d'apprentissage, car il contient une liste de combats de Pokémons et le résultat de chacun d'entre eux. 
    3. Enfin, le fichier tests.csv permettra de valider le modèle d'apprentissage.

- Affichier la liste des fichiers dans le repértoire du projet


In [1]:
import os 
import sys
sys.path.append("/home/vitcheffvi/Documents/IA/Deep_learning/venv/lib/python3.8/site-packages")
#Importer la lirairie pandas 
import pandas as pd
import numpy as np 
path="data"
data = os.listdir(path)
print(data)



['pokedex.csv', 'combats.csv', 'tests.csv', 'new_pokedex.csv', 'pokedexOld.csv', 'combats copy.csv']


# Étape 3 : préparation des données

Dans cette troisième étape, l'objectif est de réaliser une lecture approfondie des données afin de comprendre leur rôle et les impacts qu'elles peuvent avoir dans notre objectif de prédiction. C'est une sorte de résolution manuelle du problème en formulant des hypothèses et en essayant de sélectionner les données qui répondront à celles-ci.

L'étude des données passe notamment par leur description (nom, type...), ainsi que par divers processus de traitement tels que le nettoyage (suppression des données inutiles, recherche des données manquantes) et enfin la combinaison entre elles, aussi appelée agrégation, dans le but de disposer d'un jeu de connaissances (observations) utilisables et appropriées à l'apprentissage et à l'atteinte de notre objectif.

## De quelles données disposons-nous?

#### - Quelle est la structure des données? Les données sont organisés en fichiers. Ce sont des .csv, chaque ligne représente un pokémon. Elles sont sous la forme de tableau. Pour les combats, il s'agit de lignes qui représente chacun un combat; il y a le numéro de pokédex des pokémon qui s'affrontent ainsi que le numéro de pokédex du vainqueur. 
#### - Afficher les 10 premières lignes 
#### - Quelles sont les features de catégorisation? 
#### - Est-ce qu'il existe des données de catégorisation ordinale? Le numéro de pokédex des pokémon est une catégorisation ordinale car on associe une valeur numérique à une variable qualitative qui est le nom du pokémon. 
#### - Préciser dans un tableau le type des données. 
#### - Quel est l'intérêt de connaitre les features de catégorisation? L'intérêt est de pouvoir ensuite trier les données en fonction de ses features pour avoir des bonnes données de test ainsi que des bonnes données d'entraînement. A travers les features, on peut diviser les données en données de test et d'entraînement. 
#### - Quelles données sont de type numérique (Préciser discrètes ou continues)?  Les points de vie ainsi que d'attaque de defense ou d'attaque spéciale ou de défense sont numériques. La vitesse est aussi une variable quantitative. Toutes ces variables sont quantitatives continues. Il existe aussi des valeurs numériques mais qui ne sont pas quantitatives. 
#### - Pourquoi il est important de les connaitre? Il est important de connaître ses données pour pouvoir ensuite calculer la moyenne dessus par exemple ou pouvoir les traiter en fonction de leur type. 
#### - Que faut-il penser de la feature LEGENDAIRE? La feature legendaire = VRAI signifie qu'il n'existe un seul pokémon et que celui ci est plus fort normalement que les autres; En revanche, cela siginifie que le dresseur ne possède pas forcément ce pokémon dans sa collection. 
#### - Transformer la feature $Legendaire$ en entier 0= FAUX et 1=VRAI
#### - Combien avons-nous d'observations?
#### - Afficher une description des données. 
#### - Afficher les informations sur le jeu de données
#### - Manque-t-il des données? Oui, Il manque certaines données. En effet, certains pokémons ne possèdent pas de second type car ils sont spécialisés dans un seul de leur type. 

### Recherche des features manquantes

####  - Chercher le Pokemon dont le nom est manquant
####  - Comment traiter les observations manquantes? Le nom manquant n'est pas important car c'est le numéro de pokédex que l'on utilise dans le fichier "combat.csv". En revanche, pour les pokémons avec un seul type, cela peut influer lors de l'entraînement des données.  

In [2]:


#Affichage des 10 premières lignes.
df = pd.read_csv(os.path.join(path,"pokedex.csv"),sep=";")
print(df.head(10))


   NUMERO               NOM TYPE_1  TYPE_2  POINTS_DE_VIE  POINTS_ATTAQUE  \
0       1        Bulbizarre  Herbe  Poison             45              49   
1       2        Herbizarre  Herbe  Poison             60              62   
2       3        Florizarre  Herbe  Poison             80              82   
3       4   Mega Florizarre  Herbe  Poison             80             100   
4       5         Salamèche    Feu     NaN             39              52   
5       6         Reptincel    Feu     NaN             58              64   
6       7         Dracaufeu    Feu     Vol             78              84   
7       8  Mega Dracaufeu X    Feu  Dragon             78             130   
8       9  Mega Dracaufeu Y    Feu     Vol             78             104   
9      10          Carapuce    Eau     NaN             44              48   

   POINTS_DEFFENCE  POINTS_ATTAQUE_SPECIALE  POINT_DEFENSE_SPECIALE  \
0               49                       65                      65   
1         

In [3]:
#Le nombre de feature sera le nombre de colonnes 
print("Il y a "+str(len(df.axes[1]))+" features.")

Il y a 12 features.


Les features sont : <br/>
- Le nom
- le numéro de pokédex
- le type du pokémon principal
- Un second type de pokémon facultatif
- Un nombre de points de vie
- Un nombre de points d'attaque
- Un nombre de points de defense
- Un nombre de points d'attaque spéciale
- Un nombre de points de defense spéciale
- Un nombre de points de vitesse. 
- Le numéro de la génération du pokémon
- Une catégorie pour détecter si c'est un pokémon légendaire

In [4]:
#On récupère le nom de chaque features de catégorisation. 
tabFeatures=df.columns.to_numpy()
#On recupere la première ligne du pokédex pour avoir le type de variable
premiereLigne=df.head(1).to_numpy()
#Creation du tableau avec le type de variables. 
tabvar=[]
for i in range(0,12):
  tabvar.append(type(premiereLigne[0][i]))
tabvar=np.array(tabvar)
#On met le tableau tabFeatures et tabvar ensemble pour obtenir le tableau voulu. 
tabTypeVariables=np.array([tabFeatures,tabvar])
#On affiche le tableau
for i in range(0,12):
  print("Le type de "+str(tabTypeVariables[0][i])+" est : "+str(tabTypeVariables[1][i]))
print(tabTypeVariables)

Le type de NUMERO est : <class 'int'>
Le type de NOM est : <class 'str'>
Le type de TYPE_1 est : <class 'str'>
Le type de TYPE_2 est : <class 'str'>
Le type de POINTS_DE_VIE est : <class 'int'>
Le type de POINTS_ATTAQUE est : <class 'int'>
Le type de POINTS_DEFFENCE est : <class 'int'>
Le type de POINTS_ATTAQUE_SPECIALE est : <class 'int'>
Le type de POINT_DEFENSE_SPECIALE est : <class 'int'>
Le type de POINTS_VITESSE est : <class 'int'>
Le type de NOMBRE_GENERATIONS est : <class 'int'>
Le type de LEGENDAIRE est : <class 'int'>
[['NUMERO' 'NOM' 'TYPE_1' 'TYPE_2' 'POINTS_DE_VIE' 'POINTS_ATTAQUE'
  'POINTS_DEFFENCE' 'POINTS_ATTAQUE_SPECIALE' 'POINT_DEFENSE_SPECIALE'
  'POINTS_VITESSE' 'NOMBRE_GENERATIONS' 'LEGENDAIRE']
 [<class 'int'> <class 'str'> <class 'str'> <class 'str'> <class 'int'>
  <class 'int'> <class 'int'> <class 'int'> <class 'int'> <class 'int'>
  <class 'int'> <class 'int'>]]


In [5]:
#On transforme le fichier csv
df = pd.read_csv(os.path.join(path,"pokedex.csv"), sep=";")
df['LEGENDAIRE']=df["LEGENDAIRE"].replace("FAUX", 0)
df['LEGENDAIRE']=df["LEGENDAIRE"].replace("VRAI", 1)
df.to_csv(os.path.join(path,"pokedex.csv"),sep=";",index=False)

print(df.head(10))

   NUMERO               NOM TYPE_1  TYPE_2  POINTS_DE_VIE  POINTS_ATTAQUE  \
0       1        Bulbizarre  Herbe  Poison             45              49   
1       2        Herbizarre  Herbe  Poison             60              62   
2       3        Florizarre  Herbe  Poison             80              82   
3       4   Mega Florizarre  Herbe  Poison             80             100   
4       5         Salamèche    Feu     NaN             39              52   
5       6         Reptincel    Feu     NaN             58              64   
6       7         Dracaufeu    Feu     Vol             78              84   
7       8  Mega Dracaufeu X    Feu  Dragon             78             130   
8       9  Mega Dracaufeu Y    Feu     Vol             78             104   
9      10          Carapuce    Eau     NaN             44              48   

   POINTS_DEFFENCE  POINTS_ATTAQUE_SPECIALE  POINT_DEFENSE_SPECIALE  \
0               49                       65                      65   
1         

In [6]:
#Afficher le nombre d'observations
print("Il y a "+str(len(df.axes[0]))+" observations.")

Il y a 800 observations.


In [7]:
#Description du jeu de données
display(df.describe())

Unnamed: 0,NUMERO,POINTS_DE_VIE,POINTS_ATTAQUE,POINTS_DEFFENCE,POINTS_ATTAQUE_SPECIALE,POINT_DEFENSE_SPECIALE,POINTS_VITESSE,NOMBRE_GENERATIONS,LEGENDAIRE
count,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0
mean,400.5,69.25875,79.00125,73.8425,72.82,71.9025,68.2775,3.32375,0.08125
std,231.0844,25.534669,32.457366,31.183501,32.722294,27.828916,29.060474,1.66129,0.27339
min,1.0,1.0,5.0,5.0,10.0,20.0,5.0,1.0,0.0
25%,200.75,50.0,55.0,50.0,49.75,50.0,45.0,2.0,0.0
50%,400.5,65.0,75.0,70.0,65.0,70.0,65.0,3.0,0.0
75%,600.25,80.0,100.0,90.0,95.0,90.0,90.0,5.0,0.0
max,800.0,255.0,190.0,230.0,194.0,230.0,180.0,6.0,1.0


In [8]:
#Afficher les infos du jeu de données
display(df.info)

<bound method DataFrame.info of      NUMERO              NOM TYPE_1   TYPE_2  POINTS_DE_VIE  POINTS_ATTAQUE  \
0         1       Bulbizarre  Herbe   Poison             45              49   
1         2       Herbizarre  Herbe   Poison             60              62   
2         3       Florizarre  Herbe   Poison             80              82   
3         4  Mega Florizarre  Herbe   Poison             80             100   
4         5        Salamèche    Feu      NaN             39              52   
..      ...              ...    ...      ...            ...             ...   
795     796          Diancie  Roche      Fée             50             100   
796     797     Mega Diancie  Roche      Fée             50             160   
797     798    Hoopa confiné    Psy  Spectre             80             110   
798     799    Hoopa non lié    Psy   Obscur             80             160   
799     800        Volcanion    Feu      Eau             80             110   

     POINTS_DEFFENC

In [9]:
#Chercher le pokémon dont le nom manque
for i in range(0,800):
  if df["NOM"].isnull()[i]:
    print("Le pokémon numéro "+str(i+1)+" n'a pas de nom.")

Le pokémon numéro 63 n'a pas de nom.


# Partie 2

##  Observations des combats

#### - Refaire les étapes précédentes pour analyser les observation sur les combats (fichier `combats.csv`) :

- Chargement du fichier
- Affichage des features
- Affichage des dix premières observations
- Classement des features: donnée catégorielle, numérique continue ou numérique discrète
- 10 premières lignes, Comptage du nombre d'observations, affichage des informations  et recherche d'éventuelles données absentes

#### - Discuter les résultats de l'analyse


#### - Calucler le nombre de combats menés par chaque Pokémon
Lors d'un combat, un Pokémon peut être utilisé en première position ou en seconde position.

#### - Calucler le nombre de combats gagnés par chaque Pokémon 

#### - Faire l'assemblage des observations

#### - Quel est le Pockémon qui a gagné le plus de combats? 

#### - Existe-t-il des Pokémons n'ayant jamais gagné?





In [10]:
#Recuperer le df du pokedex
df_pokedex=pd.read_csv(os.path.join(path,"pokedex.csv"),sep=";")
#Affichage des 10 premières lignes.
df = pd.read_csv(os.path.join(path,"combats.csv"),sep=",")
print(df.head(10))
#Le nombre de feature sera le nombre de colonnes 
print("Il y a "+str(len(df.columns))+" features.")
#On récupère le nom de chaque features de catégorisation. 
tabFeatures=df.columns.to_numpy()
#On recupere la première ligne du pokédex pour avoir le type de variable
premiereLigne=df.head(1).to_numpy()
#Creation du tableau avec le type de variables. 
tabvar=[]
for i in range(0,3):
  tabvar.append(type(premiereLigne[0][i]))
tabvar=np.array(tabvar)
#On met le tableau tabFeatures et tabvar ensemble pour obtenir le tableau voulu. 
tabTypeVariables=np.array([tabFeatures,tabvar])
#On affiche le tableau
for i in range(0,3):
  print("Le type de "+str(tabTypeVariables[0][i])+" est : "+str(tabTypeVariables[1][i]))
print(tabTypeVariables)
#Afficher le nombre d'observations
print("Il y a "+str(len(df.axes[0]))+" observations.")
#Description du jeu de données
display(df.describe())
#Afficher les infos du jeu de données
display(df.info)

   First_pokemon  Second_pokemon  Winner
0            266             298     298
1            702             701     701
2            191             668     668
3            237             683     683
4            151             231     151
5            657             752     657
6            192             134     134
7             73             545     545
8            220             763     763
9            302              31      31
Il y a 3 features.
Le type de First_pokemon est : <class 'numpy.int64'>
Le type de Second_pokemon est : <class 'numpy.int64'>
Le type de Winner est : <class 'numpy.int64'>
[['First_pokemon' 'Second_pokemon' 'Winner']
 [<class 'numpy.int64'> <class 'numpy.int64'> <class 'numpy.int64'>]]
Il y a 50000 observations.


Unnamed: 0,First_pokemon,Second_pokemon,Winner
count,50000.0,50000.0,50000.0
mean,400.49564,403.15966,408.8901
std,229.549429,230.083644,231.159961
min,1.0,1.0,1.0
25%,203.0,207.0,206.0
50%,399.0,402.0,422.0
75%,597.25,602.0,606.0
max,800.0,800.0,800.0


<bound method DataFrame.info of        First_pokemon  Second_pokemon  Winner
0                266             298     298
1                702             701     701
2                191             668     668
3                237             683     683
4                151             231     151
...              ...             ...     ...
49995            707             126     707
49996            589             664     589
49997            303             368     368
49998            109              89     109
49999              9              73       9

[50000 rows x 3 columns]>

In [11]:
#Chercher un combat sans issue ou un pokemon qui n'a pas d'id
#On cherche aussi si le pokémon sans nom est présent dans la liste des combats.
nb_absent=0 
for i in range(0,50000):
  if (df["Winner"].isnull()[i]):
    print("Il manque la valeur du vainqueur pour le combat : "+str(i))
  if (df["First_pokemon"].isnull()[i]):
    print("Il manque la valeur du premier pokémon pour le combat : "+str(i))
  if (df["Second_pokemon"].isnull()[i]):
    print("Il manque la valeur du deuxième pokémon pour le combat : "+str(i))
  if (df["First_pokemon"][i]==63) or (df["Second_pokemon"][i]==63):
    nb_absent+=1
print("Le pokémon sans nom apparaît dans "+str(nb_absent)+" combats.")

Le pokémon sans nom apparaît dans 108 combats.


In [12]:
#Calcul du nombre de combats pour chaque pokemon
#On sait qu'il y a 800 pokémons. 
for i in range(0,800):
    df_mask1=df["First_pokemon"]==i+1
    df_mask2=df["Second_pokemon"]==i+1
    filtered_df=df[df_mask1]
    filtered_df2=df[df_mask2]
    #Retrouver le nom dans le premier fichier pokedex
    infos_pokemon=df_pokedex.iloc[i]
    print(str(infos_pokemon["NOM"])+" a réalisé "+str(len(filtered_df.axes[0])+len(filtered_df2.axes[0]))+" combats.")

Bulbizarre a réalisé 133 combats.
Herbizarre a réalisé 121 combats.
Florizarre a réalisé 132 combats.
Mega Florizarre a réalisé 125 combats.
Salamèche a réalisé 112 combats.
Reptincel a réalisé 118 combats.
Dracaufeu a réalisé 133 combats.
Mega Dracaufeu X a réalisé 139 combats.
Mega Dracaufeu Y a réalisé 135 combats.
Carapuce a réalisé 117 combats.
Carabaffe a réalisé 141 combats.
Tortank a réalisé 0 combats.
Mega Tortank a réalisé 144 combats.
Chenipan a réalisé 115 combats.
Chrysacier a réalisé 133 combats.
Papilusion a réalisé 120 combats.
Aspicot a réalisé 111 combats.
Coconfort a réalisé 130 combats.
Dardargnan a réalisé 128 combats.
Mega Dardagnan a réalisé 119 combats.
Roucool a réalisé 126 combats.
Roucoups a réalisé 121 combats.
Roucarnage a réalisé 130 combats.
Mega Roucarnage a réalisé 126 combats.
Rattata a réalisé 135 combats.
Rattatac a réalisé 140 combats.
Piafabec a réalisé 138 combats.
Rapasdepic a réalisé 123 combats.
Abo a réalisé 131 combats.
Arbok a réalisé 125 co

In [13]:
#Affichage du nombre de combats gagnés par pokémon. 
for i in range(800):
    df_mask1=df["Winner"]==i+1
    filtered_df=df[df_mask1]
    #Retrouver le nom dans le premier fichier pokedex
    infos_pokemon=df_pokedex.iloc[i]
    print(str(infos_pokemon["NOM"])+" a gagné "+str(len(filtered_df.axes[0]))+" combats.")

Bulbizarre a gagné 37 combats.
Herbizarre a gagné 46 combats.
Florizarre a gagné 89 combats.
Mega Florizarre a gagné 70 combats.
Salamèche a gagné 55 combats.
Reptincel a gagné 64 combats.
Dracaufeu a gagné 115 combats.
Mega Dracaufeu X a gagné 119 combats.
Mega Dracaufeu Y a gagné 114 combats.
Carapuce a gagné 19 combats.
Carabaffe a gagné 59 combats.
Tortank a gagné 0 combats.
Mega Tortank a gagné 83 combats.
Chenipan a gagné 17 combats.
Chrysacier a gagné 13 combats.
Papilusion a gagné 75 combats.
Aspicot a gagné 26 combats.
Coconfort a gagné 17 combats.
Dardargnan a gagné 80 combats.
Mega Dardagnan a gagné 115 combats.
Roucool a gagné 47 combats.
Roucoups a gagné 64 combats.
Roucarnage a gagné 112 combats.
Mega Roucarnage a gagné 119 combats.
Rattata a gagné 65 combats.
Rattatac a gagné 101 combats.
Piafabec a gagné 62 combats.
Rapasdepic a gagné 103 combats.
Abo a gagné 48 combats.
Arbok a gagné 72 combats.
Pikachu a gagné 93 combats.
Raichu a gagné 105 combats.
Sabelette a gagné 

In [14]:
#Creation of a list with the summary of all the fight and the pokemon. 
name=[]
number=[]
win=[]
for i in range(800):
    df_maskW=df["Winner"]==i+1
    df_mask1=df["First_pokemon"]==i+1
    df_mask2=df["Second_pokemon"]==i+1
    #Retrouver le nom dans le premier fichier pokedex
    infos_pokemon=df_pokedex.iloc[i]
    name.append(infos_pokemon["NOM"])
    number.append(len(df[df_mask1].axes[0])+len(df[df_mask2].axes[0]))
    win.append(len(df[df_maskW].axes[0]))
summary_pokedex=np.array([name,number,win])
print(summary_pokedex)


[['Bulbizarre' 'Herbizarre' 'Florizarre' ... 'Hoopa confiné'
  'Hoopa non lié' 'Volcanion']
 ['133' '121' '132' ... '119' '144' '121']
 ['37' '46' '89' ... '60' '89' '75']]


# Partie 3

## Agrégation des données avec le Pokédex

Cette agrégation va nous permettre d'avoir une vue centralisée des données et de permettre une analyse plus approfondie.

#### - Créer une liste comportant :
- Les numéros des Pokémons
- Le nombre de combats menés
- Le nombre de combats gagnés
- Le pourcentage de victoires par rapport au nombre de combats menés

#### - Créer un nouveau Pokedex comportant les noms de Pokemons et leur victoire


In [15]:
#Add to the list the purcentage of victory for each pokemon
id=[]
pourcentage=[]
for i in range(800):
    id.append(i+1)
    if float(summary_pokedex[1][i])!=0:
        pourcentage.append(float(summary_pokedex[2][i])/float(summary_pokedex[1][i])*100)
    else:
        pourcentage.append(-1)

In [16]:
summary_pokedex=np.array([id,name,number,win,pourcentage])
print(summary_pokedex)

[['1' '2' '3' ... '798' '799' '800']
 ['Bulbizarre' 'Herbizarre' 'Florizarre' ... 'Hoopa confiné'
  'Hoopa non lié' 'Volcanion']
 ['133' '121' '132' ... '119' '144' '121']
 ['37' '46' '89' ... '60' '89' '75']
 ['27.819548872180448' '38.01652892561984' '67.42424242424242' ...
  '50.42016806722689' '61.80555555555556' '61.98347107438017']]


In [17]:
#Creation of a dictionnary with all the data we need 
data={
    'NUMERO':summary_pokedex[0],
    'NOM':summary_pokedex[1],
    'NOMBRE_COMBAT':summary_pokedex[2],
    'NOMBRE_VICTOIRES':summary_pokedex[3],
    'POURCENTAGE_VICTOIRE':summary_pokedex[4]
}
pokedex_combat=pd.DataFrame(data)
print(pokedex_combat)

    NUMERO              NOM NOMBRE_COMBAT NOMBRE_VICTOIRES  \
0        1       Bulbizarre           133               37   
1        2       Herbizarre           121               46   
2        3       Florizarre           132               89   
3        4  Mega Florizarre           125               70   
4        5        Salamèche           112               55   
..     ...              ...           ...              ...   
795    796          Diancie           105               39   
796    797     Mega Diancie           131              116   
797    798    Hoopa confiné           119               60   
798    799    Hoopa non lié           144               89   
799    800        Volcanion           121               75   

    POURCENTAGE_VICTOIRE  
0     27.819548872180448  
1      38.01652892561984  
2      67.42424242424242  
3      56.00000000000001  
4     49.107142857142854  
..                   ...  
795   37.142857142857146  
796    88.54961832061069  
797    50.42

In [18]:
#Save the pokedex in a .csv file
pokedex_combat.to_csv("data/new_pokedex.csv")