
# TP Pokemon première partie

## Modules necessaires

* PANDAS 0.24.2  => Permet la manipulation et l'analyse de données
* NUMPY 1.16.3   => Permet la manipulation de tableaux et matrices

Dans ce TP, nous allons découvrir à travers un cas pratique les premières étapes pour mener à bien un projet de Machine Learning. Cet exemple permet d'aborder un large panel de techniques propres au Machine Learning et à l'analyse de données.

## L'univers des Pokémons

Un Pokémon est un animal issu du monde des jeux vidéo. Chaque Pokémon possède des caractéristiques qui lui sont propres, à savoir son type (Pokémon d'herbe, Pokémon de feu ... ) lui donnant alors des facultés spéciales. Ainsi, le Pokémon nommé `Dracofeu`, de type `Feu` est capable de cracher du feu. De plus, on note l'existence de Pokémons légendaires très rares et très puissants (Pokémon diamant, Pokémon platine...).

Les Pokémons sont également de différentes générations faisant référence à l'évolution de l'univers des Pokémons. Les Pokémons de première génération sont ceux ayant pris naissance au tout début de la création de l'univers (création de 151 Pokémons) pour arriver à la huitième génération avec plus de 800 Pokémons (2020)!

Dans cet univers viennent ensuite les dresseurs de Pokémons. Les dresseurs les collectionnent et les élèvent dans le but de les faire combattre entre eux jusqu'au KO. Lors d'un combat de Pokémons, opposant deux dresseurs, l'un choisit l'animal qui sera le premier à entrer dans l'arène. En fonction de ce premier Pokémon, le second dresseur choisit un animal dans sa collection qui sera en mesure de battre le premier Pokémon. Si le premier Pokémon présent dans l'arène est de type feu, il y a de fortes chances que le Pokémon choisi par l'adversaire soit de type eau afin de contrer les attaques du premier.

Cela nécessite pour le dresseur d'avoir une bonne connaissance de chaque Pokémon pour choisir celui qui pourra devenir vainqueur du combat. Pour l'aider dans son choix, les caractéristiques des Pokémons sont répertoriées dans un document appelé Pokédex.

# Mission : choisir le bon Pokémon!

En tant que dresseurs de Pokémon du 21e siècle, on vous demande de faire appel au Machine Learning pour faire le bon choix de Pokémon et ainsi gagner nos combats. Pour cela, vous pouvez vous appuyer sur des données en provenance du Pokédex, mais aussi sur des données issues des différents combats afin de trouver le bon modèle de prédiction qui pourra alors nous assurer une victoire lors de chaque bataille!


# Des données pour un apprentissage supervisé

## Des données basées sur l'expérience

Le Machine Learning est basé sur l'utilisation de données afin de permettre à notre ordinateur d'apprendre et de pouvoir réaliser des prédictions. Ces données doivent être en relation avec la mission qui nous est confiée et basée sur l'expérience. Dans notre cas, l'expérience consiste à connaître les issues de combats de Pokémons.


## Disposer d'un grand nombre de données d'apprentissage

Une machine n'est pas capable d'apprendre sur un petit jeu de données, car elle doit pouvoir étudier toutes les possibilités pour réaliser ses prédictions. Par conséquent, plus le nombre de cas d'études pour résoudre un problème est important, plus les prédictions seront précises.

## Des données d'apprentissage et des données de tests

Tout comme l'être humain, il est nécessaire de valider l'apprentissage de la machine afin de pouvoir corriger les écarts d'apprentissage (appelés biais) et ajuster ou modifier le modèle d'apprentissage. Pour cela, nous avons besoin de données d'apprentissage et de données de tests.

# Les étapes à réaliser pour mener à bien un projet de Machine Learning

Mener à bien un projet de Machine Learning consiste à réaliser six étapes consécutives :

1. Définition du problème à résoudre
2. Acquisition des données d'apprentissages et de tests
3. Préparer et nettoyer les données
4. Analyser, explorer les données
5. Choisir un modèle d'apprentissage
6. Visualiser les résultats, et ajuster ou modifier le modèle d'apprentissage

La phase de préparation des données est la plus importante dans un projet de Machine Learning, car en tant qu'humains, nous devons essayer de trouver les données les plus intéressantes qui nous permettront de répondre au problème donné.

Bien plus qu'une simple analyse des données, il faut déterminer comment il nous est possible de résoudre manuellement le problème, à partir des informations dont nous disposons, avant de le confier à la machine.
Ainsi, un même jeu de données peut être exploité différemment en fonction du problème donné.


# Étape 1 : définir le problème à résoudre

- Donner une défintion du problème à résoudre.

**Reponse:** 

Le probleme est : en partant d'un Pokemon adversaire, qui est le Pokemon que je possede qui a la plus grande chance de ganger?

# Étape 2: acquérir des données d'apprentissage et de tests

- Importer les librairies `OS` et `pandas`

- Télécharger et copier les fichiers comportant les données nécessaires à la résolution du problème : 
    1. Le fichier Pokedex.csv contient la liste des Pokémons et leurs caractéristiques. 
    2. Le fichier Combats.csv est la base de connaissance et d'apprentissage, car il contient une liste de combats de Pokémons et le résultat de chacun d'entre eux. 
    3. Enfin, le fichier tests.csv permettra de valider le modèle d'apprentissage.

- Affichier la liste des fichiers dans le repértoire du projet


**Reponse**

In [1]:
import pandas as pd
import os

In [2]:
# affichant la liste des fichiers
curDir = os.getcwd()
print(curDir)
os.listdir(curDir)

d:\Study\3CS\DL\TPS\Pokemon


['combats.csv',
 'pokedex.csv',
 'tests.csv',
 'TP_1-2_Pokemon_seconde_partie_analyse.ipynb',
 'TP_1-3_Pokemon_seconde_partie_apprentissage.ipynb',
 'TP_1-4_Pokemon_quiSeraLeVainqueur.ipynb',
 'TP_1_Pokemon_partie_I.ipynb']

# Étape 3 : préparation des données

Dans cette troisième étape, l'objectif est de réaliser une lecture approfondie des données afin de comprendre leur rôle et les impacts qu'elles peuvent avoir dans notre objectif de prédiction. C'est une sorte de résolution manuelle du problème en formulant des hypothèses et en essayant de sélectionner les données qui répondront à celles-ci.

L'étude des données passe notamment par leur description (nom, type...), ainsi que par divers processus de traitement tels que le nettoyage (suppression des données inutiles, recherche des données manquantes) et enfin la combinaison entre elles, aussi appelée agrégation, dans le but de disposer d'un jeu de connaissances (observations) utilisables et appropriées à l'apprentissage et à l'atteinte de notre objectif.

## De quelles données disposons-nous?

#### - Quelle est la structure des données? 
#### - Afficher les 10 premières lignes
#### - Quelles sont les features de catégorisation?
#### - Est-ce qu'il existe des données de cétégorisation ordinale? 
#### - Préciser dans un tableau le type des données. 
#### - Quel est l'intérêt de connaitre les features de catégorisation?
#### - Quelles données sont de type numérique (Préciser discrètes ou continues)? 
#### - Pourquoi il est important de les connaitre?
#### - Que faut-il penser de la feature LEGENDAIRE?
#### - Transformer la feature $Legendaire$ en entier 0= FAUX et 1=VRAI
#### - Combien avons-nous d'observations?
#### - Afficher une description des données.
#### - Afficher les informations le jeu de données
#### - Manque-t-il des données? Si oui, discuter. 

### Recherche des features manquantes

####  - Chercher le Pokemon dont le nom est manquant
####  - Comment traiter les observations manquantes? 

**Reponse :**


1-La structure de données

In [3]:
df_pokedex = pd.read_csv('./pokedex.csv', sep=';')
df_pokedex.head()

Unnamed: 0,NUMERO,NOM,TYPE_1,TYPE_2,POINTS_DE_VIE,POINTS_ATTAQUE,POINTS_DEFFENCE,POINTS_ATTAQUE_SPECIALE,POINT_DEFENSE_SPECIALE,POINTS_VITESSE,NOMBRE_GENERATIONS,LEGENDAIRE
0,1,Bulbizarre,Herbe,Poison,45,49,49,65,65,45,1,FAUX
1,2,Herbizarre,Herbe,Poison,60,62,63,80,80,60,1,FAUX
2,3,Florizarre,Herbe,Poison,80,82,83,100,100,80,1,FAUX
3,4,Mega Florizarre,Herbe,Poison,80,100,123,122,120,80,1,FAUX
4,5,Salamèche,Feu,,39,52,43,60,50,65,1,FAUX


Les données sont au format tabulaire, où les lignes représentent les individus (Pokémons) et les colonnes représentent les caractéristiques.

2-Affichage des 10 premireres lignes

In [4]:
df_pokedex.head(10)

Unnamed: 0,NUMERO,NOM,TYPE_1,TYPE_2,POINTS_DE_VIE,POINTS_ATTAQUE,POINTS_DEFFENCE,POINTS_ATTAQUE_SPECIALE,POINT_DEFENSE_SPECIALE,POINTS_VITESSE,NOMBRE_GENERATIONS,LEGENDAIRE
0,1,Bulbizarre,Herbe,Poison,45,49,49,65,65,45,1,FAUX
1,2,Herbizarre,Herbe,Poison,60,62,63,80,80,60,1,FAUX
2,3,Florizarre,Herbe,Poison,80,82,83,100,100,80,1,FAUX
3,4,Mega Florizarre,Herbe,Poison,80,100,123,122,120,80,1,FAUX
4,5,Salamèche,Feu,,39,52,43,60,50,65,1,FAUX
5,6,Reptincel,Feu,,58,64,58,80,65,80,1,FAUX
6,7,Dracaufeu,Feu,Vol,78,84,78,109,85,100,1,FAUX
7,8,Mega Dracaufeu X,Feu,Dragon,78,130,111,130,85,100,1,FAUX
8,9,Mega Dracaufeu Y,Feu,Vol,78,104,78,159,115,100,1,FAUX
9,10,Carapuce,Eau,,44,48,65,50,64,43,1,FAUX


3- Les Features

In [5]:
pokedex_features = df_pokedex.columns
print(pokedex_features)

Index(['NUMERO', 'NOM', 'TYPE_1', 'TYPE_2', 'POINTS_DE_VIE', 'POINTS_ATTAQUE',
       'POINTS_DEFFENCE', 'POINTS_ATTAQUE_SPECIALE', 'POINT_DEFENSE_SPECIALE',
       'POINTS_VITESSE', 'NOMBRE_GENERATIONS', 'LEGENDAIRE'],
      dtype='object')


4- Est-ce qu'il existe des données de cétégorisation ordinale?

 => oui ça existe comme : POINTS_DE_VIE , POINTS_ATTAQUE

5-Préciser dans un tableau le type des données. 

In [6]:
pokedex_dtypes = df_pokedex.dtypes
print(pokedex_dtypes)

NUMERO                      int64
NOM                        object
TYPE_1                     object
TYPE_2                     object
POINTS_DE_VIE               int64
POINTS_ATTAQUE              int64
POINTS_DEFFENCE             int64
POINTS_ATTAQUE_SPECIALE     int64
POINT_DEFENSE_SPECIALE      int64
POINTS_VITESSE              int64
NOMBRE_GENERATIONS          int64
LEGENDAIRE                 object
dtype: object


6-Quel est l'intérêt de connaitre les features de catégorisation?

l'interet de connaitre les features est d'avoir une idée sur les données que l'on a et de savoir quelles sont les données que l'on peut utiliser pour faire des analyses et des prédictions 

7-Quelles données sont de type numérique (Préciser discrètes ou continues)? 

In [7]:
# numerical data
pokedex_num = df_pokedex.select_dtypes(include=['number'])
pokedex_num_features = pokedex_num.columns
print(pokedex_num_features)

Index(['NUMERO', 'POINTS_DE_VIE', 'POINTS_ATTAQUE', 'POINTS_DEFFENCE',
       'POINTS_ATTAQUE_SPECIALE', 'POINT_DEFENSE_SPECIALE', 'POINTS_VITESSE',
       'NOMBRE_GENERATIONS'],
      dtype='object')


In [8]:
pokedex_num.head()

Unnamed: 0,NUMERO,POINTS_DE_VIE,POINTS_ATTAQUE,POINTS_DEFFENCE,POINTS_ATTAQUE_SPECIALE,POINT_DEFENSE_SPECIALE,POINTS_VITESSE,NOMBRE_GENERATIONS
0,1,45,49,49,65,65,45,1
1,2,60,62,63,80,80,60,1
2,3,80,82,83,100,100,80,1
3,4,80,100,123,122,120,80,1
4,5,39,52,43,60,50,65,1


tous sont continue apart le numero et le nombre de genereation (si on considere un point appartient à R)

8-Pourquoi il est important de les connaitre?

Pour determiner les techniques applicable sur ses types de donnés en cas de missing values par exemple .

9-Que faut-il penser de la feature LEGENDAIRE?

In [9]:
pokedex_legendary = df_pokedex.LEGENDAIRE
pokedex_legendary.head()

0    FAUX
1    FAUX
2    FAUX
3    FAUX
4    FAUX
Name: LEGENDAIRE, dtype: object

In [10]:
pokedex_legendary.value_counts()

LEGENDAIRE
FAUX    735
VRAI     65
Name: count, dtype: int64

- On peut l'encoder en 0 ou 1.
- Elle est déséquilibrée avec 735 faux et seulement 65 vrais.

10-Transformer la feature $Legendaire$ en entier 0= FAUX et 1=VRAI

In [11]:
df_pokedex['LEGENDAIRE'] =  (df_pokedex['LEGENDAIRE'] == 'VRAI').astype(int)
df_pokedex['LEGENDAIRE'].head()

0    0
1    0
2    0
3    0
4    0
Name: LEGENDAIRE, dtype: int32

11-Combien avons-nous d'observations?

In [12]:
nb_observation = df_pokedex.shape[0]
print(nb_observation)

800


12-Afficher une description des données.

In [13]:
df_pokedex.describe()

Unnamed: 0,NUMERO,POINTS_DE_VIE,POINTS_ATTAQUE,POINTS_DEFFENCE,POINTS_ATTAQUE_SPECIALE,POINT_DEFENSE_SPECIALE,POINTS_VITESSE,NOMBRE_GENERATIONS,LEGENDAIRE
count,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0
mean,400.5,69.25875,79.00125,73.8425,72.82,71.9025,68.2775,3.32375,0.08125
std,231.0844,25.534669,32.457366,31.183501,32.722294,27.828916,29.060474,1.66129,0.27339
min,1.0,1.0,5.0,5.0,10.0,20.0,5.0,1.0,0.0
25%,200.75,50.0,55.0,50.0,49.75,50.0,45.0,2.0,0.0
50%,400.5,65.0,75.0,70.0,65.0,70.0,65.0,3.0,0.0
75%,600.25,80.0,100.0,90.0,95.0,90.0,90.0,5.0,0.0
max,800.0,255.0,190.0,230.0,194.0,230.0,180.0,6.0,1.0


13-Afficher les informations le jeu de données

In [15]:
df_pokedex.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 12 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   NUMERO                   800 non-null    int64 
 1   NOM                      799 non-null    object
 2   TYPE_1                   800 non-null    object
 3   TYPE_2                   413 non-null    object
 4   POINTS_DE_VIE            800 non-null    int64 
 5   POINTS_ATTAQUE           800 non-null    int64 
 6   POINTS_DEFFENCE          800 non-null    int64 
 7   POINTS_ATTAQUE_SPECIALE  800 non-null    int64 
 8   POINT_DEFENSE_SPECIALE   800 non-null    int64 
 9   POINTS_VITESSE           800 non-null    int64 
 10  NOMBRE_GENERATIONS       800 non-null    int64 
 11  LEGENDAIRE               800 non-null    int32 
dtypes: int32(1), int64(8), object(3)
memory usage: 72.0+ KB


14-Manque-t-il des données? Si oui, discuter. 

Oui on des données manquantes, presque la moitié de la feature TYPE_2

In [16]:
df_pokedex.TYPE_2.value_counts()

TYPE_2
Vol           97
Sol           35
Poison        34
Psy           33
Combat        26
Herbe         25
Fée           23
Acier         22
Obscur        20
Dragon        18
Eau           14
Glace         14
Roche         14
Spectre       13
Feu           12
Electrique     6
Normal         4
Insecte        3
Name: count, dtype: int64

15-Chercher le Pokemon dont le nom est manquant

In [17]:
df_pokedex[df_pokedex["NOM"].isna()]

Unnamed: 0,NUMERO,NOM,TYPE_1,TYPE_2,POINTS_DE_VIE,POINTS_ATTAQUE,POINTS_DEFFENCE,POINTS_ATTAQUE_SPECIALE,POINT_DEFENSE_SPECIALE,POINTS_VITESSE,NOMBRE_GENERATIONS,LEGENDAIRE
62,63,,Combat,,65,105,60,60,70,95,1,0


16-Comment traiter les observations manquantes? 

1-supprimer la colonne ou la ligne
2-Impute avec une constante
3-Impute avec la valeur la plus frequente
4-Imputer on utilisant un model

Comme le nombre des lignes disposant des valeurs manquantes est trés elevé on ne peut les supprimer

# Partie 2

##  Observations des combats

#### - Refaire les étapes précédentes pour analyser les observation sur les combats (fichier `combats.csv`) :

- Chargement du fichier
- Affichage des features
- Affichage des dix premières observations
- Classement des features: donnée catégorielle, numérique continue ou numérique discrète
- 10 premières lignes, Comptage du nombre d'observations, affichage des informations  et recherche d'éventuelles données absentes

#### - Discuter les résultats de l'analyse


#### - Calucler le nombre de combats menés par chaque Pokémon
Lors d'un combat, un Pokémon peut être utilisé en première position ou en seconde position.

#### - Calucler le nombre de combats gagnés par chaque Pokémon 

#### - Faire l'assemblage des observations

#### - Quel est le Pockémon qui a gagné le plus de combats? 

#### - Existe-t-il des Pokémons n'ayant jamais gagné?





**Reposne:**

In [18]:
# chargement du fichier 
df_combats = pd.read_csv('./combats.csv',sep=',')

In [19]:
# affichage des features
df_combats_features = df_combats.columns
print(df_combats_features)

Index(['First_pokemon', 'Second_pokemon', 'Winner'], dtype='object')


In [20]:
# affichage des 10 premières lignes
df_combats.head(10)

Unnamed: 0,First_pokemon,Second_pokemon,Winner
0,266,298,298
1,702,701,701
2,191,668,668
3,237,683,683
4,151,231,151
5,657,752,657
6,192,134,134
7,73,545,545
8,220,763,763
9,302,31,31


In [21]:
# classement en se base sur le type
df_combats_discrete_features =df_combats[['First_pokemon','Second_pokemon']]
print(df_combats_discrete_features)
df_combats_categorical_features = df_combats[['Winner']]
print(df_combats_categorical_features)

       First_pokemon  Second_pokemon
0                266             298
1                702             701
2                191             668
3                237             683
4                151             231
...              ...             ...
49995            707             126
49996            589             664
49997            303             368
49998            109              89
49999              9              73

[50000 rows x 2 columns]
       Winner
0         298
1         701
2         668
3         683
4         151
...       ...
49995     707
49996     589
49997     368
49998     109
49999       9

[50000 rows x 1 columns]


In [22]:
df_combats.describe()

Unnamed: 0,First_pokemon,Second_pokemon,Winner
count,50000.0,50000.0,50000.0
mean,400.49564,403.15966,408.8901
std,229.549429,230.083644,231.159961
min,1.0,1.0,1.0
25%,203.0,207.0,206.0
50%,399.0,402.0,422.0
75%,597.25,602.0,606.0
max,800.0,800.0,800.0


In [23]:
df_combats.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype
---  ------          --------------  -----
 0   First_pokemon   50000 non-null  int64
 1   Second_pokemon  50000 non-null  int64
 2   Winner          50000 non-null  int64
dtypes: int64(3)
memory usage: 1.1 MB


In [24]:
df_combats.isna().sum()

First_pokemon     0
Second_pokemon    0
Winner            0
dtype: int64

Aucune valeur manquants

In [30]:
# calcule le nombre de combat par chaque pokemon
nb_combat_per_poke = pd.concat([df_combats['First_pokemon'], df_combats['Second_pokemon']]).value_counts().reset_index()
nb_combat_per_poke.columns=['pokemon','nb_combats']
nb_combat_per_poke

Unnamed: 0,pokemon,nb_combats
0,163,164
1,344,160
2,667,159
3,214,158
4,758,158
...,...,...
779,605,99
780,122,98
781,263,97
782,112,95


In [58]:
# nombre de combat gangne par chaque pokemon
nb_won_combats_per_poke= df_combats['Winner'].value_counts().reset_index()
nb_won_combats_per_poke.columns=['pokemon','nb_wins']

print(nb_won_combats_per_poke)

     pokemon  nb_wins
0        163      152
1        438      136
2        154      136
3        428      134
4        314      133
..       ...      ...
778      577        5
779      237        4
780      639        4
781      290        3
782      190        3

[783 rows x 2 columns]


In [59]:
# l'assemblage des observation
assembled = nb_won_combats_per_poke.set_index('pokemon').join(nb_combat_per_poke.set_index('pokemon'))
assembled

Unnamed: 0_level_0,nb_wins,nb_combats
pokemon,Unnamed: 1_level_1,Unnamed: 2_level_1
163,152,164
438,136,149
154,136,141
428,134,153
314,133,150
...,...,...
577,5,128
237,4,123
639,4,129
290,3,138


In [61]:
most_won_pokemon  = assembled['nb_wins'].idxmax()
most_won_pokemon

163

In [63]:
zero_won  = assembled.loc[assembled['nb_wins'] == 0]
zero_won.shape[0]

0

Non il n'existe pas

# Partie 3

## Agrégation des données avec le Pokédex

Cette agrégation va nous permettre d'avoir une vue centralisée des données et de permettre une analyse plus approfondie.

#### - Créer une liste comportant :
- Les numéros des Pokémons
- Le nombre de combats menés
- Le nombre de combats gagnés
- Le pourcentage de victoires par rapport au nombre de combats menés

#### - Créer un nouveau Pokedex comportant les noms de Pokemons et leur victoire


**Reponse**

In [65]:
# creation de la liste
win_ratio = assembled['nb_wins']/assembled['nb_combats']
assembled['win_ratio'] = win_ratio.round(3)

assembled

Unnamed: 0_level_0,nb_wins,nb_combats,win_ratio
pokemon,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
163,152,164,0.927
438,136,149,0.913
154,136,141,0.965
428,134,153,0.876
314,133,150,0.887
...,...,...,...
577,5,128,0.039
237,4,123,0.033
639,4,129,0.031
290,3,138,0.022


In [77]:
# creation du nouveau pokedex

new_pokedex =  df_pokedex.set_index('NUMERO').join(assembled).reset_index()
new_pokedex

Unnamed: 0,NUMERO,NOM,TYPE_1,TYPE_2,POINTS_DE_VIE,POINTS_ATTAQUE,POINTS_DEFFENCE,POINTS_ATTAQUE_SPECIALE,POINT_DEFENSE_SPECIALE,POINTS_VITESSE,NOMBRE_GENERATIONS,LEGENDAIRE,nb_wins,nb_combats,win_ratio
0,1,Bulbizarre,Herbe,Poison,45,49,49,65,65,45,1,0,37.0,133.0,0.278
1,2,Herbizarre,Herbe,Poison,60,62,63,80,80,60,1,0,46.0,121.0,0.380
2,3,Florizarre,Herbe,Poison,80,82,83,100,100,80,1,0,89.0,132.0,0.674
3,4,Mega Florizarre,Herbe,Poison,80,100,123,122,120,80,1,0,70.0,125.0,0.560
4,5,Salamèche,Feu,,39,52,43,60,50,65,1,0,55.0,112.0,0.491
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
795,796,Diancie,Roche,Fée,50,100,150,100,150,50,6,1,39.0,105.0,0.371
796,797,Mega Diancie,Roche,Fée,50,160,110,160,110,110,6,1,116.0,131.0,0.885
797,798,Hoopa confiné,Psy,Spectre,80,110,60,150,130,70,6,1,60.0,119.0,0.504
798,799,Hoopa non lié,Psy,Obscur,80,160,60,170,130,80,6,1,89.0,144.0,0.618


In [70]:
new_pokedex.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 15 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   NUMERO                   800 non-null    int64  
 1   NOM                      799 non-null    object 
 2   TYPE_1                   800 non-null    object 
 3   TYPE_2                   413 non-null    object 
 4   POINTS_DE_VIE            800 non-null    int64  
 5   POINTS_ATTAQUE           800 non-null    int64  
 6   POINTS_DEFFENCE          800 non-null    int64  
 7   POINTS_ATTAQUE_SPECIALE  800 non-null    int64  
 8   POINT_DEFENSE_SPECIALE   800 non-null    int64  
 9   POINTS_VITESSE           800 non-null    int64  
 10  NOMBRE_GENERATIONS       800 non-null    int64  
 11  LEGENDAIRE               800 non-null    int32  
 12  nb_wins                  783 non-null    float64
 13  nb_combats               783 non-null    float64
 14  win_ratio                7

**Remarque** quelques pokemon n'ont pas des combats donc on va remplir par 0

In [78]:
new_pokedex[['nb_combats','nb_wins']]=new_pokedex[['nb_combats','nb_wins']].fillna(0)
new_pokedex

Unnamed: 0,NUMERO,NOM,TYPE_1,TYPE_2,POINTS_DE_VIE,POINTS_ATTAQUE,POINTS_DEFFENCE,POINTS_ATTAQUE_SPECIALE,POINT_DEFENSE_SPECIALE,POINTS_VITESSE,NOMBRE_GENERATIONS,LEGENDAIRE,nb_wins,nb_combats,win_ratio
0,1,Bulbizarre,Herbe,Poison,45,49,49,65,65,45,1,0,37.0,133.0,0.278
1,2,Herbizarre,Herbe,Poison,60,62,63,80,80,60,1,0,46.0,121.0,0.380
2,3,Florizarre,Herbe,Poison,80,82,83,100,100,80,1,0,89.0,132.0,0.674
3,4,Mega Florizarre,Herbe,Poison,80,100,123,122,120,80,1,0,70.0,125.0,0.560
4,5,Salamèche,Feu,,39,52,43,60,50,65,1,0,55.0,112.0,0.491
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
795,796,Diancie,Roche,Fée,50,100,150,100,150,50,6,1,39.0,105.0,0.371
796,797,Mega Diancie,Roche,Fée,50,160,110,160,110,110,6,1,116.0,131.0,0.885
797,798,Hoopa confiné,Psy,Spectre,80,110,60,150,130,70,6,1,60.0,119.0,0.504
798,799,Hoopa non lié,Psy,Obscur,80,160,60,170,130,80,6,1,89.0,144.0,0.618


In [79]:
# turing nb_wins and nb_combats to int
new_pokedex['nb_combats'] = new_pokedex['nb_combats'].astype('int') 
new_pokedex['nb_wins'] = new_pokedex['nb_wins'].astype('int')

new_pokedex

Unnamed: 0,NUMERO,NOM,TYPE_1,TYPE_2,POINTS_DE_VIE,POINTS_ATTAQUE,POINTS_DEFFENCE,POINTS_ATTAQUE_SPECIALE,POINT_DEFENSE_SPECIALE,POINTS_VITESSE,NOMBRE_GENERATIONS,LEGENDAIRE,nb_wins,nb_combats,win_ratio
0,1,Bulbizarre,Herbe,Poison,45,49,49,65,65,45,1,0,37,133,0.278
1,2,Herbizarre,Herbe,Poison,60,62,63,80,80,60,1,0,46,121,0.380
2,3,Florizarre,Herbe,Poison,80,82,83,100,100,80,1,0,89,132,0.674
3,4,Mega Florizarre,Herbe,Poison,80,100,123,122,120,80,1,0,70,125,0.560
4,5,Salamèche,Feu,,39,52,43,60,50,65,1,0,55,112,0.491
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
795,796,Diancie,Roche,Fée,50,100,150,100,150,50,6,1,39,105,0.371
796,797,Mega Diancie,Roche,Fée,50,160,110,160,110,110,6,1,116,131,0.885
797,798,Hoopa confiné,Psy,Spectre,80,110,60,150,130,70,6,1,60,119,0.504
798,799,Hoopa non lié,Psy,Obscur,80,160,60,170,130,80,6,1,89,144,0.618


In [80]:
new_pokedex.to_csv('new_pokedex.csv')