**On commence par importer pandas puis importer les données pour nettoyer le dataset.**

On se chargera uniquement de ***mettre en forme les données*** et non de les afficher dans ce fichier.

Les données nettoyées seront exportées dans un fichier csv -> "./Datasets/MP-24-25_Cleaned.csv"

In [2]:
import pandas as pd
dfRawPokemonData = pd.read_csv('./Datasets/MP-24-25.csv')

In [3]:
dfRawPokemonData.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1045 entries, 0 to 1044
Data columns (total 55 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Unnamed: 0.1      1045 non-null   int64  
 1   Unnamed: 0        1045 non-null   int64  
 2   pokedex_number    1045 non-null   int64  
 3   name              1045 non-null   object 
 4   german_name       1045 non-null   object 
 5   japanese_name     1045 non-null   object 
 6   is_generation_1   1045 non-null   bool   
 7   is_generation_2   1045 non-null   bool   
 8   is_generation_3   1045 non-null   bool   
 9   is_generation_4   1045 non-null   bool   
 10  is_generation_5   1045 non-null   bool   
 11  is_generation_6   1045 non-null   bool   
 12  is_generation_7   1045 non-null   bool   
 13  is_generation_8   1045 non-null   bool   
 14  status            1045 non-null   object 
 15  species           1045 non-null   object 
 16  types             1045 non-null   object 


On remarque que la plupart du set est cohérent (au niveau des nulls), mais il faut cependant retirer des colonnes qui ne nous serviront pas :

- Le nom Japonais des Pokémons
- Le nom Allemand des Pokémons
- les deux colonnes Unnamed placées au début qui servaient sûrement à la base d'index
- On pourrait aussi retirer la colonne "Base_Frienship", comme c'est une statistique qui n'est quasiment pas implémentée dans le jeu vidéo, et qui ne nous permettera donc pas d'émettre beaucoup de conclusions...

C'est parti !

In [5]:
dfDroppedColumnsPokemon = dfRawPokemonData.drop(columns=['german_name','japanese_name','Unnamed: 0','Unnamed: 0.1'])

In [6]:
dfDroppedColumnsPokemon.columns

Index(['pokedex_number', 'name', 'is_generation_1', 'is_generation_2',
       'is_generation_3', 'is_generation_4', 'is_generation_5',
       'is_generation_6', 'is_generation_7', 'is_generation_8', 'status',
       'species', 'types', 'height', 'weight', 'abilities_number', 'ability_1',
       'ability_2', 'ability_hidden', 'total_points', 'hp', 'attack',
       'defense', 'sp_attack', 'sp_defense', 'speed', 'catch_rate',
       'base_friendship', 'base_experience', 'growth_rate', 'egg_types',
       'percentage_male', 'egg_cycles', 'against_normal', 'against_fire',
       'against_water', 'against_electric', 'against_grass', 'against_ice',
       'against_fight', 'against_poison', 'against_ground', 'against_flying',
       'against_psychic', 'against_bug', 'against_rock', 'against_ghost',
       'against_dragon', 'against_dark', 'against_steel', 'against_fairy'],
      dtype='object')

Nos colonnes désormais supprimées, on chercher maintenant à identifier les valeurs qui pourraient être gênantes à la manipulation des autres tableaux

_on assume que toute la colonne est déjà censée avoir le même format de données_

In [8]:
dfDroppedColumnsPokemon[dfDroppedColumnsPokemon['height'].str[1] != "'"]['height']

31       11'06''
126      28'10''
135      35'09''
167      21'04''
168      21'04''
191      13'01''
255      30'02''
256      34'05''
302      17'01''
303      12'06''
386      47'07''
417      20'04''
459      14'09''
460      32'02''
461      11'06''
462      16'05''
463      23'00''
464      35'05''
578      17'09''
579      13'09''
581      12'02''
582      14'09''
583      22'08''
590      10'06''
594      10'10''
750      10'06''
755      10'10''
756      11'10''
838      19'00''
839      16'05''
841      14'09''
845      21'04''
878      26'11''
914      12'10''
924      11'02''
925      13'01''
929      12'06''
930      30'02''
932      18'01''
934      12'06''
935      13'09''
936      24'07''
940      11'10''
941      18'01''
980      12'06''
1032     65'07''
1033    328'01''
Name: height, dtype: object

Même si l'argument est peu faible (malgré que suffisant), on remarque que les seuls objets de la liste qui n'ont pas d'apostrophe "'" sont les valeurs avec une taille en pieds en dizaine ou centaine, ce qui confirme (en plus des 0 null dans la première étape info) que la colonne ne contient pas de valeurs erronnées

En plus, les pouces sont exprimés avec une double apostrophe, on peut donc facilement le split de la façon suivante :

In [10]:
sSplittedHeight = dfDroppedColumnsPokemon['height'].str.split("'")

Je le convertis en dataframe pour faire des calculs par la suite

In [12]:
dfSplittedHeight = pd.DataFrame(sSplittedHeight.values.tolist(), index=sSplittedHeight.index)
dfSplittedHeight

Unnamed: 0,0,1,2,3
0,2,04,,
1,3,03,,
2,6,07,,
3,7,10,,
4,2,00,,
...,...,...,...,...
1040,7,03,,
1041,6,07,,
1042,3,07,,
1043,7,10,,


On supprime les colonnes vides et on renomme les restantes...

In [14]:
dfSplittedHeight = dfSplittedHeight.drop(columns=[2,3])

In [15]:
dfSplittedHeight = dfSplittedHeight.rename(columns={0:'feet',1:'inch'})
dfSplittedHeight

Unnamed: 0,feet,inch
0,2,04
1,3,03
2,6,07
3,7,10
4,2,00
...,...,...
1040,7,03
1041,6,07
1042,3,07
1043,7,10


Convertir le type des colonnes pour faire les calculs

In [17]:
dfSplittedHeight['feet'] = dfSplittedHeight['feet'].astype('float')
dfSplittedHeight['inch'] = dfSplittedHeight['inch'].astype('float')

dfSplittedHeight.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1045 entries, 0 to 1044
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   feet    1045 non-null   float64
 1   inch    1045 non-null   float64
dtypes: float64(2)
memory usage: 16.5 KB


et on termine ce dataset en ajoutant une colonne qui contient la taille en mètres

In [19]:
dfSplittedHeight.insert(2, 'meters' , value= dfSplittedHeight['feet'] * 0.3048 + dfSplittedHeight['inch'] * 0.0254, allow_duplicates=True) # Taille d'un pied et d'un pouce en m, selon rapidtables

In [20]:
dfSplittedHeight

Unnamed: 0,feet,inch,meters
0,2.0,4.0,0.7112
1,3.0,3.0,0.9906
2,6.0,7.0,2.0066
3,7.0,10.0,2.3876
4,2.0,0.0,0.6096
...,...,...,...
1040,7.0,3.0,2.2098
1041,6.0,7.0,2.0066
1042,3.0,7.0,1.0922
1043,7.0,10.0,2.3876


Victoire ! on a notre taille en mètres, on remplace donc nos données dans le dataset initial.

In [22]:
dfDroppedColumnsPokemon['height'] = dfSplittedHeight['meters']

In [23]:
dfDroppedColumnsPokemon[['name','height']]

Unnamed: 0,name,height
0,Bulbasaur,0.7112
1,Ivysaur,0.9906
2,Venusaur,2.0066
3,Mega Venusaur,2.3876
4,Charmander,0.6096
...,...,...
1040,Glastrier,2.2098
1041,Spectrier,2.0066
1042,Calyrex,1.0922
1043,Calyrex Ice Rider,2.3876


on s'attaque au poids

In [25]:
sSplittedWeight = dfDroppedColumnsPokemon['weight'].str.split("lbs")

même stratégie que precedemment, on le convertit en df

In [27]:
dfSplittedWeight = pd.DataFrame(sSplittedWeight.values.tolist(), index=sSplittedWeight.index)
dfSplittedWeight

Unnamed: 0,0,1
0,15.21,
1,28.66,
2,220.46,
3,342.82,
4,18.74,
...,...,...
1040,1763.7,
1041,98.11,
1042,16.98,
1043,1783.76,


In [28]:
dfSplittedWeight = dfSplittedWeight.drop(columns=[1])

In [29]:
dfSplittedWeight = dfSplittedWeight.rename(columns={0:'lbs'})
dfSplittedWeight

Unnamed: 0,lbs
0,15.21
1,28.66
2,220.46
3,342.82
4,18.74
...,...
1040,1763.7
1041,98.11
1042,16.98
1043,1783.76


Cette fois-ci, pour vérifier que la colonne ne contienne pas de valeurs eronnées, et comme on ne divise qu'en une seule partie j'utilise :

In [31]:
dfSplittedWeight[pd.to_numeric(dfSplittedWeight['lbs'],errors="coerce").isna() == True]

Unnamed: 0,lbs
1033,


Une seule valeur null dans la liste, on regarde quel est le pokemon concerné

In [33]:
dfDroppedColumnsPokemon.iloc[1033]

pokedex_number                      890
name                Eternatus Eternamax
is_generation_1                   False
is_generation_2                   False
is_generation_3                   False
is_generation_4                   False
is_generation_5                   False
is_generation_6                   False
is_generation_7                   False
is_generation_8                    True
status                        Legendary
species                Gigantic Pokémon
types                    Poison, Dragon
height                          99.9998
weight                          nan lbs
abilities_number                      0
ability_1                           NaN
ability_2                           NaN
ability_hidden                      NaN
total_points                       1125
hp                                  255
attack                              115
defense                             250
sp_attack                           125
sp_defense                          250


D'après poképedia, ce pokemon ne possède en effet pas de poids. pour des raisons statistiques et de simplicité, on considèrera donc que le poids du pokemon est la moyenne des autres...

In [35]:
EternatusEtermaxWeight = dfSplittedWeight['lbs'].drop(index=[1033]).astype('float').mean()

In [36]:
print(EternatusEtermaxWeight)

157.00548850574714


Sa valeur attribuée est donc 157.00548850574714.

In [38]:
dfSplittedWeight.loc[1033, 'lbs'] = EternatusEtermaxWeight

Convertir le type des colonnes pour faire les calculs

In [40]:
dfSplittedWeight['lbs'] = dfSplittedWeight['lbs'].astype('float')

dfSplittedWeight.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1045 entries, 0 to 1044
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   lbs     1045 non-null   float64
dtypes: float64(1)
memory usage: 8.3 KB


on créée donc notre conversion dans le df du poids

In [42]:
dfSplittedWeight.insert(1, 'kg' , value= 0.454 * dfSplittedWeight['lbs'], allow_duplicates=True) # masse d'une livre, selon rapidtables

In [43]:
dfSplittedWeight

Unnamed: 0,lbs,kg
0,15.21,6.90534
1,28.66,13.01164
2,220.46,100.08884
3,342.82,155.64028
4,18.74,8.50796
...,...,...
1040,1763.70,800.71980
1041,98.11,44.54194
1042,16.98,7.70892
1043,1783.76,809.82704


Le résultat n'est pas arrondi mais on peut quand même le mettre dans le dataset initial.

In [45]:
dfDroppedColumnsPokemon['weight'] = dfSplittedWeight['kg']

In [46]:
dfDroppedColumnsPokemon[['name','height','weight']]

Unnamed: 0,name,height,weight
0,Bulbasaur,0.7112,6.90534
1,Ivysaur,0.9906,13.01164
2,Venusaur,2.0066,100.08884
3,Mega Venusaur,2.3876,155.64028
4,Charmander,0.6096,8.50796
...,...,...,...
1040,Glastrier,2.2098,800.71980
1041,Spectrier,2.0066,44.54194
1042,Calyrex,1.0922,7.70892
1043,Calyrex Ice Rider,2.3876,809.82704


Maintenant, on cherche à remplacer nos colonnes générations par une colonne unique qui représente la génération par un entier plutôt que 8 booléens

(la solution présentée suivante a été trouvée sur stackoverflow : [Pandas multiple boolean columns to new single column with mapping dict](https://stackoverflow.com/questions/74013018/pandas-multiple-boolean-columns-to-new-single-column-with-mapping-dict))

In [48]:
dfGenerationColumns = dfDroppedColumnsPokemon.filter(like='generation_')

In [49]:
dfGenerationColumns

Unnamed: 0,is_generation_1,is_generation_2,is_generation_3,is_generation_4,is_generation_5,is_generation_6,is_generation_7,is_generation_8
0,True,False,False,False,False,False,False,False
1,True,False,False,False,False,False,False,False
2,True,False,False,False,False,False,False,False
3,True,False,False,False,False,False,False,False
4,True,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...
1040,False,False,False,False,False,False,False,True
1041,False,False,False,False,False,False,False,True
1042,False,False,False,False,False,False,False,True
1043,False,False,False,False,False,False,False,True


In [50]:
mapping_dict = {False: "none", "is_generation_1": "1", "is_generation_2": "2", "is_generation_3": "3","is_generation_4":"4","is_generation_5":"5","is_generation_6":"6","is_generation_7":"7","is_generation_8":"8"}

On utilise ce sous ensemble et ce dictionnaire pour mapper nos colonnes en une seule nouvelle colonne :

In [51]:
dfGenerationColumns.insert(allow_duplicates=True,column='generation',loc=8,value=0)

In [52]:
dfGenerationColumns['generation'] = (dfGenerationColumns.idxmax(axis=1).map(mapping_dict).where(dfGenerationColumns.any(axis=1), mapping_dict[False]))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dfGenerationColumns['generation'] = (dfGenerationColumns.idxmax(axis=1).map(mapping_dict).where(dfGenerationColumns.any(axis=1), mapping_dict[False]))


On insère notre colonne calculée à notre dataset initial...

In [53]:
dfDroppedColumnsPokemon.insert(column='generation', loc=2, value=dfGenerationColumns['generation'].astype('int'), allow_duplicates=True)

In [108]:
dfDroppedColumnsPokemon[dfDroppedColumnsPokemon['generation'] == 0]

Unnamed: 0,pokedex_number,name,generation,is_generation_1,is_generation_2,is_generation_3,is_generation_4,is_generation_5,is_generation_6,is_generation_7,...,against_ground,against_flying,against_psychic,against_bug,against_rock,against_ghost,against_dragon,against_dark,against_steel,against_fairy


On voit que notre dataset ne contient pas de lignes avec generation = 0, donc nos générations on été mappées sans erreurs, on prend aussi un exemple pour faire une double vérification :

In [113]:
dfDroppedColumnsPokemon.iloc[430] # nombre choisi aléatoirement

pokedex_number                   359
name                           Absol
generation                         3
is_generation_1                False
is_generation_2                False
is_generation_3                 True
is_generation_4                False
is_generation_5                False
is_generation_6                False
is_generation_7                False
is_generation_8                False
status                        Normal
species             Disaster Pokémon
types                           Dark
height                        1.1938
weight                      47.04348
abilities_number                   3
ability_1                   Pressure
ability_2                 Super Luck
ability_hidden             Justified
total_points                     465
hp                                65
attack                           130
defense                           60
sp_attack                         75
sp_defense                        60
speed                             75
c

Nos données correspondent, OK.

On va retirer les anciennes colonnes

In [118]:
dfDroppedColumnsPokemon = dfDroppedColumnsPokemon.drop(columns=['is_generation_1','is_generation_2','is_generation_3','is_generation_4','is_generation_5','is_generation_6','is_generation_7','is_generation_8'])

In [120]:
dfDroppedColumnsPokemon

Unnamed: 0,pokedex_number,name,generation,status,species,types,height,weight,abilities_number,ability_1,...,against_ground,against_flying,against_psychic,against_bug,against_rock,against_ghost,against_dragon,against_dark,against_steel,against_fairy
0,1,Bulbasaur,1,Normal,Seed Pokémon,"Grass, Poison",0.7112,6.90534,2,Overgrow,...,1.0,2.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,0.5
1,2,Ivysaur,1,Normal,Seed Pokémon,"Grass, Poison",0.9906,13.01164,2,Overgrow,...,1.0,2.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,0.5
2,3,Venusaur,1,Normal,Seed Pokémon,"Grass, Poison",2.0066,100.08884,2,Overgrow,...,1.0,2.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,0.5
3,3,Mega Venusaur,1,Normal,Seed Pokémon,"Grass, Poison",2.3876,155.64028,1,Thick Fat,...,1.0,2.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,0.5
4,4,Charmander,1,Normal,Lizard Pokémon,Fire,0.6096,8.50796,2,Blaze,...,2.0,1.0,1.0,0.5,2.0,1.0,1.0,1.0,0.5,0.5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1040,896,Glastrier,8,Sub Legendary,Wild Horse Pokémon,Ice,2.2098,800.71980,1,Chilling Neigh,...,1.0,1.0,1.0,1.0,2.0,1.0,1.0,1.0,2.0,1.0
1041,897,Spectrier,8,Sub Legendary,Swift Horse Pokémon,Ghost,2.0066,44.54194,1,Grim Neigh,...,1.0,1.0,1.0,0.5,1.0,2.0,1.0,2.0,1.0,1.0
1042,898,Calyrex,8,Legendary,King Pokémon,"Psychic, Grass",1.0922,7.70892,1,Unnerve,...,0.5,2.0,0.5,4.0,1.0,2.0,1.0,2.0,1.0,1.0
1043,898,Calyrex Ice Rider,8,Legendary,High King Pokémon,"Psychic, Ice",2.3876,809.82704,1,As One,...,1.0,1.0,0.5,2.0,2.0,2.0,1.0,2.0,2.0,1.0
