(Pour le nettoyage des données, se référer au notebook [Data Cleaning](./Data_cleaning.ipynb) (./Data_cleaning.ipynb), Ce fichier ne s'occupera que de l'analyse du jeu de données.)

Pour commencer, on va d'abord importer toutes les librairies dont nous aurons besoin lors de cette analyse :

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import skew
from scipy.stats import kurtosis
from sklearn.preprocessing import LabelEncoder

# Problématique

Voici la problématique générale à laquelle nous souhaitons répondre dans cette analyse :

> _**Existe t-il des profils types de Pokémon selon leur catégorie ou leur type ?**_

---

Cette question sera découpée en plusieurs morceaux afin de faire des sous-problématiques plus ciblées, qui pourront nous éclaircir ou nous donner des parts de réponses.

Par exemple : **Les pokémons de type Dragon sont-ils statistiquement plus puissants que les autres types ?** (et autres...)

---

On commence avant tout par ouvrir le fichier csv avec pandas :

In [4]:
dfPokemon = pd.read_csv('./Datasets/MP-24-25_Cleaned.csv')

In [5]:
dfPokemon.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1045 entries, 0 to 1044
Data columns (total 49 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Unnamed: 0        1045 non-null   int64  
 1   pokedex_number    1045 non-null   int64  
 2   name              1045 non-null   object 
 3   generation        1045 non-null   int64  
 4   status            1045 non-null   object 
 5   species           1045 non-null   object 
 6   type_number       1045 non-null   int64  
 7   type_1            1045 non-null   object 
 8   type_2            553 non-null    object 
 9   height            1045 non-null   float64
 10  weight            1045 non-null   float64
 11  abilities_number  1045 non-null   int64  
 12  ability_1         1042 non-null   object 
 13  ability_2         516 non-null    object 
 14  ability_hidden    813 non-null    object 
 15  total_points      1045 non-null   int64  
 16  hp                1045 non-null   int64  


La colonne *'Unnamed: 0'* s'est glissé dans notre dataset, avant de continuer notre analyse, on va simplement retirer cette colonne :

In [7]:
dfPokemon = dfPokemon.drop(columns='Unnamed: 0')

Notre étude débutera donc avec une analyse univariée de toutes la variables de notre dataset nettoyé :

In [9]:
for column in dfPokemon.select_dtypes(include='number').columns: # On récupère toutes les variables qualitatives pour itérer et afficher nos variables
        print(f"Analyse simple de la colonne : {column}")
        print(dfPokemon[column].describe())
        print('Kurtosis : ', dfPokemon[column].kurt())
        print('Skewness : ', dfPokemon[column].skew() , '\n')

Analyse simple de la colonne : pokedex_number
count    1045.000000
mean      440.769378
std       262.517231
min         1.000000
25%       212.000000
50%       436.000000
75%       670.000000
max       898.000000
Name: pokedex_number, dtype: float64
Kurtosis :  -1.2129592429420115
Skewness :  0.03226614073167834 

Analyse simple de la colonne : generation
count    1045.000000
mean        4.098565
std         2.272788
min         1.000000
25%         2.000000
50%         4.000000
75%         6.000000
max         8.000000
Name: generation, dtype: float64
Kurtosis :  -1.1102261545730172
Skewness :  0.19973024066098652 

Analyse simple de la colonne : type_number
count    1045.000000
mean        1.529187
std         0.499386
min         1.000000
25%         1.000000
50%         2.000000
75%         2.000000
max         2.000000
Name: type_number, dtype: float64
Kurtosis :  -1.9900967827452878
Skewness :  -0.11711399720982628 

Analyse simple de la colonne : height
count    1045.000000
mea

> Pour rappel, la signification des variables :
> - Count : le compte total de valeurs non nulles dans la colonne
> - mean : la moyenne des valeurs de la colonne
> - 25, 50, 75 : Valeur au 25ème centile, Valeur médiane et Valeur au 75ème centile
> - min, max : Valeurs minimales et maximales de la colonne
> - Kurtosis : Dispersion des données (Plutôt en pic ou plat ?)
> - Skewness : Distribution des données (plutôt penchée à gauche ou à droite ?)