# Le jeu Palworld et analyse des données

## Présentation du jeu Palworld

Palworld est un jeu de survie en monde ouvert développé par Pocket Pair, sorti en janvier 2024. Ce jeu combine des éléments de survie, de crafting, de collection de créatures et de construction de base. Il se déroule dans un monde ouvert peuplé de créatures appelées "Pals" que les joueurs peuvent capturer, élever et utiliser pour diverses tâches.

Les aspects clés du jeu incluent:

| Aspect |
| - |
| La capture et la collection de Pals (similaire à Pokémon) |
| L'utilisation des Pals pour combattre |
| L'exploitation des Pals pour des tâches comme la construction, l'agriculture, et le travail en usine |
| La construction et le développement d'un campement |
| L'exploration d'un monde ouvert avec différentes zones et biomes |

Le jeu a connu un immense succès dès sa sortie en raison de son concept innovant mêlant des mécaniques de jeux populaires comme Pokémon et Minecraft, mais avec une approche plus mature et parfois controversée.


## Import des bibliothèques Python de l'étude

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import mariadb
from sqlalchemy import create_engine
import plotly.express as px
import plotly.graph_objects as go
import os
from pathlib import Path

## Chargement des données brutes

In [12]:
# Définition du chemin vers les fichiers fournis
data_path = "../data/"

# Vérification de l'existence du repertoire , if not utiliser le repertoire courrant
if not os.path.exists(data_path):
    data_path = "./"

# Affichage des fichiers dispo pour la vérif
files = [f for f in os.listdir(data_path) if f.endswith('.csv')] # ici on liste tous les fichiers ou dossiers + on itère chaque élément + Filtre pour garder que les fichier .csv
print("Fichiers dispo:")
for file in files: 
    print(f"-{file}")

# Chargement des données brutes & gestion d'erreurs grâce à pd.read_csv en définissant le chemin vers les fichiers.csv 
try:
    combat_attribute = pd.read_csv(f'{data_path}Palworld_Data--Palu combat attribute table.csv')
    refresh_area = pd.read_csv(f'{data_path}Palworld_Data--Palu refresh level.csv')
    ordinary_boss = pd.read_csv(f'{data_path}Palworld_Data-comparison of ordinary BOSS attributes.csv')
    tower_boss = pd.read_csv(f'{data_path}Palworld_Data-Tower BOSS attribute comparison.csv') 
    job_skill = pd.read_csv(f'{data_path}Palworld_Data-Palu Job Skills Table.csv')
    hidden_attribute = pd.read_csv(f'{data_path}Palworld_Data-hide pallu attributes.csv')
except FileNotFoundError as e : 
  print(f"Erreur: {e}. Vérifier les noms des fichiers et le chemin.")

Fichiers dispo:
-Palworld_Data--Palu combat attribute table.csv
-Palworld_Data--Palu refresh level.csv
-Palworld_Data-comparison of ordinary BOSS attributes.csv
-Palworld_Data-hide pallu attributes.csv
-Palworld_Data-Palu Job Skills Table.csv
-Palworld_Data-Tower BOSS attribute comparison.csv


## Analyse exploratoires des données 

In [7]:
def explore_dataframe(df, name):
    print(f"\n===== Exploration de {name} =====")
    print(f"Dimensions: {df.shape[0]} lignes, {df.shape[1]} colonnes")

    # Résumé des données
    print("\nAnalyse du résumé des données:")
    df.info()

    print("\nAnalyse des premières lignes:")
    display(df.head(3))

    print("\nAnalyse des types de données:")
    display(df.dtypes)

    print("\nAnalyse des statistiques descriptives:")
    display(df.describe(include='all').T)

    print("\nAnalyse des valeurs manquantes:")
    missing = df.isnull().sum()
    missing_percent = (df.isnull().sum() / len(df)) * 100
    missing_data = pd.concat([missing, missing_percent], axis=1, keys=['Total', 'Pourcentage'])
    display(missing_data[missing_data['Total'] > 0])
    if missing_data['Total'].sum() == 0:
        print("Dataset complet")

    duplicates = df.duplicated().sum()
    print(f"\nAnalyse des lignes dupliquées: {duplicates}")

    print("\nAnalyse des valeurs uniques pour les colonnes catégorielles:")
    for col in df.select_dtypes(include=['object']).columns:
        unique_values = df[col].unique()
        if len(unique_values) < 10:
            print(f"{col}: {unique_values}")
        else:
            print(f"{col}: {len(unique_values)} valeurs uniques")

    # Analyse des corrélations
    if len(df.select_dtypes(include=['number']).columns) > 1:
        print("\nAnalyse de corrélations:")
        display(df.corr())

# Dictionnaire des datasets
datasets = {
    'Attributs de combat': combat_attribute,
    'Niveau de rafraîchissement': refresh_area,
    'Comparaison des attributs de boss ordinaire': ordinary_boss,
    'Comparaison des attributs de boss de tour': tower_boss,
    'Attributs cachés': hidden_attribute,
    'Compétences de métiers': job_skill
}



Current working directory: C:\Users\Windows\Desktop\projets\1a\MariaDB\pals-analysis\notebooks
