# Progetto basato su conoscenza
Progetto basato su conoscenza per l'esame di Ingegneria Della Conoscenza

## Introduzione

Risultati su studi che intercettano fattori di abbandono dei giochi online multigiocatore, mostrano che le motivazioni più rilevanti sono dovute da: https://www.sciencedirect.com/science/article/abs/pii/S1875952117300770

- problemi di attesa, latenza/prestazioni(più rilevanti)
- l'equità del gioco(divario tra giocatori).

### Scenario
Si simula lo scenario in cui verrà avviato un nuovo servizio online per il lancio di un nuovo gioco multiplayer. Dato dal picco di giocatori nei primi giorni di uscita del servizio, si prevede si dovrà gestire un carico molto elevato di richieste di partecipazione da parte degli utenti. Si assume che:

- Le risorse server potrebbero risultare limitate rispetto alla popolazione di giocatori 
- Periodicamente viene fornito al sistema un numero limitato di partite istanziabili rispetto alle risorse disponibili
- Ci siano un certa popolazione di giocatori in fase di ricerca di una nuova partita
- In base a dei lavori di ricerca è stato constatato che giocatori tendono ad abbandonare la ricerca di una partita se: i giocatori attendono in coda da troppo tempo, le partite sono composte da giocatori troppo differenti rendendo il gioco squilibrato e frustrante 

### Obiettivo
L'obiettivo di questo problema è ottimizzare al meglio l'utilizzo delle risorse(limitate), massimizzando l'efficienza dei server online per gestire al meglio il picco di giocatori atteso al lancio. Riducendo quindi il rischio di abbandono da parte dei giocatori, dovuto a lunghe attese o a partite squilibrate. Si vuole quindi sviluppare un sistema di modelli basati su conoscenza che sfrutti conoscenza pregressa già disponibile sui giocatori iscritti alla piattaforma, rispetto ai giochi precedentemente giocati.

Per favorire i criteri legati ai partecipanti. Sarà quindi fondamentale estrarre conoscenza da quella pregressa, per:
- comporre partite di giocatori chegiocando in modo simile rilevando le possibili classi naturali di giocatori(clustering)
- classificare periodicamente i nuovi giocatori rispetto alle loro statistiche affinchè vengano assegnati ad una certa classe

Un algoritmo di ricerca locale(Local Search for Optimization) costruirà l'assegnazione ottimale(CSP) che codificherà le assegnazioni dei giocatori alle partite secondo le esigenze descritte.

## 1) Dataset
Primo tentativo è stato quello ottenere i dati di statistiche tramite web scraping ma a causa del tempo limitato e del **Rate Limiting** posto dalla piattaforma ho deciso di provare a cercare un dataset già costruito(generalemente dataset di questo tipo sono rarissimi).
Il dataset è ottenuto su [https://www.kaggle.com/datasets/fahadalqahtani/cod-vanguard-stats](custom API) per ottenere statistiche sui giocatori del gioco Call Of Duty Vanguard. Le features fornite sono:

altro dataset https://tracker.gg/developers/apps/create

- **matches**: Numero di partite multigiocatore giocate dal giocatore.
- **play_time**: Tempo totale trascorso dal giocatore giocando a Call of Duty, in ore.
- **kills**: Numero di uccisioni effettuate dal giocatore in tutte le sue partite.
- **deaths**: Numero di volte in cui il giocatore è stato ucciso nel gioco.
- **assists**: Numero di volte in cui il giocatore ha danneggiato un nemico ma un compagno di squadra ha completato l'uccisione.
- **headshots**: Numero di colpi alla testa inflitti ad altri giocatori.
- **suicides**: Numero di volte che il giocatore si è sucidato.
- **wins**: Numero di volte in cui il giocatore ha vinto una partita.
- **losses**: Numero totale di partite perse.
- **score**: Punti Esperienza (XP), una quantità numerica esclusiva per il multigiocatore che determina il livello e il progresso di un giocatore nel gioco.
- **missed_shots**: Numero di volte in cui il giocatore ha mancato il colpo.
- **hits_shots**: Numero di volte in cui il giocatore ha colpito un altro giocatore.





## 2) Pre-processing dataset conoscenza pregressa 

#### 2.1) Feature Derivation
In questa fase vengono costruite features derivate da quelle di partenza. Queste sono utili per i task successivi:
- game_exits = gamesPlayed - (wins + losses)
- **kd_ratio**: Rapporto uccisioni/morti. Ad esempio, se un giocatore ha 10 uccisioni e 5 morti, il suo rapporto KD è pari a 2

In [1]:
import pandas as pd

# carica dataset nel dataframe
df = pd.read_csv('datasets/cod_vanguard_player_stats.csv')

# feature derivation
df['kd_ratio'] = df['kills'] / df['deaths']
df['game_exits'] = df['matches'] - (df['wins'] + df['losses'])

# rimozione valori negativi per le features
df = df[df['game_exits'] >= 0]


#### 2.1) Pre-processing iniziale
Una prima fase di pre-processing consisterà nella:
- **Data Cleaning**: Pulizia di dati con valori nulli e valori negativi(su 13 tuple ci sono 2 valori negativi probabilmente dovuti ad errori durante la raccolta dei dati)
- **Rimozione duplicati**
- **Rimozione outlier**: essendo solo un campione della reale distribuzione sventiamo la possibilità che modelli basati su apprendimento possano adattarsi a una distribuzione non naturale dei dati. Il metodo usato per scartare gli outlierè stato quello di visualizzare i plot e applicare il **metodo dell'intervallo interquartile(IQR filtering)** dove necessario(punti oltre i whiskers, al di fuori dell'intervallo definito da 1.5 volte l'IQR sopra Q3 e al di sotto di Q1). *Per non appesantire la documentazione la visualizzazione dei plot è stata commentata*
- **Normalizzazione delle features**

In [2]:
# verifica dei valori mancanti
'''
print('-Verifica valori mancanti-')
print(df.isnull().sum())
'''

# rimozione duplicati
df.drop_duplicates(inplace=True)

#rimozione outlier
import matplotlib.pyplot as plt
import seaborn as sns

'''
sns.histplot(df['matches'], kde=True)  # kde=True aggiunge la curva di densità
plt.title("distribuzione di 'matches' con curva di densità")
plt.xlabel("valori di 'matches'")
plt.ylabel("densità")
plt.show()

sns.boxplot(data=df, y='matches')
plt.show()
'''

# calcolo dell'IQR per identificare gli outlier
Q1 = df['matches'].quantile(0.25)
Q3 = df['matches'].quantile(0.75)
IQR = Q3 - Q1

# definizione dei limiti per considerare i valori outlier
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# filtra i dati per rimuovere gli outlier
df = df[(df['matches'] >= lower_bound) & (df['matches'] <= upper_bound)]

'''
sns.histplot(df['matches'], kde=True)  # kde=True aggiunge la curva di densità
plt.title("distribuzione di 'matches' con curva di densità")
plt.xlabel("valori di 'matches'")
plt.ylabel("densità")
plt.show()

sns.boxplot(data=df, y='matches')
plt.show()
'''

'\nsns.histplot(df[\'matches\'], kde=True)  # kde=True aggiunge la curva di densità\nplt.title("distribuzione di \'matches\' con curva di densità")\nplt.xlabel("valori di \'matches\'")\nplt.ylabel("densità")\nplt.show()\n\nsns.boxplot(data=df, y=\'matches\')\nplt.show()\n'

#### 2.1) Pre-processing per il task Non Supervisionato(Clustering)
Per i vari task verranno selezionate solo alcune features utili al task:
- Per il task di **Apprendimento Non Supervisionato**(intercettare le classi naturali), verrà fatta una features selection partendo dal primo dataset pre processato.

#### 2.1) Pre-processing per il task Supervisionato
- Per apprendere il modello nel task di **Apprendimento Supervisionato** verrà utilizzato il dataset generato dal task di apprendimento non supervisionato.

#### 2.1) Pre-processing per il task di Ricerca Locale
Per costruire la funzione obiettivo e le variabili con rispettivi domini nel CSP verranno usate le features:
- **playerClass**: per stabilire il dominio della variabile
- **game_exits**: ottenuta dalla *Feature Derivation*

In [3]:
import os

# salvataggio dataset preprocessed 
file_path = 'datasets/cod_vanguard_player_stats_preprocessed.csv'
if os.path.exists(file_path):
    os.remove(file_path)
    print(f"File '{file_path}' rimosso con successo.")
else:
    print(f"File '{file_path}' non trovato.")
    
# Salvataggio del dataframe come CSV
df.to_csv(file_path, index=False)

File 'datasets/cod_vanguard_player_stats_preprocessed.csv' non trovato.


## 3) Local Search for Optimization(CSP e Ricerca Locale)



L'idea è quella di rappresentare il problema dell'assegnazione delle risorse limitate tramite un algoritmo di ricerca rispetto alle assegnazioni sul CSP. Il problema codificherà dei criteri codificandoli tramite **Funzione Obiettivo**/**Soft Constraints** che guideranno la ricerca di una soluzione. 

A causa della complessità dello spazio di ricerca legato in modo esponenziale rispetto alla quantità di giocatori disponibili, la ricerca non sarà esaustiva, verrà quindi usato un **Algoritmo di Ricerca Locale**. 

A causa delle risorse limitate(partite istanziabili), alcuni giocatori potrebbero non riuscire ad essere assegnati ad alcuna partita, quindi potrebbe non esistere un'assegnazione(soluzione) che soddisfi tutti i vincoli ma che li soddisfi solo parzialmente. Vogliamo quindi soddisfare quanti più vincoli possibili, trasfare in soft constraints alcuni hard constraints e massimizzare l'ottimalità della soluzione. Per cui l'algoritmo di ricerca locale scelto sarà un algoritmo *Local Search for Optimization*.



I criteri che contribuiranno all'ottimizzazione saranno:

- **Massimizzare l'utilizzo delle risorse**: Massimizzare il numero totale di giocatori giocanti, cercando di servire quanti più utenti online possibili
- **Massimizzare la popolazione della partita**: Massimizzare la popolazione delle partite significherà incentivare il riempimento delle partite, evitando di istanziare partite sottoutilizzate e quindi di utilizzare ulteriori risorse(limitate). 
---
Quindi si vuole veicolare la ricerca verso soluzioni che tendono a riempire tutte le partite istanziate, evitando di generare soluzioni in cui ci sono partite che tendono a non riempirsi. Questo è implementabile aggiungendo una penalità che cresce quando la differenza tra il numero di giocatori in una partita e la capacità massima della partita aumenta.

---
- **Tempo di attesa dei giocatori in coda**: Minimizzare il numero di giocatori non assegnati ad una partita che sono in attesa da più tempo. Questi verranno preferiti nelle assegnazioni alle partite
- **rate quitting**:  Minimizzare il numero di giocatori con un alto tasso di abbandono, sfavorendoli all'assegnazione di una partita. Questo permetterà di favorire giocatori che mantengono le partite piene, inducendo quindi il pieno utilizzo delle risorse server(giocatori che abbandonano facilmente una partita, potrebbero richiedere di partecipare a nuove istanze, portando a non sfruttare pienamente le risorse). 
- **Partite con giocatori con della stessa classe**: Ad una partita verranno assegnati giocatori che fanno parte della stessa classe naturale(stile di gioco - abilità), riducendo la possibilità che questi giocatori differiscano troppo tra loro



## 3.2) Google OR-Tools 
Per il tipo di problema di *Local Search for Optimization* ho deciso di utilizzare la libreria [Google OR-Tools](https://developers.google.com/optimization?hl=it). Questa mi permetterà di gestire aspetti riguardanti:
- **Supporto per CSP**: OR-Tools è pensata per risolvere *Constraint Satisfaction Problems (CSP)*
- **Gestione di Constraint**: consentendo sia vincoli hard che soft (vincoli hard saranno usati per gestire la capacità massima delle partite)
- **Funzione Obiettivo**: che guiderà le soluzioni ottimali
- **Tecninche di ricerca locale**: offrendo algoritmi di ricerca locale combinabili con *simulated annealing* e *tabu search*, affrontati durante il corso

*La penalità dei soft constraint verrà incorporata nella funzione obiettivo per l'ottimizzazione*

In [4]:
#Installazione Google OR-Tools
!pip install ortools



In [5]:
# importazione della libreria Google OR-Tools
from ortools.sat.python import cp_model

# creazione del modello
model = cp_model.CpModel()


# configurazione parametri
availablePlayers = 200 # giocatori dispobili
instancesAvailableMatches = 15 # istanze partite disponibili ad essere avviate
playerCapacityMatches = 10 # capacità partite
playersClassCount = 3; # numero di classi di abilità per i giocatori


# inizializzazione variabili CSP giocatori
playerAssignment = []
for i in range(availablePlayers):
    cspPVar = model.NewIntVar(
        
        # range dominio variabile (un valore nel range indicherà a quale partita è assegnato il giocatore)
        # -1 indica che il giocatre non è stato assegnato a nessuna partita
        -1, instancesAvailableMatches,
        f'player_assignment_{i}' # etichetta variabile CSP
    )
    playerAssignment.append(cspPVar)
    
    
    
    
# inizializzazione variabili CSP istanze partite
matchAssignment = []
for i in range(instancesAvailableMatches):
    cspMVar = model.NewIntVar(
        
        # range dominio variabile (valore nel range indicherà che classe di giocatori ospiterà la partita)
        0, playersClassCount, 
        f'match_assignment_{i}' # etichetta variabile CSP
    )
    matchAssignment.append(cspMVar)

    
    
    
# inizializzazione hard constraints


print(playerAssignment)
print(matchAssignment)

[player_assignment_0(-1..15), player_assignment_1(-1..15), player_assignment_2(-1..15), player_assignment_3(-1..15), player_assignment_4(-1..15), player_assignment_5(-1..15), player_assignment_6(-1..15), player_assignment_7(-1..15), player_assignment_8(-1..15), player_assignment_9(-1..15), player_assignment_10(-1..15), player_assignment_11(-1..15), player_assignment_12(-1..15), player_assignment_13(-1..15), player_assignment_14(-1..15), player_assignment_15(-1..15), player_assignment_16(-1..15), player_assignment_17(-1..15), player_assignment_18(-1..15), player_assignment_19(-1..15), player_assignment_20(-1..15), player_assignment_21(-1..15), player_assignment_22(-1..15), player_assignment_23(-1..15), player_assignment_24(-1..15), player_assignment_25(-1..15), player_assignment_26(-1..15), player_assignment_27(-1..15), player_assignment_28(-1..15), player_assignment_29(-1..15), player_assignment_30(-1..15), player_assignment_31(-1..15), player_assignment_32(-1..15), player_assignment_3

In [6]:
'''
import pandas as pd


# Creiamo un dataframe di esempio
data = {
    'Nome': ['Mario', 'Luigi', 'Peach'],
    'Età': [23, 24, 25]
}
df = pd.DataFrame(data)

# Salviamo il dataframe come CSV
df.to_csv('persone.csv', index=False)
'''

"\nimport pandas as pd\n\n\n# Creiamo un dataframe di esempio\ndata = {\n    'Nome': ['Mario', 'Luigi', 'Peach'],\n    'Età': [23, 24, 25]\n}\ndf = pd.DataFrame(data)\n\n# Salviamo il dataframe come CSV\ndf.to_csv('persone.csv', index=False)\n"

# Web scraper from

In [7]:
!pip install requests beautifulsoup4

