# DCA - Dynamic Channel Allocation with Reinforcement Learning

In [6]:
%autoreload 2
%cd mindca2

/home/torstein/code/mindca2/mindca2


Denne notebooken demonstrere en veldig forenklet versjon av problemstillingen om allokering av radiokanaler i mobilnettverk ved bruk av Reinforcement Learning.

Et mobilnettverk består av et område som er dekket av en gruppe med basestasjoner. Hver basestasjon dekker et begrenset område kalt en celle, hvor den gir dekning. Mobilnettverket har tilgang til et begrenset sett med radiokanaler. Hvis to basestasjoner som er i nærheten av hverandre bruker samme kanal, oppstår det interferens for mobilbrukerene. Man må derfor unngå å bruke samme kanal i celler som er nær hverandre:

![](fig/grid-reusedist.png "Reuse distance of 2")

Denne problemoppgaven tar for seg geografisk område som vi approksimerer med et grid bestående av heksagonale celler.
Vi antar at radiokanalar kan gjenbruker når avstanden mellom cellene som bruker samme kanal er 3 eller større. 

Hvis vi bruker en kanal i den mørkegrå cellen, må vi dermed unngå å bruke den i nærliggende naboer (grå celler).

![](fig/grid-rhombusaxial-neighs-noidx.png)

In [13]:
from grid import Grid
??Grid

[1;31mInit signature:[0m [0mGrid[0m[1;33m([0m[0mrows[0m[1;33m:[0m [0mint[0m[1;33m,[0m [0mcols[0m[1;33m:[0m [0mint[0m[1;33m,[0m [0mn_channels[0m[1;33m:[0m [0mint[0m[1;33m,[0m [1;33m*[0m[0margs[0m[1;33m,[0m [0mstate[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mSource:[0m        
[1;32mclass[0m [0mGrid[0m[1;33m:[0m[1;33m[0m
[1;33m[0m    [1;34m"""[0m
[1;34m    Rhombus grid with an axial coordinate system.[0m
[1;34m    """[0m[1;33m[0m
[1;33m[0m[1;33m[0m
[1;33m[0m    [1;32mdef[0m [0m__init__[0m[1;33m([0m[1;33m[0m
[1;33m[0m        [0mself[0m[1;33m,[0m [0mrows[0m[1;33m:[0m [0mint[0m[1;33m,[0m [0mcols[0m[1;33m:[0m [0mint[0m[1;33m,[0m [0mn_channels[0m[1;33m:[0m [0mint[0m[1;33m,[0m [1;33m*[0m[0margs[0m[1;33m,[0m [0mstate[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m[0m
[1;33m[0m    [1;3

Vi simulerer systemet med en diskret event-simulator. Hver tidssteg kommer en event: enten kommer det en forespørsel om en samtale, eller så blir en samtale avsluttet. Oppgaven til agenten er å allokere kanaler. Når det er en forespørsel om å opprette en samtale må agenten velge en radiokanal, eller blokkere forespørselen vis det ikke er noen radiokanaler som kan bruker uten å skape interferens. Når en samtale avlsluttes, kan vi velge å flytte en pågående samtale til kanalen som nettop har blitt ledig. 

Formålet til agenten er å blokkere færrest mulige samtaler. Dette er ekvivalent til å maksimere tidsintegralet av anvendelsen av gridden.

![](fig/discrete-event-sim.png)

In [10]:
from eventgen import EventGen
??EventGen

[1;31mInit signature:[0m [0mEventGen[0m[1;33m([0m[0mrows[0m[1;33m,[0m [0mcols[0m[1;33m,[0m [0mcall_rate[0m[1;33m,[0m [0mcall_duration[0m[1;33m,[0m [1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mSource:[0m        
[1;32mclass[0m [0mEventGen[0m[1;33m:[0m[1;33m[0m
[1;33m[0m    [1;34m"""[0m
[1;34m    Event generator[0m
[1;34m    """[0m[1;33m[0m
[1;33m[0m[1;33m[0m
[1;33m[0m    [1;32mdef[0m [0m__init__[0m[1;33m([0m[0mself[0m[1;33m,[0m [0mrows[0m[1;33m,[0m [0mcols[0m[1;33m,[0m [0mcall_rate[0m[1;33m,[0m [0mcall_duration[0m[1;33m,[0m [1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m:[0m[1;33m[0m
[1;33m[0m        [0mself[0m[1;33m.[0m[0mrows[0m [1;33m=[0m [0mrows[0m[1;33m[0m
[1;33m[0m        [0mself[0m[1;33m.[0m[0mcols[0m [1;33m=[0m [0mcols[0m[1;33m[0m
[1;33m[0m        [1;31m# Avg. time between a

Den tradisjonelle måten for å løse dette problemet på, kalt Fixed Channel Allocation (FCA), partisjonerer alle basestasjoner inn 7, slik at en gitt basestasjon ikke har naboer innenfor gjenbruksdistansen som tilhører samme gruppe. Hver gruppe er tildelt 1/7 av alle radiokanaler. Denne partisjoneringen forsikrer oss om at hver basestasjon kan bruke alle kanaler den er tildelt, uten å skape interferens med naboer. 

Ulempen med denne metoden er at hver celle har like mange tildelte radiokanaler, og at tildelingen av radiokanaler til celler er statisk. Hvis det på et gitt tidspunkt er høyere trafikk i en celle kontra dens naboer, kunne gridden hatt flere pågående samtaler totalt, hvis cellen med høy trafikk hadde fått flere kanaler enn naboene sine.

![](fig/grid-labelled.png)

In [16]:
from strats import Strat
??Strat

[1;31mInit signature:[0m
[0mStrat[0m[1;33m([0m[1;33m[0m
[1;33m[0m    [0mpp[0m[1;33m:[0m [0mdict[0m[1;33m,[0m[1;33m[0m
[1;33m[0m    [0meventgen[0m[1;33m:[0m [0meventgen[0m[1;33m.[0m[0mEventGen[0m[1;33m,[0m[1;33m[0m
[1;33m[0m    [0mlogger[0m[1;33m:[0m [0mlogging[0m[1;33m.[0m[0mLogger[0m[1;33m,[0m[1;33m[0m
[1;33m[0m    [0msanity_check[0m[1;33m:[0m [0mbool[0m [1;33m=[0m [1;32mTrue[0m[1;33m,[0m[1;33m[0m
[1;33m[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mSource:[0m        
[1;32mclass[0m [0mStrat[0m[1;33m([0m[0mABC[0m[1;33m)[0m[1;33m:[0m[1;33m[0m
[1;33m[0m    [1;34m"""[0m
[1;34m    A call environment simulator plus a strategy/agent for handling[0m
[1;34m    call events, that is, to assign channels on incoming calls and[0m
[1;34m    possible reassigning channels on terminating calls.[0m
[1;34m    """[0m[1;33m[0m
[1;33m[0m    [0mgrid[0m[1;33m:[0m [0mGrid[0m[1;33m[0m
[1;33m[0m[1;3

In [18]:
from strats import FAStrat
??FAStrat

[1;31mInit signature:[0m [0mFAStrat[0m[1;33m([0m[0mpp[0m[1;33m,[0m [1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mSource:[0m        
[1;32mclass[0m [0mFAStrat[0m[1;33m([0m[0mStrat[0m[1;33m)[0m[1;33m:[0m[1;33m[0m
[1;33m[0m    [1;34m"""[0m
[1;34m    Fixed assignment (FA) channel allocation.[0m
[1;34m    The set of channels is partitioned, and the partitions are permanently[0m
[1;34m    assigned to cells so that all cells can use all the channels assigned[0m
[1;34m    to them simultaneously without interference.[0m
[1;34m    """[0m[1;33m[0m
[1;33m[0m[1;33m[0m
[1;33m[0m    [1;32mdef[0m [0m__init__[0m[1;33m([0m[0mself[0m[1;33m,[0m [0mpp[0m[1;33m,[0m  [1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m:[0m[1;33m[0m
[1;33m[0m        [0mself[0m[1;33m.[0m[0mgrid[0m [1;33m=[0m [0mFixedGrid[0m[1;33m([0m[1;33m**[0m[0mpp[0m

Vi skal i tillegg bygge en Reinforcement Learning agent, en dynamisk agent, som i hver celle har mulighet til å bruke hver eneste radiokanal fra hele spekteret. 

Generelt sett så fungerer en RL agent i dette systemet på følgende måte. Hvert tidssteg håndteres et event. Agenten har en verdifunksjon eller en policy som sier noe om hvor bra hver handling er i en gitt tilstand. Ved hjelp av denne velger agenten en handling - en radiokanal for å allokere til en inkommende samtale eller en kanal for om omallokere til en forlatende samtale. Når handlingen er utført får agenten en reward, som er en numerisk verdi som scorer hvor bra handlingen er. Denne rewarden brukes til å forbedre verdifunksjonen. Agenten er med andre ord et maskinlæringssystem som går igjennom kontinuerlig læring og forbedres hele tiden.

![](fig/rl-dca-cycle.png)

Den spesifikke RL agenten som vi skal lage er en form for Q-Learning som kalles SARSA (State - Action - Reward - next State - next Action).

Den er hentet fra Lilith and Dogançay (2004) (Reduced-state sarsa with channel reassignment for dy-
namic channel allocation in cellular mobile networks.)

SARSA er en verdifunksjon $Q$ som estimerer hvor mye reward en agent kommer til å tjene fremover i tiden ved å utføre handling $a_t$ i tilstand $s_t$. Systemtilstanden består av gridden plus nåværende event. $ Q(s_t, a_t) $ er altså et estimat på summen av rewards fra tid $t$ fremover.

$ Q(s_t, a_t) = Q(s_t, a_t) + α*(r_t + γ*Q(s_{t+1}, a_{t+1}) - Q(s_t, a_t)) $

hvor $α$ er læringsraten og $γ$ er en factor, typisk 0.9-0.999, for å begrense Q-verdiene i et system hvor tidhorisonten kan være uendelig.

Denne formelen oppdaterer nåværende tilstands-handlings-estimat mot et oppdatert - og forbedret estimat som inkluderer rewarden fra sist utførte handling. 

Forbedret estimat av Q-verdien til nåværende tilstand-handling:

$ r_t + γ*Q(s_{t+1}, a_{t+1}) $



In [21]:
from strats import RLStrat
??RLStrat

[1;31mInit signature:[0m [0mRLStrat[0m[1;33m([0m[0mpp[0m[1;33m:[0m [0mdict[0m[1;33m,[0m [1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
A call environment simulator plus a strategy/agent for handling
call events, that is, to assign channels on incoming calls and
possible reassigning channels on terminating calls.
[1;31mSource:[0m        
[1;32mclass[0m [0mRLStrat[0m[1;33m([0m[0mStrat[0m[1;33m)[0m[1;33m:[0m[1;33m[0m
[1;33m[0m    [1;32mdef[0m [0m__init__[0m[1;33m([0m[0mself[0m[1;33m,[0m [0mpp[0m[1;33m:[0m [0mdict[0m[1;33m,[0m [1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m:[0m[1;33m[0m
[1;33m[0m        [0mself[0m[1;33m.[0m[0mgrid[0m [1;33m=[0m [0mGrid[0m[1;33m([0m[1;33m**[0m[0mpp[0m[1;33m)[0m[1;33m[0m
[1;33m[0m        [0msuper[0m[1;33m([0m[1;33m)[0m[1;33m.[0m[0m__init__[0m[1;33m([0m[

In [25]:
from strats import QTable
??QTable

[1;31mInit signature:[0m [0mQTable[0m[1;33m([0m[0mpp[0m[1;33m,[0m [1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
A call environment simulator plus a strategy/agent for handling
call events, that is, to assign channels on incoming calls and
possible reassigning channels on terminating calls.
[1;31mSource:[0m        
[1;32mclass[0m [0mQTable[0m[1;33m([0m[0mRLStrat[0m[1;33m)[0m[1;33m:[0m[1;33m[0m
[1;33m[0m    [1;32mdef[0m [0m__init__[0m[1;33m([0m[0mself[0m[1;33m,[0m [0mpp[0m[1;33m,[0m [1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m:[0m[1;33m[0m
[1;33m[0m        [0msuper[0m[1;33m([0m[1;33m)[0m[1;33m.[0m[0m__init__[0m[1;33m([0m[0mpp[0m[1;33m,[0m [1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m[0m
[1;33m[0m        [1;31m# Learning rate for RL algorithm[0m[1;33m[0m
[1;33m

Tilstandsrommet til gridden grenser opp i mot $(7*7*70)^2 = 11764900$ verdier og er dermed enormt. For å lære ett estimat for hver mulige tilstand
kan det dermed ta opp i mot 10 millioner steg. For å redusere størrelsen på tilstandsrommet, og dermed antall Q-verdier som må læres, bruker vi en forenklet representasjon av tilstanden. $x_t ~ s_t$ hvor $x_t$ er cellen / basestasjonen. Denne forenklingen gjør at hver celle har 70 Q-verdier - en for hver kanal - og tilstandsrommet er redusert fra 10M til rundt 3000.



In [27]:
from strats import RS_SARSA
??RS_SARSA

[1;31mInit signature:[0m [0mRS_SARSA[0m[1;33m([0m[1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mSource:[0m        
[1;32mclass[0m [0mRS_SARSA[0m[1;33m([0m[0mQTable[0m[1;33m)[0m[1;33m:[0m[1;33m[0m
[1;33m[0m    [1;34m"""[0m
[1;34m    Reduced-state SARSA.[0m
[1;34m    State consists of cell coordinates only.[0m
[1;34m    """[0m[1;33m[0m
[1;33m[0m[1;33m[0m
[1;33m[0m    [1;32mdef[0m [0m__init__[0m[1;33m([0m[0mself[0m[1;33m,[0m [1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m:[0m[1;33m[0m
[1;33m[0m        [0msuper[0m[1;33m([0m[1;33m)[0m[1;33m.[0m[0m__init__[0m[1;33m([0m[1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m[0m
[1;33m[0m[1;33m[0m
[1;33m[0m    [1;32mdef[0m [0mfeature_rep[0m[1;33m([0m[0mself[0m[1;33m,[0m [0mcell[0m[1;33m:[0m [0mCell[0m[1;33m,[0m [1;33m*[0m[0marg

hvordan RL kan være nyttig for å fobedre andre ML systemer - eksempelvis recommender systems eller LLMer (RLHF) hvor RL kan brukes til å forbedre systemet ved at brukeren gir en enkel feedback (en reward - f.eks en score fra 0 til 10). Det er mye raskere og enklere for brukerne av systemet til å gi en score på hvor god en LLM respons er kontra det å skrive ut en full LLM respons for å bruke til supervised learning. 