# Referat Laboratorul 1 - SuperScalare Avanasata

Deaconu Ioan April 21, 2015

## 1 Introducere

Intel, pe langa AMD, este unul din liderii mondiali ai industriei de microprocesoare. Acest lucru este datorat in mare parte arhitecturii Core i7, arhitectura revolutionara lansata in noiembrie 2008.

Desi de atunci Intel a ajuns la a 5-ea iteratie a arhitecturii, sub nume de cod Broadwell, functionarea ei este identica cu cea a arhiecturii Nehalem, prima iteratie a lui Core i7.

Din aceast motiv, aceasta lucrare va prezenta imbunatatirile aduse acestei arhitecturi, imbunatari care chiar si dupa 7 ani de la introducere lor sunt inca folosite si de actualitate.

## 2 NOTIUNI TEORETICE AFERENTE

Specificatiile de baza sunt:

- · Hyper-threading.
- Quad-core si octa-core nativ
- Intel QPI
- 64KB L1 cache pentru fiecare nucleu (32KB L1 data si 32KB L1 instruction)
- 256KB L2 cache pentru fiecare nucleu
- L3 cache de ordinul MB
- Controler de memorie ram DDR3 integrat cu doua sau trei canale

- A doua generate de Intel-VT
- Instructiunea SSE4.2
- Pipeline in 20 sau 24 de stagii.

Aceasta arhitectura are multe imbunatatiri care o ajuta sa fie relevanta si in aceste zile, dar voi prezenta cele mai importante dintre ele.

- Accesul nealiniat la memoria cache. Pana la arhitectura Nehalem, accesul la memoria cache era facut aliniat, astfel compilatoarele trebuiau sa se ocupe de alinierea memoriei pentru a obtine performanta maxima. Cu access nealiniat la memoria cache, aplicatiile nu mai trebuie sa fie optimizate pentru accesul nealiniat, marind viteza de executie a programului[6].
- Hyper-Threading. Desi acest feature a fost folosit anterior in arhitectura Pentium 4 in anul 2003, s-a renuntat la el in urmatoarea generatie, pentru a se reveni inapoi la simultaneous threading odata cu arhitectura Core i7.
- Controlul Avansat al Consumului. Pe langa nuclee propriuzise ale procesorului, exista un nucleu mai mic, un nucleu care se ocupa de monitorizarea parametrilor de functionare, parametri precum temperatura, consumul, optimizand puterea totala consumata. Astfel, acest microcontroler poate opri complet un nucleu pentru a minimiza consumul.
- Modul Turbo Boost. Datorita controlului avansat de consum, si a faptului ca mai multe nuclee pot fi oprite, aceasta rezerva de putere poate fi folosita pentru a mari frecventa nucleelor active. Cat timp puterea totala consuma a procesorului si temperatura acestuia nu depasesc limitele admise, exista posibilitatea ca toate nuclele sa poata functiona cu o frecventa marita in acelasi timp.

O mare parte din aceste idei au fost folosite in alte arhitecturi mai recente, arhitecturi precum Cortex A7, A9 sau mai recent A57 si A53. Deasemenea si AMD a folosit o parte din idei in procesoare x86 create de ei.

#### 3 IMPLEMENTARE

#### 3.1 ACCESUL NEALINIAT LA MEMORIA CACHE

Cea mai mare instructiune de tip SSE are 16 bytes, sau 128 de biti. Pentru fiecare operatie de tip store/load exista 2 versiuni: prima versiune care are operatorii aliniati la 16 bytes, si cea de-a doua versiunea care nu are operatorii aliniati.

Compilatoarele folosesc operatiile nealinitate daca nu pot garanta accesul aliniat la memorie. Toate procesoarele de generatie anterioara, Core 2, aveau o scadere drastica a performantei in momentul folosirii instructiunilor nealiniate fata de cele aliniate.

Problema este ca majoritatea compilatoarelor nu pot garanta aliniarea datelor in memorie si astfel se folosesc foarte multe instructiunii nealiniate. Incepand cu arhitectura Nehalem, nu

mai exista scadere de performanta datorata folosirii instructiunilor pe date nealiniate. Astfel compilatoarele nu vor mai fi nevoie sa alinizeze datele in memorie de teama scaderii vitezei de executie [7].

#### 3.2 Hyper-Threading

Acesul nealiniat la memorie a fost necesar deoarece in aceasi arhitectura exista simultaneous multithreading.

In mod normal, un procesorul nu are folosite toate modulele componente in acelasi timp, astfel ca simultaneous multithreading foloseste aceasta ideea prin simularea a 2 nuclee virtuale folosind un singur nucleu. Pentru acest lucru, a fost necesara marirea numarului de registrii de load de la 32 la 48 si numarul de registrii de store de la 20 la 32.



Figure 3.1: Diferenta intre cu si fara Hyper-Threading

Exista arhitecturi in care se un nucleu fizic poate simula 4 nuclee virtuale, dar in cazul lui Core i7, Intel a decis sa foloeasca doar 2 nuclee virtuale pentru fiecare nucleu fizic. Astfel in cazu in care pe un nucleuz s-ar executa operatii cu intregi, unitatea in virgula mobile, ar putea fi utilizata de un alt thread care ar dori sa foloseasca operatii cu numere reale [5].

#### 3.3 CONTROLUL AVANSAT AL CONSUMULUI

Intel Core i7 are 4 stari principale ale consumului[1].

- P-State starea de performanta maxima a microprocesorului
- T-State starea de sleep in care microprocesorul are frecventa redusa
- C-State starea in care procesorul este in sleep
- S-State starea de sleep ale sistemului



Figure 3.2: Unitatea de control a puterii

## 3.4 Modul Turbo Boost

Datorita existentei unui control dedicat al puterii, nucleele pot rula la frecvente independente. In cazul in care doar 2 nuclee din 4 sunt folosite, atunci cele 2 nuclee vor putea rula la o frecventa mai mare decat cea de baza , deoarece vor folosi puterea salvata prin inchiderea celorlate 2 nuclee. De exemplu, daca frecventa de baza a unui procesor cu 4 nuclee este de 2,66 ghz atunci daca maxim 2 nuclee sunt folosite, acestea vor puteea rula la o frecventa maxima de 3 ghz.

[4].



Figure 3.3: Exemplu de Turbo Boost

## 4 SIMULARE

In acest capitol vom investiga cat de mult afecteaza acestea imbunatatiri in lumea reala. Cei de la tom's Hardware au testat procesoarele pentru a vedea daca Hyper-Threading-ul sau functia de Tubo Boost aduc imbunatatiri de performanta in lumea reala.



Figure 4.1: Diferenta intre Turbo Boost activat si dezactivat [2]

Testul a fost efectuat pe softul iTunesi, un utilitar de coversie audio, deoarece acesta era un soft care folosea un singur nucleu. Rezultatele testelor arata faptul ca desi procesorul are o frecventa de lucru mai mica decat un single core, sau dual core, acesta este in stare sa fie la fel de rapid ca ele, in task-uri care nu folosesc multe nuclee.



Figure 4.2: Diferenta intre cu si fara Hyper-Threading [3]



Figure 4.3: Diferenta intre cu si fara Hyper-Threading [3]

In cazul testului de hyper-threading, s-au folosit softuri optimizate pentru lucrul cu multe fire de executie. Astfel s-a folosit MainConcept, un utilitar de conversie video si care poate folosi mai mult de 8 nuclee, si AVG pentru scanarea fisierel, acesta find tot un program care putea rula pe mai multe nuclee.

Din teste se observa ca desi procesorul este folosit la maxim, exista posibilitatea folosirii mai eficienta a resurselor, astfel ca prin activarea HT, perfomanta sistemului creste.

### 5 CONCLUZII

Core i7 a fost o arhitectura revolutionara, o arhitectura care odata cu performanta marita a ei a adus si un consum mai redus de energie. Eficienta energetica a procesorului a permis ca intel sa o poata folosi atat pentru sisteme mobile, de exemplu laptopuri, cat si pentru sisteme de calcul ultra performante.

#### REFERENCES

- [1] Intel and core i7 (nehalem) dynamic power management. https://impact.asu.edu/cse591sp11/Nahelempm.pdf. Accessed: 2015-04-21.
- [2] Intel core i5 and core i7: Intel mainstream magnum opus. http://www.tomshardware.com/reviews/intel-core-i5,2410-4.html. Accessed: 2015-04-21.
- [3] Intel core i5 and core i7: Intel mainstream magnum opus. http://www.tomshardware.com/reviews/intel-core-i5,2410-5.html. Accessed: 2015-04-21.
- [4] P. P. Gelsinger. Intel architecture press briefing. In *Intel Developer Forum, San Francisco*, 2008.
- [5] A. Semin. Inside intel nehalem microarchitecture. In *Slideshow. The Eighth Annual Meeting on High Performance Computing and Infrastructure in Norway*, pages 1–46, 2009.
- [6] R. Singhal. Inside intel next generation nehalem microarchitecture. In *Hot Chips*, volume 20, 2008.
- [7] M. E. Thomadakis. The architecture of the nehalem processor and nehalem-ep smp platforms. *Resource*, 3:2, 2011.