# Vem finns i CERN?

<img src="https://cds.cern.ch/record/1968153/files/_B1A9225.jpg?subformat=icon-1440" width="300px" style="float:right">

CERN är en ytterst internationell plats: Tusentals forskare, ingenjörer och studerande från världens alla hörn arbetar tillsammans med olika projekt. 

I denna övning ska vi ta en titt på statistik över människorna bakom kunskapen: Varifrån kommer de? Till vilka yrkesområden hör de? Hur många studerande tas in, och hurudan än könsfördelningen bland de anställda.

> I detta exempel ser vi på statistiska tabeller, och åskådliggör dem. Vi lär oss hur man behandlar tabeller med siffervärden så väl som teckensträngar, och hur man med något bestämt kriterium söker upp värden ur tabellen.

In [3]:
# Kör denna cell först!
# Om du inte vet hur python fungerar rekommenderar vi att du tar en titt på våra guides och enklare exempel.

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

### Vilka stater hör till samarbetet?

CERN grundades på 50-talet efter det andra världskriget för att främja forskning i Europa. Vissa stater är medlemmar (Member States), andra står i samarbete med projektet eller söker medelmskap (Associate Member States), och övriga är utomstående övervakare (Observers). Till den sistnämnda kategorin hör också internationella organ så som UNESCO. Den här indelningen inkluderar inte alla världens stater, och på många håll gör man fristående vetenskapligt samarbete på mindre skala.

Staternas medlemsstatus är viktig när man avgör vilka studerande som tas in och hur man budgeterar för olika projekt. Ur staternas perspektiv är det intressant attt veta hur mycket tid de ges att utnyttja CERNs beräkningsenhet, eller hur deras status tryggar de inhemska industriernas utveckling.

In [4]:
# Kör den här cellen för att läsa in information om medlemsstaterna.

stater = pd.read_csv("https://raw.githubusercontent.com/cms-opendata-education/cms-jupyter-materials-finnish/master/Data/CERN_memberstates.csv", na_filter=False)

In [5]:
# Den här cellen visar en del av tabellen.
# display.max_colwidth None gör så att tabellens information kan läsas fastän texten i vissa celler är för lån
#

pd.set_option('display.max_colwidth', None)
stater.head(5)

Unnamed: 0,Country,Joined (year),Exceptions,Status
0,Belgium,1953,,Member State
1,Denmark,1953,,Member State
2,France,1953,,Member State
3,Germany,1953,,Member State
4,Greece,1953,,Member State


In [6]:
# Vi skriver ett kommando som hämtar information ur ett element i tabellen.

# Vi söker upp rätt rad, exempelvis Finland.
rad = stater[stater["Country"]=="Finland"]

# Sedan söker vi rätt kolumn, exempelvis status.
element = rad["Status"]

# Till sist skriver vi ut det element som vi har sökt fram.
print(element)

15    Member State
Name: Status, dtype: object


Testa dig fram och skriv din egen kod. Kopiera de bitar du behöver, och undersök t.ex. vilket år Norge kom med i samarbetet.

In [7]:
# Skriv din egen kod här!

### CERNs personal - Hur många arbetar egetligen där?

Cern är en omfattande organisation, som kräver massor av arbetskraft. Där arbetar partikelfysiker, maskiningenjörer, koordinatorer, kontorspersonal, räddningspersnal, läkare, byggarbetare, och lärare. I synnerhet finska brandmän är eftertraktade på den internationella arbetsmarknaden, eftersom de samtidigt utbildas till ambulansförare här. Dessa kan delas in i ordinarie personal (Members of Personnel, MPE) och den mer varierande gruppen av tillfälligt anställda (Associated Members of personnel, MPA).

In [8]:
# Kör denna cell för att läsa in information om CERNs anställda år 2017.

personal = pd.read_csv("https://raw.githubusercontent.com/cms-opendata-education/cms-jupyter-materials-finnish/master/Data/CERN_staff_by_dept_2017.csv")

In [9]:
# Här kan vi se antalet anställda på varje avdelning.

personal

Unnamed: 0,Category,Staff members (MPE),Fellows (MPE),Exchange Scientists (MPA),International collaboration (MPA),Training (MPA),Grand Total
0,Accelerators and Technology,21,2,4,14,4,45
1,Beams,434,128,82,101,107,852
2,Director-General Unit,44,3,13,2,0,62
3,Engineering,401,124,12,74,77,688
4,Experimental Physics,497,212,58,12340,161,13268
5,Finance and Administrative Processes,81,12,0,20,7,120
6,Human Resources,76,4,0,0,9,89
7,"Occupational Health, Safety and Environmental Protection Unit",162,38,15,20,16,251
8,"Industry, Procurement and Knowledge Transfer",52,9,0,9,12,82
9,International Relations,42,19,1,4,8,74


I vilken avdelning arbetar flest? Vi kan förstås ta reda på det svaret genom att bara läsa tabellen, men tänk om tabellen skulle innehålla flera tusen rader. Då behöver vi veta hur vi använder datorn för att hitta rätt info.

Vi testar!

In [10]:
# På vilken avdelning jobbar flest? Vi ber datorn göra en jämförelse.

# Den sista kolumnen i tabellen innehåller totala antalet anställda per avdelning.
# Vi läser in den, men lämnar bort den sista cellen med totalsumman.
grandtotal = personal["Grand Total"][0:(len(personal)-1)]

# Vi skiljer ut det största värdet i kolumnen.
flest = max(grandtotal)

# Vi söker den avdelning som har detta värde.
avdelning = personal[personal["Grand Total"]==flest]
namn = avdelning["Category"]

# Vi presenterar svaret på ett lättläsligt sätt.
print("Flest anställda finns på avdelningen " + nimi + ": " + str(flest) + " anställda.")


NameError: name 'nimi' is not defined

Var finns det minsta antalet anställda då? Testa med koden ovan som modell, använd kommandot min() istället för max() för att söka det minsta värdet.

In [None]:
# Sök den minsta avdelningen med hjälp av kod.



### Hurudana roller har personalen?

In [None]:
# Kör denna cell för att läsa in information om personalens yrken.

yrken = pd.read_csv("https://raw.githubusercontent.com/cms-opendata-education/cms-jupyter-materials-finnish/master/Data/CERN_staff_by_profession.csv")

In [None]:
yrken

I tabellen ovan exkluderas Users - en stor grupp användare av CERNs tjänster. Users räknades tidigare till MPA-kategorin. I tabelle ser vi tydligt, trots att de kvinnliga anställda har ökat mycket under de senaste årtionden, att de flesta områden är mansdominerade, men i vilken grad? 

Vi beräknar några förhållanden:

In [None]:
# Här skapar vi en tabell som beskriver andelen kvinnliga anställda för varje område och anställningsstatus.

# Först beräknar vi förhållandetalen
# Vi dividerar en kolumn med en annan, vilket resulterar i att varje element
# i kolumnen divideras med det motsvarande elementet i den andra.
kvotstaff = yrken["Staff, Female"]/yrken["Staff, Male"]
kvotfellows = yrken["Fellows, Female"]/yrken["Fellows, Male"]
kvotmpa = yrken["MPAs (excluding Users), Female"]/yrken["MPAs (excluding Users), Male"]

# Sedan sätter vi in förhållandetalen i en egen tabell, s.k. DataFrame
kvoter = pd.DataFrame(data=yrken["Category"])
kvoter["Staff"] = kvotstaff
kvoter["Fellows"] = kvotfellows
kvoter["MPAs"] = kvotmpa


In [None]:
kvoter

Nu har vi kvoterna sammanfattade i en tabell. Vi ser ett par märkliga värden - NaN (Not a number) och inf ("infinity"). Vad beror de här på? Jämför med yrkestabellen.

### Personalen genom åren

In [None]:
# Kör denna cell för att läsa in tidsserier av tabeller.

artionde = pd.read_csv("https://raw.githubusercontent.com/cms-opendata-education/cms-jupyter-materials-finnish/master/Data/CERN_staff_by_years.csv")
alder = pd.read_csv("https://raw.githubusercontent.com/cms-opendata-education/cms-jupyter-materials-finnish/master/Data/CERN_staff_age_over_a_decade.csv")

Vi skapar ett par grafer för at göra det lät att se hur de anställdas antal har varierat under de senaste åren och hur personalens åldersfördelning har sett ut under de senaste tio åren.

In [None]:
# Här syns antalet anställda under åren 2013-2017.
artionde

In [None]:
# Vi sätter in talen ovan i en graf.


f, ax = plt.subplots(figsize=(10,5))
ax.set_xticks(artionde["End of year"])

plt.plot(artionde["End of year"], artionde["Staff members (MPE)"], label = "Staff members (MPE)")
plt.plot(artionde["End of year"], artionde["Fellows (MPE)"], label = "Fellows (MPE)")
plt.plot(artionde["End of year"], artionde["MPA excluding Users"], label = "MPA excluding Users")
plt.plot(artionde["End of year"], artionde["Users"], label = "Users")
plt.plot(artionde["End of year"], artionde["Grand total"], label = "Grand total")


plt.title("CERNs personal 2013-2017 \n")
plt.legend(loc="center right")
plt.show()

Vad kan vi säga om utvecklingen utgående från den här grafen, då vi vet att de flesta Users deltar på distans?

In [None]:
# Här ser vi den fasta personalens åldersfördelning under tiden 2007-2017.
alder

In [None]:
# Först bestämmer vi grafens storlek och kategoriindelning.
plt.figure(figsize=(10,5))
indelning = np.arange(len(alder)-1)
w = 0.3
namn = alder["Age range"][0:len(alder)-1].tolist()

# Här ritar vi staplarna...
plt.bar(indelning-w, alder["2007"][0:len(alder)-1], width = w, alpha=0.5, color="r", label="2007")
plt.bar(indelning, alder["2012"][0:len(alder)-1], width = w, alpha=0.5, color="b", label="2012")
plt.bar(indelning+w, alder["2017"][0:len(alder)-1], width = w, alpha=0.5, color="g", label="2017")

# ...och så gör vi diagrammet läsligt.
plt.xticks(indelning, namn)
plt.title("Personalens åldrar \n", fontsize=15)
plt.xlabel("\n Ålder (år)")
plt.legend(loc="upper right")
plt.show()

Kan du se några trender bland åldrarna? Har någon åldersgrupp tydligt flyttat från stapel till stapel mellan mätningarna?

### Users - användare jorden runt.

User - termen innefattar många aktörer. Utlandsforskare, sommarstuderande och tekniker, bland många andra. Den största andelen är inte direkt kopplade till CERNs affärer, utan fungerar genom sina egna länders institut i samma nätverk. (Liksom jag som skriver detta, Hej hej!)

In [None]:
# Vi läser in mer information om anställda år 2017

userGen = pd.read_csv("https://raw.githubusercontent.com/cms-opendata-education/cms-jupyter-materials-finnish/master/Data/CERN_users_gender.csv")
userExp = pd.read_csv("https://raw.githubusercontent.com/cms-opendata-education/cms-jupyter-materials-finnish/master/Data/CERN_users_experiment_profession_nationality.csv")


In [None]:
# Hur ser fördelningen av Users ut med avseende på yrkesområde och kön?
userGen

In [None]:
# Låt oss rita lite fler diagram: Ett cirkeldiagram över arbetsfördelningen.

labels = 'Research physicists', 'Scientific & Engineering work', 'Technical work', 'Manual work', 'Prof. Admin.'
sizes = [8421, 1015, 556, 3, 20]
explode = (0, 0, 0.1, 0.3, 0.5)  # explode drar ut de små sektorerna för att göra diagrammet tydligare.

fig1, ax1 = plt.subplots()
ax1.pie(sizes, explode=explode, labels=labels, autopct='%1.1f%%',
        shadow=True, startangle=90)
ax1.axis('equal')  # Equal hjälper oss att få en prydlig cirkel.

plt.title("Arbetsfördelning (män) \n")
plt.show()

labels1 = 'Research physicists', 'Scientific & Engineering work', 'Technical work', 'Manual work', 'Prof. Admin.'
sizes1 = [1995, 105, 60, 0, 61]
explode1 = (0, 0, 0.1, 0.3, 0.5)  # Vad händer om du ändrar dessa siffror?

fig2, ax2 = plt.subplots()
ax2.pie(sizes1, explode=explode1, labels=labels1, autopct='%1.1f%%',
        shadow=True, startangle=90)
ax2.axis('equal')  # Equal hjälper oss att få en prydlig cirkel.

plt.title("Arbetsfördelning (kvinnor) \n")
plt.show()

In [None]:
# Eller fördelningen mellan experimentdeltagande, nationalitet och yrke?
# I tabellen syns först de olika experimenten (ATLAS, CMS...) och sedan yrkesindelningen för samma människor.

userExp

Minns du hur man söker information? Testa att gräva fram finlands information. I vilket experiment har Finland främst deltagit?

In [None]:
# Skriv en kod som söker fram Finlands (FI) rad ur tabellen.
# Du hittar tips i tidigare exempel, under den första tbellen i detta dokument.



### Studerande - Goda möjligheter för framtiden?

CERN är en unik plats, och det märks på arbetsmiljöns mångsidighet och trivsamhet. CERN är också ett enastående mål för den nyfikna eleven. Man kan komma dit redan som ung sommarstuderande, eller senare som doktorand eller deltagare i något projekt. CERN är inte i sig själv en institution för utbildning, utan de studerande kommer oftast dit genom sina egna organisationers program. Vi tar en titt på de projekt som sponsrades genom CERN förra året. (Observera att många finska studerande deltar i egenskap av Users, och därför inte syns i denna statistik.) 

In [11]:
# Vi läser in informationen om studerande.

studerande = pd.read_csv("https://raw.githubusercontent.com/cms-opendata-education/cms-jupyter-materials-finnish/master/Data/CERN_student_recruitment.csv")

In [12]:
studerande

Unnamed: 0,Nationality,"Doct. Application, Female","Doct. Application, Male",Total,"Doct. Selected, Female","Doct. Selected, Male",Total.1,"Summer Application, Female","Summer Application, Male",Total.2,"Summer Selected, Female","Summer Selected, Male",Total.3
0,AT,7,22,29,3,13,16,12,12,24,2,1,3
1,BE,0,9,9,0,2,2,2,17,19,2,2,4
2,BG,4,10,14,0,0,0,5,9,14,1,1,2
3,CH,9,19,28,5,7,12,11,15,26,1,5,6
4,CY,0,3,3,0,0,0,2,4,6,2,2,4
5,CZ,1,9,10,0,2,2,11,19,30,1,1,2
6,DE,15,112,127,6,50,56,17,63,80,3,22,25
7,DK,1,14,15,0,1,1,1,11,12,1,6,7
8,ES,11,62,73,3,18,21,27,98,125,2,8,10
9,FI,4,10,14,2,3,5,2,15,17,0,4,4


In [18]:
# Vi tar en titt på könsfördelningen för ansökningar och antagningar för olika länder.
# dr_ans  ansökande doktorander
# dr_ant  antagna doktorander
# st_ans  ansökande studerande
# st_ant  antagna studerande

dr_ans = studerande["Doct. Application, Female"]/studerande["Doct. Application, Male"]
dr_ant = studerande["Doct. Selected, Female"]/studerande["Doct. Selected, Male"]
st_ans = studerande["Summer Application, Female"]/studerande["Summer Application, Male"]
st_ant = studerande["Summer Selected, Female"]/studerande["Summer Selected, Male"]

# Tässä tehdään taas dataframe-taulukko, johon äsken lasketut tiedot liitetään sarakkeina.
kvot = pd.DataFrame(data=studerande["Nationality"])
kvot["Doktorander - ansökningar"] = dr_ans
kvot["Doktorander - antagningar"] = dr_ant
kvot["Sommarstuderande - ansökningar"] = st_ans
kvot["Sommarstuderande - antagningar"] = st_ant


In [19]:
kvot

Unnamed: 0,Nationality,Doktorander - ansökningar,Doktorander - antagningar,Sommarstuderande - ansökningar,Sommarstuderande - antagningar
0,AT,0.318182,0.230769,1.0,2.0
1,BE,0.0,0.0,0.117647,1.0
2,BG,0.4,,0.555556,1.0
3,CH,0.473684,0.714286,0.733333,0.2
4,CY,0.0,,0.5,1.0
5,CZ,0.111111,0.0,0.578947,1.0
6,DE,0.133929,0.12,0.269841,0.136364
7,DK,0.071429,0.0,0.090909,0.166667
8,ES,0.177419,0.166667,0.27551,0.25
9,FI,0.4,0.666667,0.133333,0.0


Fastän tabellen ovan är beskrivande i sig själv, så ger den kanske inte en så informativ bild av antagningsförhållandena. Försök själv koda en cell som beräknar förhållandet mellan antagna och ansökande för de olika länderna och könen. Är det något som ser annorlunda ut? 

Är du kanske själv intresserad av att arbeta med CERN?

In [None]:
# Koda här!



### Mera läsning och statistikbehandling

Informationen för denna övning är samlad här:[https://home.cern/about/who-we-are/our-governance/member-states](https://home.cern/about/who-we-are/our-governance/member-states) och här: [https://cds.cern.ch/collection/CERN%20Annual%20Personnel%20Statistics?ln=en](https://cds.cern.ch/collection/CERN%20Annual%20Personnel%20Statistics?ln=en). 

Där finns också mycket annan öppen information, exempelvis gällande boende, familjestorlek och registrerade parförhållanden.

Vi önskar dig mycket nytta och nöje med data i fortsättningen!