# Data øvelser med Numpy, Pandas og MatPlotLib

Her er en række øvelser, hvor vi skal blive bedre til at håndtere nogle af de mest bruge databehandling og visualleringspakker i Python. I må gerne bruge alternativer til de ovenstående pakker, men det anbefales at bruge de ovenstående, da de er de mest anvendte.


## Simulering af Møntkast og Statistisk Analyse
I denne opgave skal I simulere et stort antal møntkast og analysere resultaterne statistisk. Formålet er at få erfaring med at skrive Python-kode til simulering og at anvende grundlæggende statistiske principper.

### Opgavebeskrivelse

Simulér Møntkast: Skriv en Python-funktion, der simulerer et møntkast. Mønten kan enten lande på "Plat" eller "Krone".
Gentag Simulationen: Kast mønten mange gange (for eksempel 10.000 gange) og optæl, hvor mange gange mønten lander på "Plat" og "Krone".
#### Statistisk Analyse:
Beregn sandsynligheden for at få "Plat" og "Krone" ud fra simulationen.

Beregn den gennemsnitlige forekomst af "Plat" pr. 100 kast.

Lav en grafisk visualisering af sandsynligheden som en funktion af antal kast.

Undersøg, hvordan variationen ændrer sig over tid. F.eks. hvordan sandsynligheden konvergerer mod 50% efter mange kast.

In [63]:
import random

def coin_flip():
    return 

## Analyser og visualiser data for politistop

### Trin 1: Data Cleaning og Forberedelse (Pandas)
**Rens data:**

    - Fjern rækker med manglende værdier i driver_gender, violation, og stop_outcome, da disse kolonner er afgørende for analysen.

    - Konverter stop_date til en datetime-type, og udtræk år og måned som nye kolonner.
    
**Alderberegning:**

    - Hvis driver_age_raw er fødselsår, brug NumPy til at beregne alderen (antag, at dataene er fra 2021). Tilføj en ny kolonne age.

### Trin 2: Analyse (NumPy og Pandas)

**Fordeling af Aldersgrupper:**

    - Del alderskolonnen op i grupper, fx <20, 20-29, 30-39, osv. Brug NumPy til at definere disse intervaller og Pandas til at gruppere dataene.

    - Beregn det gennemsnitlige antal stops pr. aldersgruppe.

**Køns- og Racefordeling:**
    - Analyser forholdet mellem driver_gender og violation, dvs. hvilke typer af overtrædelser er mest almindelige for hver køn.
    - Brug Pandas til at tælle antallet af trafikstops pr. race og køn.

### Trin 3: Visualisering (Matplotlib)

**Søjlediagram for aldersfordeling:**

    - Lav et søjlediagram for antallet af trafikstops pr. aldersgruppe.

**Køns- og racefordeling:**

    - Visualiser fordelingen af køn og race for trafikstops i et stablet søjlediagram.

**Overtrædelser fordelt på køn:**

    - Lav et søjlediagram, der viser de mest almindelige typer af overtrædelser for hvert køn.


Lav en beskrivelse af de fundne resultater, og hvad de betyder for politistop analysen.


In [22]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Indlæs data
df = pd.read_csv('Data/Police/police.csv')

# Porteføljeoptimering og Analyse af S&P 500 Aktier
I denne opgave vil I arbejde med historiske aktiedata for top 50 aktier i S&P 500. Jeres mål er at forstå, hvordan disse aktier har udviklet sig over de sidste 10 år fra (2014-10-28 til 2024-10-27) og bruge denne indsigt til at sammensætte en portefølje, som giver det bedste afkast.

Lav kode til datahåndtering og visualisering samt udvikl en strategi for at maksimere jeres porteføljes værdi. Husk, at der er begrænsninger på, hvor meget I kan investere i hver aktie.

**Trin 1: Dataanalyse og Visualisering**
Hent data: Start med at indlæse aktiedataene (filen Stocks.csv).

    Normalisering: Normaliser lukkepriserne for de udvalgte aktier, så alle starter på en basisværdi af 100. Dette vil hjælpe jer med at se den procentvise udvikling over tid.

    Visualisering: Brug en logaritmisk skala til at plotte udviklingen af hver aktie over tid. Dette giver jer en idé om, hvilke aktier der har haft størst vækst eller mindst volatilitet.

Kodevejledning: Følg de trin og kodeeksempler, vi har gennemgået, for at lave en overskuelig graf over aktiernes udvikling over tid. Der er også en starterkode, nedenfor!

**Trin 2: Porteføljedesign**

Regler for porteføljen:

    I må maksimalt investere 22% af jeres samlede portefølje i én enkelt aktie.
    Resten af jeres investering skal fordeles mellem de andre aktier, men uden at bryde 22%-reglen.
    Mål: Jeres mål er at maksimere værdien af jeres portefølje ved udgangen af de 10 år, baseret på de historiske data.

    Porteføljesammensætning: Vælg en sammensætning af aktier, der balancerer risiko og afkast. Husk at tage højde for, hvordan aktierne har udviklet sig og deres volatilitet.

Tip: Brug både data fra normaliserede og log-skalerede grafer til at identificere aktier med stabile og høje vækstrater.

**Trin 3: Implementering og Beregning af Afkast**

Implementer jeres strategi: Skriv kode til at simulere jeres porteføljes afkast over de 10 år, givet jeres valg af investeringer og procentfordeling.
Afkastberegning: Udregn det samlede afkast af jeres portefølje over de 10 år. I kan for eksempel opdatere porteføljens værdi hvert år og analysere, hvordan jeres valg har påvirket den langsigtede vækst.
Sammenligning: Del jeres resultater med de andre grupper og sammenlign, hvem der har opnået det bedste afkast. Diskutér, hvilke faktorer og strategier der førte til de forskellige resultater.

In [60]:
import matplotlib.pyplot as plt 
import numpy as np 
import os 
import pandas as pd 

# Load only the 'indexProcessed' data as per the latest analysis requirements
stocks = pd.read_csv('./Data/Stocks/Stocks.csv', index_col=0, parse_dates=True) # Dato fra 1980-10-28 til 2021-10-27
stocks.head()
stocksnew = pd.read_csv('./Data/Stocks/StocksNew.csv', index_col=0, parse_dates=True) # Dato fra 2022-10-28 til 2024-10-27
stocksnew.head()

Unnamed: 0_level_0,AAPL,MSFT,AMZN,GOOGL,FB,TSLA,BRK-B,JPM,JNJ,NVDA,...,AMGN,TXN,HON,NEE,QCOM,IBM,TMO,PM,CVX,ORCL
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2022-10-28 00:00:00+00:00,155.740005,235.869995,103.410004,96.290001,,228.520004,299.630005,126.080002,174.869995,13.834,...,273.809998,161.360001,204.929993,79.029999,119.209999,138.509995,503.839996,92.529999,179.979996,77.360001
2022-10-31 00:00:00+00:00,153.339996,232.130005,102.440002,94.510002,,227.539993,295.089996,125.879997,173.970001,13.497,...,270.350006,160.630005,204.020004,77.5,117.660004,138.289993,513.969971,91.849998,180.899994,78.07
2022-11-01 00:00:00+00:00,150.649994,228.169998,96.790001,90.470001,,227.820007,294.130005,128.149994,173.089996,13.543,...,272.059998,162.899994,203.100006,77.709999,117.330002,138.199997,517.690002,91.720001,182.220001,77.110001
2022-11-02 00:00:00+00:00,145.029999,220.100006,92.120003,86.970001,,214.979996,289.459991,126.970001,170.429993,13.219,...,269.01001,158.490005,200.470001,77.279999,112.5,136.830002,490.980011,89.379997,178.5,75.120003
2022-11-03 00:00:00+00:00,138.880005,214.25,89.300003,83.43,,215.309998,283.850006,127.199997,170.720001,13.421,...,265.880005,156.520004,204.389999,78.18,103.879997,134.470001,486.940002,88.339996,181.130005,75.029999
