# Ansoegning

### Importering af biblioteker

In [94]:
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime

### Løsning af CSV fil

In [20]:
# Den statiske filsti
filepath = r"C:\Users\steff\OneDrive\Dokumenter\Ansøgninger 2024\Sikkerhedsstyrelsen\PythonUdvikler\husrapporter-2021-01.csv"

# Avender pandas til at læse csv filen
data = pd.read_csv(filepath)


### Overblik over data

In [62]:
# Overblik over headers og de første fem datapoints af datasættet
data.head()

Unnamed: 0,rapport_id,inspektoer_id,ejendoms_id,oprettelsesdato,besoegsdato,gyldighedsdato
0,47914,1018,47913,2021-01-04 10:02:30,2021-01-11 08:00:00,2021-01-11 10:38:45
1,48969,619,48968,2021-01-05 13:22:08,2021-01-05 11:00:00,2021-01-05 13:32:03
2,50178,368,50177,2021-01-07 10:44:30,2021-01-08 11:43:00,2021-01-08 14:34:58
3,51212,608,50177,2021-01-10 21:43:22,2021-01-08 07:00:00,2021-01-10 22:42:58
4,49567,638,49566,2021-01-06 11:42:07,2021-01-06 09:30:00,2021-01-08 10:22:50


### Her kan vi se at vi har følgende data:
- rapport_id:           Raportens ID
- inspektoer_id:        ID på den inspektør som har udført opgaven
- ejendoms_id:          ID på den ejensom der er udført kontrol på
- oprettelsesdato:      Dato for oprettelse
- besoegsdato:          Dato for besøg af inspektoer
- gyldighedsdato:       Dato for gyldighed

# Opgaver


## Vi vil gerne vide om der er signifikant forskel på tiderne hos de forskellige inspektører og fagområder.

### Kan vi klassificere inspektørerne efter de to fagområder?

Ved første gennemgang af data, kan vi se at flere ejendomme har et eller flere ID tilknyttet forskellige inspektører. De inspektører som er de eneste tilknyttet en ejendoms ID vil således være de som kan udarbejde både elinstallations- og tilstandsrapport.

#### List med antal rapporter hver ejendom har

In [119]:
# Identificer ejendomme med præcis én rapport og mere end én rapport
ejendomme_antal_rapporter = data['ejendoms_id'].value_counts()
ejendomme_antal_rapporter.value_counts()

2    5307
1    2416
3     110
4      10
Name: ejendoms_id, dtype: int64

Her har vi en fordeling af hvor mange rapporter hver ejendom har liggende, fordelt fra én op til fire rapporter.

#### Antal ejendomme med én eller flere rapporter

In [133]:
# Ejendomme med præcis én rapport
en_rapport_ejendomme = ejendoms_id_tael[ejendoms_id_tael == 1].index.tolist()

# Ejendomme med mere end én rapport
flere_rapporter_ejendomme = ejendoms_id_tael[ejendoms_id_tael > 1].index.tolist()

# Antal ejendomme med hhv. én og flere rapporter
antal_ejendomme_en_rapport = len(en_rapport_ejendomme)
antal_ejendomme_flere_rapporter = len(flere_rapporter_ejendomme)

(antal_ejendomme_en_rapport, antal_ejendomme_flere_rapporter)

(2416, 5427)

Her kan vi se at 5427 ejendomme har mere end én rapport mens 2416 kun har én rapport liggende.

#### Datasæt for ejendomme med hhv. én eller flere rapporter

In [137]:
# Data for ejendomme med præcis én rapport
data_en_rapport = data[data['ejendoms_id'].isin(en_rapport_ejendomme)]

# Data for ejendomme med mere end én rapport
data_flere_rapporter = data[data['ejendoms_id'].isin(flere_rapporter_ejendomme)]                                                   

#### Inspektører der har arbejdet på kun én rapport

In [161]:
inspektoerer_en_rapport = data_en_rapport['inspektoer_id'].unique()
antal_inspektoerer_en_rapport = len(inspektoerer_en_rapport)
antal_inspektoerer_en_rapport

469

Dette tal viser hvor mange inspektører der selvstændigt har været ude ved ejendomme og derved de inspektører som man må antage kan udføre både elinstallations- og tilstandsrepporter.

#### Totale antal unikke inspektører

In [162]:
specialicerede_inspektører = data['inspektoer_id'].unique()
totale_antal = len(specialicerede_inspektører)
totale_antal

590

I dette datasæt er der 590 unikke inspektører som kan varetage enten elintallations- og/eller  tilstandsrapporter.

#### Inspektører som kun varetager enten elintallations- eller tilstandsrapporter

In [159]:
inspektrører 

In [142]:
# Inspektører minus inspektører 

NameError: name 'inspekinspektoerer_flere_rapportertoerer_en_rapport' is not defined

#### Det totale antal af unikke inspektører

In [126]:
# Beregn antallet af unikke inspektør ID'er i hele datasættet
antal_unikke_inspektoerer = data['inspektoer_id'].nunique()
antal_unikke_inspektoerer

590

#### Antal inspektører som er specialiceret i enten elinstallationsrapporter eller tilstandrapporter.

In [93]:
# Beregn antallet af inspektører som ikke kan udarbejde både el- og tilstandsrapporter
antal_inspektoerer_specialiserede = antal_unikke_inspektoerer - antal_inspektoerer_en_rapport
antal_inspektoerer_specialiserede

121

### Konklusion

Baseret på ovenstående analyse har vi identificereret:

- 2416 ejendomme har én rapport. Her må inspektøren således være i stand til at kunne udføre både elinstallations- og tilstandsrapport. Der er på disse 2416 ejendomme 469 unikke ID'er og derved 469 inspektører som kan varetage begge rapporter.

- 5427 ejemdomme har mere end én rapport, hvilken indikerer at der har været flere inspektører ude for at foretage forskellige rapporttyper. Her er der 556 unikke ID'er som har varetaget disse rapporter.

- Der er 590 unikke inspektører tilknyttet dette datasæt. Det vil sige at 469 inspektører kan varetage både elinstallations- og tilstandsrapporter mens 121 inspektører kan varetage enten den éne eller den anden rapport.

## Vi kan definere færdiggørelsestiden som tiden fra besigtigelse til gyldighed.

### Er der signifikant forskel på færdiggørelsestiden på de to fagområder?

#### Først skal vi beregne færdiggørelsestiden, altså tiden fra besøget til gyldigheden i totale antal timer

In [104]:
data['besoegsdato'] = pd.to_datetime(data['besoegsdato'], errors='coerce')
data['gyldighedsdato'] = pd.to_datetime(data['gyldighedsdato'], errors='coerce')

# Beregn færdiggørelsestiden i timer
data['færdiggørelsestid_timer'] = (data['gyldighedsdato'] - data['besoegsdato']).dt.total_seconds() / 3600

# Den gennemsnitlige færdiggørelsestid i timer
data["færdiggørelsestid_timer"].mean()

115.5228491554096

NameError: name 'data_potentielt_begge' is not defined

In [None]:
# Opdater segmenteringen af datasættet
data_potentielt_begge['færdiggørelsestid_timer'] = data.loc[data['inspektoer_id'].isin(inspektoerer_kun_en_rapport), 'færdiggørelsestid_timer']
data_specialiserede['færdiggørelsestid_timer'] = data.loc[~data['inspektoer_id'].isin(inspektoerer_kun_en_rapport), 'færdiggørelsestid_timer']

# Beregn gennemsnitlig færdiggørelsestid i timer for hver gruppe
gns_færdiggørelsestid_timer_potentielt_begge = data_potentielt_begge['færdiggørelsestid_timer'].mean()
gns_færdiggørelsestid_timer_specialiserede = data_specialiserede['færdiggørelsestid_timer'].mean()

# Udfør t-test igen for at sammenligne færdiggørelsestid i timer mellem de to grupper
t_stat_timer, p_værdi_timer = ttest_ind(
    data_potentielt_begge['færdiggørelsestid_timer'].dropna(), 
    data_specialiserede['færdiggørelsestid_timer'].dropna()
)

gns_færdiggørelsestid_timer_potentielt_begge, gns_færdiggørelsestid_timer_specialiserede, t_stat_timer, p_værdi_timer

### Er det inspektøren eller fagområdet som har størst betydning for variationen i færdiggørelsestid?