# Arbeidsark: Univariat Dataanalyse i Python

## Målsetninger:
- Laste inn et datasett fra en CSV-fil
- Identifisere variabeltyper
- Beregne beskrivende statistikk: gjennomsnitt, modus, median, varians og standardavvik
- Visualisere variabler
- Analysere manglende data
- Lage nye variabler og lagre det oppdaterte datasettet

## Oppgaver for modulen 
- Last inn datasettet og inspiser de første radene.
- Klassifiser variablene som numeriske, kategoriske, ordinale eller binære..
- Beregn beskrivende statistikk for én numerisk variabel.
- Visualiser den valgte variabelen med en passende plot.
- Lag en ny variabel basert på eksisterende variabler.
- Lagre det modifiserte datasettet.

### Aller første du må gjøre, er å importere biblioteker som skal brukes

In [None]:
# Steg 1: Importer nødvendige biblioteker
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt



## 1. Last inn datasettet
(Husk å kjør koden i data-cellene for å få resultater. Dette gjøres ved å sette markøren i cellen, og enten klikke [ctrl]+[enter] på tastaturet, eller klikke "play" knappen på menyen over.

In [None]:
# Load the dataset from a CSV file
# Replace 'your_file.csv' with the path to your dataset
file_path = 'filen som skal analyseres'
data = pd.read_csv(file_path)

# Display the first few rows of the dataset
data.head()

## 2. Identifisere variabeltyper og gjør datafilen klar for analyse


Variabler kan være:

- Numeriske (f.eks. høyde, alder, inntekt)
- Kategoriske (f.eks. kjønn, land, utdanningsnivå)

Dersom du vil definere type variabler, kan dette gjøres på følgende måte

In [None]:
# Use dtypes to identify variable types IF relevant
data.dtypes

# Manually classify variables into numerical and categorical groups

# Convert column to categorical Merk: en linje pr. variabel 
data['variabel'] = data['variabel'].astype('category')


# Ensure binary  columns are properly encoded
binary_columns = ['variabel 1', 'variabel n']
for col in binary_columns:
    data[col] = data[col].astype(int)

# Convert numeric columns from object to numeric, coercing errors
numeric_columns = ['variabel 1', 'variabel n']
for col in numeric_columns:
    data[col] = pd.to_numeric(data[col], errors='coerce')
   
    # Reset index after cleaning
    data = data.reset_index(drop=True)

# Display summary information
dataset_summary = data.describe()
print("\nDataset Summary:\n", dataset_summary)


## 3. Beskrivende /deskriptiv  statistikk
Gjennomsnitt, median, modus, standardavvik og varians

In [None]:
# Select a numerical column for analysis (replace 'column_name1' with the actual column name)
kolonne = 'variabel'

antall = data[kolonne].count()
manglende_data = data[kolonne].isnull().sum()
gjennomsnitt = data[kolonne].mean()
median = data[kolonne].median()
modus = data[kolonne].mode()[0]
std_avvik = data[kolonne].std()
varians = data[kolonne].var()

print(f"Antall observasjoner: {antall}")
print(f"Antall manglende verdier: {manglende_data}")
print(f"Gjennomsnitt: {gjennomsnitt}")
print(f"Median: {median}")
print(f"Modus: {modus}")
print(f"Standardavvik: {std_avvik}")
print(f"Varians: {varians}")

In [None]:
statistics = data.describe()

print(statistics)

## 4. Visualisering
### Histogram for numeriske data
Oppgaven er å lage dette for en variable du ønsker å undersøke. 

In [None]:
# Create a histogram for a numerical column. husk å bytte ut variabel navn for den du skal undersøke )
plt.hist(data['variabel'], bins=10, color='blue', edgecolor='black')
plt.title(f"Histogram of {kolonne}")
plt.xlabel(kolonne)
plt.ylabel("Frequency")
plt.show()

### Stolpediagram for kategoriske data

In [None]:
# Create a bar chart for a categorical column (husk på at noen typer variabler passer som histogram, andre som stolpediagram (hint: tenk kategorisk variabel)
categorical_column = 'variabel'
data[categorical_column].value_counts().plot(kind='bar', color='green')
plt.title(f"Bar Chart of {categorical_column}")
plt.xlabel(categorical_column)
plt.ylabel("Count")
plt.show()

## 5. Lage en ny variabel
Ofte ønsker vi å lage en ny variable, som kan lages fra eksisterende variabel 
I dette eksempellet, ønsker vi en variabel som viser hva hver ansatt får utbetalt, som da vil si både grunnlønn og bonus. Lag denne variabelen, og kall den: "TotalLonn". 
(under ser du hvordan man kan beregne BMI, her må du finne navn på variablene, og lage funksjonen selv)

In [None]:
# Assuming the dataset has 'weight' (kg) and 'height' (m) columns
data['BMI'] = data['weight'] / (data['height'] ** 2)

# Display the first few rows of the dataset with the new variable
data.head()

## 6. Lagre det oppdaterte datasettet
Husk å sett et fornuftig navn på denne filen.

In [None]:
# Bruk denne koden om du vil oppdatere CSV filen du har jobbet på. Husk å oppdater filnavnet til det du har brukt.
# Save the updated dataset to the original file
data.to_csv('your_file.csv', index=False)
print("Dataset has been updated in 'your_file.csv'")



In [None]:

# Bruk denne koden om du vil lage en ny CSV fil (lurt for å beskytte orginalen)

# Save the updated dataset to a new CSV file
output_file_path = 'updated_file.csv'
data.to_csv(output_file_path, index=False)
print(f"Dataset saved to {output_file_path}")

## 7. Drøft innsikter
I analysene over, bør du ha fått noen innsikter fra analysene. Presenter disse her: 
(Hint: hva sier gjennomsnitt, median, standard avvik, m.m. om variablene du så på? 

### Skriv svaret her
...