In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import norm

# Ladda bilpris-datasetet
car_file_path = "E:\Skola\Statistik och analys\car_price_dataset.csv"
car_data = pd.read_csv(car_file_path, encoding='ISO-8859-1', delimiter=';')

# Ladda HR-datasetet
hr_file_path = "E:\Skola\Statistik och analys\HR_Employee_Data.xlsx"
hr_data = pd.read_excel(hr_file_path, engine='openpyxl')

# Visa de första raderna av båda dataset
print("Bilpris dataset:")
print(car_data.head())
print("\nHR dataset:")
print(hr_data.head())

# Grundläggande statistik för bilpris dataset
print("\nBilpris dataset info:")
print(car_data.info())
print("\nHR dataset info:")
print(hr_data.info())

# Statistikbeskrivning
print("\nBilpris dataset statistik:")
print(car_data.describe())
print("\nHR dataset statistik:")
print(hr_data.describe())

# Sakande värden
total_missing_car = car_data.isnull().sum()
total_missing_hr = hr_data.isnull().sum()
print("\nSakande värden i bilpris dataset:")
print(total_missing_car[total_missing_car > 0])
print("\nSakande värden i HR dataset:")
print(total_missing_hr[total_missing_hr > 0])

# Histogram över bilpriser
plt.figure(figsize=(10, 5))
sns.histplot(car_data['Price'], bins=30, kde=True)
plt.title("Fördelning av bilpriser")
plt.xlabel("Pris")
plt.ylabel("Antal bilar")
plt.show()

# Korrelation mellan bilprisdatasetets variabler
numeric_car_data = car_data.select_dtypes(include=[np.number])
plt.figure(figsize=(10, 5))
sns.heatmap(numeric_car_data.corr(), annot=True, cmap="coolwarm", fmt='.2f')
plt.title("Korrelation mellan variabler i bilprisdatasetet")
plt.show()

# Scatterplot mellan körsträcka och pris
plt.figure(figsize=(10, 5))
sns.scatterplot(x=car_data['Mileage'], y=car_data['Price'])
plt.title("Samband mellan körsträcka och pris")
plt.xlabel("Körsträcka (mileage)")
plt.ylabel("Pris")
plt.show()

# Prediktion av sannolikheten att en bil har pris över 40 000 USD
# Använder normalfördelning
mean_price = car_data['Price'].mean()
std_price = car_data['Price'].std()
p_over_40k = 1 - norm.cdf(40000, mean_price, std_price)
print(f"Sannolikheten att en bil har pris över 40 000 USD: {p_over_40k:.2%}")

# HR-analys: Histogram över anställdas löner
plt.figure(figsize=(10, 5))
sns.histplot(hr_data['salary'], bins=30, kde=True)
plt.title("Fördelning av löner i HR-datasetet")
plt.xlabel("Lön")
plt.ylabel("Antal anställda")
plt.show()

# HR-analys: Korrelation mellan HR-datasetets variabler
numeric_hr_data = hr_data.select_dtypes(include=[np.number])
plt.figure(figsize=(10, 5))
sns.heatmap(numeric_hr_data.corr(), annot=True, cmap="coolwarm", fmt='.2f')
plt.title("Korrelation mellan variabler i HR-datasetet")
plt.show()

# Scatterplot över anställdas arbetsnöjdhet
plt.figure(figsize=(10, 5))
sns.scatterplot(x=hr_data['JobInvolvement'], y=hr_data['JobSatisfaction'])
plt.title("Samband mellan arbetsnöjdhet och arbetsengagemang")
plt.xlabel("Arbetsengagemang")
plt.ylabel("Arbetsnöjdhet")
plt.show()

# Sammanfattning och rekommendationer
summary = """
**Executive Summary:**

**Bilprisdataset:**
- Bilpriser varierar kraftigt, men de flesta ligger under 40 000 USD.
- Körsträcka har en negativ korrelation med pris: ju mer en bil körts, desto lägre pris.
- Vissa uteliggande värden finns i datasetet och bör analyseras närmare.

**HR-dataset:**
- Löner har en stor spridning, vilket kan tyda på löneskillnader beroende på erfarenhet och roll.
- Arbetsnöjdhet varierar, vilket kan kräva insatser för att förbättra trivsel.
- Korrelationer visar att faktorer som arbetsmiljö och arbetsbelastning påverkar trivseln signifikant.

**Rekommendationer:**
- **Bilanalys:** Fokusera på bilar med låg körsträcka för bästa affärsmöjligheter.
- **HR-analys:** Genomför undersökningar om arbetsnöjdhet och identifiera lönediskrepanser för rättvisa förbättringar.
"""
print(summary)

1. Sambandet mellan storkar och barnafödsel – Korrelation vs Kausalitet

Nej, påståendet att storkar lämnar barn till föräldrar stämmer inte, även om vi observerar ett samband mellan antalet storkar och barnafödsel.

    Korrelation betyder att två variabler samvarierar, dvs. när en förändras tenderar den andra också att förändras.

    Kausalitet betyder att en förändring i en variabel direkt orsakar en förändring i den andra.

I detta fall kan det finnas en tredje variabel som påverkar både antalet storkar och födslar, exempelvis att fler barn föds på landsbygden, där det också finns fler storkar.

2. Vad är korrelation?

Korrelation beskriver sambandet mellan två variabler. Om två variabler har en positiv korrelation ökar båda samtidigt, medan en negativ korrelation innebär att en ökar när den andra minskar.

Exempel:

    Positiv korrelation: Ökad träning leder till ökad fysisk kondition.

    Negativ korrelation: Ökad ålder på en bil leder ofta till lägre försäljningspris.

3. Medelvärde vs Median
Kim hävdar att medelvärdet är ett bättre mått än medianen. Detta är inte alltid sant.

    Medelvärde (genomsnitt) påverkas mycket av extrema värden (outliers).

    Median är mer robust och representerar mittpunkten i en uppsättning värden.

Exempel: Om vi har löner i en organisation där de flesta tjänar 30 000 kr men en chef tjänar 300 000 kr, kommer medelvärdet vara högt och missvisande. Här är medianen ett bättre mått.

4. Vad används cirkeldiagram till?

Cirkeldiagram används för att visa procentandelar av en helhet.

Exempel: Spotify kan använda ett cirkeldiagram för att visa fördelningen av musikgenrer bland sina användare.

5. Vad används linjediagram till?

Linjediagram används för att visa förändringar över tid.

Exempel: Netflix kan använda ett linjediagram för att visa hur antalet prenumeranter förändras månad för månad.

6. Vad används lådagram (boxplot) till?

Lådagram visar spridningen i en datamängd genom att visa median, kvartiler och extrema värden.

Exempel: En skola kan använda lådagram för att analysera hur elevers betyg fördelar sig i olika ämnen.

7. Normalfördelning av nyföddas vikt

Givet att vikten för nyfödda barn är normalfördelad med:

Medelvärde: 3.5 kg

Standardavvikelse: 0.5 kg

(a) Sannolikhet att ett barn väger över 4.5 kg eller mindre än 3 kg?

Vi kan använda den standardiserade normalfördelningen:

        𝑃 ( 𝑋 > 4.5 ) = 𝑃 ( 𝑍 > 4.5 − 3.5 ) = P ( Z > 2 )
                            --------------
                                    0.5

        P ( X < 3 ) = P ( Z < 3 − 3.5 ) = P(Z < -1 )
​                         -------------
                              0.5

Från z-tabellen:

P(Z>2)=0.0228 (2.28%)

P(Z<−1)=0.1587 (15.87%)

Totalt: 2.28% + 15.87% = 18.15%

(b) Hur många av 1000 barn väger över 4.5 kg?

    1000×0.0228=22.8≈23 barn

Självutvärdering