In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import norm

# Ladda bilpris-datasetet
car_file_path = "E:\Skola\Statistik och analys\car_price_dataset.csv"
car_data = pd.read_csv(car_file_path, encoding='ISO-8859-1', delimiter=';')

# Ladda HR-datasetet
hr_file_path = "E:\Skola\Statistik och analys\HR_Employee_Data.xlsx"
hr_data = pd.read_excel(hr_file_path, engine='openpyxl')

# Visa de första raderna av båda dataset
print("Bilpris dataset:")
print(car_data.head())
print("\nHR dataset:")
print(hr_data.head())

# Grundläggande statistik för bilpris dataset
print("\nBilpris dataset info:")
print(car_data.info())
print("\nHR dataset info:")
print(hr_data.info())

# Statistikbeskrivning
print("\nBilpris dataset statistik:")
print(car_data.describe())
print("\nHR dataset statistik:")
print(hr_data.describe())

# Sakande värden
total_missing_car = car_data.isnull().sum()
total_missing_hr = hr_data.isnull().sum()
print("\nSakande värden i bilpris dataset:")
print(total_missing_car[total_missing_car > 0])
print("\nSakande värden i HR dataset:")
print(total_missing_hr[total_missing_hr > 0])

# Histogram över bilpriser
plt.figure(figsize=(10, 5))
sns.histplot(car_data['Price'], bins=30, kde=True)
plt.title("Fördelning av bilpriser")
plt.xlabel("Pris")
plt.ylabel("Antal bilar")
plt.show()

# Korrelation mellan bilprisdatasetets variabler
numeric_car_data = car_data.select_dtypes(include=[np.number])
plt.figure(figsize=(10, 5))
sns.heatmap(numeric_car_data.corr(), annot=True, cmap="coolwarm", fmt='.2f')
plt.title("Korrelation mellan variabler i bilprisdatasetet")
plt.show()

# Scatterplot mellan körsträcka och pris
plt.figure(figsize=(10, 5))
sns.scatterplot(x=car_data['Mileage'], y=car_data['Price'])
plt.title("Samband mellan körsträcka och pris")
plt.xlabel("Körsträcka (mileage)")
plt.ylabel("Pris")
plt.show()

# Prediktion av sannolikheten att en bil har pris över 40 000 USD
# Använder normalfördelning
mean_price = car_data['Price'].mean()
std_price = car_data['Price'].std()
p_over_40k = 1 - norm.cdf(40000, mean_price, std_price)
print(f"Sannolikheten att en bil har pris över 40 000 USD: {p_over_40k:.2%}")

# HR-analys: Histogram över anställdas löner
plt.figure(figsize=(10, 5))
sns.histplot(hr_data['salary'], bins=30, kde=True)
plt.title("Fördelning av löner i HR-datasetet")
plt.xlabel("Lön")
plt.ylabel("Antal anställda")
plt.show()

# HR-analys: Korrelation mellan HR-datasetets variabler
numeric_hr_data = hr_data.select_dtypes(include=[np.number])
plt.figure(figsize=(10, 5))
sns.heatmap(numeric_hr_data.corr(), annot=True, cmap="coolwarm", fmt='.2f')
plt.title("Korrelation mellan variabler i HR-datasetet")
plt.show()

# Scatterplot över anställdas arbetsnöjdhet
plt.figure(figsize=(10, 5))
sns.scatterplot(x=hr_data['satisfaction_level'], y=hr_data['last_evaluation'])
plt.title("Samband mellan arbetsnöjdhet och senaste utvärdering")
plt.xlabel("Arbetsnöjdhet")
plt.ylabel("Senaste utvärdering")
plt.show()

# Sammanfattning och rekommendationer
summary = """
**Executive Summary:**

**Bilprisdataset:**
- Bilpriser varierar kraftigt, men de flesta ligger under 40 000 USD.
- Körsträcka har en negativ korrelation med pris: ju mer en bil körts, desto lägre pris.
- Vissa uteliggande värden finns i datasetet och bör analyseras närmare.

**HR-dataset:**
- Löner har en stor spridning, vilket kan tyda på löneskillnader beroende på erfarenhet och roll.
- Arbetsnöjdhet varierar, vilket kan kräva insatser för att förbättra trivsel.
- Korrelationer visar att faktorer som arbetsmiljö och arbetsbelastning påverkar trivseln signifikant.

**Rekommendationer:**
- **Bilanalys:** Fokusera på bilar med låg körsträcka för bästa affärsmöjligheter.
- **HR-analys:** Genomför undersökningar om arbetsnöjdhet och identifiera lönediskrepanser för rättvisa förbättringar.
"""
print(summary)