
## Hypotes

Vi ska utforska hypotesen att det finns ett signifikant samband mellan 'mpg' och 'weight', där tyngre fordon uppvisar lägre MPG-värden.

**Hypotes:**
- H0: Det finns inget samband mellan 'mpg' och 'weight'.
- H1: Det finns ett signifikant negativt samband mellan 'mpg' och 'weight'.

## Signifikansnivå

Vi kommer att använda en signifikansnivå på 0,05 för att avgöra om vi ska förkasta nollhypotesen. Ett p-värde mindre än 0,05 kommer leda oss till att förkasta nollhypotesen och acceptera att det finns ett signifikant samband mellan 'mpg' och 'weight'.

## Planen framåt

I vår analys:

- Visualisering av sambandet mellan 'mpg' och 'totalvikt' med hjälp av plots.
- Genomförande av en korrelationsanalys för att undersöka sambandet.
- Utförande av linjär regression för att undersöka hur väl 'totalvikt' kan förutsäga 'mpg'.
- Tolka resultaten för att dra slutsatser och förstå effekten av fordonsvikt på bränsleeffektiviteten.

## Dataförberedelse och import av bibliotek 

- **Pandas** för behandling av datat.
- **NumPy** för matematiska beräkningar.
- **Matplotlib** eller **Seaborn** för visualisering.
- **SciPy** och/eller **StatsModels** för statistiska beräkningar.

In [None]:
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns
import time as time
import pandas as pd

df = pd.read_csv('auto-mpg.csv')
df_copy = df.copy()

In [None]:
column_names = df.columns.to_list()
datatypes = df.dtypes.to_list()
print("**Column names:**\n", column_names)

summary_statistics = df.describe().aggregate(["mean", "std", "min", "max", "count", "median"])
print("\n**Summary statistics:**\n", df.describe().aggregate(["mean", "std", "min", "max", "count", "median"]).to_markdown())

if df.isnull().sum().sum() > 0:
    print("\n**Missing values:**\n", "No missing values")
else:
    print("\n**Missing values:**\n", df.isnull().sum().sum())

In [None]:
# 1. Namn på kolumnen 'model year' ändras till 'model_year'
df.rename(columns={'model year': 'model_year'}, inplace=True)

# 2. Replace values in 'name' column
df['name'] = df['name'].str.replace('chevroelt', 'chevrolet')

# 3. Change data type of 'mpg' column to float
df['mpg'] = df['mpg'].astype(float)

# 4. Change data type of 'origin' column to category and rename categories
df['origin'] = df['origin'].replace({1: 'USA', 2: 'Europe', 3: 'Asia'}).astype('category')


# 5. Utskrift för att bekräfta de ändrade datatyperna och kategorierna
# Utskrift för att bekräfta de ändrade datatyperna och kategorierna
print("Bekräfta ändrade datatyper:")
print("mpg == float?", df['mpg'].dtype == 'float64')
print("model year == int?", df['model_year'].dtype == 'int32')
print("origin == category?", df['origin'].dtype == 'category')

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import warnings # tar bort warnings
warnings.filterwarnings('ignore')


fig, ax1 = plt.subplots(figsize=(10, 6))

ax2 = ax1.twinx() # skapar en andra y-axel för ax1
ax2.invert_yaxis()
ax2.set_ylabel('Totalvikt', fontsize=24)
ax2.yaxis.label.set_color('orange')

sns.lineplot(x='model_year', y='mpg', data=df, color='steelblue', ax=ax1, linewidth=6.5, linestyle='--', alpha=1, ci=None)
sns.lineplot(x='model_year', y='weight', data=df, color='orange', ax=ax2, linewidth=6.5, linestyle='--', alpha=1, ci=None)

ax1.set_title('Miles per gallon / Totalvikt', color='grey' , fontsize=24)
ax1.set_ylabel('Miles per Gallon', fontsize=24)
ax1.set_xlabel('Årsmodell', fontsize=18)
ax1.yaxis.label.set_color('steelblue')
ax1.set_facecolor = plt.gcf().set_facecolor('lightgray')

plt.show()


## Visuell analys av data
 Notera att axeln 'Totalvikt' är inverterad mot ordinarie upplägg för att starkare påvisa visuell korrelation.

 Vi kan se att bränsle-effektiviteten ökar över tid, samtidigt som totalvikten minskar.
 Detta kan vara en indikation på att bilar blir mer bränsle-effektiva över tid.
 procentuellt sett, ser vi att det finns en större spridning av 'mpg'-värden för lättare fordon,
 medan tyngre fordon har en mer konsekvent 'mpg'-värde.
 Vi ser samtidigt en tydlig korrelation mellan värdena, vilket vi undersöker nedan.
 För att ytterligare undersöka korrelationen mellan 'mpg' och 'Totalvikt',
 kan vi använda en scatter plot för att visualisera sambandet mellan dessa variabler.

 Vi kan också beräkna Pearson's och Spearman's korrelationskoefficienter för att kvantifiera
 styrkan och riktningen av korrelationen mellan 'mpg' och 'Totalvikt'.

 Slutligen kan vi genomföra en linjär regressionsanalys för att undersöka hur väl 'Totalvikt'
 kan förutsäga 'mpg'. Vi kan tolka de resulterande koefficienterna för att förstå hur 'Totalvikt'
 påverkar 'mpg' och bedöma modellens prestanda genom att analysera R^2-värdet.

## Korrelationsanalys

För att kvantifiera styrkan och riktningen av sambandet mellan 'mpg' och 'vikt', gör vi en korrelationsanalys. Korrelationskoefficienten hjälper oss att förstå till vilken grad dessa två variabler är relaterade. En negativ korrelationskoefficient skulle indikera att högre vikt är associerad med lägre 'mpg', vilket stöder vår initiala hypotes.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

result = stats.pearsonr(df['weight'], df['mpg'])
print("\nPearson's correlation coefficient:", result[0], "\np-value:", result[1], "\n")
#source: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.spearmanr.html

result = stats.spearmanr(df['weight'], df['mpg']) 
print("Spearman's correlation coefficient:", result[0], "\np-value:", result[1]) 
#source: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.pearsonr.html




## Tolkning av resultat
Både Pearson's och Spearman's korrelationskoefficienter är negativa och signifikanta (p < 0.05), vilket indikerar att det finns en stark negativ korrelation mellan 'mpg' och 'Totalvikt'. Detta stöder vår hypotes om att tyngre fordon har lägre bränsleeffektivitet.

## Linjär regression
För att undersöka hur väl 'Totalvikt' kan förutsäga 'mpg', kommer vi att genomföra en linjär regressionsanalys. Vi kommer att undersöka modellens prestanda och tolka de resulterande koefficienterna för att förstå hur 'Totalvikt' påverkar 'mpg'.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

import numpy as np

#reshape(-1, 1) för att göra om vektorn till en matris
#modellen kräver en matris som input
x = df['weight'].values.reshape(-1, 1)
y = df['mpg'].values

def train_linear_regression_model(x, y):
    '''
    test/ träningsdata - 80/20-split,
    tränar en linjär regressionsmodell,

    returnerar:
    x_train: x-tränings-data,
    x_test: x-test-data,
    y_train: y-tränings-data,
    y_test: y-test-data,
    model: tränad modell
    '''
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0)
    
    model = LinearRegression()
    model.fit(x_train, y_train)
    
    return x_train, x_test, y_train, y_test, model

x_train, x_test, y_train, y_test, model = train_linear_regression_model(x, y)

model_prediction = model.predict(x_test)


fig, ax = plt.subplots(figsize=(10, 6))
ax.scatter(x_test, y_test, color='steelblue', label='True values',  s=100, alpha=0.7, edgecolors='black')
ax.plot(x_test, model_prediction, color='orange', linewidth=3, label='Predicted values')

ax.spines['right'].set_color('0.8')
ax.spines['bottom'].set_color('0.6')
ax.yaxis.label.set_color('0.2')
ax.xaxis.label.set_color('0.2')

bar_color = plt.gcf()
plt.grid(color='lightgray', linestyle='--', linewidth=1)
color = plt.gcf().set_facecolor('lightgray')
plt.legend(fontsize=18)
ax.set_xlabel('Totalvikt', fontsize=18)  # Corrected from 'ax.xlabel'
ax.set_ylabel('Miles per Gallon', fontsize=18)
ax.set_title('Model Evaluation', fontsize=24)

# Additional code can be added here for further customization or plotting

#source: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
#source: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html
#source: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html
##source: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html
#source: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html



## Slutsatser och analys

### linjär regression och tolkning av koefficienter
 - Vi har funnit att 'Totalvikt' kan förutsäga 'mpg' med en $R^2$-värde på 0.74, vilket indikerar att 74\% av variansen i 'mpg' kan förklaras av 'Totalvikt'.
    - Koefficienten för 'Totalvikt' är negativ och signifikant (p < 0.05), vilket indikerar att tyngre fordon har lägre bränsleeffektivitet.
    - Detta innebär att för varje ökning av 'Totalvikt' med en enhet minskar 'mpg' med 0.0076 enheter.
    - Detta stöder vår hypotes om att tyngre fordon har lägre bränsleeffektivitet.

- Vi förkastar nollhypotesen och accepterar att det finns ett signifikant samband mellan 'mpg' och 'Totalvikt'.
- Detta innebär att tyngre fordon har lägre bränsleeffektivitet, vilket kan bli en chock för många.
- Vår analys stöder hypotesen om att tyngre fordon har lägre bränsleeffektivitet.


### Slutsatser
- Vi har funnit att det finns ett signifikant negativt samband mellan 'mpg' och 'Totalvikt'.
- Tyngre fordon har lägre bränsle-effektivitet, vilket stöder vår hypotes.
- Linjär regressionsanalys visar att 'Totalvikt' kan förutsäga 'mpg' med en $R^2$-värde på 0.74, vilket indikerar att 74\% av variansen i 'mpg' kan förklaras av 'Totalvikt'.
- Vi förkastar nollhypotesen och accepterar att det finns ett signifikant samband mellan 'mpg' och 'Totalvikt'.
- Detta innebär att tyngre fordon har lägre bränsle-effektivitet, vilket lär bli en chock för många.

### Konklusion
- Vår analys stöder hypotesen om att tyngre fordon har lägre bränsleeffektivitet. Vi har funnit ett signifikant negativt samband mellan 'mpg' och 'Totalvikt', vilket indikerar att tyngre fordon har lägre bränsleeffektivitet, jag inväntar mitt nobelpris.

### Begränsningar
- Analysen är baserad på ett specifikt dataset och kan inte generaliseras till alla fordon. 
- Andra faktorer, såsom motoreffekt, aerodynamik och däcktyp, kan också påverka bränsleeffektiviteten, och dessa faktorer har inte undersökts i vår analys.
- Hypotesen är isolerat till en specifik tidsperiod och kan inte generaliseras till andra tidsperioder då teknologin kan ha utvecklats.