## Inlämningsuppgift Statistiska metoder ITHS - AI22

**Mål:** Svara på en eller flera statistiska frågeställningar med hjälp av kursmetoder.

**Syfte:** Arbeta med statistiska metoder och paket i Python, utforska dataset och arbeta med öppna frågeställningar.

**Deadline:** Måndag 6/2 kl 23.59. Rekommenderat format är PDF.

Ta fram en rapport som beskriver ett av tre valbara dataset med hjälp av de statistiska metoder vi går igenom i kursen. Rapporten skall vara konstruerad som ett skriftligt dokument (Word, Notebook eller Presentation) som inkluderar beskrivande text, kod-segment och plottar. Beräkningar, plottar och liknande skall göras i Python.

Rapportens maxlängd bör vara begränsad till 5-10 sidor, beroende på format.
Rapporten kan utformas på valfritt sätt, men skall baseras på element från kursen, t.ex.:

- Deskriptiva mått som medelvärde, median och standardavvikelse
- Konfidensintervall
- Hypotestest
- Korrelationsanalys
- Linjär regression

OBS! - Rapporten behöver inte beskriva hela data-setet i detalj. Välj ut ett fåtal variabler/features att fokusera på. Det är viktigare med en bra frågeställning och en tydlig analys kring frågeställningen, än att inkludera ”så mycket som möjligt”.

Basera rapporten på statistiska mått och metoder vi gått igenom i kursen. Att inkludera massor av andra beräkningspaket/inferensmetoder/etc ger inte högre möjlighet till VG.

Dataset: Välj ett av nedanstående dataset att använda för analysen. Allihop finns tillgängliga på ITHS-distans. Iris och MT-Cars är något mindre data-set med tydliga trender, medan Diamonds är mycket mer omfattande och otydligt. OBS: Val av dataset påverkar inte bedömningen av resultatet. För de flesta studenter rekommenderas Iris eller MT-Cars, för den som vill ha mer utmaning kan Diamonds användas.

- Iris – Ett dataset som beksriver längd och bredd på blombladen hos irisblommor. Insamlat av biologen Ronald Fisher 1936.
- MT Cars – Data hämtad från det amerikanska magainset Motor Trend. Beskriver olika motorparametrar hos 32 bilmodeller år 1973-74.
- Diamonds – Data om diamanter som beskriver olika fysiska parametrar så som storlek, klarhet och prissättning.

**Betygskriterier:** Inlämningsuppgiften kommer betygsättas enl. godkänd (G), väl godkänd (VG) eller icke godkänd med retur. För att bli godkänd på kursen krävs godkänd rapport. Om rapportbetyget är VG erhålls 10 bonuspoäng till tentan. (Tentan kommer vara på totalt 50p, där gränsen för G är 25p och gränsen för VG är 37p)

För godkänd rapport krävs att rapporten innehåller beskrivande text och figurer samt fungerande, kommenterad Python-kod; att rapporten beskriver en eller flera relationer i datasetet med statistiska mått och figurer; och att minst ett konfidensintervall och/eller hypotestest utförs.
För väl godkänd rapport krävs utöver kravet för godkänd, att koden är väl kommenterad och lättläst; att figurerna är välgjorda med tydliga axlar, legender och färgsättningar; att rapporten innehåller en linjär regressionsmodell, och att modellen används till prediktion; samt att rapporten tydligt förklarar valet av mått och test som används för att besvara frågeställningen.
Om rapporten inte når upp till nivån för godkänd lämnas retur. En ny rapport skall då vara inlämnad inom en vecka efter tentadatum, varefter betyget VG inte längre går att erhålla.
OBS! Bonuspoängen räknas inte till nivån Godkänd på tentan, utan bidrar enbart till att nå betygsnivån Väl Godkänd.

In [4]:
import pandas as pd

def läs(filnamn):
    return pd.read_csv('Data/' + filnamn)

cars, diam, iris = läs('cars.csv'), läs('diamonds.csv'), läs('iris.csv')

def explore(df):
    print(f''
    f'{df.memory_usage().sum()=} bytes \n'
    f'Set rows: {df.shape[0]}   \n'
    f'Set columns: {df.shape[1]}\n\n'
    f'{df.value_counts()}\n\n'
    f'{df.describe()}')
    return df.head(3)

explore(cars)

df.memory_usage().sum()=28784 bytes 
Set rows: 398   
Set columns: 9

mpg   cylinders  displacement  horsepower  weight  acceleration  model_year  origin  name                    
9.0   8          304.0         193.0       4732    18.5          70          usa     hi 1200d                    1
27.0  4          151.0         90.0        2950    17.3          82          usa     chevrolet camaro            1
                 140.0         86.0        2790    15.6          82          usa     ford mustang gl             1
                 112.0         88.0        2640    18.6          82          usa     chevrolet cavalier wagon    1
                 101.0         83.0        2202    15.3          76          europe  renault 12tl                1
                                                                                                                ..
18.5  6          250.0         110.0       3645    16.2          76          usa     pontiac ventura sj          1
               

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite


I think cars are pretty cool, as far as engineering goes. However the cultural impact of cars is terrifying.

This set has acceleration, which is an interesting factor. I will consider selecting this set.

But miles per gallon? Not very scientific measurement.

In [5]:
explore(diam)

df.memory_usage().sum()=4315328 bytes 
Set rows: 53940   
Set columns: 10

carat  cut      color  clarity  depth  table  price  x      y      z   
0.79   Ideal    G      SI1      62.3   57.0   2898   5.90   5.85   3.66    5
0.50   Premium  D      SI2      62.9   58.0   997    5.06   5.01   3.17    2
1.20   Premium  I      VS2      62.6   58.0   5699   6.77   6.72   4.22    2
0.52   Ideal    D      VS2      61.8   55.0   1822   5.16   5.19   3.20    2
0.41   Ideal    G      IF       61.7   56.0   1367   4.77   4.80   2.95    2
                                                                          ..
0.50   Ideal    E      VS1      61.9   56.0   1716   5.09   5.12   3.16    1
                                62.0   58.0   1755   5.09   5.14   3.17    1
                                62.2   54.0   1665   5.10   5.13   3.18    1
                                       56.0   1619   5.10   5.13   3.18    1
5.01   Fair     J      I1       65.5   59.0   18018  10.74  10.54  6.98    1
Length

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31


Some say diamonds are forever. And they are pretty neat in industrial applications. But once again, the cultural aspect is ridiculous. However, this set contains dimensional data, which is neat because of 3D rendering possibilities. 

I will consider using this set as well.

In [6]:
explore(iris)

df.memory_usage().sum()=6128 bytes 
Set rows: 150   
Set columns: 5

sepal_length   sepal_width   petal_length   petal_width   class         
4.9           3.1           1.5            0.1           Iris-setosa        3
5.8           2.7           5.1            1.9           Iris-virginica     2
              4.0           1.2            0.2           Iris-setosa        1
5.9           3.0           4.2            1.5           Iris-versicolor    1
6.2           3.4           5.4            2.3           Iris-virginica     1
                                                                           ..
5.5           2.3           4.0            1.3           Iris-versicolor    1
              2.4           3.7            1.0           Iris-versicolor    1
                            3.8            1.1           Iris-versicolor    1
              2.5           4.0            1.3           Iris-versicolor    1
7.9           3.8           6.4            2.0           Iris-virginica     1


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa


Iris is the smallest and easiest - but also the most boring - set.

I like flowers, but this dataset just ain't interesting enough. I won't select this set.