## Import av moduler og innlesing av data
I denne øvelsen skal vi lese inn data og plotte disse. Stegene vi skal ta er:
1. Tilpasse python miljøet vårt til å kunne lese data og gjøre plot på en enkel måte.
2. Lese inn data fra filer
3. Gjøre plot av de innleste dataene.

### Innlesing av moduler
Ettersom python har blitt mer og mer populær, har flere og flere pakker med som gjør enkeltoppgavere lettere å gjøre blitt tilgjengelig. Plotting, innlesing av data og effektivt representere numeriske data er oppgaver som mange gjør, og som derfor har blitt sentrale pakker som ofte importeres når man skal gjøre en oppgave i python.

I denne oppgaven benytter vi `matplotlib`, `numpy` og `pandas`. 

#### Hva er `matplotlib`
Matplotlib is a library for making 2D plots of arrays in Python. Although it has its origins in emulating the MATLAB graphics commands, it is independent of MATLAB, and can be used in a Pythonic, object oriented way. Although Matplotlib is written primarily in pure Python, it makes heavy use of NumPy and other extension code to provide good performance even for large arrays.

#### Hva er `numpy`?
NumPy is the fundamental package needed for scientific computing with Python. This package contains:

* a powerful N-dimensional array object
* sophisticated (broadcasting) functions
* basic linear algebra functions
* basic Fourier transforms
* sophisticated random number capabilities
* tools for integrating Fortran code
* tools for integrating C/C++ code

Besides its obvious scientific uses, NumPy can also be used as an efficient multi-dimensional container of generic data. Arbitrary data types can be defined. This allows NumPy to seamlessly and speedily integrate with a wide variety of databases.

#### Hva er `pandas`?
Et utdrag fra [about](https://pandas.pydata.org/about/index.html) `pandas` forteller:
    
* A fast and efficient DataFrame object for data manipulation with integrated indexing;
* Tools for reading and writing data between in-memory data structures adn different formats: CVS and text files, Microsoft Excel, SQL databases, and the fast HDF5 format;
* Intelligent data alignment and integrated handling of missing data: gain automatic label-based alignment in computations and easily manipulate messy data into an orderly form;



### Innlesing av data.
I første omgang importerer vi `pandas` og `numpy`:

In [4]:
import pandas as pd  # pandas har fått kallenavnet pd
import numpy as np   # tilsvarende har numpy kallenavnet np

Vi undersøker en av filene.

In [5]:
!head data/ExpData_Steel.txt

Time,Load,Extension,Disp (Strain 1)
(s),(kN),(mm),(mm)
0.00000,0.17464,0.00000,0.00001
0.10000,0.17906,0.00099,0.00003
0.20000,0.23908,0.00631,0.00028
0.30000,0.31165,0.01061,0.00054
0.40000,0.37634,0.01415,0.00080
0.50000,0.43502,0.01730,0.00099
0.60000,0.51534,0.02126,0.00131
0.70000,0.57937,0.02431,0.00157


Filen inneholder data i fire kollonner. Hver linje inneholder et nytt data innslag. Hvor mange data innslag er det?

In [6]:
!wc -l data/ExpData_Steel.txt

    8044 data/ExpData_Steel.txt


Filen inneholder 8044 linjer. Fratrukket linjene med kollonetitlene og linjen med benevnining, har vi 8042 data innslag.

#### Kollonner og filformat
Komma benyttes som separasjonstegn for kollonnene. Filformatet til `ExpData_Steel.txt` heter da også Comma Separated Values (CSV). `ExpData_Steel.txt` er en CSV-fil.

Andre separasjons tegn enn komma kan også benyttes i CSV filer. Dette er tegn som  `;`,`:`, tabulator `\t` og mellomrom ` `.

`pandas` har en funksjon for å lese CSV-filer, `pandas.read_csv()`.

### Et første leseforsøk.

In [7]:
df = pd.read_csv('data/ExpData_Steel.txt')

Vi sjekker variablen (data objektet) som innholder de innleste dataene.

In [9]:
print(df)

           Time      Load Extension Disp (Strain 1)
0           (s)      (kN)      (mm)            (mm)
1       0.00000   0.17464   0.00000         0.00001
2       0.10000   0.17906   0.00099         0.00003
3       0.20000   0.23908   0.00631         0.00028
4       0.30000   0.31165   0.01061         0.00054
...         ...       ...       ...             ...
8038  803.70000  11.20394  28.12931         4.20001
8039  803.80000  11.18685  28.13319         4.20001
8040  803.90000  11.13479  28.13662         4.20001
8041  804.00000   5.35310  28.14277         4.20001
8042  804.01500   1.72382  28.14496         4.20001

[8043 rows x 4 columns]


Dette ser nesten riktig ut, men benevningen har blitt en del av data serien. `panda.read_csv()` har en en rekke argumenter som kan spesifisere hvordan innlesing av data skal foregå. Disse argumentene er beskrevet i `read_csv()` sin tekststreng [docstring](https://www.python.org/dev/peps/pep-0257/). En docstring for en python-funksjon er lett tilgjengelig med et spørsmålstegn, `?`, slik som vist for funksjonen `print()`.

In [24]:
??print

[0;31mDocstring:[0m
print(value, ..., sep=' ', end='\n', file=sys.stdout, flush=False)

Prints the values to a stream, or to sys.stdout by default.
Optional keyword arguments:
file:  a file-like object (stream); defaults to the current sys.stdout.
sep:   string inserted between values, default a space.
end:   string appended after the last value, default a newline.
flush: whether to forcibly flush the stream.
[0;31mType:[0m      builtin_function_or_method


Hva er `docstring` for `pandas.read_csv()`?

In [23]:
?pd.read_csv

[0;31mSignature:[0m
[0mpd[0m[0;34m.[0m[0mread_csv[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mfilepath_or_buffer[0m[0;34m:[0m [0mUnion[0m[0;34m[[0m[0mstr[0m[0;34m,[0m [0mpathlib[0m[0;34m.[0m[0mPath[0m[0;34m,[0m [0mIO[0m[0;34m[[0m[0;34m~[0m[0mAnyStr[0m[0;34m][0m[0;34m][0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msep[0m[0;34m=[0m[0;34m','[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdelimiter[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mheader[0m[0;34m=[0m[0;34m'infer'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mnames[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex_col[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0musecols[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msqueeze[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mprefix[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0

#### Argumentet `skiprow`

Argumentet vi er ut etter er `skiprow`. Et utklipp av `skiprow` viser:
```
skiprows : list-like, int or callable, optional
    Line numbers to skip (0-indexed) or number of lines to skip (int)
    at the start of the file.
```

Vi angir hvilke linjer som skal droppes med en list. Første linje er indeks 0, andre linje indeks 1. Med  `skiprows=[1]` bør vi få korrekt innlesning. 

In [8]:
# Dataene holdes av  en dataframe `df`
df = pd.read_csv('data/ExpData_Steel.txt','r',delimiter=',', skiprows=[1])

In [9]:
print(df)

         Time      Load  Extension  Disp (Strain 1)
0       0.000   0.17464    0.00000          0.00001
1       0.100   0.17906    0.00099          0.00003
2       0.200   0.23908    0.00631          0.00028
3       0.300   0.31165    0.01061          0.00054
4       0.400   0.37634    0.01415          0.00080
...       ...       ...        ...              ...
8037  803.700  11.20394   28.12931          4.20001
8038  803.800  11.18685   28.13319          4.20001
8039  803.900  11.13479   28.13662          4.20001
8040  804.000   5.35310   28.14277          4.20001
8041  804.015   1.72382   28.14496          4.20001

[8042 rows x 4 columns]


In [10]:
df.index

RangeIndex(start=0, stop=8042, step=1)

In [11]:
df.head

<bound method NDFrame.head of          Time      Load  Extension  Disp (Strain 1)
0       0.000   0.17464    0.00000          0.00001
1       0.100   0.17906    0.00099          0.00003
2       0.200   0.23908    0.00631          0.00028
3       0.300   0.31165    0.01061          0.00054
4       0.400   0.37634    0.01415          0.00080
...       ...       ...        ...              ...
8037  803.700  11.20394   28.12931          4.20001
8038  803.800  11.18685   28.13319          4.20001
8039  803.900  11.13479   28.13662          4.20001
8040  804.000   5.35310   28.14277          4.20001
8041  804.015   1.72382   28.14496          4.20001

[8042 rows x 4 columns]>

#### Benytt `describe` til å gjøre noen statistiske kalkulasjoner

In [12]:
df.describe()

Unnamed: 0,Time,Load,Extension,Disp (Strain 1)
count,8042.0,8042.0,8042.0,8042.0
mean,402.049989,16.619966,14.071819,3.275897
std,232.166958,2.800687,8.125847,1.407819
min,0.0,0.17464,0.0,1e-05
25%,201.025,15.558452,7.03595,2.43897
50%,402.05,17.84117,14.071675,4.20001
75%,603.075,18.515427,21.107635,4.20001
max,804.015,18.63708,28.14496,4.20001
