# Hva er en "Series"

In [39]:
import pandas as pd

In [40]:
# Dummy data
df = pd.DataFrame({
    'id' : ['123', '234', '345'],
    'alder' : [10, 20, 30],
    'kjonn' : ['Mann', 'Kvinne', 'Usikker'],
    'prosent' : [51.0, 32.0, 40.0]
})

In [41]:
# Se på en av kolonnene
df['prosent']

0    51.0
1    32.0
2    40.0
Name: prosent, dtype: float64

In [42]:
type(df['prosent'])

pandas.core.series.Series

### En kolonne i Pandas kalles en "Series", det er ofte disse vi opererer på.

In [43]:
# "Seriene" har en datatype
df.dtypes

id          object
alder        int64
kjonn       object
prosent    float64
dtype: object

#### Det vil si at dataene i cellene i hver rad, for seg, bør inneholde uniform data, helst...
Men python/pandas er lite, om ikke fleksibel...

In [44]:
#df['alder'].iloc[2] = df.copy()
#reset:
df['alder'].iloc[2] = 30

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)


In [45]:
df

Unnamed: 0,id,alder,kjonn,prosent
0,123,10,Mann,51.0
1,234,20,Kvinne,32.0
2,345,30,Usikker,40.0


##### Ja... Vi har faktisk lagt en kopi av dataframeen inni en celle i dataframeen, men er det å anbefale?

In [46]:
print(type(df['alder'].iloc[2]))
df['alder'].iloc[2]

<class 'numpy.int64'>


30

In [47]:
# Men hva skjedde med datatypen til kolonnen?
df['alder']

0    10
1    20
2    30
Name: alder, dtype: int64

<hr>

# "Indexer" - navn på kolonner og rader

In [48]:
df.index = ['Ola', 'Jørgine', 'Kim']
df

Unnamed: 0,id,alder,kjonn,prosent
Ola,123,10,Mann,51.0
Jørgine,234,20,Kvinne,32.0
Kim,345,30,Usikker,40.0


"Index" er da ikke en "sann kolonne", men "navnet på raden". \
Det er ganske likt at man også kan døpe om kolonnenavnene.

In [49]:
df.columns = ['fnr', 'age', 'gender', 'percent']
df

Unnamed: 0,fnr,age,gender,percent
Ola,123,10,Mann,51.0
Jørgine,234,20,Kvinne,32.0
Kim,345,30,Usikker,40.0


In [50]:
# Doble dataframen
pd.concat([df, df])

Unnamed: 0,fnr,age,gender,percent
Ola,123,10,Mann,51.0
Jørgine,234,20,Kvinne,32.0
Kim,345,30,Usikker,40.0
Ola,123,10,Mann,51.0
Jørgine,234,20,Kvinne,32.0
Kim,345,30,Usikker,40.0


In [54]:
# Når man gjør en fremstilling av en "groupby" får man en multi-index på rad-navn
df_grp = df.groupby(['fnr', 'gender']).mean()
df_grp

Unnamed: 0_level_0,Unnamed: 1_level_0,age,percent
fnr,gender,Unnamed: 2_level_1,Unnamed: 3_level_1
123,Mann,10,51.0
234,Kvinne,20,32.0
345,Usikker,30,40.0


In [56]:
df_grp.index

MultiIndex([('123',    'Mann'),
            ('234',  'Kvinne'),
            ('345', 'Usikker')],
           names=['fnr', 'gender'])

In [57]:
# Man kan "resette indexen", men legg merke til at vi har mistet navngivingen på radene...
df_grp = df_grp.reset_index()
df_grp

Unnamed: 0,fnr,gender,age,percent
0,123,Mann,10,51.0
1,234,Kvinne,20,32.0
2,345,Usikker,30,40.0


# Hvilke "dtypes" har vi?

https://pbpython.com/pandas_dtypes.html

<table border="1" class="colwidths-given table table-condensed docutils">
<caption>Pandas dtype mapping</caption>
<colgroup>
<col width="13%">
<col width="13%">
<col width="38%">
<col width="38%">
</colgroup>
<thead valign="bottom">
<tr><th class="head">Pandas dtype</th>
<th class="head">Python type</th>
<th class="head">NumPy type</th>
<th class="head">Usage</th>
</tr>
</thead>
<tbody valign="top">
<tr><td>object</td>
<td>str or mixed</td>
<td>string_, unicode_, mixed types</td>
<td>Text or mixed numeric and non-numeric values</td>
</tr>
<tr><td>int64</td>
<td>int</td>
<td>int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64</td>
<td>Integer numbers</td>
</tr>
<tr><td>float64</td>
<td>float</td>
<td>float_, float16, float32, float64</td>
<td>Floating point numbers</td>
</tr>
<tr><td>bool</td>
<td>bool</td>
<td>bool_</td>
<td>True/False values</td>
</tr>
<tr><td>datetime64</td>
<td>datetime</td>
<td>datetime64[ns]</td>
<td>Date and time values</td>
</tr>
<tr><td>category</td>
<td><span class="caps">NA</span></td>
<td><span class="caps">NA</span></td>
<td>Finite list of text values</td>
</tr>
</tbody>
</table>