# Hva er en "Series"

In [56]:
import pandas as pd

In [78]:
# Dummy data
df = pd.DataFrame({
    'id' : ['123', 234, 345],
    'alder' : [10, 20, 30],
    'kjonn' : ['Mann', 'Kvinne', 'Usikker'],
    'prosent' : [51.0, 32.0, 40.0]
})

In [58]:
type(df['id'][1])

int

In [59]:
df.dtypes

id          object
alder        int64
kjonn       object
prosent    float64
dtype: object

In [60]:
# Se på en av kolonnene
df['prosent']

0    51.0
1    32.0
2    40.0
Name: prosent, dtype: float64

In [61]:
type(df['prosent'])

pandas.core.series.Series

### En kolonne i Pandas kalles en "Series", det er ofte disse vi opererer på.

In [62]:
# "Seriene" har en datatype
df.dtypes

id          object
alder        int64
kjonn       object
prosent    float64
dtype: object

#### Det vil si at dataene i cellene i hver rad, for seg, bør inneholde uniform data, helst...
Men python/pandas er lite, om ikke fleksibel...

In [63]:
df['alder'].iloc[2] = df.copy()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)


In [64]:
df

Unnamed: 0,id,alder,kjonn,prosent
0,123,10,Mann,51.0
1,234,20,Kvinne,32.0
2,345,id alder kjonn prosent 0 123 10 ...,Usikker,40.0


##### Ja... Vi har faktisk lagt en kopi av dataframeen inni en celle i dataframeen, men er det å anbefale?

In [65]:
# Så da kan vi bla inn til cellen, og se på typen og innholdet i den cellen...
print(type(df['alder'].iloc[2]))
df['alder'].iloc[2]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,id,alder,kjonn,prosent
0,123,10,Mann,51.0
1,234,20,Kvinne,32.0
2,345,30,Usikker,40.0


In [66]:
# Nei, det vil nok ikke kunne skrive korrekt tilbake til lagringen feks, så vi resetter denne:
df.at[2, 'alder'] = 40
# Men, det er jo ganske sykt å kunne skrive en dataframe inn i en dataframe... 
# Og det sier noe om hvor mye Python og Pandas egentlig tillater av fleksibilitet.

In [67]:
# Men hva skjedde med datatypen til kolonnen?
df['alder']
# Den består jo bare av ints nå?

0    10
1    20
2    40
Name: alder, dtype: object

In [69]:
# Få pandas til å gjette på datatypene igjen
df['alder'] = df['alder'].infer_objects()
df.dtypes['alder']

dtype('int64')

<hr>

# "Indexer" - navn på kolonner og rader

In [23]:
df

Unnamed: 0,id,alder,kjonn,prosent
0,123,10,Mann,51.0
1,234,20,Kvinne,32.0
2,345,id alder kjonn prosent 0 123 10 ...,Usikker,40.0


In [26]:
df.index

Index(['Ola', 'Jørgine', 'Kim'], dtype='object')

In [27]:
df.columns

Index(['id', 'alder', 'kjonn', 'prosent'], dtype='object')

In [25]:
df.index = ['Ola', 'Jørgine', 'Kim']
df.loc['Ola']

id          123
alder        10
kjonn      Mann
prosent    51.0
Name: Ola, dtype: object

"Index" er da ikke en "sann kolonne", men "navnet på raden". \
Det er ganske likt at man også kan døpe om kolonnenavnene.

In [31]:
df.columns = ['fnr', 'age', 'gender', 'work_percent']
df

Unnamed: 0,fnr,age,gender,work_percent
Ola,123,10,Mann,51.0
Jørgine,234,20,Kvinne,32.0
Kim,345,id alder kjonn prosent 0 123 10 ...,Usikker,40.0


In [32]:
# Doble dataframen
df_grp = pd.concat([df, df])

Unnamed: 0,fnr,age,gender,work_percent
Ola,123,10,Mann,51.0
Jørgine,234,20,Kvinne,32.0
Kim,345,id alder kjonn prosent 0 123 10 ...,Usikker,40.0
Ola,123,10,Mann,51.0
Jørgine,234,20,Kvinne,32.0
Kim,345,id alder kjonn prosent 0 123 10 ...,Usikker,40.0


In [34]:
# Når man gjør en fremstilling av en "groupby" får man en multi-index på rad-navn
df_grp = df_grp.groupby(['fnr', 'gender']).mean()
df_grp

Unnamed: 0_level_0,Unnamed: 1_level_0,work_percent
fnr,gender,Unnamed: 2_level_1
234,Kvinne,32.0
345,Usikker,40.0
123,Mann,51.0


In [35]:
df_grp.index

MultiIndex([(  234,  'Kvinne'),
            (  345, 'Usikker'),
            ('123',    'Mann')],
           names=['fnr', 'gender'])

In [36]:
# Man kan "resette indexen", men legg merke til at vi har mistet navngivingen på radene...
df_grp = df_grp.reset_index()
df_grp

Unnamed: 0,fnr,gender,work_percent
0,234,Kvinne,32.0
1,345,Usikker,40.0
2,123,Mann,51.0


# Hvilke "dtypes" har vi?

https://pbpython.com/pandas_dtypes.html

<table border="1" class="colwidths-given table table-condensed docutils">
<caption>Pandas dtype mapping</caption>
<colgroup>
<col width="13%">
<col width="13%">
<col width="38%">
<col width="38%">
</colgroup>
<thead valign="bottom">
<tr><th class="head">Pandas dtype</th>
<th class="head">Python type</th>
<th class="head">NumPy type</th>
<th class="head">Usage</th>
</tr>
</thead>
<tbody valign="top">
<tr><td>object</td>
<td>str or mixed</td>
<td>string_, unicode_, mixed types</td>
<td>Text or mixed numeric and non-numeric values</td>
</tr>
<tr><td>int64</td>
<td>int</td>
<td>int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64</td>
<td>Integer numbers</td>
</tr>
<tr><td>float64</td>
<td>float</td>
<td>float_, float16, float32, float64</td>
<td>Floating point numbers</td>
</tr>
<tr><td>bool</td>
<td>bool</td>
<td>bool_</td>
<td>True/False values</td>
</tr>
<tr><td>datetime64</td>
<td>datetime</td>
<td>datetime64[ns]</td>
<td>Date and time values</td>
</tr>
<tr><td>category</td>
<td><span class="caps">NA</span></td>
<td><span class="caps">NA</span></td>
<td>Finite list of text values</td>
</tr>
</tbody>
</table>

### Bonus: "Category" er noe vi bør se på
Den sparer masse plass og prosesseringskraft om det er mange rader i datasettet, og kolonner med et lavt antall "streng-muligheter". \
Men man risikerer at den lettere går i stykker, og blir "typecastet" tilbake til string. \
https://towardsdatascience.com/staying-sane-while-adopting-pandas-categorical-datatypes-78dbd19dcd8a

In [79]:
# Konverter kolonnen til "category" dtype
df['kjonn'] = df['kjonn'].astype('category')

In [80]:
df['kjonn'].cat

<pandas.core.arrays.categorical.CategoricalAccessor object at 0x7f4059b8a940>

In [81]:
# Print ut kategorinavnene
df['kjonn'].cat.categories

Index(['Kvinne', 'Mann', 'Usikker'], dtype='object')

In [92]:
# Hver rad i kolonnen har en tallkode, som er knyttet til en string
print(df['kjonn'].cat.codes)
print(df['kjonn'])

0      Trans
1     Kvinne
2    Usikker
Name: kjonn, dtype: category
Categories (4, object): ['Kvinne', 'Mann', 'Usikker', 'Trans']
0    3
1    0
2    2
dtype: int8


In [93]:
df.dtypes['kjonn']

CategoricalDtype(categories=['Kvinne', 'Mann', 'Usikker', 'Trans'], ordered=False)

In [94]:
# I utgangspunktet går ikke dette, fordi "Trans"-kategorien ikke finnes enda
df.at[0, 'kjonn'] = 'Trans'

In [87]:
# Men vi kan legge den til med en egen funksjon
df['kjonn'].cat.add_categories('Trans', inplace = True)
df['kjonn'].cat.categories

Index(['Kvinne', 'Mann', 'Usikker', 'Trans'], dtype='object')

In [90]:
# Da er det greit
df.at[0, 'kjonn'] = 'Trans'

In [91]:
df

Unnamed: 0,id,alder,kjonn,prosent
0,123,10,Trans,51.0
1,234,20,Kvinne,32.0
2,345,30,Usikker,40.0
