# Datan analysointi S2020 - kerta 2
<a href="#1">read_csv</a>  
<a href="#2">Muita lukufunktioita</a>  
<a href="#3">DataFramen kirjoittaminen tiedostoon</a>  
<a href="#4">Datan siivoaminen</a>  
<a href="#5">Puuttuvien arvojen käsittely</a>  
<a href="#6">Duplikaattien poistaminen</a>  
<a href="#8">Kategorisointi</a>  
<a href="#9">NumPy-funktiot DataFramelle</a>  
<a href="#10">apply, applymap, map</a>  
<a href="#11">pandasin merkkijonofunktiot</a>  
 

## Tiedon lukeminen DataFrameen
pandas tarjoaa monia funktioita datan lukemiseen eri formaateista, mm.
* read_csv	 
* read_table	
* read_clipboard	
* read_excel	
* read_html	
* read_json	
* read_sql

Nämä funktiot tarjoavat paljon valinnisia parametreja, joilla voidaan 
* määrittää DataFramen indeksit (rivi- ja sarakeotsikot)
* määrittää datalle muunnoksia
* parsia päivämääriä esim. eri sarakkeissa olevien arvojen perusteella
* määrittää miten puuttuvat arvot tai epäpuhdas data käsitellään

<a id="1"> </a>
### read_csv
`read_csv` lukee tiedon tekstitiedostosta, jossa tietueet on eroteltu välimerkein. Oletusvälimerkki on pilkku.

`read_csv`-funktiolla on n. 50 mahdollista parametria [speksi](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html), mutta ainoa välttämätön on tieodston nimi, polku tai URL.

Esimerkin tiedosto sisältää rivit:  
`a,b,c,d,viesti
1,2,3,4,hei
5,6,7,8,maailma
9,10,11,12,taas`


In [1]:
import pandas as pd

df = pd.read_csv('https://bit.ly/2S0LcUJ')

df

Unnamed: 0,a,b,c,d,viesti
0,1,2,3,4,hei
1,5,6,7,8,maailma
2,9,10,11,12,taas


Nähdään, että pandas loi indeksin (riviotsikot) 0,1,2 jne ja otti tiedoston 1. rivin sarakeotsikoiksi.

Jos tiedostossa ei ole otsikkoriviä, voidaan joko määrittää `header=None`, jolloin pandas luo sarakeotsikot 0,1,2... tai määrittää sarakeotsikot itse `names`-parametrilla.

Esimerkin tiedosto sisältää rivit:  
`1,2,3,4,hei
5,6,7,8,maailma
9,10,11,12,taas`

In [2]:
df = pd.read_csv('https://bit.ly/2FJe8uJ', header=None)

df

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hei
1,5,6,7,8,maailma
2,9,10,11,12,taas


In [3]:
df = pd.read_csv('https://bit.ly/2FJe8uJ', names=['eka', 'toka', 'kolmas', 'vika', 'viesti'])

df

Unnamed: 0,eka,toka,kolmas,vika,viesti
0,1,2,3,4,hei
1,5,6,7,8,maailma
2,9,10,11,12,taas


Riviotsikoiksi eli taulukon indeksiksi voidaan ottaa joku datan sarakkeista `index_col`-parametrilla:

In [4]:
df = pd.read_csv('https://bit.ly/2FJe8uJ', index_col='viesti', names=['eka', 'toka', 'kolmas', 'vika', 'viesti'])

df

Unnamed: 0_level_0,eka,toka,kolmas,vika
viesti,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hei,1,2,3,4
maailma,5,6,7,8
taas,9,10,11,12


In [5]:
df = pd.read_csv('https://bit.ly/2S0LcUJ', index_col='viesti') #tässä tiedostossa 1. rivi antoi sarakeotsikot

df

Unnamed: 0_level_0,a,b,c,d
viesti,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hei,1,2,3,4
maailma,5,6,7,8
taas,9,10,11,12


Muilla parametreilla voidaan määritää mm. tietueiden välimerkki (oletuksena pilkku) tai desimaalierotin (oletuksena piste).

Esimerkkitiedosto:  
`Vuosi;Kk;Pv;Klo;Aikavyöhyke;Sademäärä;Lumensyvyys;Ylin;Alin
1959;1;1;00:00;UTC;1;34;-3,6;-9,8
1959;1;2;00:00;UTC;1,5;35;-4;-8
1959;1;3;00:00;UTC;10,6;36;0;-8,7
1959;1;4;00:00;UTC;1,7;38;0,7;-1,1
1959;1;5;00:00;UTC;7,1;40;-0,7;-2,8
1959;1;6;00:00;UTC;2,3;50;-1,2;-4,8`

In [6]:
df = pd.read_csv('https://bit.ly/2CFermr', sep=';', decimal=',')

df

Unnamed: 0,Vuosi,Kk,Pv,Klo,Aikavyöhyke,Sademäärä,Lumensyvyys,Ylin,Alin
0,1959,1,1,00:00,UTC,1.0,34,-3.6,-9.8
1,1959,2,1,00:00,UTC,-1.0,63,-6.1,-13.1
2,1959,3,1,00:00,UTC,-1.0,55,8.2,-1.5
3,1959,4,1,00:00,UTC,7.8,27,5.0,-10.5
4,1959,5,1,00:00,UTC,-1.0,-1,17.9,-0.9
5,1959,6,1,00:00,UTC,3.6,-1,14.0,1.2


`usecols`-parametrilla voidaan ottaa vain halutut sarakkeet:

In [7]:
df = pd.read_csv('https://bit.ly/2CFermr', sep=';', decimal=',' , usecols=['Vuosi', 'Kk', 'Pv', 'Lumensyvyys'])

df

Unnamed: 0,Vuosi,Kk,Pv,Lumensyvyys
0,1959,1,1,34
1,1959,2,1,63
2,1959,3,1,55
3,1959,4,1,27
4,1959,5,1,-1
5,1959,6,1,-1


Seuraavassa esimerkissä luetaan Apachen access.log-tiedostoa DataFrameen.  
![access.logia](http://student.labranet.jamk.fi/~varpe/datananalk2019/kerta3/accesslog.png)  

Erottimena on välilyönti mutta välilyöntejä on myös joidenkin kenttien sisällä `"GET /administrator/ HTTP/1.1"`.
Tästä ongelmasta päästään parametrilla `quotechar = '"'`, jolloin kaikki "-merkkien sisällä olevat erottimet jätetään huomioimatta.`  

In [8]:
# ensimmäinen yritys
df = pd.read_csv('https://bit.ly/2FQ4LsG', sep = ' ', quotechar = '"')


df.head()

Unnamed: 0,109.169.248.247,-,-.1,[12/Dec/2015:18:25:11,+0100],GET /administrator/ HTTP/1.1,200,4263,-.2,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20100101 Firefox/34.0,-.3
0,109.169.248.247,-,-,[12/Dec/2015:18:25:11,+0100],POST /administrator/index.php HTTP/1.1,200,4494,http://almhuette-raith.at/administrator/,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...,-
1,46.72.177.4,-,-,[12/Dec/2015:18:31:08,+0100],GET /administrator/ HTTP/1.1,200,4263,-,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...,-
2,46.72.177.4,-,-,[12/Dec/2015:18:31:08,+0100],POST /administrator/index.php HTTP/1.1,200,4494,http://almhuette-raith.at/administrator/,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...,-
3,83.167.113.100,-,-,[12/Dec/2015:18:31:25,+0100],GET /administrator/ HTTP/1.1,200,4263,-,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...,-
4,83.167.113.100,-,-,[12/Dec/2015:18:31:25,+0100],POST /administrator/index.php HTTP/1.1,200,4494,http://almhuette-raith.at/administrator/,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...,-


Ensimmäisestä yrityksestä nähdään, että otsikkoriviä ei tiedostossa ole, joten tehdään sarakeotsikot itse.   
Lisäksi voidaan skipata jotain sarakkeita.

In [9]:
# toinen yritys
df = pd.read_csv('https://bit.ly/2FQ4LsG', 
                 sep = ' ', 
                 quotechar = '"',
                 usecols = [0,3,4,5,6,7,8,9],  # nyt annetaan sarakkeiden numerot, kun nimiä ei vielä ole
                 names = ['ip', 'date', 'timezone', 'request', 'status', 'size', 'referer', 'user_agent']
                )
 
df.head()

Unnamed: 0,ip,date,timezone,request,status,size,referer,user_agent
0,109.169.248.247,[12/Dec/2015:18:25:11,+0100],GET /administrator/ HTTP/1.1,200,4263,-,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...
1,109.169.248.247,[12/Dec/2015:18:25:11,+0100],POST /administrator/index.php HTTP/1.1,200,4494,http://almhuette-raith.at/administrator/,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...
2,46.72.177.4,[12/Dec/2015:18:31:08,+0100],GET /administrator/ HTTP/1.1,200,4263,-,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...
3,46.72.177.4,[12/Dec/2015:18:31:08,+0100],POST /administrator/index.php HTTP/1.1,200,4494,http://almhuette-raith.at/administrator/,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...
4,83.167.113.100,[12/Dec/2015:18:31:25,+0100],GET /administrator/ HTTP/1.1,200,4263,-,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...


Myöhemmin opetellaan ajan parsiminen pandasin ymmärtämiksi kellonajoiksi, tässä vaiheessa voidaan tyytyä [-,merkin poistamiseen `converters`-parametrin avulla. Tälle annetaan sanakirjassa (dict) sarakeotsikot ja niille sarakkeille parsittaessa tehtävät funktiot:

In [10]:
# määritellään funktiot

def poistaalusta(x):
    return x[1:]

def poistalopusta(x):
    return x[:-1]


df = pd.read_csv('https://bit.ly/2FQ4LsG', 
                 sep = ' ', 
                 quotechar = '"',
                 usecols = [0,3,4,5,6,7,8,9],
                 names = ['ip', 'date', 'timezone', 'request', 'status', 'size', 'referer', 'user_agent'],
                 converters = {'date' : poistaalusta, 'timezone' : poistalopusta}
                )
df.head()

Unnamed: 0,ip,date,timezone,request,status,size,referer,user_agent
0,109.169.248.247,12/Dec/2015:18:25:11,100,GET /administrator/ HTTP/1.1,200,4263,-,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...
1,109.169.248.247,12/Dec/2015:18:25:11,100,POST /administrator/index.php HTTP/1.1,200,4494,http://almhuette-raith.at/administrator/,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...
2,46.72.177.4,12/Dec/2015:18:31:08,100,GET /administrator/ HTTP/1.1,200,4263,-,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...
3,46.72.177.4,12/Dec/2015:18:31:08,100,POST /administrator/index.php HTTP/1.1,200,4494,http://almhuette-raith.at/administrator/,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...
4,83.167.113.100,12/Dec/2015:18:31:25,100,GET /administrator/ HTTP/1.1,200,4263,-,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...


Lyhyitä "yhden lauseen mittaisia" funktioita voidaan Pythonissa määritellä myös lambda-funktioina yhdelle riville:

In [11]:
tuplaa = lambda x : 2*x

summaa = lambda x,y : x+y

print(tuplaa(6))

print(summaa(3,4))

12
7


In [12]:
# määritellään funktiot

poistaalusta = lambda x : x[1:]

poistalopusta = lambda x : x[:-1]   

df = pd.read_csv('https://bit.ly/2FQ4LsG', 
                 sep = ' ', 
                 quotechar = '"',
                 usecols = [0,3,4,5,6,7,8,9],
                 names = ['ip', 'date', 'timezone', 'request', 'status', 'size', 'referer', 'user_agent'],
                 converters = {'date' : poistaalusta, 'timezone' : poistalopusta}
                )
df.head()

Unnamed: 0,ip,date,timezone,request,status,size,referer,user_agent
0,109.169.248.247,12/Dec/2015:18:25:11,100,GET /administrator/ HTTP/1.1,200,4263,-,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...
1,109.169.248.247,12/Dec/2015:18:25:11,100,POST /administrator/index.php HTTP/1.1,200,4494,http://almhuette-raith.at/administrator/,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...
2,46.72.177.4,12/Dec/2015:18:31:08,100,GET /administrator/ HTTP/1.1,200,4263,-,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...
3,46.72.177.4,12/Dec/2015:18:31:08,100,POST /administrator/index.php HTTP/1.1,200,4494,http://almhuette-raith.at/administrator/,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...
4,83.167.113.100,12/Dec/2015:18:31:25,100,GET /administrator/ HTTP/1.1,200,4263,-,Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20...


lambda-funktiot voi määritellä myös suoraan `converters`-parametrin sisälle:

In [13]:
df = pd.read_csv('https://bit.ly/2FQ4LsG', 
                 sep = ' ', 
                 quotechar = '"',
                 usecols = [0,3,4,5,6,7,8,9],
                 names = ['ip', 'date', 'timezone', 'request', 'status', 'size', 'referer', 'user_agent'],
                 converters = {'date' : (lambda x : x[1:]), 'timezone' : (lambda x : x[:-1])}
                )


Muita parametreja `read_csv` -funktiolle on mm.  
* `skiprows`  skippaa tiedoston alusta annetun määrän rivejä, tai jos parametrin arvona annetaan lista, skippaa kyseiset rivinumerot
* `na_values`  tällä annetaan lista arvoista, jotka tulkitaan puuttuviksi arvoiksi.
* `skipinitialspace` skippaa erotinmerkin jälkeiset välilyönnit
* `comment`  määrittää minkä merkin jälkinen loppurivi jätetään huomioimatta ("kommenttimerkki")
* `error_bad_lines` oletuksena virhelliset rivit (esim liian monta kenttää) aiheuttavat virheilmoituksen ja parsiminen loppuu  siihen. Laittamalla `error_bad_lines = False` tällaiset rivit jätetään vain väliin

Alla luetaan tiedosto  
`rowid,lat,lon,type       
rowid1,62.21,31.21,wgs84      # first value... 
rowid2,62.21,31.21            # if format...
rowid3,62.24,33.21            # for decimal...
rowid4,6345147,3378945,ykj, 89
rowid5,6345,3378              # for ykj...`

In [14]:
df = pd.read_csv('https://bit.ly/2MrdfaU', comment = '#', error_bad_lines=False, index_col = 0)
df

b'Skipping line 5: expected 4 fields, saw 5\n'


Unnamed: 0_level_0,lat,lon,type
rowid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
rowid1,62.21,31.21,wgs84
rowid2,62.21,31.21,
rowid3,62.24,33.21,
rowid5,6345.0,3378.0,


Tiedosto voi olla myös pakattu, pandas osaa sen purkaa tunnistaen pakkausformaatin tiedostopäätteestä (.gz .bz2 .zip tai .xz), käytetylle pakkaukselle on myös parametri `compression`.



<a id="2"> </a>
### Muita lukufunktioita
* `read_table` toimii kuten `read_csv` mutta oletuserottimena on \t (sarkain)
* `read_clipboard` lukee datan tiedoston sijasta leikepöydältä
* `read_excel` lukee Excel-tiedostosta yhden laskentataulukon (välilehden), jonka nimi annetaan toisena parametrina `pd.read_excel('examples/esim1.xlsx', 'Sheet1')`
* `read_html` lukee html-sivulta kaikki taulukot ja palauttaa listan DataFrame-objekteista
* `read_json`  lukee json-tiedostoa, usein json-tiedostot sisältävät paljon sisäkkäistä dataa, joka voi olla vaikea muotoilla DataFrameen
* `read_sql` lukee tietokantakyselyn tuloksen tai tietokantataulun DataFrameen 


In [15]:
url = 'https://online.tulospalvelu.fi/tulokset/fi/2018_smsprint/h21/smart/2/'

df = pd.read_html(url, header = 0)

df[0].head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Lähtöaika,"Väliaika0,3","Väliaika0,5","Väliaika2,9 km","Väliaika3,4 km","Maali3,6 km",Unnamed: 10
0,1.0,Olav Lundanes,Paimion Rasti,NOR,14:22:00,1:33 (1),2:00 (1),12:12 (1),13:32 (1),14:08,
1,2.0,Severi Kymäläinen,Tampereen Pyrintö,FIN,14:32:00,1:37 (8),2:04 (3),12:15 (2),13:38 (2),14:17,
2,3.0,Frederic Tranchand,Paimion Rasti,FRA,14:27:00,1:43 (22),2:09 (13),12:26 (5),13:45 (3),14:20,
3,4.0,Yannick (U) Michiels,Turun Metsänkävijät,BEL,14:36:00,1:46 (31),2:13 (27),12:16 (3),13:46 (4),14:25,
4,5.0,Joni Hirvikallio,Koovee,FIN,14:30:00,1:37 (8),2:05 (6),12:23 (4),14:01 (5),14:39,


<a id="3"> </a>
## DataFramen kirjoittaminen tiedostoon

Vastaavasti DataFramen sisällön voi kirjoittaa tiedostoon, `to_csv` on funktio tähän tarkoitukseen.

Alla oleva esimerkki kirjoittaa  
`|Jukurit|Jyp|Sport
2014||5|
2015||3|14.0
2016||4|10.0
2017|11.0|3|14.0
2018|13.0|5|15.0`

Puuttuvat arvot jää oletuksena tyhjiksi, `na_rep='puuttuu'` -parametrilla niiden tilalle kirjoitettaisiin "puuttuu"

`to_html` -funktio kirjoittaa

```
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>Jukurit</th>
      <th>Jyp</th>
      <th>Sport</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>2014</th>
      <td>NaN</td>
      <td>5</td>
      <td>NaN</td>
    </tr>
    <tr>
      <th>2015</th>
      <td>NaN</td>
      <td>3</td>
      <td>14.0</td>
    </tr>
    <tr>
      <th>2016</th>
      <td>NaN</td>
      <td>4</td>
      <td>10.0</td>
    </tr>
    <tr>
      <th>2017</th>
      <td>11.0</td>
      <td>3</td>
      <td>14.0</td>
    </tr>
    <tr>
      <th>2018</th>
      <td>13.0</td>
      <td>5</td>
      <td>15.0</td>
    </tr>
  </tbody>
</table>
```

In [16]:
df = pd.DataFrame({'Jyp': {2014: 5, 2015: 3,  2016: 4,  2017: 3 , 2018: 5},
                   'Sport' : {2015: 14, 2016: 10, 2017: 14, 2018: 15 },
                    'Jukurit' : {2017: 11, 2018: 13}   
                  })

df.to_csv('esim1.txt', sep='|')

df.to_html('esim1.html')


<a id="4"> </a>
## Datan siivoaminen
<a id="5"> </a>
### Puuttuvien arvojen käsittely
Usein luettu data on epätäydellistä: siellä voi olla puuttuvia arvoja, duplikaatteja tms. 

pandas pärjää yleisesti ottaen hyvin puuttuvien arvojen kanssa, esim. keskiarvo, keskihajonta yms.- funktiot jättävät puuttuvat arvot huomioimatta. 

Puuttuvia arvoja sisältävät rivit (tai sarakkeet) voidaan kuitenkin haluta poistaa DataFramesta. Puuttuvat arvot voi listata `isnull`-metodin avulla (vastaavasti `notnull`-metodi palauttaa Truen niillä kohdilla jossa ei puutu arvo)

Poistamista varten DataFramella on metodi `dropna` joka oletuksena poistaa kaikki rivit joissa yksikin arvo on NaN.  
Parametrilla `how='all'` poistetaan vain ne rivit, joissa kaikki arvot puuttuvat,  
parametrilla `thresh` voidaan määrittää "kynnys" (thresold) kuinka monta arvoa riviltä pitää puuttua, jotta se poistetaan.  
Ja parametrilla `axis=1` tutkitaan/poistetaan rivien sijasta sarakkeita.


In [17]:
df = pd.DataFrame({'Jyp': {2014: 5, 2015: 3,  2016: 4,  2017: 3 , 2018: 5},
                   'Sport' : {2015: 14, 2016: 10, 2017: 14, 2018: 15 },
                    'Jukurit' : {2017: 11, 2018: 13}   
                  })

#print(df)

#print(20*'-')

print(df[df['Jukurit'].isnull()])  # suodatetaan df['Jukurit'].isnull() :n antaman Boolean-Seriesin avulla

print('\n------------------\n')

df2 = df.dropna(thresh=2)  # poistetaan ne rivit joissa vähintään 2 puuttuvaa arvoa

print(df2)


      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2015    3   14.0      NaN
2016    4   10.0      NaN

------------------

      Jyp  Sport  Jukurit
2015    3   14.0      NaN
2016    4   10.0      NaN
2017    3   14.0     11.0
2018    5   15.0     13.0


Aukot eli puuttuvat arvot voidaan myös täyttää halutuilla arvoilla, ja tähän käytetään `fillna`-metodia.

In [18]:
df = pd.DataFrame({'Jyp': {2014: 5, 2015: 3,  2016: 4,  2017: 3 , 2018: 5},
                   'Sport' : {2015: 14, 2016: 10, 2017: 14, 2018: 15 },
                    'Jukurit' : {2017: 11, 2018: 13}   
                  })

print(df)

print('\n------------------\n')

df2 = df.fillna('mestis')

print(df2)

      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2015    3   14.0      NaN
2016    4   10.0      NaN
2017    3   14.0     11.0
2018    5   15.0     13.0

------------------

      Jyp   Sport Jukurit
2014    5  mestis  mestis
2015    3      14  mestis
2016    4      10  mestis
2017    3      14      11
2018    5      15      13


In [19]:
df = pd.DataFrame({'Jyp': {2014: 5, 2015: 3,  2016: 4,  2017: 3 , 2018: 5},
                   'Blues' : {2014: 6, 2015: 5, 2016: 15},
                    'Jukurit' : {2017: 11, 2018: 13}   
                  })

print(df)

print('\n------------------\n')

df2 = df.fillna({'Jukurit' : 'mestis', 'Blues': 'konkurssi'})

print(df2)

      Jyp  Blues  Jukurit
2014    5    6.0      NaN
2015    3    5.0      NaN
2016    4   15.0      NaN
2017    3    NaN     11.0
2018    5    NaN     13.0

------------------

      Jyp      Blues Jukurit
2014    5          6  mestis
2015    3          5  mestis
2016    4         15  mestis
2017    3  konkurssi      11
2018    5  konkurssi      13


`fillna`-metodin `method='ffill'` -parametri saa pandasin täyttämään puuttuvat arvot sarakkeen edellisellä validilla arvolla, ja `method='bfill'`seuraavalla validilla arvolla.

<a id="6"> </a>
### Duplikaattien poistaminen
`drop_duplicates`-metodi poistaa täsmälleen samat arvot sisältävät rivit. Oletuksena se jättää ensimmäisen rivin jäljelle, parametrilla `keep='last'`viimeisen.

<a id="6b"> </a>
### replace
DataFramen `replace`-metodilla voidaan korvata arvoja. Sekä korvattaviin että korvaaviin arvoihin voidaan antaa yksittäisiä arvoja tai listaa, tai ainoana parametrina sanakirjan.  Tässäkin `inplace = True` tekee korvauksen alkuperäiseen DataFrameen, muuten uuteen.

In [20]:
df = pd.read_csv('https://bit.ly/2CFermr', sep=';', decimal=',', usecols=[0,1,2,5,6,7,8])

print(df)

print('\n-----------\n')

df['Kk'] = df['Kk'].replace(1, 'tammikuu')  # yksittäiset arvot

print(df)

print('\n-----------\n')

df['Kk'] = df['Kk'].replace('tammikuu', 1)

df['Kk'].replace([1, 2], ['tammikuu', 'helmikuu'], inplace=True)  # samanmittaiset listat

print(df)


print('\n-----------\n')



df['Kk'].replace({3: 'maalis', 4: 'huhti'}, inplace=True)   # sanakirja arvopareista korvattava:korvaava

print(df)


   Vuosi  Kk  Pv  Sademäärä  Lumensyvyys  Ylin  Alin
0   1959   1   1        1.0           34  -3.6  -9.8
1   1959   2   1       -1.0           63  -6.1 -13.1
2   1959   3   1       -1.0           55   8.2  -1.5
3   1959   4   1        7.8           27   5.0 -10.5
4   1959   5   1       -1.0           -1  17.9  -0.9
5   1959   6   1        3.6           -1  14.0   1.2

-----------

   Vuosi        Kk  Pv  Sademäärä  Lumensyvyys  Ylin  Alin
0   1959  tammikuu   1        1.0           34  -3.6  -9.8
1   1959         2   1       -1.0           63  -6.1 -13.1
2   1959         3   1       -1.0           55   8.2  -1.5
3   1959         4   1        7.8           27   5.0 -10.5
4   1959         5   1       -1.0           -1  17.9  -0.9
5   1959         6   1        3.6           -1  14.0   1.2

-----------

   Vuosi        Kk  Pv  Sademäärä  Lumensyvyys  Ylin  Alin
0   1959  tammikuu   1        1.0           34  -3.6  -9.8
1   1959  helmikuu   1       -1.0           63  -6.1 -13.1
2   1959   

<a id="10"> </a>
### apply, applymap, map
Serieksen `map`-metodilla voidaan tehdä muunnoksia tai funktioita alkioittain. Tälle voidaan antaa parametrina sanakirja tai Series, joiden perusteella määräytyvät tulevat arvot. Parametrina voi olla myös funktio, joka suoritetaan jokaiselle alkiolle.

In [21]:
df = pd.read_csv('https://bit.ly/2CFermr', sep=';', decimal=',', usecols=[0,1,2,5,6,7,8])

print(df)

print('\n-----------\n')

vuodenajat = pd.Series(['talvi','talvi','talvi','kevät','kevät','kesä','kesä','kesä','syksy','syksy','talvi','talvi'],
                       index=[1,2,3,4,5,6,7,8,9,10,11,12])
print(vuodenajat)

print('\n-----------\n')

df['vuodenaika'] = df['Kk'].map(vuodenajat)   # parametrina annettavan Serieksen indeksin mukaiset arvot korvataan Serieksen vastaavilla arvoilla

# parametrina voisi olla myös sanakirja {1: 'talvi', 2: 'talvi', 3: 'talvi', jne}

print(df)

print('\n-----------\n')


   Vuosi  Kk  Pv  Sademäärä  Lumensyvyys  Ylin  Alin
0   1959   1   1        1.0           34  -3.6  -9.8
1   1959   2   1       -1.0           63  -6.1 -13.1
2   1959   3   1       -1.0           55   8.2  -1.5
3   1959   4   1        7.8           27   5.0 -10.5
4   1959   5   1       -1.0           -1  17.9  -0.9
5   1959   6   1        3.6           -1  14.0   1.2

-----------

1     talvi
2     talvi
3     talvi
4     kevät
5     kevät
6      kesä
7      kesä
8      kesä
9     syksy
10    syksy
11    talvi
12    talvi
dtype: object

-----------

   Vuosi  Kk  Pv  Sademäärä  Lumensyvyys  Ylin  Alin vuodenaika
0   1959   1   1        1.0           34  -3.6  -9.8      talvi
1   1959   2   1       -1.0           63  -6.1 -13.1      talvi
2   1959   3   1       -1.0           55   8.2  -1.5      talvi
3   1959   4   1        7.8           27   5.0 -10.5      kevät
4   1959   5   1       -1.0           -1  17.9  -0.9      kevät
5   1959   6   1        3.6           -1  14.0   1.2       

In [22]:
df = pd.read_csv('https://bit.ly/2CFermr', sep=';', decimal=',', usecols=[0,1,2,5,6,7,8])

print(df)

# tässä annetaan parametrina funktio

df['sataa'] = df['Sademäärä'].map(lambda x: 'sataa' if x>0 else 'poutaa')  # tämän voisi toki tehdä monella helpommallakin tavalla
 
print('\n-----------\n')

print(df)

   Vuosi  Kk  Pv  Sademäärä  Lumensyvyys  Ylin  Alin
0   1959   1   1        1.0           34  -3.6  -9.8
1   1959   2   1       -1.0           63  -6.1 -13.1
2   1959   3   1       -1.0           55   8.2  -1.5
3   1959   4   1        7.8           27   5.0 -10.5
4   1959   5   1       -1.0           -1  17.9  -0.9
5   1959   6   1        3.6           -1  14.0   1.2

-----------

   Vuosi  Kk  Pv  Sademäärä  Lumensyvyys  Ylin  Alin   sataa
0   1959   1   1        1.0           34  -3.6  -9.8   sataa
1   1959   2   1       -1.0           63  -6.1 -13.1  poutaa
2   1959   3   1       -1.0           55   8.2  -1.5  poutaa
3   1959   4   1        7.8           27   5.0 -10.5   sataa
4   1959   5   1       -1.0           -1  17.9  -0.9  poutaa
5   1959   6   1        3.6           -1  14.0   1.2   sataa


DataFramen `applymap` -metodilla parametrina annettu funktio tehdään DataFramen jokaiselle alkioille. Alla tulostetaan arvot kahdella desimaalilla (muutetaan desimaaliluvut merkkijonoiksi)

In [23]:
import numpy as np

df = pd.DataFrame(np.random.randn(4, 3), columns=['a','b','c'], index=['JKL', 'HKI', 'TKU', 'TRE'])
print(df)

print('\n-----------\n')

def f(x):
    return "{:.2f}".format(x) 

print(df.applymap(f))

# lyhemmin

print(df.applymap(lambda x: "{:.2f}".format(x)))

# vieläkin lyhemmin

print(df.applymap("{:.2f}".format))

            a         b         c
JKL  0.642848  0.843848 -1.294165
HKI  0.136651  2.171614 -0.233276
TKU -0.433450  1.107652  0.079167
TRE  0.270281  0.343242 -0.449266

-----------

         a     b      c
JKL   0.64  0.84  -1.29
HKI   0.14  2.17  -0.23
TKU  -0.43  1.11   0.08
TRE   0.27  0.34  -0.45
         a     b      c
JKL   0.64  0.84  -1.29
HKI   0.14  2.17  -0.23
TKU  -0.43  1.11   0.08
TRE   0.27  0.34  -0.45
         a     b      c
JKL   0.64  0.84  -1.29
HKI   0.14  2.17  -0.23
TKU  -0.43  1.11   0.08
TRE   0.27  0.34  -0.45



`apply`-metodi on määritelty sekä Seriekselle että DataFramelle ja sille annetaan parametrina funktio.  
Jos sitä kutsutaan DataFramella ja parametrina annetaan joku **koostefunktio** (sum, min, max jne), se laskee riveittäin tai sarakkeittain (`axis=1`) koostefunktion arvon. Jos taas annetaan funktio, joka ottaa yksittäisen argumentin, se toimii kuiten `applymap`

In [24]:
import numpy as np

df = pd.DataFrame(np.random.randn(4, 3), columns=['a','b','c'], index=['JKL', 'HKI', 'TKU', 'TRE'])
print(df)

print('\n-----------\n')

print(df.apply(lambda x: x.max()-x.min())) # voisi olla erikseen määritelty funktio def x(): ja kutsua apply(f)

print('\n-----------\n')

print(df.apply(lambda x: x.max()-x.min(), axis=1))  

print('\n-----------\n')

df['ero'] = df.apply(lambda x: x.max()-x.min(), axis=1)

print(df)


print('\n-----------\n')

print(df.apply(np.sqrt))    # tässä annetaan funktio, joka ottaa vain yhden luvun parametriksi



print('\n-----------\n')

def montakopositiivista(x):
    return x[x>0].count()


print(df.apply(montakopositiivista, axis=1))

            a         b         c
JKL -0.437089  0.325543 -0.706418
HKI  1.868718  0.582919  1.512019
TKU -0.091510  0.242941 -0.401835
TRE -1.323602 -1.240592  0.684631

-----------

a    3.192320
b    1.823511
c    2.218437
dtype: float64

-----------

JKL    1.031962
HKI    1.285799
TKU    0.644776
TRE    2.008233
dtype: float64

-----------

            a         b         c       ero
JKL -0.437089  0.325543 -0.706418  1.031962
HKI  1.868718  0.582919  1.512019  1.285799
TKU -0.091510  0.242941 -0.401835  0.644776
TRE -1.323602 -1.240592  0.684631  2.008233

-----------

            a         b         c       ero
JKL       NaN  0.570564       NaN  1.015855
HKI  1.367011  0.763492  1.229642  1.133931
TKU       NaN  0.492891       NaN  0.802979
TRE       NaN       NaN  0.827424  1.417121

-----------

JKL    2
HKI    4
TKU    2
TRE    2
dtype: int64


Vähän harvinaisempaa `apply`-funktion käyttöä:

In [25]:
df = pd.DataFrame(np.random.randn(4, 3), columns=['a','b','c'], index=['JKL', 'HKI', 'TKU', 'TRE'])
print(df)

print('\n-----------\n')

def tulosta(x):
    print(x.name + ' b = ' +  str(x['b']))


df.apply(tulosta, axis=1)

            a         b         c
JKL -0.131358  1.281015 -0.631638
HKI -0.189875  0.298148  0.066813
TKU -1.170480  0.779220  0.608194
TRE -1.003735 -1.634324  0.596343

-----------

JKL b = 1.2810146395791664
HKI b = 0.2981475144655653
TKU b = 0.7792202319379532
TRE b = -1.6343236961772918


JKL    None
HKI    None
TKU    None
TRE    None
dtype: object

DataFramella on myös suoraan monia tilastometodeja (sum, mean jne), jolloin apply-metodin käyttö ei ole tarpeen

In [26]:
df = pd.DataFrame(np.random.randn(4, 3), columns=['a','b','c'], index=['JKL', 'HKI', 'TKU', 'TRE'])
print(df)

print('\n-----------\n')

print(df.apply(lambda x: x.sum())) 

print('\n-----------\n')

print(df.sum())   # sama asia

print('\n-----------\n')

print(df.apply(lambda x: x.sum(), axis=1)) 

print('\n-----------\n')

print(df.sum(axis=1))   # sama asia


            a         b         c
JKL  1.169624 -0.759901  0.020349
HKI  1.212457  0.511535  0.873133
TKU  0.578889 -0.366850 -0.352976
TRE  0.597592 -0.053320 -1.051432

-----------

a    3.558561
b   -0.668535
c   -0.510927
dtype: float64

-----------

a    3.558561
b   -0.668535
c   -0.510927
dtype: float64

-----------

JKL    0.430071
HKI    2.597125
TKU   -0.140937
TRE   -0.507160
dtype: float64

-----------

JKL    0.430071
HKI    2.597125
TKU   -0.140937
TRE   -0.507160
dtype: float64


Kootusti map, applymap ja apply-metodien erot:

  .|map|applymap|apply
--|-----|--------|-------
mille määritelty? |Series|DataFrame|Series ja DataFrame
parametri?|sanakirja, Series tai funktio|funktio|funktio
alkioittain?|kyllä|kyllä|kyllä
koostamiseen?|ei|ei|kyllä
käyttötarkoitus?|muunnokset, mappaus|muunnokset|monimutkaisemmat toiminnot
palauttaa?|Series|DataFrame|arvo, Series tai DataFrame

<a id="8"> </a>
### Kategorisointi
Dataa ryhmittää kategorioihin myös lokeroiden (välien) avulla. Esim. ikä-sarakkeesta voitaisiin generoida uusi sarake ikäryhmä, jonka avulla dataa voidaan analysoida eteenpäin (esim laskea keskiarvoja ikäryhmittäin).

Lokeroiden rajat määritellään listana, ja lokerointi tehdään pandasin `cut`-funktiolla. Oletuksena alaraja ei kuulu luokkaan mukaan, mutta `cut`-funktion parametrilla `right=False` tämä voidaan kääntää toisin päin.


In [27]:
df = pd.DataFrame({'Tappara' :{2001: 2, 2002: 2, 2003: 1, 2004: 9, 2005: 8, 2006: 5, 2007: 5, 2008: 3, 2009: 13, 2010: 7, 2011: 11, 2012: 12, 2013: 2, 2014: 2, 2015: 2, 2016: 1, 2017: 1, 2018: 2},
                  'Kärpät' :{2001: 4, 2002: 6, 2003: 2, 2004: 1, 2005: 1, 2006: 3, 2007: 1, 2008: 1, 2009: 2, 2010: 8, 2011: 10, 2012: 8, 2013: 9, 2014: 1, 2015: 1, 2016: 3, 2017: 10, 2018: 1},
                   'JYP' :{2001: 12, 2002: 9, 2003: 6, 2004: 10, 2005: 9, 2006: 9, 2007: 12, 2008: 5, 2009: 1, 2010: 3, 2011: 4, 2012: 1, 2013: 3, 2014: 5, 2015: 3, 2016: 4, 2017: 3, 2018: 5},
                   'KalPa' :{2006: 14, 2007: 14, 2008: 13, 2009: 3, 2010: 4, 2011: 6, 2012: 5, 2013: 6, 2014: 14, 2015: 6, 2016: 9, 2017: 2, 2018: 6}})
print(df)

print('\n-----------\n')
                  
lokerot = [0,3,8,10,15]

print(pd.cut(df['JYP'], lokerot))


      Tappara  Kärpät  JYP  KalPa
2001        2       4   12    NaN
2002        2       6    9    NaN
2003        1       2    6    NaN
2004        9       1   10    NaN
2005        8       1    9    NaN
2006        5       3    9   14.0
2007        5       1   12   14.0
2008        3       1    5   13.0
2009       13       2    1    3.0
2010        7       8    3    4.0
2011       11      10    4    6.0
2012       12       8    1    5.0
2013        2       9    3    6.0
2014        2       1    5   14.0
2015        2       1    3    6.0
2016        1       3    4    9.0
2017        1      10    3    2.0
2018        2       1    5    6.0

-----------

2001    (10, 15]
2002     (8, 10]
2003      (3, 8]
2004     (8, 10]
2005     (8, 10]
2006     (8, 10]
2007    (10, 15]
2008      (3, 8]
2009      (0, 3]
2010      (0, 3]
2011      (3, 8]
2012      (0, 3]
2013      (0, 3]
2014      (3, 8]
2015      (0, 3]
2016      (3, 8]
2017      (0, 3]
2018      (3, 8]
Name: JYP, dtype: category
Categor

Lokeroille, eli luokille voi antaa myös nimet (labels)

In [28]:
df = pd.DataFrame({'Tappara' :{2001: 2, 2002: 2, 2003: 1, 2004: 9, 2005: 8, 2006: 5, 2007: 5, 2008: 3, 2009: 13, 2010: 7, 2011: 11, 2012: 12, 2013: 2, 2014: 2, 2015: 2, 2016: 1, 2017: 1, 2018: 2},
                  'Kärpät' :{2001: 4, 2002: 6, 2003: 2, 2004: 1, 2005: 1, 2006: 3, 2007: 1, 2008: 1, 2009: 2, 2010: 8, 2011: 10, 2012: 8, 2013: 9, 2014: 1, 2015: 1, 2016: 3, 2017: 10, 2018: 1},
                   'JYP' :{2001: 12, 2002: 9, 2003: 6, 2004: 10, 2005: 9, 2006: 9, 2007: 12, 2008: 5, 2009: 1, 2010: 3, 2011: 4, 2012: 1, 2013: 3, 2014: 5, 2015: 3, 2016: 4, 2017: 3, 2018: 5},
                   'KalPa' :{2006: 14, 2007: 14, 2008: 13, 2009: 3, 2010: 4, 2011: 6, 2012: 5, 2013: 6, 2014: 14, 2015: 6, 2016: 9, 2017: 2, 2018: 6}})
print(df)

print('\n-----------\n')
                  
lokerot = [0,3,8,10,15]

luokat = ['mitali', 'play-offs', 'säälipleijarit', 'jäi runkosarjaan']

df['Jypin kausi'] =  pd.cut(df['JYP'], lokerot, labels=luokat)

print(df)


      Tappara  Kärpät  JYP  KalPa
2001        2       4   12    NaN
2002        2       6    9    NaN
2003        1       2    6    NaN
2004        9       1   10    NaN
2005        8       1    9    NaN
2006        5       3    9   14.0
2007        5       1   12   14.0
2008        3       1    5   13.0
2009       13       2    1    3.0
2010        7       8    3    4.0
2011       11      10    4    6.0
2012       12       8    1    5.0
2013        2       9    3    6.0
2014        2       1    5   14.0
2015        2       1    3    6.0
2016        1       3    4    9.0
2017        1      10    3    2.0
2018        2       1    5    6.0

-----------

      Tappara  Kärpät  JYP  KalPa       Jypin kausi
2001        2       4   12    NaN  jäi runkosarjaan
2002        2       6    9    NaN    säälipleijarit
2003        1       2    6    NaN         play-offs
2004        9       1   10    NaN    säälipleijarit
2005        8       1    9    NaN    säälipleijarit
2006        5       3    9  

Jos `cut`-funktiolle antaa luokkarajalistan sijasta kokonaisluvun *n*, pandas luo itse *n* yhtäsuurta luokkaa datan pienimmän ja suurimman arvon välille.

In [29]:
import numpy as np

data = np.random.rand(20)

print(data)

print('\n-----------\n')

print(pd.cut(data, 4, precision=2))

[0.95195972 0.38838114 0.98068953 0.05547369 0.65495154 0.24556418
 0.47975129 0.60772356 0.25742364 0.06008683 0.52076825 0.51259035
 0.06094509 0.07686417 0.16835499 0.83872787 0.01553234 0.91705579
 0.86988514 0.27592738]

-----------

[(0.74, 0.98], (0.26, 0.5], (0.74, 0.98], (0.015, 0.26], (0.5, 0.74], ..., (0.74, 0.98], (0.015, 0.26], (0.74, 0.98], (0.74, 0.98], (0.26, 0.5]]
Length: 20
Categories (4, interval[float64]): [(0.015, 0.26] < (0.26, 0.5] < (0.5, 0.74] < (0.74, 0.98]]


<a id="9"> </a>
### NumPy-funktiot DataFramelle
NumPyn matemaattiset funktiot jotka tehdään NumPy-taulukolle alkioittain toimivat myös Seriesille tai DataFramelle.

In [30]:
df = pd.DataFrame(np.random.randn(4, 3), columns=['a','b','c'], index=['JKL', 'HKI', 'TKU', 'TRE'])
print(df)

print('\n-----------\n')

print(np.abs(df))  #itseisarvo


            a         b         c
JKL -0.011764  1.182057  0.395540
HKI  1.201423  0.595663 -0.798047
TKU  0.482923 -0.724093  0.396099
TRE -0.213030  0.728590  1.511316

-----------

            a         b         c
JKL  0.011764  1.182057  0.395540
HKI  1.201423  0.595663  0.798047
TKU  0.482923  0.724093  0.396099
TRE  0.213030  0.728590  1.511316


<a id="11"> </a>
### pandasin merkkijonofunktiot

pandasissa on myös omia merkkijonofunktioita, jotka tekevät operaatiot alkioittain kaikille Seriesin alkioille. 
Toinen vaihtoehto olisi käyttää `map`-metodia, ja siinä normaaleja Pythonin merkkijonofunktioita, mutta tällöin ongelma on että ne kaatuvat jos parametrina tulee NaN eli puuttuva arvo. pandasin merkkijonofunktiot selviävät NaN-arvoistakin.

pandasin merkkijonofunktioita kutsutaan .str.funktio

[pandasin merkkijonofunktioista](http://pandas.pydata.org/pandas-docs/stable/text.html#)

In [31]:
data = {'email': {'Dave': 'dave@google.com', 'Steve': 'steve@gmail.com', 'Rob': 'rob@gmail.com', 'Wes': np.nan}}

df = pd.DataFrame(data)

print(df)

print('\n--------------\n')



# df['gmail'] = df['email'].map(lambda x: x.find('gmail')>-1) 
# ei toimi, koska NaN-arvo antaa "'float' object has no attribute 'find'"

# sen sijaan pandasin merkkijonofunktio contains toimii:
df['gmail'] = df['email'].str.contains('gmail')

df['domain'] = df['email'].str.split('@').str.get(1).str.split('.').str.get(0)

df['ekat'] = df['email'].str[0:3]

print(df)


                 email
Dave   dave@google.com
Rob      rob@gmail.com
Steve  steve@gmail.com
Wes                NaN

--------------

                 email  gmail  domain ekat
Dave   dave@google.com  False  google  dav
Rob      rob@gmail.com   True   gmail  rob
Steve  steve@gmail.com   True   gmail  ste
Wes                NaN    NaN     NaN  NaN
