# Datan valmistelu

[Alkuperäinen muistikirja *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## `DataFrame`-tietojen tutkiminen

> **Oppimistavoite:** Tämän alajakson lopussa sinun pitäisi osata löytää yleistä tietoa pandas DataFrame -tietojen sisällöstä.

Kun olet ladannut datasi pandas-kirjastoon, se on todennäköisesti `DataFrame`-muodossa. Mutta jos `DataFrame` sisältää 60 000 riviä ja 400 saraketta, mistä edes aloitat saadaksesi käsityksen siitä, mitä sinulla on käsissäsi? Onneksi pandas tarjoaa käteviä työkaluja, joilla voit nopeasti tarkastella `DataFrame`-kokonaisuuden tietoja sekä sen ensimmäisiä ja viimeisiä rivejä.

Tutkiaksemme tätä toiminnallisuutta, tuomme käyttöön Pythonin scikit-learn-kirjaston ja käytämme ikonista datasettiä, jonka jokainen data-analyytikko on nähnyt satoja kertoja: brittiläisen biologin Ronald Fisherin *Iris*-datasetti, jota hän käytti vuonna 1936 julkaistussa artikkelissaan "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Olemme ladanneet Iris-datasarjan muuttujaan `iris_df`. Ennen kuin sukellamme dataan, olisi hyödyllistä tietää, kuinka monta datapistettä meillä on ja mikä on datasarjan kokonaiskoko. On hyödyllistä tarkastella datan määrää, jonka kanssa työskentelemme.


In [2]:
iris_df.shape

(150, 4)

Joten, käsittelemme 150 riviä ja 4 saraketta dataa. Jokainen rivi edustaa yhtä datapistettä, ja jokainen sarake edustaa yhtä ominaisuutta, joka liittyy datafreimiin. Periaatteessa siis on 150 datapistettä, joilla on kukin 4 ominaisuutta.

`shape` on tässä datafreimin attribuutti eikä funktio, minkä vuoksi se ei pääty sulkuihin.


### `DataFrame.columns`
Siirrytään nyt neljään datan sarakkeeseen. Mitä kukin niistä tarkalleen ottaen edustaa? `columns`-attribuutti antaa meille dataframeen sisältyvien sarakkeiden nimet.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Kuten voimme nähdä, on neljä (4) saraketta. `columns`-attribuutti kertoo meille sarakkeiden nimet eikä käytännössä mitään muuta. Tämä attribuutti saa merkitystä, kun haluamme tunnistaa, mitä ominaisuuksia datasetti sisältää.


### `DataFrame.info`
Tietomäärä (annettu `shape`-attribuutilla) ja ominaisuuksien tai sarakkeiden nimet (annettu `columns`-attribuutilla) kertovat jotain datasta. Nyt haluaisimme tutkia datasettiä tarkemmin. `DataFrame.info()`-funktio on tässä erittäin hyödyllinen.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Tästä voimme tehdä muutamia havaintoja:
1. Jokaisen sarakkeen tietotyyppi: Tässä datassa kaikki tiedot on tallennettu 64-bittisinä liukulukuina.
2. Ei-null-arvojen määrä: Null-arvojen käsittely on tärkeä vaihe datan valmistelussa. Tämä käsitellään myöhemmin muistikirjassa.


### DataFrame.describe()
Oletetaan, että datasetissämme on paljon numeerista dataa. Yksittäisiä tilastollisia laskelmia, kuten keskiarvo, mediaani, kvartiilit jne., voidaan tehdä jokaiselle sarakkeelle erikseen. `DataFrame.describe()`-funktio tarjoaa tilastollisen yhteenvedon datasetin numeerisista sarakkeista.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Yllä oleva tulos näyttää kunkin sarakkeen kokonaisdatapisteiden määrän, keskiarvon, keskihajonnan, minimiarvon, alaneljänneksen (25 %), mediaanin (50 %), yläneljänneksen (75 %) ja maksimiarvon.


### `DataFrame.head`
Kaikkien edellä mainittujen funktioiden ja attribuuttien avulla olemme saaneet yleiskuvan datasta. Tiedämme, kuinka monta datapistettä datasetissä on, kuinka monta ominaisuutta siinä on, kunkin ominaisuuden tietotyypin sekä ei-null-arvojen määrän kullekin ominaisuudelle.

Nyt on aika tarkastella itse dataa. Katsotaan, miltä ensimmäiset rivit (ensimmäiset datapisteet) `DataFrame`:ssä näyttävät:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Kun tarkastelemme tässä tulostetta, näemme viisi (5) tietueita datasetistä. Jos katsomme vasemmalla olevaa indeksiä, huomaamme, että nämä ovat datasetin ensimmäiset viisi riviä.


### Harjoitus:

Yllä olevasta esimerkistä käy ilmi, että oletuksena `DataFrame.head` palauttaa `DataFrame`-taulukon ensimmäiset viisi riviä. Voitko alla olevassa koodisolussa keksiä tavan näyttää enemmän kuin viisi riviä?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Toinen tapa tarkastella dataa on sen loppupäästä (alkupään sijaan). `DataFrame.head`-metodin vastakohta on `DataFrame.tail`, joka palauttaa `DataFrame`:n viimeiset viisi riviä:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


Käytännössä on hyödyllistä pystyä helposti tarkastelemaan `DataFrame`-taulukon ensimmäisiä tai viimeisiä rivejä, erityisesti silloin, kun etsit poikkeamia järjestetyistä aineistoista.

Kaikki yllä esitetyt funktiot ja attribuutit, joita havainnollistettiin koodiesimerkkien avulla, auttavat meitä saamaan käsityksen datasta.

> **Yhteenveto:** Jo pelkästään tarkastelemalla metatietoja `DataFrame`-taulukon sisällöstä tai sen ensimmäisiä ja viimeisiä arvoja, voit nopeasti saada käsityksen datan koosta, muodosta ja sisällöstä, jonka kanssa työskentelet.


### Puuttuvat Tiedot
Tutustutaan puuttuviin tietoihin. Puuttuvat tiedot syntyvät, kun joissakin sarakkeissa ei ole tallennettu arvoa.

Otetaan esimerkki: joku on hyvin tarkka painostaan eikä täytä painokenttää kyselyssä. Tällöin kyseisen henkilön painoarvo jää puuttumaan.

Useimmiten todellisissa maailmankokoelmissa esiintyy puuttuvia arvoja.

**Kuinka Pandas käsittelee puuttuvia tietoja**

Pandas käsittelee puuttuvia arvoja kahdella tavalla. Ensimmäinen tapa, jonka olet nähnyt aiemmissa osioissa, on `NaN`, eli Not a Number. Tämä on itse asiassa erityinen arvo, joka kuuluu IEEE:n liukulukumäärittelyyn, ja sitä käytetään vain puuttuvien liukulukuarvojen merkitsemiseen.

Liukulukuja lukuun ottamatta puuttuvien arvojen kohdalla pandas käyttää Pythonin `None`-objektia. Vaikka voi tuntua hämmentävältä, että kohtaat kaksi erilaista arvoa, jotka periaatteessa tarkoittavat samaa asiaa, tälle suunnitteluratkaisulle on hyvät ohjelmalliset syyt. Käytännössä tämä lähestymistapa mahdollistaa sen, että pandas tarjoaa hyvän kompromissin valtaosassa tapauksista. Tästä huolimatta sekä `None` että `NaN` sisältävät rajoituksia, jotka sinun tulee ottaa huomioon niiden käyttöä koskien.


### `None`: ei-kelluva puuttuva data
Koska `None` tulee Pythonista, sitä ei voida käyttää NumPy- ja pandas-taulukoissa, joiden tietotyyppi ei ole `'object'`. Muista, että NumPy-taulukot (ja pandas-tietorakenteet) voivat sisältää vain yhtä tietotyyppiä. Tämä ominaisuus antaa niille valtavan tehon suurten datamäärien ja laskentatyön käsittelyssä, mutta samalla se rajoittaa niiden joustavuutta. Tällaiset taulukot täytyy muuntaa "pienimpään yhteiseen nimittäjään", eli tietotyyppiin, joka kattaa kaiken taulukossa olevan. Kun taulukossa on `None`, se tarkoittaa, että työskentelet Python-objektien kanssa.

Tarkastellaan tätä käytännössä seuraavan esimerkkitaulukon avulla (huomaa sen `dtype`):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Upcast-tyyppien todellisuudella on kaksi sivuvaikutusta. Ensinnäkin operaatiot suoritetaan tulkitun Python-koodin tasolla sen sijaan, että ne suoritettaisiin käännetyn NumPy-koodin tasolla. Käytännössä tämä tarkoittaa, että kaikki operaatiot, jotka koskevat `Series`- tai `DataFrame`-objekteja, joissa on `None`, ovat hitaampia. Vaikka et todennäköisesti huomaisi tätä suorituskyvyn heikkenemistä, suurten tietoaineistojen kohdalla siitä saattaa tulla ongelma.

Toinen sivuvaikutus johtuu ensimmäisestä. Koska `None` käytännössä vetää `Series`- tai `DataFrame`-objektit takaisin perinteisen Pythonin maailmaan, NumPy/pandas-yhteenvedot, kuten `sum()` tai `min()`, taulukoissa, jotka sisältävät ``None``-arvon, tuottavat yleensä virheen:


In [10]:
example1.sum()

TypeError: ignored

**Keskeinen huomio**: Kokonaislukujen ja `None`-arvojen välinen yhteenlasku (sekä muut operaatiot) on määrittelemätön, mikä voi rajoittaa sitä, mitä voit tehdä niitä sisältävien tietojoukkojen kanssa.


### `NaN`: puuttuvat liukuluvut

Toisin kuin `None`, NumPy (ja siten pandas) tukee `NaN`:ia nopeiden, vektorisoitujen operaatioiden ja ufuncien avulla. Huono uutinen on, että kaikki aritmeettiset laskutoimitukset, jotka tehdään `NaN`:illa, tuottavat aina `NaN`:in. Esimerkiksi:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Hyvät uutiset: aggregoinnit, jotka suoritetaan `NaN`-arvoja sisältävillä taulukoilla, eivät aiheuta virheitä. Huonot uutiset: tulokset eivät ole tasaisesti hyödyllisiä:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Harjoitus:


In [11]:
# What happens if you add np.nan and None together?


Muista: `NaN` on vain puuttuvia liukulukuja varten; ei ole `NaN`-vastinetta kokonaisluvuille, merkkijonoille tai totuusarvoille.


### `NaN` ja `None`: nollaarvot pandas-kirjastossa

Vaikka `NaN` ja `None` voivat käyttäytyä hieman eri tavoin, pandas-kirjasto on kuitenkin suunniteltu käsittelemään niitä keskenään vaihdettavina. Katsotaanpa, mitä tämä tarkoittaa, tarkastelemalla kokonaislukujen `Series`-sarjaa:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Harjoitus:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Pandasissa tietotyyppien ylöspäin muuntamisen yhteydessä, kun pyritään luomaan tietojen yhtenäisyyttä `Series`- ja `DataFrame`-objekteissa, puuttuvat arvot voivat vaihtua joustavasti `None`- ja `NaN`-arvojen välillä. Tämän suunnitteluominaisuuden vuoksi voi olla hyödyllistä ajatella `None`- ja `NaN`-arvoja kahtena eri "null"-tyyppinä pandasissa. Itse asiassa jotkut keskeisistä menetelmistä, joita käytät puuttuvien arvojen käsittelyyn pandasissa, heijastavat tätä ajatusta nimissään:

- `isnull()`: Luo Boolean-maskin, joka osoittaa puuttuvat arvot
- `notnull()`: `isnull()`-menetelmän vastakohta
- `dropna()`: Palauttaa suodatetun version datasta
- `fillna()`: Palauttaa kopion datasta, jossa puuttuvat arvot on täytetty tai imputoitu

Nämä menetelmät ovat tärkeitä hallita ja tuntea hyvin, joten käydään ne läpi yksityiskohtaisemmin.


### Null-arvojen havaitseminen

Kun olemme ymmärtäneet puuttuvien arvojen merkityksen, meidän täytyy havaita ne aineistossamme ennen niiden käsittelyä. Sekä `isnull()` että `notnull()` ovat ensisijaisia menetelmiä null-arvojen havaitsemiseen. Molemmat palauttavat Boolean-maskit aineistosi yli.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Katso tarkasti tulosta. Yllättääkö jokin siinä? Vaikka `0` on aritmeettinen nolla, se on silti täysin kelvollinen kokonaisluku, ja pandas käsittelee sitä sellaisena. `''` on hieman hienovaraisempi tapaus. Vaikka käytimme sitä osassa 1 edustamaan tyhjää merkkijonoarvoa, se on silti merkkijono-objekti eikä pandasissa null-arvon edustaja.

Käännetäänpä tämä nyt toisin päin ja käytetään näitä menetelmiä enemmän sillä tavalla, kuin niitä käytetään käytännössä. Voit käyttää Boolen maskeja suoraan ``Series``- tai ``DataFrame``-indeksinä, mikä voi olla hyödyllistä, kun yrität käsitellä eristettyjä puuttuvia (tai olemassa olevia) arvoja.

Jos haluamme puuttuvien arvojen kokonaismäärän, voimme yksinkertaisesti laskea yhteen maskin, jonka `isnull()`-metodi tuottaa.


In [19]:
example3.isnull().sum()

2

### Harjoitus:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Keskeinen huomio**: Sekä `isnull()`- että `notnull()`-menetelmät tuottavat samanlaisia tuloksia, kun käytät niitä DataFrameissa: ne näyttävät tulokset ja niiden indeksit, mikä auttaa sinua valtavasti, kun käsittelet dataasi.


### Puuttuvien tietojen käsittely

> **Oppimistavoite:** Tämän alajakson lopussa sinun tulisi tietää, miten ja milloin korvata tai poistaa puuttuvat arvot DataFrameista.

Koneoppimismallit eivät pysty käsittelemään puuttuvia tietoja itsestään. Siksi ennen datan syöttämistä malliin meidän täytyy käsitellä nämä puuttuvat arvot.

Puuttuvien tietojen käsittelyyn liittyy hienovaraisia kompromisseja, jotka voivat vaikuttaa lopulliseen analyysiin ja tosielämän tuloksiin.

Puuttuvien tietojen käsittelyyn on pääasiassa kaksi tapaa:

1.   Poista rivi, joka sisältää puuttuvan arvon
2.   Korvaa puuttuva arvo jollakin muulla arvolla

Käsittelemme molempia menetelmiä ja niiden etuja ja haittoja yksityiskohtaisesti.


### Null-arvojen poistaminen

Mallillemme syötettävän datan määrä vaikuttaa suoraan sen suorituskykyyn. Null-arvojen poistaminen tarkoittaa, että vähennämme datapisteiden määrää ja siten pienennämme datasetin kokoa. Siksi on suositeltavaa poistaa rivit, joissa on null-arvoja, kun datasetti on melko suuri.

Toinen tilanne voi olla, että tietyssä rivissä tai sarakkeessa on paljon puuttuvia arvoja. Tällöin ne voidaan poistaa, koska ne eivät todennäköisesti tuo paljon lisäarvoa analyysillemme, kun suurin osa datasta puuttuu kyseiseltä riviltä tai sarakkeelta.

Sen lisäksi, että tunnistetaan puuttuvat arvot, pandas tarjoaa kätevän tavan poistaa null-arvoja `Series`- ja `DataFrame`-objekteista. Katsotaanpa tätä käytännössä palaamalla `example3`:een. `DataFrame.dropna()`-funktio auttaa poistamaan rivit, joissa on null-arvoja.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Huomaa, että tämän pitäisi näyttää samalta kuin tulos `example3[example3.notnull()]`. Erona tässä on, että sen sijaan, että vain indeksoitaisiin maskattuja arvoja, `dropna` on poistanut puuttuvat arvot `Series`-objektista `example3`.

Koska DataFrame-objekteilla on kaksi ulottuvuutta, ne tarjoavat enemmän vaihtoehtoja datan poistamiseen.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Huomasitko, että pandas muutti kaksi saraketta liukuluvuiksi voidakseen käsitellä `NaN`-arvoja?)

Et voi poistaa yksittäistä arvoa `DataFrame`-rakenteesta, joten sinun täytyy poistaa kokonaisia rivejä tai sarakkeita. Riippuen siitä, mitä olet tekemässä, saatat haluta tehdä jomman kumman, ja siksi pandas tarjoaa vaihtoehdot molempiin. Koska data-analytiikassa sarakkeet yleensä edustavat muuttujia ja rivit havaintoja, on todennäköisempää, että poistat rivejä datasta; `dropna()`-toiminnon oletusasetuksena on poistaa kaikki rivit, jotka sisältävät minkä tahansa null-arvon:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Jos tarpeen, voit poistaa NA-arvot sarakkeista. Käytä `axis=1` tätä varten:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Huomaa, että tämä voi poistaa paljon dataa, jonka haluaisit säilyttää, erityisesti pienemmissä aineistoissa. Entä jos haluat poistaa vain rivit tai sarakkeet, jotka sisältävät useita tai jopa kaikki null-arvot? Voit määrittää nämä asetukset `dropna`-metodissa käyttämällä `how`- ja `thresh`-parametreja.

Oletuksena `how='any'` (jos haluat tarkistaa itse tai nähdä, mitä muita parametreja metodilla on, suorita `example4.dropna?` koodisolussa). Voit vaihtoehtoisesti määrittää `how='all'`, jolloin poistetaan vain rivit tai sarakkeet, jotka sisältävät kaikki null-arvot. Laajennetaan esimerkkimme `DataFrame`-taulukkoa, jotta näet tämän toiminnassa seuraavassa harjoituksessa.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Keskeiset huomiot:  
1. Puuttuvien arvojen poistaminen on hyvä idea vain, jos tietojoukko on riittävän suuri.  
2. Kokonaisia rivejä tai sarakkeita voidaan poistaa, jos suurin osa niiden tiedoista puuttuu.  
3. `DataFrame.dropna(axis=)`-metodi auttaa puuttuvien arvojen poistamisessa. `axis`-argumentti määrittää, poistetaanko rivejä vai sarakkeita.  
4. `how`-argumenttia voidaan myös käyttää. Oletuksena se on asetettu arvoon `any`, jolloin poistetaan vain ne rivit/sarakkeet, joissa on mitä tahansa puuttuvia arvoja. Sen voi asettaa arvoon `all`, jolloin poistetaan vain ne rivit/sarakkeet, joissa kaikki arvot ovat puuttuvia.  


### Harjoitus:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh`-parametri antaa sinulle tarkemman hallinnan: asetat rivin tai sarakkeen tarvitsemien *ei-null* arvojen määrän, jotta se säilytetään:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Tässä ensimmäinen ja viimeinen rivi on pudotettu, koska ne sisältävät vain kaksi ei-null-arvoa.


### Puuttuvien arvojen täyttäminen

Joskus voi olla järkevää korvata puuttuvat arvot sellaisilla, jotka voisivat olla päteviä. Puuttuvien arvojen täyttämiseen on muutamia tekniikoita. Ensimmäinen on käyttää alakohtaista tietämystä (tietoa aiheesta, johon datasetti perustuu) arvioimaan puuttuvat arvot jollain tavalla.

Voit käyttää `isnull`-metodia tähän suoraan, mutta se voi olla työlästä, erityisesti jos täytettäviä arvoja on paljon. Koska tämä on niin yleinen tehtävä datatieteessä, pandas tarjoaa `fillna`-metodin, joka palauttaa kopion `Series`- tai `DataFrame`-objektista, jossa puuttuvat arvot on korvattu valitsemallasi arvolla. Luodaan toinen esimerkki `Series`-objekti, jotta nähdään, miten tämä toimii käytännössä.


### Kategorinen data (ei-numeerinen)
Aloitetaan tarkastelemalla ei-numeerista dataa. Datoissa on usein sarakkeita, joissa on kategorista dataa, kuten sukupuoli, Totta tai Epätotta jne.

Useimmissa tapauksissa puuttuvat arvot korvataan sarakkeen `moodilla`. Esimerkiksi, jos meillä on 100 datapistettä, joista 90 on vastannut Totta, 8 Epätotta ja 2 jättänyt vastaamatta, voimme täyttää nämä 2 puuttuvaa arvoa Totta, ottaen huomioon koko sarakkeen.

Tässäkin voimme hyödyntää asiantuntemusta. Tarkastellaan esimerkkiä, jossa täytämme puuttuvat arvot moodilla.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


Nyt, etsitään ensin moodi ennen kuin täytetään `None`-arvo moodilla.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

Joten, korvaamme None arvolla True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Kuten voimme nähdä, null-arvo on korvattu. Tarpeetonta sanoa, että olisimme voineet kirjoittaa mitä tahansa `'True'`-paikalle, ja se olisi tullut korvatuksi.


### Numeerinen data
Siirrytään nyt numeeriseen dataan. Tässä on kaksi yleistä tapaa korvata puuttuvat arvot:

1. Korvaa rivin mediaanilla  
2. Korvaa rivin keskiarvolla  

Käytämme mediaania, kun data on vinoutunutta ja sisältää poikkeavia arvoja. Tämä johtuu siitä, että mediaani on kestävä poikkeamille.

Kun data on normalisoitu, voimme käyttää keskiarvoa, koska siinä tapauksessa keskiarvo ja mediaani ovat melko lähellä toisiaan.

Otetaan ensin sarake, joka on normaalijakautunut, ja täytetään puuttuva arvo sarakkeen keskiarvolla.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Sarakkeen keskiarvo on


In [33]:
np.mean(fill_with_mean[0])

0.0

Täyttö keskiarvolla


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Kuten voimme nähdä, puuttuva arvo on korvattu sen keskiarvolla.


Nyt kokeillaan toista dataframea, ja tällä kertaa korvaamme None-arvot sarakkeen mediaanilla.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Toisen sarakkeen mediaani on


In [36]:
fill_with_median[1].median()

4.0

Täyttö mediaanilla


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Kuten voimme nähdä, NaN-arvo on korvattu sarakkeen mediaanilla


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Voit täyttää kaikki tyhjät kentät yhdellä arvolla, kuten `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Keskeiset huomiot:
1. Puuttuvien arvojen täyttö tulisi tehdä, kun dataa on vähän tai kun on olemassa strategia puuttuvien arvojen täyttämiseksi.
2. Alakohtainen tieto voi auttaa puuttuvien arvojen täyttämisessä arvioimalla niitä.
3. Kategorisessa datassa puuttuvat arvot korvataan yleensä sarakkeen moodilla.
4. Numeraalisessa datassa puuttuvat arvot täytetään yleensä sarakkeen keskiarvolla (normalisoiduissa aineistoissa) tai mediaanilla.


### Harjoitus:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Voit **täyttää eteenpäin** null-arvot, eli käyttää viimeistä kelvollista arvoa null-arvon täyttämiseen:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Voit myös **täyttää taaksepäin** levittääksesi seuraavan kelvollisen arvon taaksepäin täyttääksesi null-arvon:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Kuten arvata saattaa, tämä toimii samalla tavalla DataFramejen kanssa, mutta voit myös määrittää `axis`-parametrin, jonka mukaan täyttää null-arvot:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Huomaa, että kun aiempaa arvoa ei ole saatavilla eteenpäin täyttämistä varten, null-arvo säilyy.


### Harjoitus:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Voit olla luova `fillna`-menetelmän käytössä. Esimerkiksi tarkastellaan uudelleen `example4`:ää, mutta tällä kertaa täytetään puuttuvat arvot kaikkien `DataFrame`:n arvojen keskiarvolla:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Huomaa, että sarake 3 on edelleen arvoton: oletussuuntana on täyttää arvot rivikohtaisesti.

> **Yhteenveto:** Puuttuvien arvojen käsittelyyn datasetissä on useita tapoja. Käyttämäsi strategia (poistaminen, korvaaminen tai tapa, jolla korvaat ne) tulisi määritellä datan erityispiirteiden mukaan. Saat paremman käsityksen puuttuvien arvojen käsittelystä, kun työskentelet ja vuorovaikutat datasetien kanssa enemmän.


### Kategorisen datan koodaus

Koneoppimismallit käsittelevät vain numeroita ja kaikenlaista numeerista dataa. Ne eivät pysty erottamaan kyllä- ja ei-vastauksia toisistaan, mutta ne voivat erottaa 0:n ja 1:n. Joten, kun puuttuvat arvot on täytetty, meidän täytyy koodata kategorinen data numeeriseen muotoon, jotta malli ymmärtää sen.

Koodaus voidaan tehdä kahdella tavalla. Käymme ne läpi seuraavaksi.


**LUOKKAENKODERAUS**

Luokkaenkoderaus tarkoittaa käytännössä sitä, että jokainen kategoria muutetaan numeroksi. Esimerkiksi, jos meillä on lentomatkustajien datasetti, jossa on sarake heidän matkustusluokastaan seuraavien joukossa ['business class', 'economy class', 'first class'], luokkaenkoderaus muuttaisi nämä arvoiksi [0,1,2]. Katsotaanpa esimerkki koodin avulla. Koska tulevissa muistikirjoissa opettelemme käyttämään `scikit-learn`-kirjastoa, emme käytä sitä tässä.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Jotta voimme suorittaa label encodingin ensimmäiselle sarakkeelle, meidän täytyy ensin määritellä luokkien ja numeroiden välinen vastaavuus ennen korvaamista.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Kuten näemme, tulos vastaa odotuksiamme. Milloin siis käytämme label encodingia? Label encodingia käytetään jommassakummassa tai molemmissa seuraavista tapauksista:
1. Kun kategorioiden määrä on suuri
2. Kun kategoriat ovat järjestyksessä.


**ONE HOT ENCODING**

Toinen koodaustyyppi on One Hot Encoding. Tässä koodaustavassa jokainen sarakkeen kategoria lisätään erillisenä sarakkeena, ja jokainen datapiste saa arvon 0 tai 1 sen mukaan, sisältääkö se kyseisen kategorian. Jos kategorioita on n kappaletta, datafreimiin lisätään n saraketta.

Esimerkiksi, otetaan sama lentokoneen luokkien esimerkki. Kategoriat olivat: ['business class', 'economy class', 'first class']. Jos suoritetaan One Hot Encoding, datasettiin lisätään seuraavat kolme saraketta: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Tehdään yksi-kuuma-koodaus ensimmäiselle sarakkeelle


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Jokainen yksi-kuuma koodattu sarake sisältää 0 tai 1, mikä määrittää, onko kyseinen kategorian olemassa kyseiselle datapisteelle.


Milloin käytetään one hot -enkoodausta? One hot -enkoodausta käytetään jommassakummassa tai molemmissa seuraavista tapauksista:

1. Kun kategorioiden määrä ja datan koko ovat pienempiä.
2. Kun kategorioilla ei ole erityistä järjestystä.


> Keskeiset huomiot:
1. Koodaus tehdään muuntamaan ei-numeerinen data numeeriseksi dataksi.
2. Koodauksessa on kaksi tyyppiä: Label-koodaus ja One Hot -koodaus, joita voidaan käyttää datasetin tarpeiden mukaan.


## Datan kaksoiskappaleiden poistaminen

> **Oppimistavoite:** Tämän alajakson lopussa sinun pitäisi osata tunnistaa ja poistaa kaksoiskappaleet DataFrameista.

Puuttuvan datan lisäksi todellisissa tietoaineistoissa törmätään usein myös kaksoiskappaleisiin. Onneksi pandas tarjoaa helpon tavan havaita ja poistaa kaksoiskappaleet.


### Tunnistetaan kaksoiskappaleet: `duplicated`

Voit helposti havaita kaksoiskappaleet käyttämällä pandas-kirjaston `duplicated`-metodia, joka palauttaa Boolean-maskin, joka osoittaa, onko `DataFrame`-tietue aiemman kaksoiskappale. Luodaan toinen esimerkkitietokehys, jotta näet tämän toiminnassa.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Duplikaattien poistaminen: `drop_duplicates`
`drop_duplicates` palauttaa yksinkertaisesti kopion datasta, jossa kaikki `duplicated`-arvot ovat `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Sekä `duplicated` että `drop_duplicates` oletuksena tarkastelevat kaikkia sarakkeita, mutta voit määrittää, että ne tarkastelevat vain tiettyä osajoukkoa sarakkeista `DataFrame`-objektissasi:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **Yhteenveto:** Duplicaatin datan poistaminen on olennainen osa lähes jokaista data-analytiikkaprojektia. Duplicaatin data voi muuttaa analyysiesi tuloksia ja antaa sinulle virheellisiä tuloksia!


## Todellisen maailman datan laadun tarkistukset

> **Oppimistavoite:** Tämän osion lopussa sinun pitäisi osata tunnistaa ja korjata yleisiä todellisen maailman datan laatuongelmia, kuten epäjohdonmukaiset kategoriset arvot, poikkeavat numeeriset arvot (äärimmäiset poikkeamat) ja samankaltaiset entiteetit pienillä eroilla.

Vaikka puuttuvat arvot ja täsmälleen samat duplikaatit ovat yleisiä ongelmia, todellisen maailman datassa esiintyy usein hienovaraisempia ongelmia:

1. **Epäjohdonmukaiset kategoriset arvot**: Sama kategoria kirjoitettuna eri tavoin (esim. "USA", "U.S.A", "United States")
2. **Poikkeavat numeeriset arvot**: Äärimmäiset poikkeamat, jotka viittaavat virheisiin datan syötössä (esim. ikä = 999)
3. **Lähes identtiset rivit**: Tietueet, jotka edustavat samaa entiteettiä pienillä eroilla

Tutkitaan tekniikoita näiden ongelmien tunnistamiseen ja käsittelyyn.


### Luodaan esimerkkidatasetti "likaisesta" datasta

Aloitetaan luomalla esimerkkidatasetti, joka sisältää tyypillisiä ongelmia, joita kohtaamme todellisessa datassa:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. Havaitse epäjohdonmukaiset kategoriset arvot

Huomaa, että `country`-sarake sisältää useita esitystapoja samoille maille. Tunnistetaan nämä epäjohdonmukaisuudet:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### Kategoristen arvojen standardisointi

Voimme luoda kartoituksen näiden arvojen standardisoimiseksi. Yksinkertainen tapa on muuntaa arvot pieniksi kirjaimiksi ja luoda kartoitussanakirja:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**Vaihtoehto: Epätarkka vertailu**

Monimutkaisemmissa tapauksissa voimme käyttää epätarkkaa merkkijonojen vertailua `rapidfuzz`-kirjaston avulla havaitaksemme automaattisesti samankaltaiset merkkijonot:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. Epänormaalien numeeristen arvojen (poikkeamien) tunnistaminen

Kun tarkastelemme `age`-saraketta, huomaamme joitakin epäilyttäviä arvoja, kuten 199 ja -5. Käytetään tilastollisia menetelmiä näiden poikkeamien tunnistamiseen.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### IQR-menetelmän käyttö (Interkvartiilivälin menetelmä)

IQR-menetelmä on vankka tilastollinen tekniikka poikkeavien arvojen tunnistamiseen, joka on vähemmän herkkä äärimmäisille arvoille:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Z-score-menetelmän käyttö

Z-score-menetelmä tunnistaa poikkeamat keskiarvosta laskettujen keskihajontojen perusteella:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### Poikkeamien käsittely

Kun poikkeamat on havaittu, niitä voidaan käsitellä useilla tavoilla:
1. **Poista**: Poista rivit, joissa on poikkeamia (jos ne ovat virheitä)
2. **Rajoita**: Korvaa raja-arvoilla
3. **Korvaa NaN-arvolla**: Käsittele puuttuvana tietona ja käytä imputointitekniikoita
4. **Pidä**: Jos ne ovat oikeutettuja äärimmäisiä arvoja


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. Lähes samankaltaisten rivien tunnistaminen

Huomaa, että datassamme on useita merkintöjä "John Smithille" hieman erilaisilla arvoilla. Tunnistetaan mahdolliset kaksoiskappaleet nimien samankaltaisuuden perusteella.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### Läheisten kaksoiskappaleiden löytäminen epätarkalla vastaavuudella

Kehittyneempää kaksoiskappaleiden tunnistusta varten voimme käyttää epätarkkaa vastaavuutta löytääksemme samankaltaisia nimiä:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### Käsittele duplikaatteja

Kun duplikaatit on tunnistettu, sinun täytyy päättää, miten ne käsitellään:
1. **Pidä ensimmäinen esiintymä**: Käytä `drop_duplicates(keep='first')`
2. **Pidä viimeinen esiintymä**: Käytä `drop_duplicates(keep='last')`
3. **Yhdistä tiedot**: Yhdistä tietoja duplikaattiriveistä
4. **Manuaalinen tarkistus**: Merkitse ihmisen tarkistettavaksi


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### Yhteenveto: Täydellinen datan puhdistusputki

Kootaan kaikki yhteen kattavaksi puhdistusputkeksi:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 Haasteharjoitus

Nyt on sinun vuorosi! Alla on uusi tietorivi, jossa on useita laatuongelmia. Voitko:

1. Tunnistaa kaikki ongelmat tässä rivissä
2. Kirjoittaa koodin jokaisen ongelman korjaamiseksi
3. Lisätä puhdistetun rivin tietojoukkoon

Tässä on ongelmallinen data:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### Keskeiset huomiot

1. **Epäjohdonmukaiset kategoriat** ovat yleisiä todellisessa datassa. Tarkista aina yksilölliset arvot ja yhdenmukaista ne käyttämällä kartoituksia tai epätarkkaa vastaavuutta.

2. **Poikkeamat** voivat vaikuttaa merkittävästi analyysiisi. Käytä alakohtaista tietämystä yhdistettynä tilastollisiin menetelmiin (IQR, Z-score) niiden havaitsemiseksi.

3. **Lähes kaksoiskappaleet** ovat vaikeampia havaita kuin tarkat kaksoiskappaleet. Harkitse epätarkkaa vastaavuutta ja datan normalisointia (pienet kirjaimet, välilyöntien poisto) niiden tunnistamiseksi.

4. **Datan puhdistus on iteratiivista**. Saatat joutua käyttämään useita tekniikoita ja tarkistamaan tulokset ennen kuin viimeistelet puhdistetun datasetin.

5. **Dokumentoi päätöksesi**. Pidä kirjaa siitä, mitä puhdistusvaiheita sovelsit ja miksi, sillä tämä on tärkeää toistettavuuden ja läpinäkyvyyden kannalta.

> **Paras käytäntö:** Säilytä aina kopio alkuperäisestä "likaisesta" datasta. Älä koskaan korvaa lähdedatatiedostoja – luo puhdistettuja versioita selkeillä nimeämiskäytännöillä, kuten `data_cleaned.csv`.



---

**Vastuuvapauslauseke**:  
Tämä asiakirja on käännetty käyttämällä tekoälypohjaista käännöspalvelua [Co-op Translator](https://github.com/Azure/co-op-translator). Vaikka pyrimme tarkkuuteen, huomioithan, että automaattiset käännökset voivat sisältää virheitä tai epätarkkuuksia. Alkuperäistä asiakirjaa sen alkuperäisellä kielellä tulisi pitää ensisijaisena lähteenä. Kriittisen tiedon osalta suositellaan ammattimaista ihmiskäännöstä. Emme ole vastuussa väärinkäsityksistä tai virhetulkinnoista, jotka johtuvat tämän käännöksen käytöstä.
