# Andmete ettevalmistamine

[Algse märkmiku allikas *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## `DataFrame` teabe uurimine

> **Õppimise eesmärk:** Selle alajaotuse lõpuks peaksite olema võimeline leidma üldist teavet pandas DataFrame'ides salvestatud andmete kohta.

Kui olete oma andmed pandasisse laadinud, on need suure tõenäosusega `DataFrame`-is. Kuid kui teie `DataFrame` sisaldab 60 000 rida ja 400 veergu, siis kuidas üldse alustada arusaamist sellest, millega te töötate? Õnneks pakub pandas mugavaid tööriistu, et kiiresti saada üldist teavet `DataFrame` kohta, samuti vaadata esimesi ja viimaseid ridu.

Selle funktsionaalsuse uurimiseks impordime Python scikit-learn'i teegi ja kasutame üht ikoonilist andmekogumit, mida iga andmeteadlane on sadu kordi näinud: Briti bioloogi Ronald Fisheri *Irise* andmekogumit, mida ta kasutas oma 1936. aasta artiklis "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Oleme laadinud Iris andmekogu muutujasse `iris_df`. Enne andmetesse süvenemist oleks kasulik teada, kui palju andmepunkte meil on ja milline on andmekogu üldine suurus. On kasulik vaadata, millise andmemahuga me tegeleme.


In [2]:
iris_df.shape

(150, 4)

Niisiis, meil on tegemist 150 rea ja 4 veeruga andmetega. Iga rida esindab ühte andmepunkti ja iga veerg esindab ühte tunnust, mis on seotud andmeraamiga. Põhimõtteliselt on 150 andmepunkti, millest igaühel on 4 tunnust.

`shape` on siin andmeraami atribuut, mitte funktsioon, mistõttu see ei lõpe sulgudega.


### `DataFrame.columns`
Liigume nüüd nelja andmeveeru juurde. Mida täpselt igaüks neist esindab? `columns` atribuut annab meile andmeraami veergude nimed.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Nagu näeme, on neli (4) veergu. `columns` atribuut annab meile veergude nimed ja põhimõtteliselt mitte midagi muud. See atribuut muutub oluliseks, kui tahame tuvastada andmekogumis sisalduvaid tunnuseid.


### `DataFrame.info`
Andmete hulk (antud `shape` atribuudiga) ja tunnuste või veergude nimed (antud `columns` atribuudiga) annavad meile teavet andmekogumi kohta. Nüüd tahaksime andmekogumisse sügavamalt sukelduda. Funktsioon `DataFrame.info()` on selleks väga kasulik.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Siit saame teha mõned tähelepanekud:  
1. Iga veeru andmetüüp: Selles andmestikus on kõik andmed salvestatud 64-bitiste ujukomaarvudena.  
2. Nullväärtuste arv: Nullväärtustega tegelemine on oluline samm andmete ettevalmistamisel. Sellega tegeletakse hiljem märkmikus.  


### DataFrame.describe()
Oletame, et meie andmestikus on palju numbrilisi andmeid. Ühe muutuja statistilisi arvutusi, nagu keskmine, mediaan, kvartiilid jne, saab teha iga veeru kohta eraldi. Funktsioon `DataFrame.describe()` annab meile numbriliste veergude statistilise kokkuvõtte andmestikust.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Ülaltoodud väljund näitab iga veeru andmepunktide koguarvu, keskmist, standardhälvet, miinimumi, alumist kvartiili (25%), mediaani (50%), ülemist kvartiili (75%) ja maksimaalset väärtust.


### `DataFrame.head`
Kõigi ülaltoodud funktsioonide ja atribuutidega oleme saanud andmekogumist üldise ülevaate. Me teame, kui palju andmepunkte on olemas, kui palju tunnuseid on, iga tunnuse andmetüüpi ja iga tunnuse mitte-null väärtuste arvu.

Nüüd on aeg vaadata andmeid endid. Vaatame, millised näevad välja meie `DataFrame` esimesed read (esimesed andmepunktid):


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Kuna siin on väljund, näeme viis (5) kirjet andmekogumist. Kui vaatame vasakul olevat indeksit, selgub, et need on esimesed viis rida.


### Harjutus:

Eelnevast näitest on selge, et vaikimisi tagastab `DataFrame.head` esimese viis rida `DataFrame`-ist. Kas suudad allolevas koodirakus välja mõelda viisi, kuidas kuvada rohkem kui viis rida?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Teine viis andmete vaatamiseks on lõpu poolt (mitte algusest). `DataFrame.head` vastand on `DataFrame.tail`, mis tagastab `DataFrame` viimased viis rida:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


Praktikas on kasulik, kui saab hõlpsasti vaadata `DataFrame` esimeseid või viimaseid ridu, eriti kui otsite kõrvalekaldeid järjestatud andmekogumites.

Kõik ülaltoodud funktsioonid ja atribuudid, mida illustreeriti koodinäidete abil, aitavad meil andmetest esmamuljet saada.

> **Peamine mõte:** Juba ainuüksi `DataFrame`-i metaandmeid või selle esimeseid ja viimaseid väärtusi vaadates saate kohe aimu andmete suurusest, struktuurist ja sisust, millega tegelete.


### Puuduvad Andmed
Sukeldume puuduvate andmete teemasse. Puuduvad andmed tekivad siis, kui mõnes veerus pole väärtust salvestatud.

Võtame näiteks olukorra: keegi, kes on oma kehakaalu suhtes tundlik, ei täida küsitluses kehakaalu lahtrit. Sel juhul jääb selle inimese kehakaalu väärtus puudu.

Enamasti esineb puuduvate väärtuste probleem päriselu andmekogumites.

**Kuidas Pandas käsitleb puuduvaid andmeid**

Pandas käsitleb puuduvaid väärtusi kahel viisil. Esimene, mida olete varasemates osades näinud, on `NaN`, ehk Not a Number (pole arv). Tegemist on tegelikult eriväärtusega, mis kuulub IEEE ujuvpunkti spetsifikatsiooni ja mida kasutatakse ainult puuduva ujuvpunkti väärtuse tähistamiseks.

Ujuvpunktväärtustest erinevate puuduvate väärtuste puhul kasutab pandas Pythoni `None` objekti. Kuigi võib tunduda segane, et kohtate kahte erinevat tüüpi väärtusi, mis sisuliselt tähendavad sama asja, on selle disainivaliku taga kindlad programmilised põhjused. Praktikas võimaldab see lähenemine pandasel pakkuda head kompromissi enamiku juhtumite jaoks. Sellegipoolest on nii `None` kui ka `NaN` seotud piirangutega, mida tuleb arvestada nende kasutamisel.


### `None`: mitte-float tüüpi puuduvad andmed
Kuna `None` pärineb Pythonist, ei saa seda kasutada NumPy ja pandas massiivides, mille andmetüüp ei ole `'object'`. Pea meeles, et NumPy massiivid (ja pandas andmestruktuurid) võivad sisaldada ainult ühte tüüpi andmeid. See omadus annab neile tohutu jõu suurte andmemahtude ja arvutustööde jaoks, kuid piirab ka nende paindlikkust. Sellised massiivid peavad muutuma "madalaimaks ühiseks nimetajaks", andmetüübiks, mis hõlmab kõike massiivis. Kui massiivis on `None`, tähendab see, et töötad Python objektidega.

Selle nägemiseks praktikas vaata järgmist näidismassiivi (pööra tähelepanu selle `dtype`-le):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Upcastitud andmetüüpide reaalsus toob endaga kaasa kaks kõrvalmõju. Esiteks viiakse operatsioonid läbi tõlgendatud Python koodi tasemel, mitte kompileeritud NumPy koodi tasemel. Sisuliselt tähendab see, et kõik operatsioonid, mis hõlmavad `Series` või `DataFrame`-e, milles on `None`, on aeglasemad. Kuigi tõenäoliselt ei märka te seda jõudluse langust, võib see suurte andmekogumite puhul muutuda probleemiks.

Teine kõrvalmõju tuleneb esimesest. Kuna `None` viib `Series` või `DataFrame`-id tagasi tavalise Pythoni maailma, siis NumPy/pandas agregatsioonide nagu `sum()` või `min()` kasutamine massiivides, mis sisaldavad väärtust ``None``, tekitab üldiselt vea:


In [10]:
example1.sum()

TypeError: ignored

**Peamine järeldus**: Liitmine (ja muud tehteid) täisarvude ja `None` väärtuste vahel on määratlemata, mis võib piirata võimalusi nende väärtusi sisaldavate andmekogumitega töötamisel.


### `NaN`: puuduolevad ujukoma väärtused

Erinevalt `None`-ist toetavad NumPy (ja seega ka pandas) `NaN`-i oma kiirete, vektoriaalsete operatsioonide ja ufuncide jaoks. Halb uudis on see, et kõik aritmeetilised toimingud, mis tehakse `NaN`-iga, annavad alati tulemuseks `NaN`. Näiteks:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Hea uudis: `NaN`-e sisaldavatel massiividel tehtavad koondamised ei tekita vigu. Halb uudis: tulemused ei ole ühtlaselt kasulikud:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Harjutus:


In [11]:
# What happens if you add np.nan and None together?


Pea meeles: `NaN` on ainult puuduvate ujukomaväärtuste jaoks; täisarvude, stringide või Booleani jaoks ei ole `NaN` ekvivalenti.


### `NaN` ja `None`: tühiväärtused pandas

Kuigi `NaN` ja `None` võivad käituda mõnevõrra erinevalt, on pandas siiski loodud neid vaheldumisi käsitlema. Et näha, mida me silmas peame, vaadake täisarvude `Series`it:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Harjutus:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Andmetüüpide ühtlustamiseks `Series` ja `DataFrame`-ides andmete homogeensuse tagamiseks on pandas valmis vahetama puuduvaid väärtusi `None` ja `NaN` vahel. Selle disainifunktsiooni tõttu võib olla kasulik mõelda `None`-ist ja `NaN`-ist kui kahest erinevast "nulli" variandist pandas. Tegelikult peegeldavad mõned põhimeetodid, mida kasutate puuduvate väärtustega tegelemiseks pandas, seda ideed ka oma nimedes:

- `isnull()`: Loob Boole'i maski, mis näitab puuduvaid väärtusi
- `notnull()`: `isnull()` vastand
- `dropna()`: Tagastab filtreeritud versiooni andmetest
- `fillna()`: Tagastab andmete koopia, kus puuduvad väärtused on täidetud või asendatud

Need on olulised meetodid, mida tasub selgeks õppida ja millega end mugavalt tunda, seega vaatame neid igaüht veidi põhjalikumalt.


### Nullväärtuste tuvastamine

Nüüd, kui oleme mõistnud puuduvate väärtuste olulisust, peame need oma andmestikus tuvastama, enne kui nendega tegeleme. 
Nii `isnull()` kui ka `notnull()` on peamised meetodid nullandmete tuvastamiseks. Mõlemad tagastavad Boole'i maskid teie andmete kohta.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Vaata tähelepanelikult väljundit. Kas miski üllatab sind? Kuigi `0` on aritmeetiline null, on see siiski täiesti korralik täisarv ja pandas käsitleb seda sellisena. `''` on veidi keerulisem. Kuigi kasutasime seda jaotises 1 tühja stringi väärtuse tähistamiseks, on see siiski stringi objekt ja pandas ei käsitle seda nullina.

Nüüd pöörame selle ümber ja kasutame neid meetodeid viisil, mis on sarnasem sellele, kuidas sa neid praktikas kasutad. Boolean-maske saab kasutada otse ``Series`` või ``DataFrame`` indeksina, mis võib olla kasulik, kui soovid töötada eraldatud puuduvate (või olemasolevate) väärtustega.

Kui tahame saada puuduvate väärtuste koguarvu, saame lihtsalt teha summa maski üle, mille loob `isnull()` meetod.


In [19]:
example3.isnull().sum()

2

### Harjutus:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Peamine järeldus**: Nii `isnull()` kui ka `notnull()` meetodid annavad sarnaseid tulemusi, kui neid DataFrame'ides kasutada: need näitavad tulemusi ja nende tulemuste indekseid, mis aitavad teil andmetega töötamisel märkimisväärselt.


### Puuduvate andmete käsitlemine

> **Õppimise eesmärk:** Selle alajaotuse lõpuks peaksid teadma, kuidas ja millal asendada või eemaldada nullväärtused DataFrame'ist.

Masinõppe mudelid ei suuda ise puuduvate andmetega toime tulla. Seega, enne andmete mudelisse sisestamist peame need puuduvad väärtused käsitlema.

Puuduvate andmete käsitlemine toob endaga kaasa peened kompromissid, mis võivad mõjutada sinu lõplikku analüüsi ja reaalse maailma tulemusi.

Puuduvate andmete käsitlemiseks on peamiselt kaks viisi:

1.   Eemalda rida, mis sisaldab puuduvat väärtust
2.   Asenda puuduv väärtus mõne muu väärtusega

Arutame mõlemat meetodit ja nende plusse ning miinuseid üksikasjalikult.


### Nullväärtuste eemaldamine

Andmete hulk, mida mudelile edastame, mõjutab otseselt selle jõudlust. Nullväärtuste eemaldamine tähendab, et vähendame andmepunktide arvu ja seega ka andmekogumi suurust. Seetõttu on soovitatav eemaldada read, kus on nullväärtused, kui andmekogum on üsna suur.

Teine olukord võib olla see, et teatud rida või veerg sisaldab palju puuduvaid väärtusi. Sel juhul võib need eemaldada, kuna need ei lisaks meie analüüsile palju väärtust, kuna enamik andmeid on selle rea/veeru puhul puudu.

Lisaks puuduva väärtuse tuvastamisele pakub pandas mugavat viisi nullväärtuste eemaldamiseks `Series` ja `DataFrame`-idest. Et näha seda praktikas, pöördume tagasi `example3` juurde. Funktsioon `DataFrame.dropna()` aitab eemaldada read, kus on nullväärtused.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Pange tähele, et see peaks välja nägema nagu teie väljund `example3[example3.notnull()]`. Erinevus seisneb siin selles, et `dropna` on eemaldanud need puuduvad väärtused `Series` `example3`-st, mitte lihtsalt indekseerinud maskeeritud väärtusi.

Kuna DataFrame'id on kahemõõtmelised, pakuvad need rohkem võimalusi andmete eemaldamiseks.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Kas märkasite, et pandas muutis kaks veergu ujukomaarvudeks, et mahutada `NaN`-väärtusi?)

Üksikut väärtust `DataFrame`-ist ei saa eemaldada, seega tuleb kustutada kas terved read või veerud. Sõltuvalt sellest, mida teete, võib olla vajalik üks või teine lähenemine, ja seetõttu pakub pandas mõlemaks võimalusi. Kuna andmeteaduses tähistavad veerud üldiselt muutujaid ja read vaatlusi, on tõenäolisem, et kustutate andmeridu; `dropna()` vaikeseade on kustutada kõik read, mis sisaldavad mõnda tühiväärtust:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Kui vajalik, võid eemaldada NA väärtused veergudest. Kasuta `axis=1` selleks:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Pange tähele, et see võib eemaldada palju andmeid, mida võiksite säilitada, eriti väiksemate andmekogumite puhul. Mis siis, kui soovite eemaldada ainult read või veerud, mis sisaldavad mitmeid või isegi ainult kõiki nullväärtusi? Seda saab määrata `dropna` meetodis, kasutades `how` ja `thresh` parameetreid.

Vaikimisi on `how='any'` (kui soovite ise kontrollida või näha, millised muud parameetrid meetodil on, käivitage koodirakus `example4.dropna?`). Alternatiivselt võite määrata `how='all'`, et eemaldada ainult read või veerud, mis sisaldavad kõiki nullväärtusi. Laiendame oma näidis `DataFrame`-i, et näha seda tegevuses järgmises harjutuses.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Peamised punktid:  
1. Nullväärtuste eemaldamine on hea mõte ainult siis, kui andmekogum on piisavalt suur.  
2. Täisread või -veerud saab eemaldada, kui enamik nende andmetest puudub.  
3. Meetod `DataFrame.dropna(axis=)` aitab nullväärtusi eemaldada. Argumendiga `axis` määratakse, kas eemaldada read või veerud.  
4. Võib kasutada ka argumenti `how`. Vaikimisi on see seadistatud väärtusele `any`, mis tähendab, et eemaldatakse ainult need read/veerud, kus esineb mõni nullväärtus. Seda saab seadistada väärtusele `all`, et eemaldada ainult need read/veerud, kus kõik väärtused on null.  


### Harjutus:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` parameeter annab teile täpsema kontrolli: määrate *mitte-null* väärtuste arvu, mida rida või veerg peab sisaldama, et seda säilitataks:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Siin on esimene ja viimane rida eemaldatud, kuna need sisaldavad ainult kahte mitte-null väärtust.


### Nullväärtuste täitmine

Mõnikord on mõistlik täita puuduvad väärtused sellistega, mis võiksid olla kehtivad. Nullväärtuste täitmiseks on mitmeid tehnikaid. Esimene neist on domeeniteadmiste (teadmised andmekogumi aluseks olevast teemast) kasutamine, et kuidagi ligikaudselt määrata puuduvad väärtused.

Selleks võid kasutada `isnull`, et täita väärtused otse, kuid see võib olla tülikas, eriti kui sul on palju väärtusi, mida täita. Kuna see on andmeteaduses nii levinud ülesanne, pakub pandas funktsiooni `fillna`, mis tagastab koopia `Series`-ist või `DataFrame`-ist, kus puuduvad väärtused on asendatud sinu valitud väärtustega. Loome veel ühe näite `Series`-i, et näha, kuidas see praktikas toimib.


### Kategoorilised andmed (mittearvulised)
Alustame mittearvulistest andmetest. Andmekogumites on meil veerge kategooriliste andmetega, näiteks sugu, tõene või väär jne.

Enamasti asendame puuduvad väärtused veeru `mode`-ga. Näiteks, kui meil on 100 andmepunkti, millest 90 on märkinud Tõene, 8 on märkinud Väär ja 2 pole vastanud, siis võime need 2 täita Tõene väärtusega, arvestades kogu veergu.

Siin saame taas kasutada valdkonna teadmisi. Vaatame näidet, kuidas täita puuduvad väärtused mode'iga.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


Nüüd leiame kõigepealt moodi, enne kui täidame `None` väärtuse moodiga.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

Niisiis, asendame None väärtusega True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Nagu näeme, on nullväärtus asendatud. Pole vaja öelda, et oleksime võinud kirjutada asemele ükskõik mida või `'True'` ja see oleks asendatud.


### Numbriline andmestik
Nüüd liigume numbrilise andmestiku juurde. Siin on kaks levinud viisi puuduolevate väärtuste asendamiseks:

1. Asenda rea mediaaniga  
2. Asenda rea aritmeetilise keskmisega  

Mediaaniga asendamine on soovitatav, kui andmestik on kaldu ja sisaldab erandväärtusi. Seda seetõttu, et mediaan on erandväärtuste suhtes vastupidav.

Kui andmed on normaliseeritud, võib kasutada aritmeetilist keskmist, kuna sellisel juhul on keskmine ja mediaan üsna sarnased.

Kõigepealt võtame veeru, mis on normaaljaotusega, ja täidame puuduolevad väärtused selle veeru aritmeetilise keskmisega.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Veeru keskmine on


In [33]:
np.mean(fill_with_mean[0])

0.0

Täidetakse keskmisega


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Nagu näeme, on puuduv väärtus asendatud selle keskmisega.


Nüüd proovime teist andmeraami ja seekord asendame None väärtused veeru mediaaniga.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Teise veeru mediaan on


In [36]:
fill_with_median[1].median()

4.0

Täidetakse mediaaniga


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Nagu näeme, on NaN väärtus asendatud veeru mediaaniga


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Saate täita kõik tühjad kirjed ühe väärtusega, näiteks `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Peamised punktid:
1. Puuduvate väärtuste täitmine tuleks teha siis, kui andmeid on vähe või kui on olemas strateegia puuduvate andmete täitmiseks.
2. Valdkonna teadmisi saab kasutada puuduvate väärtuste täitmiseks, neid ligikaudselt hinnates.
3. Kategooriliste andmete puhul asendatakse puuduvad väärtused enamasti veeru moodiga.
4. Numbriliste andmete puhul täidetakse puuduvad väärtused tavaliselt veeru keskmisega (normaliseeritud andmekogumite puhul) või mediaaniga.


### Harjutus:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Saate **edasi täita** nullväärtused, kasutades viimast kehtivat väärtust nulli täitmiseks:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Saate ka **tagasi täita**, et levitada järgmist kehtivat väärtust tagasi, et täita nulli:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Nagu võite arvata, toimib see samamoodi ka DataFrame'idega, kuid saate määrata ka `telje`, mille järgi täita nullväärtused:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Pange tähele, et kui eelmist väärtust ei ole edasitäitmiseks saadaval, jääb nullväärtus alles.


### Harjutus:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Saate olla loominguline, kuidas kasutada `fillna`. Näiteks vaatame uuesti `example4`, kuid seekord täidame puuduvad väärtused kõigi `DataFrame` väärtuste keskmisega:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Pange tähele, et veerg 3 on endiselt väärtusteta: vaikimisi täidetakse väärtused ridade kaupa.

> **Peamine mõte:** Puuduvate väärtuste käsitlemiseks andmekogumites on mitmeid viise. Konkreetne strateegia (nende eemaldamine, asendamine või isegi see, kuidas neid asendatakse) peaks olema määratud andmete eripärade järgi. Mida rohkem te andmekogumitega töötate ja nendega suhtlete, seda paremini õpite puuduvate väärtustega toime tulema.


### Kategooriliste andmete kodeerimine

Masinõppe mudelid töötavad ainult numbrite ja igasuguse arvulise andmestikuga. Need ei suuda eristada "Jah" ja "Ei", kuid suudavad eristada 0 ja 1. Seega, pärast puuduvate väärtuste täitmist, tuleb kategoorilised andmed kodeerida mingisse arvulisse vormi, et mudel neid mõistaks.

Kodeerimist saab teha kahel viisil. Järgnevalt arutame neid.


**SILTIDE KOODIMINE**

Siltide kodeerimine tähendab põhimõtteliselt iga kategooria muutmist numbriks. Näiteks, oletame, et meil on lennureisijate andmestik ja seal on veerg, mis sisaldab nende klassi järgmistest ['äriklass', 'turistiklass', 'esimene klass']. Kui sellele rakendatakse siltide kodeerimist, muudetakse see kujule [0,1,2]. Vaatame näidet koodi abil. Kuna hakkame järgmistes märkmikes õppima `scikit-learn`i, siis siin me seda ei kasuta.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Et esimese veeru sildistamiseks kodeerida, peame esmalt kirjeldama iga klassi ja numbri vastendust, enne asendamist.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Nagu näeme, vastab tulemus sellele, mida arvasime juhtuvat. Millal siis kasutada sildistamise kodeerimist? Sildistamise kodeerimist kasutatakse ühel või mõlemal järgmistest juhtudest:
1. Kui kategooriate arv on suur
2. Kui kategooriad on järjestatud.


**ÜHEKUUM ENKODEERIMINE**

Teine kodeerimise tüüp on ühekuum enkodeerimine. Selle kodeerimise puhul lisatakse iga veeru kategooria eraldi veeruna ja iga andmepunkt saab väärtuseks 0 või 1, olenevalt sellest, kas see sisaldab vastavat kategooriat. Seega, kui on n erinevat kategooriat, lisatakse andmeraamistikule n veergu.

Näiteks võtame sama lennukiklassi näite. Kategooriad olid: ['äriklass', 'turistiklass', 'esimene klass']. Kui teostame ühekuum enkodeerimise, lisatakse andmestikku järgmised kolm veergu: ['klass_äriklass', 'klass_turistiklass', 'klass_esimene klass'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Teeme esimese veeru ühekuumkodeerimise.


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Iga one-hot kodeeritud veerg sisaldab 0 või 1, mis näitab, kas see kategooria eksisteerib antud andmepunkti jaoks.


Millal kasutatakse one hot kodeerimist? One hot kodeerimist kasutatakse ühel või mõlemal järgmistest juhtudest:

1. Kui kategooriate arv ja andmestiku suurus on väiksem.
2. Kui kategooriad ei järgi mingit kindlat järjekorda.


> Peamised punktid:
1. Kodeerimine tehakse, et muuta mitte-numeriline andmestik numbriliseks.
2. Kodeerimist on kahte tüüpi: sildikodeerimine ja ühekuumkodeerimine, mida saab teostada vastavalt andmestiku vajadustele.


## Duplikaatandmete eemaldamine

> **Õppimise eesmärk:** Selle alajaotuse lõpuks peaksite olema kindel, kuidas tuvastada ja eemaldada duplikaatväärtusi DataFrame'idest.

Lisaks puuduvatele andmetele kohtate sageli päriselu andmekogumites duplikaatandmeid. Õnneks pakub pandas lihtsat viisi duplikaatkirjete tuvastamiseks ja eemaldamiseks.


### Duplikaatide tuvastamine: `duplicated`

Duplikaatväärtusi saab hõlpsasti tuvastada, kasutades pandas meetodit `duplicated`, mis tagastab Boole'i maski, mis näitab, kas mõni kirje `DataFrame`-is on varasema kirje duplikaat. Loome veel ühe näidis `DataFrame`-i, et seda tegevuses näha.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Duplikaatide eemaldamine: `drop_duplicates`
`drop_duplicates` tagastab lihtsalt andmete koopia, mille puhul kõik `duplicated` väärtused on `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Nii `duplicated` kui ka `drop_duplicates` eeldavad vaikimisi, et arvestatakse kõiki veerge, kuid saate määrata, et need uuriksid ainult teie `DataFrame`-i veergude alamhulka:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **Peamine mõte:** Duplikaatandmete eemaldamine on oluline osa peaaegu igast andmeteaduse projektist. Duplikaatandmed võivad muuta teie analüüside tulemusi ja anda ebatäpseid tulemusi!


## Reaalmaailma andmekvaliteedi kontrollid

> **Õppimise eesmärk:** Selle jaotise lõpuks peaksite olema võimeline tuvastama ja parandama levinud reaalmaailma andmekvaliteedi probleeme, sealhulgas ebajärjekindlaid kategoorilisi väärtusi, ebanormaalseid numbrilisi väärtusi (äärmuslikud väärtused) ja variatsioonidega duplikaatüksusi.

Kuigi puuduvad väärtused ja täpsed duplikaadid on tavalised probleemid, sisaldavad reaalmaailma andmekogumid sageli ka peenemaid probleeme:

1. **Ebajärjekindlad kategoorilised väärtused**: Sama kategooria kirjutatud erinevalt (nt "USA", "U.S.A", "United States")
2. **Ebanormaalsed numbrilised väärtused**: Äärmuslikud väärtused, mis viitavad andmesisestusvigadele (nt vanus = 999)
3. **Peaaegu duplikaatsed read**: Kirjed, mis esindavad sama üksust väikeste variatsioonidega

Vaatame lähemalt tehnikaid nende probleemide tuvastamiseks ja lahendamiseks.


### Näidis "räpase" andmestiku loomine

Alustame näidisandmestiku loomisest, mis sisaldab tüüpilisi probleeme, millega päriselu andmetes sageli kokku puutume:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. Tuvastamine ebajärjekindlate kategooriliste väärtuste puhul

Pange tähele, et `country` veerus on sama riigi jaoks mitu erinevat esitusviisi. Tuvastame need ebajärjekindlused:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### Kategooriliste väärtuste standardiseerimine

Saame luua kaardistuse, et neid väärtusi standardiseerida. Lihtne lähenemine on teisendada väärtused väikesteks tähtedeks ja luua kaardistuse sõnastik:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**Alternatiiv: Hägusa sobitamise kasutamine**

Keerukamate juhtumite korral saame kasutada hägusat stringide sobitamist `rapidfuzz` teegiga, et automaatselt tuvastada sarnaseid stringe:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. Ebanormaalsete numbriliste väärtuste (väljaheidete) tuvastamine

Vaadates `age` veergu, näeme mõningaid kahtlaseid väärtusi, nagu 199 ja -5. Kasutame statistilisi meetodeid nende väljaheidete tuvastamiseks.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### IQR-i (Interkvartiilvahemiku) meetodi kasutamine

IQR-i meetod on tugev statistiline tehnika kõrvalekallete tuvastamiseks, mis on vähem tundlik äärmuslike väärtuste suhtes:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Z-skoori meetodi kasutamine

Z-skoori meetod tuvastab kõrvalekalded, lähtudes standardhälvetest keskmise suhtes:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### Äärmuste käsitlemine

Kui äärmused on tuvastatud, saab neid käsitleda mitmel viisil:
1. **Eemaldamine**: Kustuta read, kus on äärmused (kui need on vead)
2. **Piiramine**: Asenda piirväärtustega
3. **Asendamine NaN-iga**: Käsitle kui puuduvaid andmeid ja kasuta imputatsioonitehnikaid
4. **Säilitamine**: Kui need on õiguspärased äärmuslikud väärtused


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. Lähedaste duplikaatide tuvastamine

Pange tähele, et meie andmestikus on mitu kirjet "John Smithi" kohta, mille väärtused on veidi erinevad. Tuvastame võimalikud duplikaadid nime sarnasuse alusel.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### Lähedaste duplikaatide leidmine hägusvastavusega

Täpsemaks duplikaatide tuvastamiseks saame kasutada hägusvastavust, et leida sarnaseid nimesid:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### Korduste käsitlemine

Kui kordused on tuvastatud, tuleb otsustada, kuidas neid käsitleda:
1. **Säilita esimene esinemine**: Kasuta `drop_duplicates(keep='first')`
2. **Säilita viimane esinemine**: Kasuta `drop_duplicates(keep='last')`
3. **Koonda teave**: Ühenda korduvate ridade teave
4. **Käsitsi ülevaatus**: Märgi inimliku ülevaatuse jaoks


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### Kokkuvõte: Täielik andmete puhastamise torustik

Paneme kõik kokku terviklikuks andmete puhastamise torustikuks:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 Väljakutse harjutus

Nüüd on sinu kord! Allpool on uus andmerida, milles esineb mitmeid kvaliteediprobleeme. Kas suudad:

1. Tuvastada kõik probleemid selles reas
2. Kirjutada koodi, et iga probleem lahendada
3. Lisada puhastatud rida andmekogusse

Siin on probleemsed andmed:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### Peamõtted

1. **Ebakõlalised kategooriad** on päriselu andmetes tavalised. Kontrolli alati unikaalseid väärtusi ja standardiseeri need kaardistuste või hägusvastenduse abil.

2. **Eristuvad väärtused** võivad analüüsi oluliselt mõjutada. Kasuta nende tuvastamiseks valdkonnateadmisi koos statistiliste meetoditega (IQR, Z-skoor).

3. **Peaaegu duplikaadid** on raskemini tuvastatavad kui täpsed duplikaadid. Kasuta hägusvastendust ja andmete normaliseerimist (väiketähtedeks muutmine, tühikute eemaldamine), et neid tuvastada.

4. **Andmete puhastamine on iteratiivne protsess.** Võid vajada mitmete tehnikate rakendamist ja tulemuste ülevaatamist enne, kui saad oma puhastatud andmekogumi lõplikult valmis.

5. **Dokumenteeri oma otsused.** Jälgi, milliseid puhastamissamme rakendasid ja miks, kuna see on oluline reprodutseeritavuse ja läbipaistvuse tagamiseks.

> **Parim tava:** Hoia alati alles oma algne "määrdunud" andmestik. Ära kirjuta oma algandmefaile üle – loo puhastatud versioonid selgete nimetamiskonventsioonidega, näiteks `data_cleaned.csv`.



---

**Lahtiütlus**:  
See dokument on tõlgitud AI tõlketeenuse [Co-op Translator](https://github.com/Azure/co-op-translator) abil. Kuigi püüame tagada täpsust, palume arvestada, et automaatsed tõlked võivad sisaldada vigu või ebatäpsusi. Algne dokument selle algses keeles tuleks pidada autoriteetseks allikaks. Olulise teabe puhul soovitame kasutada professionaalset inimtõlget. Me ei vastuta selle tõlke kasutamisest tulenevate arusaamatuste või valesti tõlgenduste eest.
