# Duomenų Paruošimas

[Originalus užrašų knygelės šaltinis iš *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## `DataFrame` informacijos tyrinėjimas

> **Mokymosi tikslas:** Šios poskirsnio pabaigoje turėtumėte jaustis patogiai ieškodami bendros informacijos apie pandas `DataFrame` saugomus duomenis.

Kai jau įkėlėte savo duomenis į pandas, jie greičiausiai bus `DataFrame` formatu. Tačiau, jei jūsų `DataFrame` duomenų rinkinys turi 60 000 eilučių ir 400 stulpelių, nuo ko pradėti, kad suprastumėte, su kuo dirbate? Laimei, pandas siūlo keletą patogių įrankių, leidžiančių greitai peržiūrėti bendrą informaciją apie `DataFrame`, taip pat pirmąsias ir paskutines kelias eilutes.

Norėdami išbandyti šią funkcionalumą, importuosime Python biblioteką scikit-learn ir naudosime ikoninius duomenis, kuriuos kiekvienas duomenų mokslininkas yra matęs šimtus kartų: britų biologo Ronaldo Fisherio *Iris* duomenų rinkinį, naudotą jo 1936 metų straipsnyje „Daugybinių matavimų naudojimas taksonomijos problemose“:


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Mes įkėlėme Iris duomenų rinkinį į kintamąjį `iris_df`. Prieš pradedant analizuoti duomenis, būtų naudinga sužinoti, kiek duomenų taškų turime ir kokio dydžio yra visas duomenų rinkinys. Naudinga pažvelgti į duomenų apimtį, su kuria dirbame.


In [2]:
iris_df.shape

(150, 4)

Taigi, mes dirbame su 150 eilučių ir 4 stulpeliais duomenų. Kiekviena eilutė atspindi vieną duomenų tašką, o kiekvienas stulpelis – vieną su duomenų rėmeliu susijusią savybę. Taigi, iš esmės yra 150 duomenų taškų, kurių kiekvienas turi 4 savybes.

`shape` čia yra duomenų rėmelio atributas, o ne funkcija, todėl jis nesibaigia skliausteliais.


### `DataFrame.columns`
Dabar pereikime prie 4 duomenų stulpelių. Ką tiksliai kiekvienas iš jų reiškia? `columns` atributas pateiks mums stulpelių pavadinimus duomenų rėmelyje.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Kaip matome, yra keturios (4) stulpeliai. `columns` atributas nurodo stulpelių pavadinimus ir iš esmės nieko daugiau. Šis atributas tampa svarbus, kai norime nustatyti, kokias ypatybes duomenų rinkinys turi.


### `DataFrame.info`
Duomenų kiekis (nurodytas per `shape` atributą) ir savybių arba stulpelių pavadinimai (nurodyti per `columns` atributą) suteikia mums tam tikrą informaciją apie duomenų rinkinį. Dabar norėtume giliau pasinerti į duomenų rinkinį. Funkcija `DataFrame.info()` yra labai naudinga šiuo atveju.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Iš čia galime padaryti kelias pastabas:  
1. Kiekvieno stulpelio duomenų tipas: Šiame duomenų rinkinyje visi duomenys saugomi kaip 64 bitų slankiojo kablelio skaičiai.  
2. Ne-null reikšmių skaičius: Darbas su null reikšmėmis yra svarbus duomenų paruošimo etapas. Tai bus sprendžiama vėliau šiame užrašų knygelėje.  


### DataFrame.describe()
Tarkime, turime daug skaitinių duomenų savo duomenų rinkinyje. Vieno kintamojo statistiniai skaičiavimai, tokie kaip vidurkis, mediana, kvartiliai ir pan., gali būti atliekami kiekvienam stulpeliui atskirai. Funkcija `DataFrame.describe()` pateikia statistinę santrauką apie skaitinius duomenų rinkinio stulpelius.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Pateiktas rezultatas rodo bendrą duomenų taškų skaičių, vidurkį, standartinį nuokrypį, mažiausią reikšmę, apatinį kvartilį (25%), medianą (50%), viršutinį kvartilį (75%) ir didžiausią kiekvienos stulpelio reikšmę.


### `DataFrame.head`
Naudodami visas aukščiau paminėtas funkcijas ir atributus, jau turime bendrą duomenų rinkinio vaizdą. Žinome, kiek yra duomenų taškų, kiek yra savybių, kiekvienos savybės duomenų tipą ir kiek yra nenulinių reikšmių kiekvienai savybei.

Dabar metas pažvelgti į pačius duomenis. Pažiūrėkime, kaip atrodo pirmosios kelios eilutės (pirmieji keli duomenų taškai) mūsų `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Kaip matome išvestyje, čia pateikti penki (5) duomenų rinkinio įrašai. Jei pažvelgsime į indeksą kairėje, sužinosime, kad tai yra pirmosios penkios eilutės.


### Užduotis:

Iš pateikto pavyzdžio aišku, kad pagal numatytuosius nustatymus `DataFrame.head` grąžina pirmas penkias `DataFrame` eilutes. Ar galite žemiau esančiame kodo langelyje sugalvoti būdą, kaip parodyti daugiau nei penkias eilutes?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Kitas būdas peržiūrėti duomenis yra nuo pabaigos (užuot pradėjus nuo pradžios). Priešingybė `DataFrame.head` yra `DataFrame.tail`, kuris grąžina paskutines penkias `DataFrame` eilutes:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


Praktikoje naudinga lengvai peržiūrėti pirmas kelias arba paskutines kelias `DataFrame` eilutes, ypač kai ieškote išskirtinių reikšmių tvarkinguose duomenų rinkiniuose.

Visos aukščiau pateiktos funkcijos ir atributai, parodyti su kodo pavyzdžiais, padeda mums susidaryti įspūdį apie duomenis.

> **Svarbiausia mintis:** Net paprasčiausiai pažvelgus į metaduomenis apie informaciją `DataFrame` arba į pirmas ir paskutines kelias reikšmes, galite iš karto susidaryti vaizdą apie duomenų dydį, formą ir turinį, su kuriais dirbate.


### Trūkstami duomenys
Panagrinėkime trūkstamus duomenis. Trūkstami duomenys atsiranda, kai kai kuriuose stulpeliuose nėra išsaugota jokia reikšmė.

Pavyzdžiui: tarkime, kažkas labai rūpinasi savo svoriu ir nepildo svorio laukelio apklausoje. Tokiu atveju to asmens svorio reikšmė bus trūkstama.

Dažniausiai realaus pasaulio duomenų rinkiniuose pasitaiko trūkstamų reikšmių.

**Kaip Pandas tvarko trūkstamus duomenis**

Pandas trūkstamas reikšmes tvarko dviem būdais. Pirmąjį jau matėte ankstesnėse dalyse: `NaN`, arba Not a Number (ne skaičius). Tai iš tikrųjų yra speciali reikšmė, kuri yra IEEE slankiojo kablelio specifikacijos dalis ir naudojama tik trūkstamoms slankiojo kablelio reikšmėms nurodyti.

Kitoms trūkstamoms reikšmėms, išskyrus slankiojo kablelio reikšmes, pandas naudoja Python objektą `None`. Nors gali atrodyti painu, kad susidursite su dviem skirtingais reikšmių tipais, kurie iš esmės reiškia tą patį, yra pagrįstų programavimo priežasčių, kodėl buvo pasirinktas toks dizainas. Praktikoje toks sprendimas leidžia pandas pasiekti gerą kompromisą daugeliu atvejų. Nepaisant to, tiek `None`, tiek `NaN` turi apribojimų, kuriuos reikia žinoti, atsižvelgiant į tai, kaip jie gali būti naudojami.


### `None`: ne skaičių trūkstami duomenys
Kadangi `None` yra iš Python, jo negalima naudoti NumPy ir pandas masyvuose, kurių duomenų tipas nėra `'object'`. Atminkite, kad NumPy masyvai (ir pandas duomenų struktūros) gali turėti tik vieno tipo duomenis. Tai suteikia jiems didžiulę galią dirbant su didelio masto duomenimis ir atliekant skaičiavimus, tačiau tuo pačiu riboja jų lankstumą. Tokie masyvai turi būti konvertuoti į „mažiausią bendrą vardiklį“, t. y. duomenų tipą, kuris apims viską masyve. Kai masyve yra `None`, tai reiškia, kad dirbate su Python objektais.

Norėdami tai pamatyti praktiškai, apsvarstykite šį pavyzdinį masyvą (atkreipkite dėmesį į jo `dtype`):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Duomenų tipų konvertavimas į aukštesnį lygį turi du šalutinius poveikius. Pirma, operacijos bus vykdomos interpretuojamo Python kodo lygiu, o ne kompiliuoto NumPy kodo lygiu. Iš esmės tai reiškia, kad bet kokios operacijos, susijusios su `Series` ar `DataFrame` objektais, kuriuose yra `None`, bus lėtesnės. Nors greičiausiai nepastebėsite šio našumo sumažėjimo, dideliems duomenų rinkiniams tai gali tapti problema.

Antrasis šalutinis poveikis kyla iš pirmojo. Kadangi `None` iš esmės grąžina `Series` ar `DataFrame` į paprasto Python pasaulį, naudojant NumPy/pandas agregacijas, tokias kaip `sum()` ar `min()`, masyvuose, kuriuose yra ``None`` reikšmė, paprastai bus generuojama klaida:


In [10]:
example1.sum()

TypeError: ignored

**Svarbiausia išvada**: Sudėtis (ir kitos operacijos) tarp sveikųjų skaičių ir `None` reikšmių yra neapibrėžta, todėl tai gali apriboti, ką galima atlikti su duomenų rinkiniais, kuriuose jos yra.


### `NaN`: trūkstamos slankiojo kablelio reikšmės

Skirtingai nuo `None`, NumPy (ir todėl pandas) palaiko `NaN`, kad būtų galima atlikti greitas, vektorizuotas operacijas ir ufuncs. Bloga žinia yra ta, kad bet kokia aritmetinė operacija su `NaN` visada duoda `NaN`. Pavyzdžiui:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Geros naujienos: agregacijos, vykdomos su masyvais, kuriuose yra `NaN`, nesukelia klaidų. Blogos naujienos: rezultatai nėra vienodai naudingi:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Pratimas:


In [11]:
# What happens if you add np.nan and None together?


Atminkite: `NaN` yra skirtas tik trūkstamoms slankiojo kablelio reikšmėms; nėra `NaN` atitikmens sveikiesiems skaičiams, eilutėms ar loginėms reikšmėms.


### `NaN` ir `None`: null reikšmės pandas

Nors `NaN` ir `None` gali elgtis šiek tiek skirtingai, pandas vis tiek sukurta taip, kad galėtų juos tvarkyti kaip lygiaverčius. Kad suprastumėte, ką turime omenyje, apsvarstykite `Series` su sveikaisiais skaičiais:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Pratimas:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Atliekant duomenų tipų konvertavimą į aukštesnį lygį, siekiant užtikrinti duomenų homogeniškumą `Series` ir `DataFrame` objektuose, pandas lengvai keičia trūkstamas reikšmes tarp `None` ir `NaN`. Dėl šios dizaino ypatybės naudinga galvoti apie `None` ir `NaN` kaip apie dvi skirtingas „null“ reikšmių formas pandas bibliotekoje. Iš tiesų, kai kurie pagrindiniai metodai, kuriuos naudosite dirbdami su trūkstamomis reikšmėmis pandas, atspindi šią idėją savo pavadinimuose:

- `isnull()`: Sukuria loginę kaukę, nurodančią trūkstamas reikšmes
- `notnull()`: Priešingas `isnull()`
- `dropna()`: Grąžina filtruotą duomenų versiją
- `fillna()`: Grąžina duomenų kopiją su užpildytomis arba įvertintomis trūkstamomis reikšmėmis

Tai yra svarbūs metodai, kuriuos verta išmokti ir gerai suprasti, todėl panagrinėkime juos kiekvieną išsamiau.


### Aptikti null reikšmes

Dabar, kai supratome, kodėl trūkstamos reikšmės yra svarbios, turime jas aptikti savo duomenų rinkinyje, prieš pradėdami jas tvarkyti. 
Tiek `isnull()`, tiek `notnull()` yra pagrindiniai metodai, skirti aptikti null duomenis. Abu metodai grąžina Boole'o kaukes jūsų duomenims.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Atidžiai pažvelkite į rezultatą. Ar kas nors jus nustebino? Nors `0` yra aritmetinis nulis, jis vis tiek yra visiškai tinkamas sveikasis skaičius, ir pandas jį taip ir traktuoja. `''` yra šiek tiek subtilesnis. Nors 1 skyriuje jį naudojome kaip tuščios eilutės reikšmę, jis vis tiek yra eilutės objektas, o ne null reprezentacija pandas požiūriu.

Dabar apsukime situaciją ir panaudokime šiuos metodus taip, kaip dažniausiai juos naudosite praktikoje. Boolean kaukes galite naudoti tiesiogiai kaip ``Series`` arba ``DataFrame`` indeksą, kas gali būti naudinga dirbant su izoliuotomis trūkstamomis (arba esamomis) reikšmėmis.

Jei norime sužinoti bendrą trūkstamų reikšmių skaičių, tiesiog galime atlikti sumą per kaukę, kurią sukuria `isnull()` metodas.


In [19]:
example3.isnull().sum()

2

### Pratimas:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Svarbiausia**: Tiek `isnull()`, tiek `notnull()` metodai duoda panašius rezultatus, kai juos naudojate „DataFrame“ objektuose: jie parodo rezultatus ir tų rezultatų indeksus, kurie jums labai padės dirbant su duomenimis.


### Darbas su trūkstamais duomenimis

> **Mokymosi tikslas:** Šios poskyrio pabaigoje turėtumėte žinoti, kaip ir kada pakeisti arba pašalinti null reikšmes iš DataFrames.

Mašininio mokymosi modeliai patys negali apdoroti trūkstamų duomenų. Todėl prieš perduodant duomenis modeliui, turime išspręsti šias trūkstamas reikšmes.

Kaip tvarkomi trūkstami duomenys, turi subtilių kompromisų, kurie gali paveikti jūsų galutinę analizę ir realaus pasaulio rezultatus.

Yra du pagrindiniai būdai, kaip spręsti trūkstamų duomenų problemą:

1.   Pašalinti eilutę, kurioje yra trūkstama reikšmė
2.   Pakeisti trūkstamą reikšmę kita reikšme

Abi šias metodikas aptarsime išsamiai, įskaitant jų privalumus ir trūkumus.


### Null reikšmių pašalinimas

Duomenų kiekis, kurį perduodame savo modeliui, tiesiogiai veikia jo našumą. Pašalinus null reikšmes, sumažiname duomenų taškų skaičių, o kartu ir duomenų rinkinio dydį. Todėl patartina pašalinti eilutes su null reikšmėmis, kai duomenų rinkinys yra pakankamai didelis.

Kitas atvejis gali būti, kai tam tikra eilutė ar stulpelis turi daug trūkstamų reikšmių. Tokiu atveju jie gali būti pašalinti, nes jie nedaug prisidėtų prie mūsų analizės, kadangi dauguma duomenų toje eilutėje/stulpelyje yra trūkstami.

Be trūkstamų reikšmių identifikavimo, pandas suteikia patogų būdą pašalinti null reikšmes iš `Series` ir `DataFrame`. Kad pamatytume, kaip tai veikia, grįžkime prie `example3`. Funkcija `DataFrame.dropna()` padeda pašalinti eilutes su null reikšmėmis.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Atkreipkite dėmesį, kad tai turėtų atrodyti kaip jūsų išvestis iš `example3[example3.notnull()]`. Skirtumas čia yra tas, kad vietoj tiesiog indeksavimo pagal užmaskuotas reikšmes, `dropna` pašalino tas trūkstamas reikšmes iš `Series` `example3`.

Kadangi `DataFrame` turi dvi dimensijas, jos suteikia daugiau galimybių duomenims pašalinti.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Ar pastebėjote, kad pandas pakeitė dviejų stulpelių tipą į float, kad galėtų apdoroti `NaN` reikšmes?)

Negalite pašalinti vienos reikšmės iš `DataFrame`, todėl turite pašalinti visas eilutes arba stulpelius. Priklausomai nuo to, ką darote, galite norėti pasirinkti vieną ar kitą variantą, todėl pandas suteikia galimybę naudoti abu. Kadangi duomenų moksle stulpeliai paprastai atspindi kintamuosius, o eilutės – stebėjimus, dažniau pašalinamos eilutės su duomenimis; numatytasis `dropna()` nustatymas yra pašalinti visas eilutes, kuriose yra bet kokių null reikšmių:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Jei reikia, galite pašalinti NA reikšmes iš stulpelių. Naudokite `axis=1`, kad tai padarytumėte:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Atkreipkite dėmesį, kad tai gali pašalinti daug duomenų, kuriuos galbūt norėtumėte išsaugoti, ypač mažesniuose duomenų rinkiniuose. O kas, jei norite pašalinti tik tas eilutes ar stulpelius, kuriuose yra keli arba net visi null reikšmės? Šiuos nustatymus galite nurodyti `dropna` naudojant `how` ir `thresh` parametrus.

Pagal numatytuosius nustatymus `how='any'` (jei norite patikrinti patys arba pamatyti, kokius kitus parametrus turi šis metodas, vykdykite `example4.dropna?` kodų langelyje). Taip pat galite nurodyti `how='all'`, kad pašalintumėte tik tas eilutes ar stulpelius, kuriuose yra visos null reikšmės. Išplėskime mūsų pavyzdinį `DataFrame`, kad pamatytume tai veikiant kitame pratime.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Pagrindinės mintys:  
1. Naikinti null reikšmes verta tik tada, kai duomenų rinkinys yra pakankamai didelis.  
2. Pilnos eilutės ar stulpeliai gali būti pašalinti, jei dauguma jų duomenų trūksta.  
3. `DataFrame.dropna(axis=)` metodas padeda pašalinti null reikšmes. Argumentas `axis` nurodo, ar reikia šalinti eilutes, ar stulpelius.  
4. Taip pat galima naudoti argumentą `how`. Pagal numatytąją reikšmę jis nustatytas kaip `any`. Taigi, pašalinamos tik tos eilutės/stulpeliai, kuriuose yra bet kokių null reikšmių. Jį galima nustatyti kaip `all`, kad būtų pašalintos tik tos eilutės/stulpeliai, kur visi duomenys yra null.  


### Pratimas:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` parametras suteikia jums smulkesnę kontrolę: jūs nustatote *ne-null* reikšmių skaičių, kurį eilutė ar stulpelis turi turėti, kad būtų išsaugotas:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Čia pirmoji ir paskutinė eilutės buvo pašalintos, nes jos turi tik dvi nenull reikšmes.


### Užpildymas trūkstamomis reikšmėmis

Kartais prasminga užpildyti trūkstamas reikšmes tokiomis, kurios galėtų būti tinkamos. Yra keletas būdų, kaip užpildyti null reikšmes. Pirmasis – pasitelkti domeno žinias (žinias apie temą, kuria pagrįstas duomenų rinkinys), kad būtų galima apytiksliai nustatyti trūkstamas reikšmes.

Galite naudoti `isnull`, kad tai atliktumėte vietoje, tačiau tai gali būti varginantis procesas, ypač jei turite daug reikšmių, kurias reikia užpildyti. Kadangi tai yra labai dažna užduotis duomenų moksle, pandas siūlo `fillna`, kuris grąžina `Series` arba `DataFrame` kopiją su trūkstamomis reikšmėmis, pakeistomis jūsų pasirinktomis. Sukurkime dar vieną `Series` pavyzdį, kad pamatytume, kaip tai veikia praktiškai.


### Kategoriniai duomenys (ne skaitiniai)
Pirmiausia apsvarstykime ne skaitinius duomenis. Duomenų rinkiniuose turime stulpelius su kategoriniais duomenimis, pvz., lytis, tiesa arba melas ir pan.

Daugeliu atvejų trūkstamas reikšmes pakeičiame stulpelio `moda`. Tarkime, turime 100 duomenų taškų, iš kurių 90 nurodė „Tiesa“, 8 nurodė „Melas“, o 2 neatsakė. Tuomet tuos 2 galime užpildyti „Tiesa“, atsižvelgdami į visą stulpelį.

Vėlgi, čia galime pasinaudoti srities žiniomis. Pavyzdžiui, apsvarstykime užpildymą pagal modą.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


Dabar pirmiausia suraskime modą prieš užpildydami `None` reikšmę moda.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

Taigi, mes pakeisime None į True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Kaip matome, null reikšmė buvo pakeista. Nereikia nė sakyti, kad galėjome parašyti bet ką vietoje `'True'` ir tai būtų buvę pakeista.


### Skaitiniai Duomenys
Dabar pereikime prie skaitinių duomenų. Čia yra du dažniausiai naudojami būdai, kaip pakeisti trūkstamas reikšmes:

1. Pakeisti eilutės mediana
2. Pakeisti eilutės vidurkiu

Mediana naudojama, kai duomenys yra iškreipti ir turi išskirtis. Taip yra todėl, kad mediana yra atspari išskirtims.

Kai duomenys yra normalizuoti, galima naudoti vidurkį, nes tokiu atveju vidurkis ir mediana bus gana panašūs.

Pirmiausia paimkime stulpelį, kuris yra normaliai pasiskirstęs, ir užpildykime trūkstamą reikšmę stulpelio vidurkiu.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Stulpelio vidurkis yra


In [33]:
np.mean(fill_with_mean[0])

0.0

Užpildymas vidurkiu


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Kaip matome, trūkstama reikšmė buvo pakeista jos vidurkiu.


Dabar pabandykime kitą duomenų rėmelį, ir šį kartą pakeisime None reikšmes stulpelio mediana.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Antrosios stulpelio mediana yra


In [36]:
fill_with_median[1].median()

4.0

Užpildymas medianos reikšme


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Kaip matome, NaN reikšmė buvo pakeista stulpelio mediana.


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Galite užpildyti visas tuščias reikšmes viena verte, pavyzdžiui, `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Pagrindinės mintys:
1. Trūkstamas reikšmes reikėtų užpildyti, kai duomenų yra mažai arba kai yra strategija, kaip užpildyti trūkstamus duomenis.
2. Trūkstamas reikšmes galima užpildyti naudojant srities žinias, jas apytiksliai įvertinant.
3. Kategoriniams duomenims dažniausiai trūkstamos reikšmės pakeičiamos stulpelio moda.
4. Skaitiniams duomenims trūkstamos reikšmės paprastai užpildomos stulpelio vidurkiu (normalizuotų duomenų atveju) arba mediana.


### Pratimas:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Galite **užpildyti pirmyn** null reikšmes, naudodami paskutinę galiojančią reikšmę null reikšmei užpildyti:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Taip pat galite **užpildyti atgal**, kad paskleistumėte kitą galiojančią reikšmę atgal ir užpildytumėte null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Kaip galite spėti, tai veikia taip pat su „DataFrames“, tačiau taip pat galite nurodyti `axis`, pagal kurį užpildyti null reikšmes:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Atkreipkite dėmesį, kad kai ankstesnė reikšmė nėra prieinama užpildymui į priekį, null reikšmė lieka.


### Pratimas:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Galite kūrybiškai naudoti `fillna`. Pavyzdžiui, pažvelkime į `example4` dar kartą, tačiau šį kartą užpildykime trūkstamas reikšmes visų `DataFrame` reikšmių vidurkiu:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Atkreipkite dėmesį, kad 3 stulpelis vis dar neturi reikšmių: numatytoji kryptis yra užpildyti reikšmes eilutėmis.

> **Svarbu:** Yra daugybė būdų, kaip spręsti trūkstamų reikšmių problemą jūsų duomenų rinkiniuose. Konkreti strategija (jų pašalinimas, pakeitimas ar net tai, kaip juos pakeisite) turėtų būti nustatoma pagal konkrečius duomenų ypatumus. Kuo daugiau dirbsite su duomenų rinkiniais, tuo geriau suprasite, kaip tvarkyti trūkstamas reikšmes.


### Kategorinių duomenų kodavimas

Mašininio mokymosi modeliai dirba tik su skaičiais ir bet kokia skaitine informacija. Jie negalės atskirti „Taip“ nuo „Ne“, tačiau galės atskirti 0 nuo 1. Todėl, užpildžius trūkstamas reikšmes, reikia koduoti kategorinius duomenis į tam tikrą skaitinę formą, kad modelis juos suprastų.

Kodavimą galima atlikti dviem būdais. Toliau aptarsime juos.


**ETIKEČIŲ KODAVIMAS**

Etikečių kodavimas iš esmės reiškia kiekvienos kategorijos pavertimą skaičiumi. Pavyzdžiui, tarkime, turime oro linijų keleivių duomenų rinkinį, kuriame yra stulpelis, nurodantis jų klasę iš šių ['verslo klasė', 'ekonominė klasė', 'pirma klasė']. Jei būtų atliktas etikečių kodavimas, tai būtų paversta į [0,1,2]. Pažiūrėkime pavyzdį per kodą. Kadangi artimiausiuose užrašuose mokysimės apie `scikit-learn`, čia jo nenaudosime.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Norėdami atlikti etikečių kodavimą pirmoje stulpelyje, pirmiausia turime aprašyti kiekvienos klasės atvaizdavimą į skaičių, prieš pakeičiant.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Kaip matome, rezultatas atitinka tai, ką tikėjomės. Taigi, kada naudojame etikečių kodavimą? Etikečių kodavimas naudojamas vienu ar abiem šiais atvejais:
1. Kai kategorijų skaičius yra didelis
2. Kai kategorijos yra tvarkoje.


**VIENOS KARŠTOS KODAVIMAS**

Kitas kodavimo tipas yra Vienos Karštos Kodavimas (One Hot Encoding). Šio tipo kodavime kiekviena stulpelio kategorija pridedama kaip atskiras stulpelis, o kiekvienas duomenų taškas gauna 0 arba 1, priklausomai nuo to, ar jis atitinka tą kategoriją. Taigi, jei yra n skirtingų kategorijų, į duomenų rinkinį bus pridėti n stulpeliai.

Pavyzdžiui, paimkime tą patį lėktuvo klasių pavyzdį. Kategorijos buvo: ['verslo klasė', 'ekonominė klasė', 'pirma klasė']. Taigi, jei atliksime vienos karštos kodavimą, į duomenų rinkinį bus pridėti šie trys stulpeliai: ['class_verslo klasė', 'class_ekonominė klasė', 'class_pirma klasė'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Atlikime vienos karštosios kodavimo metodą pirmajai stulpeliui


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Kiekviena vieno karšto kodavimo stulpelis turi 0 arba 1, kurie nurodo, ar ta kategorija egzistuoja tam duomenų taškui.


Kada naudojame vieno karšto kodavimą? Vieno karšto kodavimas naudojamas vienu ar abiem šiais atvejais:

1. Kai kategorijų skaičius ir duomenų rinkinio dydis yra mažesni.
2. Kai kategorijos neturi jokios konkrečios tvarkos.


> Pagrindinės mintys:
1. Kodavimas atliekamas siekiant konvertuoti ne skaitinius duomenis į skaitinius.
2. Yra du kodavimo tipai: žymų kodavimas ir vieno karšto kodavimas, kurie gali būti atliekami atsižvelgiant į duomenų rinkinio poreikius.


## Duomenų dubliavimo pašalinimas

> **Mokymosi tikslas:** Šio poskyrio pabaigoje turėtumėte jaustis užtikrintai identifikuodami ir pašalindami pasikartojančias reikšmes iš DataFrame.

Be trūkstamų duomenų, realiuose duomenų rinkiniuose dažnai susidursite su pasikartojančiais duomenimis. Laimei, pandas suteikia paprastą būdą aptikti ir pašalinti pasikartojančius įrašus.


### Dubliu atpažinimas: `duplicated`

Naudodami pandas metodą `duplicated`, galite lengvai nustatyti pasikartojančias reikšmes. Šis metodas grąžina Boole'o kaukę, nurodančią, ar įrašas `DataFrame` yra ankstesnio įrašo dublikatas. Sukurkime dar vieną pavyzdinį `DataFrame`, kad pamatytume, kaip tai veikia.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Pašalinimas pasikartojančių reikšmių: `drop_duplicates`
`drop_duplicates` tiesiog grąžina duomenų kopiją, kurioje visos `duplicated` reikšmės yra `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Tiek `duplicated`, tiek `drop_duplicates` pagal numatytuosius nustatymus atsižvelgia į visas stulpelius, tačiau galite nurodyti, kad jie tikrintų tik tam tikrą jūsų `DataFrame` stulpelių dalį:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **Svarbiausia:** Pašalinti pasikartojančius duomenis yra būtina beveik kiekvieno duomenų mokslo projekto dalis. Pasikartojantys duomenys gali pakeisti jūsų analizės rezultatus ir pateikti netikslius rezultatus!


## Tikrinimas duomenų kokybės realiame pasaulyje

> **Mokymosi tikslas:** Šio skyriaus pabaigoje turėtumėte jaustis užtikrintai aptikdami ir taisydami dažniausiai pasitaikančias duomenų kokybės problemas, tokias kaip nenuoseklūs kategoriniai reikšmės, nenormalios skaitinės reikšmės (išskirtiniai atvejai) ir pasikartojančios esybės su variacijomis.

Nors trūkstamos reikšmės ir tikslūs dublikatai yra dažnos problemos, realaus pasaulio duomenų rinkiniuose dažnai pasitaiko subtilesnių problemų:

1. **Nenuoseklūs kategoriniai reikšmės**: Ta pati kategorija užrašyta skirtingai (pvz., "USA", "U.S.A", "United States")
2. **Nenormalios skaitinės reikšmės**: Ekstremalūs išskirtiniai atvejai, rodantys klaidas duomenų įvedime (pvz., amžius = 999)
3. **Beveik pasikartojančios eilutės**: Įrašai, kurie atspindi tą pačią esybę su nedideliais skirtumais

Pažvelkime į metodus, kaip aptikti ir spręsti šias problemas.


### Sukurkime pavyzdinį „nešvarų“ duomenų rinkinį

Pirmiausia sukurkime pavyzdinį duomenų rinkinį, kuriame būtų problemų, su kuriomis dažnai susiduriame realiuose duomenyse:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. Nenuoseklių kategorinių reikšmių aptikimas

Atkreipkite dėmesį, kad `country` stulpelyje yra kelios to paties šalies reprezentacijos. Išsiaiškinkime šiuos neatitikimus:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### Kategorinių reikšmių standartizavimas

Galime sukurti žemėlapį, kad standartizuotume šias reikšmes. Paprastas būdas yra konvertuoti į mažąsias raides ir sukurti žemėlapio žodyną:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**Alternatyva: Naudojant neaiškų atitikimą**

Sudėtingesniais atvejais galime naudoti neaiškų teksto atitikimą su `rapidfuzz` biblioteka, kad automatiškai aptiktume panašius tekstus:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. Aptikti neįprastas skaitines reikšmes (išskirtis)

Žvelgiant į `age` stulpelį, pastebime keletą įtartinų reikšmių, tokių kaip 199 ir -5. Pasitelkime statistinius metodus, kad aptiktume šias išskirtis.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### Naudojant IQR (Tarpkvartilinis diapazonas) metodą

IQR metodas yra patikimas statistinis būdas aptikti išskirtines reikšmes, kuris yra mažiau jautrus ekstremalioms reikšmėms:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Naudojant Z-reitingo metodą

Z-reitingo metodas nustato išskirtis pagal standartinius nuokrypius nuo vidurkio:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### Darbas su išskirtimis

Aptikus išskirtis, jas galima tvarkyti keliais būdais:
1. **Pašalinti**: Ištrinti eilutes su išskirtimis (jei tai klaidos)
2. **Apriboti**: Pakeisti ribinėmis reikšmėmis
3. **Pakeisti į NaN**: Traktuoti kaip trūkstamus duomenis ir taikyti imputacijos metodus
4. **Palikti**: Jei tai teisėtos ekstremalios reikšmės


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. Aptikti beveik pasikartojančias eilutes

Pastebėkite, kad mūsų duomenų rinkinyje yra kelios „John Smith“ įrašų versijos su šiek tiek skirtingomis reikšmėmis. Pabandykime nustatyti galimus pasikartojimus pagal vardų panašumą.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### Artimų dublikatų paieška naudojant neaiškų atitikimą

Norint atlikti sudėtingesnį dublikatų aptikimą, galime naudoti neaiškų atitikimą, kad rastume panašius vardus:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### Tvarkymas su pasikartojančiais duomenimis

Kai pasikartojimai yra nustatyti, reikia nuspręsti, kaip juos tvarkyti:
1. **Palikti pirmą pasikartojimą**: Naudokite `drop_duplicates(keep='first')`
2. **Palikti paskutinį pasikartojimą**: Naudokite `drop_duplicates(keep='last')`
3. **Apjungti informaciją**: Sujungti informaciją iš pasikartojančių eilučių
4. **Rankinis peržiūrėjimas**: Pažymėti peržiūrai žmogui


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### Santrauka: Pilnas duomenų valymo procesas

Sujunkime viską į išsamų valymo procesą:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 Iššūkio užduotis

Dabar tavo eilė! Žemiau pateikta nauja duomenų eilutė su daugybe kokybės problemų. Ar gali:

1. Nustatyti visas problemas šioje eilutėje
2. Parašyti kodą, kuris išsprendžia kiekvieną problemą
3. Pridėti išvalytą eilutę prie duomenų rinkinio

Štai probleminiai duomenys:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### Pagrindinės įžvalgos

1. **Nesuderintos kategorijos** yra dažnas reiškinys realiuose duomenyse. Visada patikrinkite unikalius reikšmių sąrašus ir standartizuokite jas naudodami žemėlapius arba neaiškų atitikimą.

2. **Išskirtinės reikšmės** gali stipriai paveikti jūsų analizę. Naudokite srities žinias kartu su statistiniais metodais (IQR, Z-score), kad jas aptiktumėte.

3. **Beveik pasikartojančias reikšmes** sunkiau aptikti nei tikslius pasikartojimus. Apsvarstykite galimybę naudoti neaiškų atitikimą ir normalizuoti duomenis (mažosios raidės, tarpų pašalinimas), kad jas identifikuotumėte.

4. **Duomenų valymas yra iteratyvus procesas**. Gali tekti taikyti kelis metodus ir peržiūrėti rezultatus prieš galutinai išvalant duomenų rinkinį.

5. **Dokumentuokite savo sprendimus**. Sekite, kokius valymo veiksmus taikėte ir kodėl, nes tai svarbu atkuriamumui ir skaidrumui.

> **Geriausia praktika:** Visada išsaugokite originalius „nešvarius“ duomenis. Niekada neperrašykite pirminių duomenų failų – sukurkite išvalytas versijas su aiškiais pavadinimais, pvz., `data_cleaned.csv`.



---

**Atsakomybės apribojimas**:  
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors stengiamės užtikrinti tikslumą, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar neteisingą interpretaciją, atsiradusią dėl šio vertimo naudojimo.
