# Priprava podatkov

[Izvirni zvezek iz *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio avtorja Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Raziskovanje informacij o `DataFrame`

> **Cilj učenja:** Do konca tega podpoglavja bi morali biti sposobni pridobiti splošne informacije o podatkih, shranjenih v pandas DataFrame.

Ko enkrat naložite svoje podatke v pandas, bodo najverjetneje shranjeni v `DataFrame`. Toda če ima vaš `DataFrame` 60.000 vrstic in 400 stolpcev, kako sploh začeti razumeti, s čim delate? Na srečo pandas ponuja nekaj priročnih orodij za hitro pregledovanje splošnih informacij o `DataFrame`, poleg prvih in zadnjih nekaj vrstic.

Da bi raziskali to funkcionalnost, bomo uvozili knjižnico Python scikit-learn in uporabili ikoničen nabor podatkov, ki ga je vsak podatkovni znanstvenik videl že stokrat: nabor podatkov britanskega biologa Ronalda Fisherja *Iris*, uporabljen v njegovem članku iz leta 1936 "Uporaba več meritev pri taksonomskih problemih":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Podatkovni niz Iris smo naložili v spremenljivko `iris_df`. Preden se poglobimo v podatke, bi bilo koristno vedeti, koliko podatkovnih točk imamo in kakšna je celotna velikost podatkovnega niza. Koristno je pogledati obseg podatkov, s katerimi delamo.


In [2]:
iris_df.shape

(150, 4)

Torej, imamo opravka s 150 vrsticami in 4 stolpci podatkov. Vsaka vrstica predstavlja eno podatkovno točko, vsak stolpec pa predstavlja eno značilnost, povezano s podatkovnim okvirjem. Torej, v bistvu je 150 podatkovnih točk, ki vsebujejo po 4 značilnosti.

`shape` je tukaj atribut podatkovnega okvirja in ne funkcija, zato se ne konča s parom oklepajev.


### `DataFrame.columns`
Poglejmo zdaj štiri stolpce podatkov. Kaj natančno predstavlja vsak od njih? Atribut `columns` nam bo dal imena stolpcev v podatkovnem okviru.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Kot lahko vidimo, so štirje (4) stolpci. Lastnost `columns` nam pove imena stolpcev in v bistvu nič drugega. Ta lastnost postane pomembna, ko želimo identificirati značilnosti, ki jih vsebuje podatkovni niz.


### `DataFrame.info`
Količina podatkov (podana z atributom `shape`) in imena značilnosti ali stolpcev (podana z atributom `columns`) nam povesta nekaj o podatkovnem naboru. Zdaj bi želeli podrobneje raziskati podatkovni nabor. Funkcija `DataFrame.info()` je pri tem zelo uporabna.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Od tu lahko naredimo nekaj opažanj:
1. Podatkovni tip vsakega stolpca: V tem naboru podatkov so vsi podatki shranjeni kot 64-bitna števila s plavajočo vejico.
2. Število nenull vrednosti: Obdelava null vrednosti je pomemben korak pri pripravi podatkov. S tem se bomo ukvarjali kasneje v zvezku.


### DataFrame.describe()
Recimo, da imamo veliko številskih podatkov v našem naboru podatkov. Enovariatne statistične izračune, kot so povprečje, mediana, kvartili itd., lahko izvedemo za vsakega od stolpcev posebej. Funkcija `DataFrame.describe()` nam ponuja statistični povzetek številskih stolpcev nabora podatkov.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Izhod zgoraj prikazuje skupno število podatkovnih točk, povprečje, standardni odklon, minimum, spodnji kvartil (25%), mediano (50%), zgornji kvartil (75%) in največjo vrednost vsakega stolpca.


### `DataFrame.head`
Z vsemi zgoraj omenjenimi funkcijami in atributi smo dobili splošen pregled nad podatkovnim nizom. Vemo, koliko podatkovnih točk je prisotnih, koliko značilnosti je na voljo, kakšen je podatkovni tip vsake značilnosti in koliko ne-null vrednosti ima vsaka značilnost.

Zdaj je čas, da si ogledamo same podatke. Poglejmo, kako izgledajo prve vrstice (prve podatkovne točke) našega `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Kot rezultat tukaj lahko vidimo pet (5) vnosov podatkovnega nabora. Če pogledamo indeks na levi, ugotovimo, da gre za prvih pet vrstic.


### Naloga:

Iz zgornjega primera je razvidno, da `DataFrame.head` privzeto vrne prvih pet vrstic `DataFrame`. Ali lahko v spodnji kodi ugotovite način, kako prikazati več kot pet vrstic?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Drug način za ogled podatkov je od konca (namesto od začetka). Nasprotje funkcije `DataFrame.head` je `DataFrame.tail`, ki vrne zadnjih pet vrstic `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


V praksi je koristno, da lahko enostavno pregledate prvih nekaj vrstic ali zadnjih nekaj vrstic `DataFrame`, še posebej, ko iščete odstopanja v urejenih podatkovnih nizih.

Vse funkcije in atributi, prikazani zgoraj s pomočjo primerov kode, nam pomagajo pridobiti vpogled v podatke.

> **Ključna misel:** Že samo z ogledom metapodatkov o informacijah v DataFrame ali prvih in zadnjih nekaj vrednosti v njem lahko takoj dobite predstavo o velikosti, obliki in vsebini podatkov, s katerimi delate.


### Manjkajoči podatki
Poglejmo si manjkajoče podatke. Manjkajoči podatki se pojavijo, ko v nekaterih stolpcih ni shranjene nobene vrednosti.

Vzemimo primer: recimo, da je nekdo zelo pozoren na svojo težo in ne izpolni polja za težo v anketi. Potem bo vrednost teže za to osebo manjkajoča.

V večini primerov se v resničnih podatkovnih zbirkah pojavljajo manjkajoče vrednosti.

**Kako Pandas obravnava manjkajoče podatke**

Pandas obravnava manjkajoče vrednosti na dva načina. Prvi način ste že videli v prejšnjih poglavjih: `NaN`, ali Not a Number (ni število). To je pravzaprav posebna vrednost, ki je del IEEE specifikacije za plavajoče števke in se uporablja izključno za označevanje manjkajočih vrednosti pri plavajočih števkah.

Za manjkajoče vrednosti, ki niso plavajoče števke, Pandas uporablja Pythonov objekt `None`. Čeprav se morda zdi zmedeno, da se srečujete z dvema različnima vrstama vrednosti, ki v bistvu pomenita isto, obstajajo tehtni programerski razlogi za to oblikovno odločitev. V praksi ta pristop Pandasu omogoča, da ponudi dobro kompromisno rešitev za veliko večino primerov. Kljub temu pa imata tako `None` kot `NaN` omejitve, na katere morate biti pozorni glede tega, kako jih lahko uporabljate.


### `None`: neplavajoči manjkajoči podatki
Ker `None` izvira iz Pythona, ga ni mogoče uporabiti v poljih NumPy in pandas, ki niso podatkovnega tipa `'object'`. Ne pozabite, da lahko polja NumPy (in podatkovne strukture v pandas) vsebujejo le eno vrsto podatkov. To jim daje izjemno moč za obdelavo podatkov in računsko delo v velikem obsegu, hkrati pa omejuje njihovo prilagodljivost. Takšna polja morajo biti "nadgrajena" na "najnižji skupni imenovalec", podatkovni tip, ki zajema vse v polju. Ko je v polju prisoten `None`, to pomeni, da delate s Pythonovimi objekti.

Da bi to videli v praksi, si oglejte naslednje primer polja (opazite `dtype` zanj):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Resničnost nadgrajenih podatkovnih tipov prinaša dve posledici. Prva je, da se operacije izvajajo na ravni interpretirane Python kode namesto prevedene NumPy kode. To v bistvu pomeni, da bodo vse operacije, ki vključujejo `Series` ali `DataFrames` z vrednostjo `None`, počasnejše. Čeprav tega upada zmogljivosti verjetno ne boste opazili, bi lahko pri velikih podatkovnih nizih to postalo težava.

Druga posledica izhaja iz prve. Ker `None` v bistvu povleče `Series` ali `DataFrame` nazaj v svet osnovnega Pythona, bo uporaba NumPy/pandas agregacij, kot sta `sum()` ali `min()`, na nizih, ki vsebujejo vrednost ``None``, običajno povzročila napako:


In [10]:
example1.sum()

TypeError: ignored

**Ključna ugotovitev**: Seštevanje (in druge operacije) med celimi števili in vrednostmi `None` ni definirano, kar lahko omeji možnosti dela z nabori podatkov, ki jih vsebujejo.


### `NaN`: manjkajoče vrednosti s plavajočo vejico

V nasprotju z `None` NumPy (in posledično pandas) podpira `NaN` za svoje hitre, vektorske operacije in ufuncs. Slaba novica je, da vsaka aritmetična operacija, izvedena na `NaN`, vedno vrne `NaN`. Na primer:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Dobra novica: združevanja, ki se izvajajo na poljih z `NaN`, ne povzročajo napak. Slaba novica: rezultati niso enotno uporabni:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Vaja:


In [11]:
# What happens if you add np.nan and None together?


Zapomni si: `NaN` je samo za manjkajoče vrednosti s plavajočo vejico; ne obstaja ekvivalent `NaN` za cela števila, nize ali logične vrednosti.


### `NaN` in `None`: ničelne vrednosti v pandas

Čeprav se `NaN` in `None` lahko obnašata nekoliko drugače, je pandas vseeno zasnovan tako, da ju obravnava zamenljivo. Da bi razumeli, kaj mislimo, si oglejmo `Series` celih števil:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Vaja:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Med postopkom nadgradnje podatkovnih tipov za vzpostavitev podatkovne homogenosti v `Series` in `DataFrame`-ih bo pandas zlahka preklapljal manjkajoče vrednosti med `None` in `NaN`. Zaradi te oblikovne značilnosti je koristno razmišljati o `None` in `NaN` kot o dveh različnih vrstah "null" vrednosti v pandas. Pravzaprav nekateri osnovni postopki, ki jih boste uporabljali za obravnavo manjkajočih vrednosti v pandas, to idejo odražajo v svojih imenih:

- `isnull()`: Ustvari logično masko, ki označuje manjkajoče vrednosti
- `notnull()`: Nasprotje funkcije `isnull()`
- `dropna()`: Vrne filtrirano različico podatkov
- `fillna()`: Vrne kopijo podatkov z zapolnjenimi ali imputiranimi manjkajočimi vrednostmi

To so pomembne metode, ki jih je treba obvladati in se z njimi udobno spoprijeti, zato si jih poglejmo podrobneje.


### Zaznavanje ničelnih vrednosti

Zdaj, ko smo razumeli pomen manjkajočih vrednosti, jih moramo zaznati v našem naboru podatkov, preden se lotimo njihove obdelave. Tako `isnull()` kot `notnull()` sta vaši glavni metodi za zaznavanje ničelnih podatkov. Obe vrneta Boolean maske za vaše podatke.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Poglejte natančno izhod. Vas kaj preseneča? Čeprav je `0` aritmetična ničla, je kljub temu povsem veljavna cela številka, ki jo pandas obravnava kot takšno. `''` je nekoliko bolj subtilen. Čeprav smo ga v poglavju 1 uporabili za predstavitev prazne vrednosti niza, je kljub temu objekt niza in ga pandas ne obravnava kot predstavitev ničelne vrednosti.

Zdaj pa obrnimo perspektivo in uporabimo te metode na način, ki je bolj podoben dejanski uporabi v praksi. Boolean maske lahko neposredno uporabite kot indeks ``Series`` ali ``DataFrame``, kar je lahko koristno, ko želite delati z izoliranimi manjkajočimi (ali prisotnimi) vrednostmi.

Če želimo skupno število manjkajočih vrednosti, lahko preprosto izvedemo vsoto nad masko, ki jo ustvari metoda `isnull()`.


In [19]:
example3.isnull().sum()

2

### Vaja:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Ključna ugotovitev**: Tako metoda `isnull()` kot metoda `notnull()` dajeta podobne rezultate, ko ju uporabite v DataFrame-ih: prikazujeta rezultate in indeks teh rezultatov, kar vam bo izjemno pomagalo pri obdelavi vaših podatkov.


### Obvladovanje manjkajočih podatkov

> **Cilj učenja:** Na koncu tega podpoglavja boste vedeli, kako in kdaj zamenjati ali odstraniti ničelne vrednosti iz DataFrame-ov.

Modeli strojnega učenja sami ne morejo obdelovati manjkajočih podatkov. Zato moramo pred posredovanjem podatkov v model obravnavati te manjkajoče vrednosti.

Način obravnave manjkajočih podatkov prinaša subtilne kompromise, ki lahko vplivajo na vašo končno analizo in rezultate v resničnem svetu.

Obstajata predvsem dva načina za obravnavo manjkajočih podatkov:

1.   Odstranitev vrstice, ki vsebuje manjkajočo vrednost
2.   Zamenjava manjkajoče vrednosti z neko drugo vrednostjo

Obravnavali bomo obe metodi ter njihove prednosti in slabosti podrobneje.


### Odstranjevanje manjkajočih vrednosti

Količina podatkov, ki jih posredujemo našemu modelu, neposredno vpliva na njegovo učinkovitost. Odstranjevanje manjkajočih vrednosti pomeni, da zmanjšujemo število podatkovnih točk in s tem velikost nabora podatkov. Zato je priporočljivo odstraniti vrstice z manjkajočimi vrednostmi, kadar je nabor podatkov precej velik.

Drugi primer je lahko, da ima določena vrstica ali stolpec veliko manjkajočih vrednosti. V takem primeru jih lahko odstranimo, saj ne bi veliko prispevali k naši analizi, ker večina podatkov za to vrstico/stolpec manjka.

Poleg prepoznavanja manjkajočih vrednosti pandas ponuja priročen način za odstranjevanje manjkajočih vrednosti iz `Series` in `DataFrame`-ov. Da bi to videli v praksi, se vrnimo k `example3`. Funkcija `DataFrame.dropna()` pomaga pri odstranjevanju vrstic z manjkajočimi vrednostmi.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Upoštevajte, da bi to moralo izgledati kot vaš rezultat iz `example3[example3.notnull()]`. Razlika tukaj je, da je `dropna` namesto zgolj indeksiranja na maskiranih vrednostih odstranil manjkajoče vrednosti iz `Series` `example3`.

Ker imajo DataFramei dve dimenziji, omogočajo več možnosti za odstranjevanje podatkov.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Ali ste opazili, da je pandas dve stolpci spremenil v tipe float, da bi omogočil `NaN` vrednosti?)

Iz `DataFrame` ne morete odstraniti posamezne vrednosti, zato morate odstraniti cele vrstice ali stolpce. Glede na to, kaj počnete, boste morda želeli narediti eno ali drugo, zato vam pandas omogoča obe možnosti. Ker v podatkovni znanosti stolpci običajno predstavljajo spremenljivke, vrstice pa opazovanja, boste verjetno pogosteje odstranjevali vrstice podatkov; privzeta nastavitev za `dropna()` je, da odstrani vse vrstice, ki vsebujejo kakršne koli null vrednosti:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Če je potrebno, lahko odstranite vrednosti NA iz stolpcev. Uporabite `axis=1`, da to storite:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Upoštevajte, da lahko to odstrani veliko podatkov, ki jih morda želite obdržati, zlasti pri manjših naborih podatkov. Kaj pa, če želite odstraniti samo vrstice ali stolpce, ki vsebujejo več ali celo vse ničelne vrednosti? Te nastavitve določite v `dropna` z uporabo parametrov `how` in `thresh`.

Privzeto je `how='any'` (če želite preveriti sami ali videti, katere druge parametre ima metoda, zaženite `example4.dropna?` v kodi). Lahko pa določite `how='all'`, da odstranite samo vrstice ali stolpce, ki vsebujejo vse ničelne vrednosti. Razširimo naš primer `DataFrame`, da to vidimo v praksi v naslednji vaji.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Ključne točke:
1. Odstranjevanje manjkajočih vrednosti je smiselno le, če je podatkovni niz dovolj velik.
2. Celotne vrstice ali stolpci se lahko odstranijo, če večina njihovih podatkov manjka.
3. Metoda `DataFrame.dropna(axis=)` omogoča odstranjevanje manjkajočih vrednosti. Argument `axis` določa, ali naj se odstranijo vrstice ali stolpci.
4. Uporablja se lahko tudi argument `how`. Privzeto je nastavljen na `any`, kar pomeni, da se odstranijo le tiste vrstice/stolpci, ki vsebujejo katero koli manjkajočo vrednost. Lahko ga nastavite na `all`, da določite, da bomo odstranili le tiste vrstice/stolpce, kjer so vse vrednosti manjkajoče.


### Vaja:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Parameter `thresh` vam omogoča bolj natančen nadzor: določite število *ne-null* vrednosti, ki jih mora imeti vrstica ali stolpec, da se ohrani:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Tukaj sta bila prva in zadnja vrstica odstranjeni, ker vsebujeta le dve nenull vrednosti.


### Polnjenje manjkajočih vrednosti

Včasih je smiselno zapolniti manjkajoče vrednosti z takšnimi, ki bi lahko bile veljavne. Obstaja nekaj tehnik za zapolnjevanje manjkajočih vrednosti. Prva je uporaba domenskega znanja (znanje o področju, na katerem temelji podatkovni niz), da nekako približamo manjkajoče vrednosti.

Za to lahko uporabite `isnull` neposredno, vendar je to lahko zamudno, še posebej, če imate veliko vrednosti za zapolnitev. Ker je to tako pogosta naloga v podatkovni znanosti, pandas ponuja funkcijo `fillna`, ki vrne kopijo `Series` ali `DataFrame` z manjkajočimi vrednostmi, zamenjanimi z vrednostjo po vaši izbiri. Ustvarimo še en primer `Series`, da vidimo, kako to deluje v praksi.


### Kategorijski podatki (neštevilčni)
Najprej si poglejmo neštevilčne podatke. V podatkovnih nizih imamo stolpce s kategorijskimi podatki, npr. spol, resnično ali neresnično itd.

V večini teh primerov manjkajoče vrednosti nadomestimo z `modusom` stolpca. Recimo, da imamo 100 podatkovnih točk, od katerih jih je 90 označilo resnično, 8 neresnično, 2 pa nista podala odgovora. V tem primeru lahko manjkajoči vrednosti (2) zapolnimo z "resnično", upoštevajoč celoten stolpec.

Tudi tukaj lahko uporabimo strokovno znanje. Poglejmo primer zapolnjevanja z modusom.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


Zdaj najprej poiščimo modus, preden zapolnimo vrednost `None` z modusom.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

Torej, bomo zamenjali None s True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Kot lahko vidimo, je bila ničelna vrednost zamenjana. Seveda bi lahko namesto `'True'` napisali karkoli in to bi bilo nadomeščeno.


### Številski podatki
Zdaj preidimo na številskih podatkih. Tukaj imamo dva pogosta načina za nadomeščanje manjkajočih vrednosti:

1. Nadomestitev z mediano vrstice
2. Nadomestitev s povprečjem vrstice

Mediano uporabimo v primeru porazdeljenih podatkov z odstopajočimi vrednostmi. To je zato, ker je mediana odporna na odstopajoče vrednosti.

Ko so podatki normalizirani, lahko uporabimo povprečje, saj sta v tem primeru povprečje in mediana precej blizu.

Najprej vzemimo stolpec, ki je normalno porazdeljen, in zapolnimo manjkajoče vrednosti s povprečjem stolpca.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Povprečje stolpca je


In [33]:
np.mean(fill_with_mean[0])

0.0

Polnjenje s povprečjem


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Kot lahko vidimo, je manjkajoča vrednost zamenjana z njeno povprečno vrednostjo.


Zdaj poskusimo z drugim podatkovnim okvirom, tokrat pa bomo vrednosti None zamenjali z mediano stolpca.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Mediana drugega stolpca je


In [36]:
fill_with_median[1].median()

4.0

Polnjenje z mediano


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Kot lahko vidimo, je bila vrednost NaN zamenjana z mediano stolpca


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Vse prazne vnose lahko zapolnite z eno samo vrednostjo, na primer `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Ključne točke:
1. Manjkajoče vrednosti je treba zapolniti, kadar je podatkov malo ali kadar obstaja strategija za zapolnitev manjkajočih podatkov.
2. Za zapolnitev manjkajočih vrednosti se lahko uporabi strokovno znanje iz področja, tako da se vrednosti približno ocenijo.
3. Pri kategorijskih podatkih se manjkajoče vrednosti večinoma nadomestijo z modusom stolpca.
4. Pri številskih podatkih se manjkajoče vrednosti običajno zapolnijo s povprečjem (za normalizirane podatkovne nabore) ali mediano stolpca.


### Vaja:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Lahko **zapolnite naprej** ničelne vrednosti, kar pomeni, da uporabite zadnjo veljavno vrednost za zapolnitev ničelne:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Lahko tudi **zapolnite nazaj**, da propagirate naslednjo veljavno vrednost nazaj in zapolnite ničlo:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Kot lahko ugibate, to deluje enako z DataFrame-i, vendar lahko določite tudi `axis`, vzdolž katerega zapolnite ničelne vrednosti:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Opazite, da ko prejšnja vrednost ni na voljo za zapolnitev naprej, ostane ničelna vrednost.


### Vaja:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Lahko ste ustvarjalni pri uporabi `fillna`. Na primer, poglejmo ponovno `example4`, vendar tokrat zapolnimo manjkajoče vrednosti s povprečjem vseh vrednosti v `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Opazite, da stolpec 3 še vedno nima vrednosti: privzeta usmeritev je zapolnjevanje vrednosti po vrsticah.

> **Ključna misel:** Obstaja več načinov za obravnavo manjkajočih vrednosti v vaših podatkovnih nizih. Konkretna strategija, ki jo uporabite (odstranjevanje, zamenjava ali celo način zamenjave), naj bo prilagojena značilnostim teh podatkov. Boljši občutek za obravnavo manjkajočih vrednosti boste razvili z večjo izkušnjo pri delu s podatkovnimi nizi.


### Kodiranje kategorijskih podatkov

Modeli strojnega učenja obravnavajo samo številke in kakršno koli obliko številskih podatkov. Ne bodo mogli razlikovati med "Da" in "Ne", lahko pa razlikujejo med 0 in 1. Zato moramo po zapolnitvi manjkajočih vrednosti kategorijske podatke kodirati v številčno obliko, da jih model lahko razume.

Kodiranje lahko izvedemo na dva načina. O njih bomo razpravljali v nadaljevanju.


**KODIRANJE OZNAK**

Kodiranje oznak pomeni pretvorbo vsake kategorije v številko. Na primer, recimo, da imamo podatkovni niz letalskih potnikov, kjer je stolpec, ki vsebuje njihov razred med naslednjimi ['poslovni razred', 'ekonomski razred', 'prvi razred']. Če izvedemo kodiranje oznak na tem stolpcu, bi se to pretvorilo v [0,1,2]. Poglejmo primer s pomočjo kode. Ker bomo v prihodnjih zvezkih spoznavali `scikit-learn`, ga tukaj ne bomo uporabili.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Za izvedbo kodiranja oznak na 1. stolpcu moramo najprej opisati preslikavo vsakega razreda v številko, preden zamenjamo.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Kot lahko vidimo, se rezultat ujema s tem, kar smo pričakovali. Torej, kdaj uporabimo kodiranje oznak? Kodiranje oznak se uporablja v enem ali obeh naslednjih primerih:
1. Ko je število kategorij veliko
2. Ko so kategorije urejene.


**ONE HOT ENCODING**

Druga vrsta kodiranja je One Hot Encoding. Pri tej vrsti kodiranja se vsaka kategorija stolpca doda kot ločen stolpec, pri čemer vsak podatkovni element dobi vrednost 0 ali 1 glede na to, ali vsebuje to kategorijo. Če je na voljo n različnih kategorij, se podatkovnemu okviru doda n stolpcev.

Na primer, vzemimo isti primer razreda letala. Kategorije so bile: ['business class', 'economy class', 'first class']. Če izvedemo One Hot Encoding, se bodo podatkovnemu naboru dodali naslednji trije stolpci: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Naj izvedemo enovročno kodiranje na prvem stolpcu


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Vsak stolpec z enovročno kodiranjem vsebuje 0 ali 1, kar določa, ali ta kategorija obstaja za tisto podatkovno točko.


Kdaj uporabljamo enovrstično kodiranje? Enovrstično kodiranje se uporablja v enem ali obeh naslednjih primerih:

1. Ko je število kategorij in velikost podatkovnega nabora manjša.
2. Ko kategorije ne sledijo nobenemu posebnemu vrstnemu redu.


> Ključne točke:
1. Kodiranje se izvaja za pretvorbo nenumeričnih podatkov v numerične podatke.
2. Obstajata dve vrsti kodiranja: kodiranje z oznakami in kodiranje One Hot, ki ju je mogoče izvesti glede na zahteve podatkovnega nabora.


## Odstranjevanje podvojenih podatkov

> **Cilj učenja:** Do konca tega pododdelka bi morali biti sposobni prepoznati in odstraniti podvojene vrednosti iz DataFrames.

Poleg manjkajočih podatkov boste v resničnih podatkovnih nizih pogosto naleteli na podvojene podatke. Na srečo pandas ponuja enostaven način za zaznavanje in odstranjevanje podvojenih zapisov.


### Prepoznavanje podvojenih vrednosti: `duplicated`

Podvojene vrednosti lahko enostavno prepoznate z metodo `duplicated` v pandas, ki vrne Boolean masko, ki označuje, ali je vnos v `DataFrame` podvojen glede na prejšnjega. Ustvarimo še en primer `DataFrame`, da vidimo, kako to deluje.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Odstranjevanje podvojenih vrednosti: `drop_duplicates`
`drop_duplicates` preprosto vrne kopijo podatkov, pri katerih so vse vrednosti `duplicated` nastavljene na `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Tako `duplicated` kot `drop_duplicates` privzeto upoštevata vse stolpce, vendar lahko določite, da pregledujeta le podmnožico stolpcev v vašem `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **Povzetek:** Odstranjevanje podvojenih podatkov je bistven del skoraj vsakega podatkovno-znanstvenega projekta. Podvojeni podatki lahko spremenijo rezultate vaših analiz in vam dajo netočne rezultate!


## Preverjanje kakovosti podatkov v resničnem svetu

> **Cilj učenja:** Na koncu tega poglavja boste znali zaznati in popraviti pogoste težave s kakovostjo podatkov v resničnem svetu, vključno z nedoslednimi kategorijskimi vrednostmi, nenavadnimi številskimi vrednostmi (odstopanja) in podvojenimi entitetami z različicami.

Čeprav so manjkajoče vrednosti in natančne podvojitve pogoste težave, resnični podatkovni nabori pogosto vsebujejo bolj subtilne težave:

1. **Nedosledne kategorijske vrednosti**: Enaka kategorija, zapisana različno (npr. "USA", "U.S.A", "United States")
2. **Nenavadne številčne vrednosti**: Ekstremna odstopanja, ki kažejo na napake pri vnosu podatkov (npr. starost = 999)
3. **Skoraj podvojene vrstice**: Zapisi, ki predstavljajo isto entiteto z manjšimi različicami

Raziskali bomo tehnike za zaznavanje in obravnavo teh težav.


### Ustvarjanje vzorčnega "umazanega" nabora podatkov

Najprej ustvarimo vzorčni nabor podatkov, ki vsebuje vrste težav, s katerimi se pogosto srečujemo pri podatkih iz resničnega sveta:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. Zaznavanje nedoslednih kategorijskih vrednosti

Opazite, da ima stolpec `country` več predstavitev za iste države. Prepoznajmo te nedoslednosti:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### Standardizacija kategorijskih vrednosti

Lahko ustvarimo preslikavo za standardizacijo teh vrednosti. Preprost pristop je pretvorba v male črke in ustvarjanje slovarja preslikav:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**Alternativa: Uporaba nejasnega ujemanja**

Za bolj zapletene primere lahko uporabimo nejasno ujemanje nizov z knjižnico `rapidfuzz`, da samodejno zaznamo podobne nize:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. Zaznavanje nenavadnih številskih vrednosti (odstopanj)

Če pogledamo stolpec `age`, opazimo nekaj sumljivih vrednosti, kot sta 199 in -5. Uporabimo statistične metode za zaznavanje teh odstopanj.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### Uporaba metode IQR (interkvartilni razpon)

Metoda IQR je zanesljiva statistična tehnika za odkrivanje odstopanj, ki je manj občutljiva na skrajne vrednosti:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Uporaba metode Z-tovorka

Metoda Z-tovorka prepozna odstopajoče vrednosti na podlagi standardnih odklonov od povprečja:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### Obdelava odstopanj

Ko so odstopanja zaznana, jih lahko obdelamo na več načinov:
1. **Odstranitev**: Izločite vrstice z odstopanji (če gre za napake)
2. **Omejitev**: Zamenjajte z mejno vrednostjo
3. **Zamenjava z NaN**: Obravnavajte kot manjkajoče podatke in uporabite tehnike imputacije
4. **Ohranitev**: Če gre za legitimne ekstremne vrednosti


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. Zaznavanje skoraj podvojenih vrstic

Opazite, da ima naš podatkovni niz več vnosov za "John Smith" z nekoliko različnimi vrednostmi. Identificirajmo morebitne podvojene vnose na podlagi podobnosti imen.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### Iskanje skoraj enakih podvojenih zapisov z mehkim ujemanjem

Za bolj napredno odkrivanje podvojenih zapisov lahko uporabimo mehko ujemanje za iskanje podobnih imen:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### Obvladovanje podvojenih podatkov

Ko jih identificirate, morate odločiti, kako ravnati s podvojenimi podatki:
1. **Obdržite prvi pojav**: Uporabite `drop_duplicates(keep='first')`
2. **Obdržite zadnji pojav**: Uporabite `drop_duplicates(keep='last')`
3. **Združite informacije**: Združite informacije iz podvojenih vrstic
4. **Ročni pregled**: Označite za pregled s strani človeka


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### Povzetek: Celovit postopek čiščenja podatkov

Združimo vse skupaj v celovit postopek čiščenja podatkov:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 Izzivna naloga

Zdaj je na vrsti vaš izziv! Spodaj je nov vrstni red podatkov z več težavami glede kakovosti. Ali lahko:

1. Prepoznate vse težave v tej vrstici
2. Napišete kodo za odpravo vsake težave
3. Dodate očiščeno vrstico v podatkovni niz

Tukaj so problematični podatki:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### Ključne točke

1. **Neskladne kategorije** so pogoste v podatkih iz resničnega sveta. Vedno preverite edinstvene vrednosti in jih standardizirajte z uporabo preslikav ali približnega ujemanja.

2. **Izstopajoče vrednosti** lahko pomembno vplivajo na vašo analizo. Uporabite strokovno znanje v kombinaciji s statističnimi metodami (IQR, Z-score) za njihovo odkrivanje.

3. **Skoraj podvojeni podatki** so težje zaznavni kot popolni podvojeni podatki. Razmislite o uporabi približnega ujemanja in normalizaciji podatkov (pretvorba v male črke, odstranjevanje presledkov) za njihovo identifikacijo.

4. **Čiščenje podatkov je iterativno**. Morda boste morali uporabiti več tehnik in pregledati rezultate, preden dokončno očistite svoj nabor podatkov.

5. **Dokumentirajte svoje odločitve**. Beležite, katere korake čiščenja ste uporabili in zakaj, saj je to pomembno za ponovljivost in transparentnost.

> **Najboljša praksa:** Vedno shranite kopijo svojih originalnih "neurejenih" podatkov. Nikoli ne prepišite izvornih datotek podatkov - ustvarite očiščene različice z jasnimi poimenovanji, kot je `data_cleaned.csv`.



---

**Omejitev odgovornosti**:  
Ta dokument je bil preveden z uporabo storitve za prevajanje z umetno inteligenco [Co-op Translator](https://github.com/Azure/co-op-translator). Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da lahko avtomatski prevodi vsebujejo napake ali netočnosti. Izvirni dokument v njegovem maternem jeziku je treba obravnavati kot avtoritativni vir. Za ključne informacije priporočamo profesionalni človeški prevod. Ne prevzemamo odgovornosti za morebitne nesporazume ali napačne razlage, ki bi nastale zaradi uporabe tega prevoda.
