# Припрема података

[Оригинални извор бележнице из *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Истраживање информација о `DataFrame`

> **Циљ учења:** На крају овог пододељка, требало би да будете у могућности да пронађете опште информације о подацима који се чувају у pandas DataFrame-овима.

Када учитате своје податке у pandas, веома је вероватно да ће бити у облику `DataFrame`. Међутим, ако ваш скуп података у `DataFrame`-у има 60,000 редова и 400 колона, како уопште да почнете да разумете са чим радите? Срећом, pandas пружа неке практичне алате за брз преглед општих информација о `DataFrame`, као и првих и последњих неколико редова.

Да бисмо истражили ову функционалност, увешћемо Python библиотеку scikit-learn и користити један иконичан скуп података који је сваки научник података видео стотине пута: скуп података британског биолога Роналда Фишера *Iris*, коришћен у његовом раду из 1936. године "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Учитали смо Iris Dataset у променљиву `iris_df`. Пре него што се удубимо у податке, било би корисно знати број података које имамо и укупну величину скупа података. Корисно је погледати обим података са којима радимо.


In [2]:
iris_df.shape

(150, 4)

Дакле, имамо 150 редова и 4 колоне података. Сваки ред представља једну тачку података, а свака колона представља једну карактеристику повезану са оквиром података. У суштини, постоји 150 тачака података које садрже по 4 карактеристике.

`shape` је овде атрибут оквира података, а не функција, због чега се не завршава са паром заграда.


### `DataFrame.columns`
Хајде сада да пређемо на 4 колоне података. Шта тачно представља свака од њих? Атрибут `columns` ће нам дати имена колона у датафрејму.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Као што можемо видети, постоје четири (4) колоне. Атрибут `columns` нам говори имена колона и у суштини ништа више. Овај атрибут постаје важан када желимо да идентификујемо карактеристике које скуп података садржи.


### `DataFrame.info`
Количина података (датих преко атрибута `shape`) и имена карактеристика или колона (датих преко атрибута `columns`) нам говоре нешто о скупу података. Сада бисмо желели да се детаљније позабавимо скупом података. Функција `DataFrame.info()` је веома корисна за ово.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Одавде можемо направити неколико запажања:
1. Тип података сваке колоне: У овом скупу података, сви подаци су сачувани као 64-битни бројеви са покретним зарезом.
2. Број вредности које нису Null: Рад са Null вредностима је важан корак у припреми података. Овим ће се бавити касније у бележници.


### DataFrame.describe()
Рецимо да имамо много нумеричких података у нашем сету података. Једноваријантне статистичке прорачуне, као што су средња вредност, медијана, квартили итд., можемо извршити за сваку колону појединачно. Функција `DataFrame.describe()` нам пружа статистички преглед нумеричких колона у сету података.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Горњи излаз приказује укупан број података, средњу вредност, стандардну девијацију, минимум, доњи квартил (25%), медијану (50%), горњи квартил (75%) и максималну вредност сваке колоне.


### `DataFrame.head`
Са свим горе наведеним функцијама и атрибутима, добили смо преглед на високом нивоу скупа података. Знамо колико има тачака података, колико има карактеристика, тип података сваке карактеристике и број вредности које нису null за сваку карактеристику.

Сада је време да погледамо самe податке. Хајде да видимо како изгледају првих неколико редова (првих неколико тачака података) нашег `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Као што је приказано овде, можемо видети пет (5) уноса из скупа података. Ако погледамо индекс са леве стране, откривамо да су то првих пет редова.


### Вежба:

Из горњег примера је јасно да `DataFrame.head` подразумевано враћа првих пет редова `DataFrame`-а. У коду испод, можете ли смислити начин да прикажете више од пет редова?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Још један начин гледања на податке може бити од краја (уместо од почетка). Супротност `DataFrame.head` је `DataFrame.tail`, који враћа последњих пет редова `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


У пракси је корисно моћи лако прегледати првих неколико редова или последњих неколико редова `DataFrame`, посебно када тражите екстремне вредности у уређеним скуповима података.

Све функције и атрибути приказани изнад уз помоћ примера кода помажу нам да стекнемо увид у податке.

> **Закључак:** Чак и само гледањем метаподатака о информацијама у `DataFrame`-у или првих и последњих неколико вредности у њему, можете одмах добити идеју о величини, облику и садржају података са којима радите.


### Недостајући подаци
Хајде да се позабавимо недостајућим подацима. Недостајући подаци се јављају када нека вредност није ускладиштена у одређеним колонама.

Узмимо пример: рецимо да је неко свестан своје тежине и не попуни поље за тежину у анкети. Тада ће вредност тежине за ту особу недостајати.

У већини случајева, у стварним скуповима података, јављају се недостајуће вредности.

**Како Pandas обрађује недостајуће податке**

Pandas обрађује недостајуће вредности на два начина. Први начин сте већ видели у претходним одељцима: `NaN`, или Not a Number. Ово је заправо посебна вредност која је део IEEE спецификације за бројеве са покретним зарезом и користи се само за означавање недостајућих вредности са покретним зарезом.

За недостајуће вредности које нису бројеви са покретним зарезом, pandas користи Python објекат `None`. Иако може изгледати збуњујуће што ћете наићи на две различите врсте вредности које у суштини значе исто, постоје добри програмски разлози за овај избор дизајна, а у пракси, овај приступ омогућава pandas-у да пружи добар компромис за велику већину случајева. Упркос томе, и `None` и `NaN` имају ограничења која треба имати на уму у погледу начина на који се могу користити.


### `None`: недостајући подаци који нису типа float
Пошто `None` потиче из Python-а, не може се користити у NumPy и pandas низовима који нису типа података `'object'`. Запамтите, NumPy низови (и структуре података у pandas-у) могу садржати само један тип података. Управо то им даје огромну моћ за рад са великим количинама података и обраду, али истовремено ограничава њихову флексибилност. Такви низови морају да се конвертују у „најнижи заједнички именилац“, односно тип података који може обухватити све у низу. Када је `None` у низу, то значи да радите са Python објектима.

Да бисте видели како ово функционише, погледајте следећи пример низа (обратите пажњу на `dtype` за њега):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Реалност надограђених типова података носи са собом два споредна ефекта. Прво, операције ће се изводити на нивоу интерпретираног Python кода, а не компајлираног NumPy кода. У суштини, то значи да ће све операције које укључују `Series` или `DataFrames` са `None` у њима бити спорије. Иако вероватно нећете приметити овај пад перформанси, код великих скупова података то би могло постати проблем.

Други споредни ефекат произилази из првог. Пошто `None` у суштини враћа `Series` или `DataFrame` у свет обичног Python-а, коришћење NumPy/pandas агрегација као што су `sum()` или `min()` на низовима који садрже вредност ``None`` генерално ће произвести грешку:


In [10]:
example1.sum()

TypeError: ignored

**Кључна порука**: Сабирање (и друге операције) између целих бројева и вредности `None` је недефинисано, што може ограничити оно што можете урадити са скуповима података који их садрже.


### `NaN`: недостајуће вредности типа float

За разлику од `None`, NumPy (а самим тим и pandas) подржава `NaN` за своје брзе, векторизоване операције и ufuncs. Лоша вест је да свака аритметичка операција извршена над `NaN` увек резултира `NaN`. На пример:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Добра вест: агрегације које се извршавају на низовима са `NaN` у њима не изазивају грешке. Лоша вест: резултати нису униформно корисни:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Вежба:


In [11]:
# What happens if you add np.nan and None together?


Запамти: `NaN` је само за недостајуће вредности са покретним зарезом; не постоји еквивалент `NaN` за целе бројеве, стрингове или булове вредности.


### `NaN` и `None`: нулте вредности у pandas-у

Иако се `NaN` и `None` могу понашати мало другачије, pandas је ипак направљен тако да их обрађује наизменично. Да бисмо објаснили шта то значи, размотримо `Series` целих бројева:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Вежба:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


У процесу подизања типова података ради успостављања хомогености података у `Series` и `DataFrame` објектима, pandas ће без проблема заменити недостајуће вредности између `None` и `NaN`. Због ове дизајнерске карактеристике, корисно је размишљати о `None` и `NaN` као о две различите врсте "нултог" у pandas-у. Заиста, неки од основних метода које ћете користити за рад са недостајућим вредностима у pandas-у одражавају ову идеју у својим називима:

- `isnull()`: Генерише Булову маску која указује на недостајуће вредности
- `notnull()`: Супротно од `isnull()`
- `dropna()`: Враћа филтрирану верзију података
- `fillna()`: Враћа копију података са попуњеним или импутираним недостајућим вредностима

Ово су важни методи које треба савладати и са којима треба бити комфоран, па хајде да их детаљније размотримо.


### Откривање null вредности

Сада када смо разумели значај недостајућих вредности, потребно је да их откријемо у нашем скупу података пре него што их обрадимо. 
И `isnull()` и `notnull()` су ваши основни методи за откривање null података. Оба враћају Булове маске преко ваших података.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Пажљиво погледајте резултат. Да ли вас нешто изненађује? Иако је `0` аритметичка нула, он је ипак сасвим добар целобројни тип, и pandas га тако третира. `''` је мало суптилнији. Иако смо га у Секцији 1 користили да представимо празну вредност стринга, он је ипак објекат типа стринг, а не представљање null вредности када је у питању pandas.

Сада, хајде да ово окренемо и користимо ове методе на начин који је ближи стварној пракси. Boolean маске можете користити директно као индекс ``Series`` или ``DataFrame``, што може бити корисно када покушавате да радите са изолованим недостајућим (или присутним) вредностима.

Ако желимо укупан број недостајућих вредности, можемо једноставно урадити суму преко маске коју производи метода `isnull()`.


In [19]:
example3.isnull().sum()

2

### Вежба:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Кључна ствар**: И `isnull()` и `notnull()` методе дају сличне резултате када их користите у DataFrame-овима: приказују резултате и индекс тих резултата, што ће вам изузетно помоћи док се борите са вашим подацима.


### Рад са недостајућим подацима

> **Циљ учења:** До краја овог пододељка, требало би да знате како и када да замените или уклоните null вредности из DataFrame-ова.

Модели машинског учења не могу сами да обрађују недостајуће податке. Зато је неопходно да се ти недостајући подаци обраде пре него што се проследе моделу.

Начин на који се недостајући подаци обрађују носи са собом суптилне компромисе, може утицати на вашу коначну анализу и исходе у стварном свету.

Постоје два основна начина за рад са недостајућим подацима:

1.   Уклонити ред који садржи недостајућу вредност
2.   Заменити недостајућу вредност неком другом вредношћу

Размотрићемо оба ова метода и њихове предности и мане у детаљима.


### Уклањање празних вредности

Количина података коју прослеђујемо нашем моделу директно утиче на његову перформансу. Уклањање празних вредности значи да смањујемо број тачака података, а тиме и величину скупа података. Због тога је препоручљиво уклонити редове са празним вредностима када је скуп података прилично велик.

Други случај може бити да одређени ред или колона имају много недостајућих вредности. У том случају, могу бити уклоњени јер не би значајно допринели нашој анализи, пошто је већина података за тај ред/колону недостајућа.

Поред идентификовања недостајућих вредности, pandas пружа практичан начин за уклањање празних вредности из `Series` и `DataFrame`-ова. Да бисмо видели како то функционише, вратићемо се на `example3`. Функција `DataFrame.dropna()` помаже у уклањању редова са празним вредностима.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Имајте на уму да ово треба да изгледа као ваш излаз из `example3[example3.notnull()]`. Разлика овде је у томе што је, уместо само индексирања на маскиране вредности, `dropna` уклонио те недостајуће вредности из `Series` `example3`.

Пошто DataFrame има две димензије, пружа више опција за уклањање података.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Да ли сте приметили да је pandas претворио две колоне у тип података `float` како би прилагодио `NaN` вредности?)

Не можете уклонити само једну вредност из `DataFrame`, већ морате уклонити целе редове или колоне. У зависности од тога шта радите, можда ћете желети да урадите једно или друго, па вам pandas пружа могућности за оба. Пошто у науци о подацима колоне углавном представљају променљиве, а редови представљају запажања, вероватније је да ћете уклањати редове података; подразумевана поставка за `dropna()` је да уклони све редове који садрже било какве null вредности:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Ако је потребно, можете уклонити NA вредности из колона. Користите `axis=1` да то урадите:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Имајте на уму да ово може уклонити много података које можда желите да задржите, посебно у мањим скуповима података. Шта ако желите да уклоните само редове или колоне које садрже неколико или чак све null вредности? Те поставке можете одредити у `dropna` помоћу параметара `how` и `thresh`.

Подразумевано, `how='any'` (ако желите сами да проверите или видите које друге параметре метода има, покрените `example4.dropna?` у коду). Алтернативно, можете одредити `how='all'` како бисте уклонили само редове или колоне које садрже све null вредности. Проширићемо наш пример `DataFrame` да бисмо видели како ово функционише у наредној вежби.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Кључне напомене:  
1. Уклањање празних вредности је добра идеја само ако је скуп података довољно велики.  
2. Цели редови или колоне могу бити уклоњени ако већина њихових података недостаје.  
3. Метода `DataFrame.dropna(axis=)` помаже у уклањању празних вредности. Аргумент `axis` означава да ли треба уклонити редове или колоне.  
4. Аргумент `how` такође може бити коришћен. Подразумевано је постављен на `any`. Дакле, уклањају се само они редови/колоне који садрже било какве празне вредности. Може бити постављен на `all` да би се одредило да ће бити уклоњени само они редови/колоне где су све вредности празне.  


### Вежба:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Параметар `thresh` вам пружа прецизнију контролу: постављате број *не-null* вредности које ред или колона морају имати да би били задржани:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Овде су први и последњи ред уклоњени, јер садрже само две ненулте вредности.


### Попуњавање празних вредности

Понекад има смисла попунити недостајуће вредности оним које би могле бити валидне. Постоји неколико техника за попуњавање празних вредности. Прва је коришћење доменског знања (знања о теми на којој се заснива скуп података) како би се на неки начин приближно одредиле недостајуће вредности.

Можете користити `isnull` за попуњавање вредности директно, али то може бити напорно, нарочито ако имате много вредности које треба попунити. Пошто је ово веома чест задатак у науци о подацима, pandas пружа функцију `fillna`, која враћа копију `Series` или `DataFrame` са недостајућим вредностима замењеним оним које сами изаберете. Хајде да направимо још један пример `Series` да видимо како ово функционише у пракси.


### Категоријски подаци (Ненумерички)
Прво, хајде да размотримо ненумеричке податке. У скуповима података имамо колоне са категоријским подацима, на пример, пол, тачно или нетачно итд.

У већини ових случајева, недостајуће вредности замењујемо `модом` колоне. Рецимо, имамо 100 података, од којих је 90 одговорило тачно, 8 нетачно, а 2 нису попуњена. Тада можемо попунити та два са тачно, узимајући у обзир целу колону.

И овде можемо користити знање из домена. Хајде да размотримо пример попуњавања модом.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


Сада, хајде прво да пронађемо мод пре него што попунимо вредност `None` модом.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

Дакле, заменићемо None са True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Као што можемо видети, нулта вредност је замењена. Наравно, могли смо написати било шта уместо `'True'` и то би било замењено.


### Нумерички подаци
Сада прелазимо на нумеричке податке. Овде постоје два уобичајена начина за замену недостајућих вредности:

1. Замена медијаном реда
2. Замена средњом вредношћу реда

Медијан користимо у случају искривљених података са екстремним вредностима. То је зато што је медијан отпоран на екстремне вредности.

Када су подаци нормализовани, можемо користити средњу вредност, јер би у том случају средња вредност и медијан били прилично блиски.

Прво, узмимо колону која је нормално распоређена и попунимо недостајућу вредност средњом вредношћу те колоне.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Средња вредност колоне је


In [33]:
np.mean(fill_with_mean[0])

0.0

Попуњавање са средњом вредношћу


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Као што можемо видети, недостајућа вредност је замењена њеном средином.


Сада хајде да пробамо други датафрејм, и овог пута ћемо заменити вредности None медијаном колоне.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Медијана друге колоне је


In [36]:
fill_with_median[1].median()

4.0

Попуњавање медијаном


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Као што можемо видети, вредност NaN је замењена медијаном колоне.


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Можете попунити све празне уносе једном вредношћу, као што је `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Главне напомене:
1. Попуњавање недостајућих вредности треба обавити када има мање података или постоји стратегија за попуњавање недостајућих података.
2. Доменско знање може се користити за попуњавање недостајућих вредности приближним проценама.
3. Код категоријских података, недостајуће вредности се углавном замењују модом колоне.
4. Код нумеричких података, недостајуће вредности се обично попуњавају просеком (за нормализоване скупове података) или медијаном колона.


### Вежба:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Можете **попунити унапред** празне вредности, што значи користити последњу важећу вредност за попуњавање празног места:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Можете такође **уназад попунити** да бисте уназад пренели следећу важећу вредност како бисте попунили празнину:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Као што можете претпоставити, ово функционише исто са DataFrame-овима, али можете такође одредити `axis` дуж којег ће се попуњавати null вредности:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Имајте на уму да када претходна вредност није доступна за попуњавање унапред, празна вредност остаје.


### Вежба:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Можете бити креативни у начину на који користите `fillna`. На пример, хајде да поново погледамо `example4`, али овог пута да попунимо недостајуће вредности просеком свих вредности у `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Приметите да је колона 3 и даље без вредности: подразумевани начин је попуњавање вредности ред по ред.

> **Закључак:** Постоји више начина за решавање недостајућих вредности у вашим скуповима података. Конкретна стратегија коју користите (уклањање, замена или чак начин на који их замењујете) треба да буде одређена специфичностима тих података. Развићете бољи осећај за решавање недостајућих вредности што више радите и интерагујете са скуповима података.


### Кодирање категоријалних података

Машинско учење ради искључиво са бројевима и било којим обликом нумеричких података. Неће моћи да разликује између "Да" и "Не", али ће моћи да разликује између 0 и 1. Зато, након попуњавања недостајућих вредности, потребно је да категоријалне податке кодирамо у неки нумерички облик како би модел могао да их разуме.

Кодирање се може обавити на два начина. О њима ћемо говорити у наставку.


**КОДИРАЊЕ ЕТИКЕТА**

Кодирање етикета подразумева претварање сваке категорије у број. На пример, рецимо да имамо скуп података о путницима авиона и постоји колона која садржи њихову класу међу следећим ['бизнис класа', 'економска класа', 'прва класа']. Ако се изврши кодирање етикета, ово би се трансформисало у [0,1,2]. Хајде да видимо пример кроз код. Како ћемо учити `scikit-learn` у наредним бележницама, овде га нећемо користити.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Да бисмо извршили кодирање етикета на првој колони, прво морамо описати пресликавање сваке класе у број, пре него што заменимо.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Као што можемо видети, резултат одговара ономе што смо очекивали. Дакле, када користимо кодирање етикета? Кодирање етикета се користи у једном или оба следећа случаја:
1. Када је број категорија велики
2. Када су категорије у одређеном редоследу.


**ONE HOT ENCODING**

Један од типова кодирања је One Hot Encoding. Код овог типа кодирања, свака категорија из колоне се додаје као посебна колона, а свака тачка података добија 0 или 1 у зависности од тога да ли садржи ту категорију. Дакле, ако постоји n различитих категорија, n колона ће бити додато у датасет.

На пример, узмимо исти пример класе авиона. Категорије су биле: ['business class', 'economy class', 'first class']. Дакле, ако применимо One Hot Encoding, следеће три колоне ће бити додате у датасет: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Хајде да извршимо једно-вруће кодирање на првој колони


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Свака колона кодирана методом један-на-један садржи 0 или 1, што означава да ли та категорија постоји за ту тачку података.


Када користимо one hot encoding? One hot encoding се користи у једном или оба следећа случаја:

1. Када је број категорија и величина скупа података мањи.
2. Када категорије не прате никакав одређени редослед.


> Главне тачке:
1. Кодирање се врши како би се неконумерички подаци претворили у нумеричке.
2. Постоје два типа кодирања: кодирање етикета и One Hot кодирање, оба се могу применити у зависности од потреба скупа података.


## Уклањање дуплираних података

> **Циљ учења:** На крају овог пододељка, требало би да будете спремни да идентификујете и уклоните дуплиране вредности из DataFrame-ова.

Поред недостајућих података, често ћете наилазити на дуплиране податке у стварним скуповима података. Срећом, pandas пружа једноставан начин за откривање и уклањање дуплираних уноса.


### Препознавање дупликата: `duplicated`

Можете лако уочити дупликате користећи метод `duplicated` у pandas-у, који враћа Булову маску која показује да ли је неки унос у `DataFrame`-у дупликат ранијег. Хајде да направимо још један пример `DataFrame`-а да видимо како то функционише.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Уклањање дупликата: `drop_duplicates`
`drop_duplicates` једноставно враћа копију података за које су све вредности `duplicated` `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


И `duplicated` и `drop_duplicates` подразумевано узимају у обзир све колоне, али можете одредити да испитују само подскуп колона у вашем `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **Закључак:** Уклањање дупликата података је суштински део готово сваког пројекта из области науке о подацима. Дупликати података могу променити резултате ваших анализа и дати вам нетачне резултате!


## Провера квалитета података у стварном свету

> **Циљ учења:** До краја овог одељка, требало би да будете способни да откривате и исправљате уобичајене проблеме са квалитетом података у стварном свету, укључујући недоследне категоријске вредности, абнормалне нумеричке вредности (изузетке) и дупликате ентитета са варијацијама.

Иако су недостајуће вредности и тачни дупликати уобичајени проблеми, скупови података из стварног света често садрже суптилније проблеме:

1. **Недоследне категоријске вредности**: Иста категорија написана на различите начине (нпр. "USA", "U.S.A", "United States")
2. **Абнормалне нумеричке вредности**: Екстремни изузеци који указују на грешке у уносу података (нпр. старост = 999)
3. **Редови који су скоро дупликати**: Записи који представљају исти ентитет са благим варијацијама

Хајде да истражимо технике за откривање и решавање ових проблема.


### Прављење примерка „нечистог“ скупа података

Прво, хајде да направимо пример скупа података који садржи типове проблема са којима се често сусрећемо у стварним подацима:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. Откривање недоследних категоријских вредности

Приметите да колона `country` има више представљања за исте земље. Хајде да идентификујемо те недоследности:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### Стандардизација категоријских вредности

Можемо направити мапирање за стандардизацију ових вредности. Једноставан приступ је конвертовање у мала слова и креирање речника за мапирање:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**Алтернатива: Коришћење фазијског упоређивања**

За сложеније случајеве, можемо користити фазијско упоређивање стрингова са библиотеком `rapidfuzz` како бисмо аутоматски открили сличне стрингове:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. Откривање необичних нумеричких вредности (изузетака)

Гледајући колону `age`, имамо неке сумњиве вредности као што су 199 и -5. Хајде да користимо статистичке методе за откривање ових изузетака.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### Коришћење методе IQR (Интерквартилни опсег)

Метода IQR је робусна статистичка техника за откривање одступајућих вредности која је мање осетљива на екстремне вредности:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Коришћење Z-Score методе

Метода Z-score идентификује одступања на основу стандардних девијација од просека:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### Руковање одступањима

Када се открију, одступања могу бити обрађена на неколико начина:
1. **Уклонити**: Избрисати редове са одступањима (ако су грешке)
2. **Ограничити**: Заменити граничним вредностима
3. **Заменити са NaN**: Третирати као недостајуће податке и користити технике импутације
4. **Задржати**: Ако су легитимне екстремне вредности


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. Откривање скоро идентичних редова

Приметите да наш скуп података има више уноса за „John Smith“ са мало различитим вредностима. Хајде да идентификујемо потенцијалне дупликате на основу сличности имена.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### Проналажење скоро идентичних подударности помоћу фазијског упаривања

За напредније откривање дупликата, можемо користити фазијско упаривање за проналажење сличних имена:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### Руковање дупликатима

Када их идентификујете, потребно је да одлучите како да поступите са дупликатима:
1. **Задржати прво појављивање**: Користите `drop_duplicates(keep='first')`
2. **Задржати последње појављивање**: Користите `drop_duplicates(keep='last')`
3. **Агрегирати информације**: Комбиновати информације из редова који се понављају
4. **Ручна провера**: Означити за преглед од стране човека


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### Резиме: Комплетан процес чишћења података

Хајде да све спојимо у свеобухватан процес чишћења података:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 Вежба изазова

Сада је ваш ред! Испод је нови ред података са више проблема у квалитету. Можете ли:

1. Идентификовати све проблеме у овом реду
2. Написати код за исправљање сваког проблема
3. Додати очишћени ред у скуп података

Ево проблематичних података:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### Кључне тачке

1. **Неконзистентне категорије** су честе у подацима из стварног света. Увек проверите јединствене вредности и стандардизујте их користећи мапирање или фази упоређивање.

2. **Екстремне вредности** могу значајно утицати на вашу анализу. Користите знање из области у комбинацији са статистичким методама (IQR, Z-score) да их откријете.

3. **Скоро дупликати** су теже уочљиви од потпуних дупликата. Размотрите употребу фази упоређивања и нормализацију података (претварање у мала слова, уклањање празних места) како бисте их идентификовали.

4. **Чишћење података је итеративно**. Можда ћете морати да примените више техника и прегледате резултате пре него што финализујете очишћен скуп података.

5. **Документујте своје одлуке**. Водите евиденцију о корацима чишћења које сте применили и разлозима за то, јер је то важно за репродуктивност и транспарентност.

> **Најбоља пракса:** Увек чувајте копију оригиналних "неочишћених" података. Никада не преписујте изворне датотеке са подацима - креирајте очишћене верзије са јасним конвенцијама именовања, као што је `data_cleaned.csv`.



---

**Одрицање од одговорности**:  
Овај документ је преведен помоћу услуге за превођење уз помоћ вештачке интелигенције [Co-op Translator](https://github.com/Azure/co-op-translator). Иако настојимо да обезбедимо тачност, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на његовом изворном језику треба сматрати меродавним извором. За критичне информације препоручује се професионални превод од стране људског преводиоца. Не преузимамо одговорност за било каква погрешна тумачења или неспоразуме који могу настати услед коришћења овог превода.
