# Подготовка на данни

[Оригинален източник на ноутбука от *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Изследване на информацията в `DataFrame`

> **Цел на обучението:** До края на този подраздел трябва да сте уверени в намирането на обща информация за данните, съхранявани в pandas DataFrames.

След като заредите данните си в pandas, най-вероятно те ще бъдат в `DataFrame`. Но ако наборът от данни във вашия `DataFrame` има 60,000 реда и 400 колони, как изобщо да започнете да разбирате с какво работите? За щастие, pandas предоставя удобни инструменти за бързо разглеждане на общата информация за `DataFrame`, както и за първите и последните няколко реда.

За да изследваме тази функционалност, ще импортираме библиотеката Python scikit-learn и ще използваме емблематичен набор от данни, който всеки специалист по данни е виждал стотици пъти: набора от данни *Iris* на британския биолог Роналд Фишър, използван в неговата статия от 1936 г. "Използването на множество измервания в таксономични проблеми":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Заредили сме набора от данни Iris в променливата `iris_df`. Преди да се задълбочим в данните, би било полезно да знаем броя на точките с данни, които имаме, и общия размер на набора от данни. Полезно е да разгледаме обема на данните, с които работим.


In [2]:
iris_df.shape

(150, 4)

И така, имаме 150 реда и 4 колони данни. Всеки ред представлява една точка от данни, а всяка колона представлява една характеристика, свързана с рамката на данните. Така че, основно, има 150 точки от данни, всяка съдържаща 4 характеристики.

`shape` тук е атрибут на рамката на данните, а не функция, поради което не завършва с чифт скоби.


### `DataFrame.columns`
Нека сега разгледаме четирите колони с данни. Какво точно представлява всяка от тях? Атрибутът `columns` ще ни даде имената на колоните в dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Както виждаме, има четири (4) колони. Атрибутът `columns` ни казва имената на колоните и основно нищо друго. Този атрибут придобива значение, когато искаме да идентифицираме характеристиките, които съдържа даден набор от данни.


### `DataFrame.info`
Количеството данни (посочено от атрибута `shape`) и имената на характеристиките или колоните (посочени от атрибута `columns`) ни дават известна информация за набора от данни. Сега бихме искали да се задълбочим в анализа на набора от данни. Функцията `DataFrame.info()` е доста полезна за тази цел.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Оттук можем да направим няколко наблюдения:
1. Типът данни на всяка колона: В този набор от данни всички стойности са съхранени като 64-битови числа с плаваща запетая.
2. Брой ненулеви стойности: Работата с нулеви стойности е важна стъпка в подготовката на данните. Това ще бъде разгледано по-късно в тетрадката.


### DataFrame.describe()
Да предположим, че имаме много числови данни в нашия набор от данни. Едновариантни статистически изчисления като средна стойност, медиана, квартили и т.н. могат да бъдат направени за всяка от колоните поотделно. Функцията `DataFrame.describe()` ни предоставя статистическо обобщение на числовите колони в набора от данни.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Горният изход показва общия брой точки данни, средната стойност, стандартното отклонение, минималната стойност, долния квартил (25%), медианата (50%), горния квартил (75%) и максималната стойност на всяка колона.


### `DataFrame.head`
С всички гореспоменати функции и атрибути, вече имаме обща представа за набора от данни. Знаем колко точки данни има, колко характеристики има, типа данни на всяка характеристика и броя на ненулевите стойности за всяка характеристика.

Сега е време да разгледаме самите данни. Нека видим как изглеждат първите няколко реда (първите няколко точки данни) от нашия `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Както е показано тук, можем да видим пет (5) записа от набора от данни. Ако погледнем индекса отляво, откриваме, че това са първите пет реда.


### Упражнение:

От дадения пример по-горе е ясно, че по подразбиране `DataFrame.head` връща първите пет реда на `DataFrame`. В клетката с код по-долу, можете ли да намерите начин да покажете повече от пет реда?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Друг начин за разглеждане на данните е от края (вместо от началото). Обратното на `DataFrame.head` е `DataFrame.tail`, който връща последните пет реда от `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


На практика е полезно да можете лесно да разгледате първите няколко реда или последните няколко реда на `DataFrame`, особено когато търсите отклонения в подредени набори от данни.

Всички функции и атрибути, показани по-горе с помощта на примери с код, ни помагат да добием представа за данните.

> **Основен извод:** Дори само като разгледате метаданните за информацията в един DataFrame или първите и последните няколко стойности в него, можете веднага да добиете представа за размера, формата и съдържанието на данните, с които работите.


### Липсващи данни
Нека разгледаме липсващите данни. Липсващи данни се появяват, когато няма стойност, записана в някои от колоните.

Нека вземем пример: да кажем, че някой е чувствителен относно теглото си и не попълва полето за тегло в анкета. Тогава стойността за тегло на този човек ще липсва.

В повечето случаи, в реални набори от данни, се срещат липсващи стойности.

**Как Pandas обработва липсващи данни**

Pandas обработва липсващите стойности по два начина. Първият, който сте виждали в предишни раздели, е `NaN`, или Not a Number. Това всъщност е специална стойност, която е част от спецификацията на IEEE за плаваща запетая и се използва само за обозначаване на липсващи стойности от тип плаваща запетая.

За липсващи стойности, различни от числа с плаваща запетая, pandas използва Python обекта `None`. Макар че може да изглежда объркващо, че ще срещнете два различни типа стойности, които по същество означават едно и също, има основателни програмни причини за този избор на дизайн и, на практика, този подход позволява на pandas да предложи добро решение за огромното мнозинство от случаи. Въпреки това, както `None`, така и `NaN` имат ограничения, които трябва да имате предвид относно начина, по който могат да бъдат използвани.


### `None`: липсващи данни, които не са от тип float
Тъй като `None` идва от Python, той не може да се използва в масиви на NumPy и pandas, които не са от тип данни `'object'`. Запомнете, че масивите на NumPy (и структурите от данни в pandas) могат да съдържат само един тип данни. Това им дава огромна мощност за работа с големи обеми данни и изчисления, но също така ограничава тяхната гъвкавост. Такива масиви трябва да се преобразуват към „най-ниския общ знаменател“, типа данни, който може да обхване всичко в масива. Когато `None` е в масива, това означава, че работите с Python обекти.

За да видите това на практика, разгледайте следния примерен масив (обърнете внимание на `dtype` за него):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Реалността на повишените типове данни носи със себе си два странични ефекта. Първо, операциите ще се изпълняват на нивото на интерпретиран Python код, а не на компилиран NumPy код. По същество това означава, че всякакви операции, включващи `Series` или `DataFrames`, които съдържат `None`, ще бъдат по-бавни. Макар че вероятно няма да забележите този спад в производителността, при големи набори от данни това може да се превърне в проблем.

Вторият страничен ефект произтича от първия. Тъй като `None` на практика връща `Series` или `DataFrame` обратно в света на стандартния Python, използването на агрегации от NumPy/pandas като `sum()` или `min()` върху масиви, които съдържат стойност ``None``, обикновено ще доведе до грешка:


In [10]:
example1.sum()

TypeError: ignored

**Основен извод**: Събирането (и други операции) между цели числа и стойности `None` е неопределено, което може да ограничи възможностите за работа с набори от данни, които ги съдържат.


### `NaN`: липсващи стойности с плаваща запетая

За разлика от `None`, NumPy (а следователно и pandas) поддържа `NaN` за своите бързи, векторизирани операции и ufuncs. Лошата новина е, че всяка аритметична операция, извършена върху `NaN`, винаги води до `NaN`. Например:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Добрата новина: агрегатите, изпълнявани върху масиви с `NaN` в тях, не предизвикват грешки. Лошата новина: резултатите не са еднакво полезни:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Упражнение:


In [11]:
# What happens if you add np.nan and None together?


Запомнете: `NaN` е само за липсващи стойности с плаваща запетая; няма еквивалент на `NaN` за цели числа, низове или булеви стойности.


### `NaN` и `None`: нулеви стойности в pandas

Въпреки че `NaN` и `None` могат да се държат малко различно, pandas е създаден така, че да ги обработва взаимозаменяемо. За да разберете какво имаме предвид, разгледайте един `Series` от цели числа:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Упражнение:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


В процеса на преобразуване на типове данни с цел установяване на хомогенност на данните в `Series` и `DataFrame`, pandas лесно превключва липсващите стойности между `None` и `NaN`. Поради тази особеност на дизайна, може да бъде полезно да мислим за `None` и `NaN` като два различни вида "null" в pandas. Всъщност, някои от основните методи, които ще използвате за работа с липсващи стойности в pandas, отразяват тази идея в своите имена:

- `isnull()`: Генерира булева маска, която показва липсващите стойности
- `notnull()`: Обратното на `isnull()`
- `dropna()`: Връща филтрирана версия на данните
- `fillna()`: Връща копие на данните с попълнени или импутирани липсващи стойности

Това са важни методи, които трябва да овладеете и да се чувствате комфортно с тях, затова нека ги разгледаме по-подробно.


### Откриване на null стойности

След като разбрахме значението на липсващите стойности, трябва да ги открием в нашия набор от данни, преди да се справим с тях. 
И двете функции `isnull()` и `notnull()` са основните методи за откриване на null данни. И двете връщат булеви маски върху вашите данни.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Вгледайте се внимателно в резултата. Има ли нещо, което ви изненадва? Макар че `0` е аритметичен нулев елемент, той все пак е напълно валидно цяло число и pandas го третира като такова. `''` е малко по-деликатен случай. Докато го използвахме в Раздел 1, за да представим стойност на празен низ, той все пак е обект от тип низ и не е представяне на null според pandas.

Сега, нека обърнем ситуацията и използваме тези методи по начин, който е по-близък до практическата им употреба. Можете да използвате булеви маски директно като индекс на ``Series`` или ``DataFrame``, което може да бъде полезно, когато се опитвате да работите с изолирани липсващи (или налични) стойности.

Ако искаме общия брой липсващи стойности, можем просто да направим сума върху маската, произведена от метода `isnull()`.


In [19]:
example3.isnull().sum()

2

### Упражнение:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Основен извод**: И двата метода `isnull()` и `notnull()` дават подобни резултати, когато ги използвате в DataFrames: те показват резултатите и индекса на тези резултати, което ще ви помогне значително, докато работите с вашите данни.


### Работа с липсващи данни

> **Цел на обучението:** До края на този подраздел трябва да знаете как и кога да заменяте или премахвате null стойности от DataFrames.

Моделите за машинно обучение не могат сами да се справят с липсващи данни. Затова, преди да подадем данните към модела, трябва да се справим с тези липсващи стойности.

Начинът, по който се обработват липсващите данни, носи със себе си фини компромиси и може да повлияе на крайния анализ и реалните резултати.

Има основно два начина за справяне с липсващи данни:

1.   Премахване на реда, съдържащ липсващата стойност
2.   Замяна на липсващата стойност с друга стойност

Ще обсъдим и двата метода, както и техните предимства и недостатъци в детайли.


### Премахване на празни стойности

Количеството данни, които предоставяме на нашия модел, има пряко влияние върху неговата производителност. Премахването на празни стойности означава, че намаляваме броя на точките с данни и съответно намаляваме размера на набора от данни. Затова е препоръчително да се премахват редове с празни стойности, когато наборът от данни е доста голям.

Друг случай може да бъде, когато определен ред или колона има много липсващи стойности. Тогава те могат да бъдат премахнати, защото няма да добавят голяма стойност към нашия анализ, тъй като повечето данни за този ред/колона липсват.

Освен идентифицирането на липсващи стойности, pandas предоставя удобен начин за премахване на празни стойности от `Series` и `DataFrame`. За да видим това в действие, нека се върнем към `example3`. Функцията `DataFrame.dropna()` помага за премахването на редовете с празни стойности.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Обърнете внимание, че това трябва да изглежда като вашия изход от `example3[example3.notnull()]`. Разликата тук е, че вместо просто да индексира маскираните стойности, `dropna` е премахнал тези липсващи стойности от `Series` `example3`.

Тъй като DataFrames имат две измерения, те предоставят повече опции за премахване на данни.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Забелязахте ли, че pandas преобразува две от колоните в числа с плаваща запетая, за да се справи с `NaN`?)

Не можете да премахнете единична стойност от `DataFrame`, така че трябва да премахнете цели редове или колони. В зависимост от това какво правите, може да искате да изберете едното или другото, и затова pandas ви предоставя опции за двете. Тъй като в науката за данни колоните обикновено представляват променливи, а редовете представляват наблюдения, по-вероятно е да премахнете редове от данни; стандартната настройка за `dropna()` е да премахне всички редове, които съдържат някакви празни стойности:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Ако е необходимо, можете да премахнете стойности NA от колоните. Използвайте `axis=1`, за да го направите:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Обърнете внимание, че това може да премахне много данни, които може да искате да запазите, особено при по-малки набори от данни. Ами ако искате да премахнете само редове или колони, които съдържат няколко или дори всички null стойности? Можете да зададете тези настройки в `dropna` с параметрите `how` и `thresh`.

По подразбиране, `how='any'` (ако искате да проверите сами или да видите какви други параметри има методът, изпълнете `example4.dropna?` в кодова клетка). Можете също така да зададете `how='all'`, за да премахнете само редове или колони, които съдържат всички null стойности. Нека разширим нашия примерен `DataFrame`, за да видим това в действие в следващото упражнение.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Основни моменти:
1. Премахването на празни стойности е добра идея само ако наборът от данни е достатъчно голям.
2. Цели редове или колони могат да бъдат премахнати, ако повечето от данните в тях липсват.
3. Методът `DataFrame.dropna(axis=)` помага за премахването на празни стойности. Аргументът `axis` указва дали да се премахват редове или колони.
4. Аргументът `how` също може да се използва. По подразбиране е зададен на `any`. Така се премахват само тези редове/колони, които съдържат някакви празни стойности. Може да бъде зададен на `all`, за да се уточни, че ще премахваме само тези редове/колони, където всички стойности са празни.


### Упражнение:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Параметърът `thresh` ви дава по-прецизен контрол: задавате броя на *ненулевите* стойности, които ред или колона трябва да имат, за да бъдат запазени:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Тук първият и последният ред са премахнати, защото съдържат само две ненулеви стойности.


### Попълване на липсващи стойности

Понякога има смисъл да се попълнят липсващите стойности с такива, които биха могли да бъдат валидни. Съществуват няколко техники за попълване на null стойности. Първата е използването на Домейн Знания (знания за темата, върху която е базиран набора от данни), за да се направи приблизителна оценка на липсващите стойности.

Можете да използвате `isnull`, за да направите това директно, но това може да бъде трудоемко, особено ако имате много стойности за попълване. Тъй като това е толкова често срещана задача в анализа на данни, pandas предоставя `fillna`, който връща копие на `Series` или `DataFrame` с липсващите стойности, заменени с избрани от вас. Нека създадем друг пример за `Series`, за да видим как това работи на практика.


### Категорични данни (Ненумерични)
Първо нека разгледаме ненумерични данни. В наборите от данни имаме колони с категорични данни, например Пол, Вярно или Невярно и т.н.

В повечето от тези случаи заменяме липсващите стойности с `мода` на колоната. Да кажем, че имаме 100 точки данни, като 90 са посочили Вярно, 8 са посочили Невярно, а 2 не са попълнени. Тогава можем да попълним тези 2 с Вярно, като разгледаме цялата колона.

Отново, тук можем да използваме знания за конкретната област. Нека разгледаме пример за попълване с модата.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


Сега, нека първо намерим модата, преди да запълним стойността `None` с модата.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

И така, ще заменим None с True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Както виждаме, нулевата стойност е заменена. Без съмнение, можехме да напишем каквото и да е вместо `'True'` и то щеше да бъде заместено.


### Числови данни
Сега, нека разгледаме числовите данни. Тук имаме два често срещани начина за заместване на липсващи стойности:

1. Замяна с медианата на реда
2. Замяна със средната стойност на реда

Заместваме с медианата, когато данните са изкривени и съдържат отклонения. Това е така, защото медианата е устойчива на отклонения.

Когато данните са нормализирани, можем да използваме средната стойност, тъй като в този случай средната стойност и медианата ще бъдат доста близки.

Първо, нека вземем колона, която е нормално разпределена, и да запълним липсващите стойности със средната стойност на колоната.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Средната стойност на колоната е


In [33]:
np.mean(fill_with_mean[0])

0.0

Попълване със средна стойност


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Както виждаме, липсващата стойност е заменена със средната й стойност.


Сега нека опитаме друг dataframe, и този път ще заменим стойностите None със средната стойност на колоната.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Медианата на втората колона е


In [36]:
fill_with_median[1].median()

4.0

Запълване с медиана


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Както виждаме, стойността NaN е заменена с медианата на колоната


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Можете да попълните всички празни записи с една стойност, например `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Основни изводи:
1. Попълването на липсващи стойности трябва да се извършва, когато има малко данни или когато има стратегия за попълване на липсващите данни.
2. Домейн знанията могат да се използват за попълване на липсващи стойности чрез тяхното приблизително изчисляване.
3. При категорийни данни липсващите стойности най-често се заменят с модата на колоната.
4. При числови данни липсващите стойности обикновено се попълват със средната стойност (за нормализирани набори от данни) или с медианата на колоните.


### Упражнение:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Можете да **запълните напред** null стойностите, като използвате последната валидна стойност за запълване на null:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Можете също така **да попълните назад**, за да разпространите следващата валидна стойност назад и да запълните null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Както може би се досещате, това работи по същия начин с DataFrames, но можете също така да зададете `axis`, по който да запълвате null стойности:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Имайте предвид, че когато предишна стойност не е налична за попълване напред, нулевата стойност остава.


### Упражнение:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Можете да бъдете креативни относно начина, по който използвате `fillna`. Например, нека отново разгледаме `example4`, но този път да запълним липсващите стойности със средната стойност на всички стойности в `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Забележете, че колонка 3 все още е без стойности: стандартната посока е да се попълват стойности по редове.

> **Основен извод:** Има множество начини за справяне с липсващи стойности в вашите набори от данни. Конкретната стратегия, която използвате (премахване, заместване или дори как точно да ги замените), трябва да бъде продиктувана от спецификата на тези данни. Ще развиете по-добро усещане за справяне с липсващи стойности, колкото повече работите и взаимодействате с набори от данни.


### Кодиране на категорийни данни

Моделите за машинно обучение работят само с числа и всякакъв вид числови данни. Те не могат да различат "Да" от "Не", но могат да разграничат 0 от 1. Затова, след като попълним липсващите стойности, трябва да кодираме категорийните данни в някаква числова форма, за да може моделът да ги разбере.

Кодирането може да се извърши по два начина. Ще ги разгледаме по-нататък.


**КОДИРАНЕ НА ЕТИКЕТИ**

Кодирането на етикети представлява преобразуване на всяка категория в число. Например, да предположим, че имаме набор от данни за пътници на авиолинии и има колона, съдържаща техния клас сред следните ['бизнес клас', 'икономичен клас', 'първа класа']. Ако се извърши кодиране на етикети, това ще бъде преобразувано в [0,1,2]. Нека видим пример чрез код. Тъй като ще изучаваме `scikit-learn` в следващите тетрадки, няма да го използваме тук.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


За да извършим кодиране на етикети на първата колона, първо трябва да опишем съответствие от всеки клас към число, преди да заменим.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Както виждаме, резултатът съответства на това, което очаквахме. И така, кога използваме кодиране на етикети? Кодирането на етикети се използва в един или и двата от следните случаи:
1. Когато броят на категориите е голям
2. Когато категориите са подредени.


**ONE HOT ENCODING**

Друг вид кодиране е One Hot Encoding. При този тип кодиране всяка категория от колоната се добавя като отделна колона, а всяка точка от данните получава стойност 0 или 1 в зависимост от това дали съдържа съответната категория. Така че, ако има n различни категории, към таблицата ще бъдат добавени n колони.

Например, нека вземем същия пример с класовете на самолетите. Категориите бяха: ['business class', 'economy class', 'first class']. Ако извършим One Hot Encoding, към набора от данни ще бъдат добавени следните три колони: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Нека извършим еднократно кодиране на първата колона


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Всеки еднократно кодиращ колон съдържа 0 или 1, което указва дали тази категория съществува за дадената точка от данни.


Кога използваме one hot encoding? One hot encoding се използва в един или и в двата от следните случаи:

1. Когато броят на категориите и размерът на набора от данни са малки.
2. Когато категориите не следват определен ред.


> Основни моменти:
1. Кодирането се извършва, за да се преобразуват ненумерични данни в числови данни.
2. Съществуват два вида кодиране: кодиране с етикети и One Hot кодиране, като и двете могат да се изпълняват според изискванията на набора от данни.


## Премахване на дублирани данни

> **Цел на обучението:** До края на този подраздел трябва да сте уверени в идентифицирането и премахването на дублирани стойности от DataFrames.

Освен липсващи данни, често ще срещате дублирани данни в реални набори от данни. За щастие, pandas предоставя лесен начин за откриване и премахване на дублирани записи.


### Идентифициране на дубликати: `duplicated`

Можете лесно да откриете дублирани стойности, използвайки метода `duplicated` в pandas, който връща булева маска, указваща дали даден запис в `DataFrame` е дубликат на по-ранен. Нека създадем още един примерен `DataFrame`, за да видим това в действие.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Премахване на дубликати: `drop_duplicates`
`drop_duplicates` просто връща копие на данните, за които всички стойности, маркирани като `duplicated`, са `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


И `duplicated`, и `drop_duplicates` по подразбиране разглеждат всички колони, но можете да посочите да проверяват само подмножество от колони във вашия `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **Извод:** Премахването на дублирани данни е съществена част от почти всеки проект в областта на науката за данни. Дублираните данни могат да променят резултатите от вашите анализи и да ви дадат неточни резултати!


## Проверки за качество на данни в реалния свят

> **Цел на обучението:** До края на този раздел трябва да сте уверени в откриването и коригирането на често срещани проблеми с качеството на данни в реалния свят, включително несъответстващи категорийни стойности, необичайни числови стойности (отклонения) и дублирани записи с вариации.

Докато липсващите стойности и точните дубликати са често срещани проблеми, наборите от данни в реалния свят често съдържат по-фини проблеми:

1. **Несъответстващи категорийни стойности**: Една и съща категория, изписана по различен начин (напр. "USA", "U.S.A", "United States")
2. **Необичайни числови стойности**: Екстремни отклонения, които показват грешки при въвеждане на данни (напр. възраст = 999)
3. **Близки дубликати**: Записи, които представляват едно и също лице или обект с леки вариации

Нека разгледаме техники за откриване и справяне с тези проблеми.


### Създаване на примерен "замърсен" набор от данни

Първо, нека създадем примерен набор от данни, който съдържа типовете проблеми, с които често се сблъскваме в реални данни:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. Откриване на несъответстващи категорийни стойности

Забележете, че колоната `country` има множество представяния за едни и същи държави. Нека идентифицираме тези несъответствия:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### Стандартизиране на категорийни стойности

Можем да създадем карта за стандартизиране на тези стойности. Един прост подход е да ги преобразуваме в малки букви и да създадем речник за картографиране:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**Алтернатива: Използване на размито съвпадение**

За по-сложни случаи можем да използваме размито съвпадение на низове с библиотеката `rapidfuzz`, за да откриваме автоматично подобни низове:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. Откриване на необичайни числови стойности (отклонения)

Разглеждайки колоната `age`, имаме някои подозрителни стойности като 199 и -5. Нека използваме статистически методи, за да открием тези отклонения.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### Използване на метода IQR (Интерквартилен обхват)

Методът IQR е надежден статистически подход за откриване на отклонения, който е по-малко чувствителен към екстремни стойности:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Използване на метода Z-Score

Методът Z-Score идентифицира отклонения въз основа на стандартни отклонения от средната стойност:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### Работа с отклонения

След като бъдат открити, отклоненията могат да бъдат обработени по няколко начина:
1. **Премахване**: Изтриване на редове с отклонения (ако са грешки)
2. **Ограничаване**: Замяна с гранични стойности
3. **Замяна с NaN**: Третиране като липсващи данни и използване на техники за импутация
4. **Запазване**: Ако са легитимни екстремни стойности


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. Откриване на почти идентични редове

Забележете, че нашият набор от данни има множество записи за "John Smith" с леко различни стойности. Нека идентифицираме потенциални дубликати въз основа на сходство на имената.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### Откриване на близки дубликати с размито съвпадение

За по-усъвършенствано откриване на дубликати можем да използваме размито съвпадение, за да намерим подобни имена:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### Работа с дубликати

След като бъдат идентифицирани, трябва да решите как да се справите с дубликатите:
1. **Запазване на първото срещане**: Използвайте `drop_duplicates(keep='first')`
2. **Запазване на последното срещане**: Използвайте `drop_duplicates(keep='last')`
3. **Агрегиране на информация**: Комбинирайте информацията от дублиращите се редове
4. **Ръчен преглед**: Отбележете за преглед от човек


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### Резюме: Пълна система за почистване на данни

Нека съберем всичко в една цялостна система за почистване на данни:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 Упражнение за предизвикателство

Сега е ваш ред! По-долу има нов ред данни с множество проблеми с качеството. Можете ли:

1. Да идентифицирате всички проблеми в този ред
2. Да напишете код за коригиране на всеки проблем
3. Да добавите почистения ред към набора от данни

Ето проблемните данни:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### Основни изводи

1. **Несъответстващи категории** са често срещани в реалните данни. Винаги проверявайте уникалните стойности и ги стандартизирайте чрез съответствия или размито съвпадение.

2. **Аномалии** могат значително да повлияят на анализа ви. Използвайте знания за конкретната област, комбинирани със статистически методи (IQR, Z-score), за да ги откриете.

3. **Близки дубликати** са по-трудни за откриване от точните дубликати. Помислете за използване на размито съвпадение и нормализиране на данните (преобразуване в малки букви, премахване на празни пространства), за да ги идентифицирате.

4. **Почистването на данни е итеративен процес**. Може да се наложи да приложите множество техники и да прегледате резултатите, преди да финализирате почистения набор от данни.

5. **Документирайте решенията си**. Проследявайте какви стъпки за почистване сте приложили и защо, тъй като това е важно за възпроизводимостта и прозрачността.

> **Най-добра практика:** Винаги запазвайте копие на оригиналните "замърсени" данни. Никога не презаписвайте изходните файлове с данни - създавайте почистени версии с ясни конвенции за именуване, като `data_cleaned.csv`.



---

**Отказ от отговорност**:  
Този документ е преведен с помощта на AI услуга за превод [Co-op Translator](https://github.com/Azure/co-op-translator). Въпреки че се стремим към точност, моля, имайте предвид, че автоматизираните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Ние не носим отговорност за недоразумения или погрешни интерпретации, произтичащи от използването на този превод.
