## Дедуплициране на данни с Pandas 

За тази демонстрация ще използваме генерираните от нас по-рано неистински данни, които записахме във файла `over_a_hundred_thousand.csv`. Как точно генерирахме тестовите записи може да прочетете [тук](./pandas_deduplication_1.ipynb).

### Внасяне и преглед на изходните данни


Започваме с импортиране на `pandas` в работното пространство. 

In [10]:
import pandas as pd

Pandas включва две основни структури от данни, върху които стъпват многобройните методи и случаи на употреба на библиотеката: `pandas.Series` (едноизмерна) и `pandas.DataFrame` (двуизмерна). Тъй като работим с таблични данни, в случая използваме `DataFrame`.

За да прочетем данни от текстови файлове в pandas, използваме метода `pandas.read_csv()` ( [Документация](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) ). Този метод може да се използва за импорт на всякакви текстови формати, където стойностите са разделени със символ (запетая, точка и запетая, и пр.). Понеже записахме примерните данни с разделител `|`, ще се наложи да използваме и един от многобройните параметри, които са налични за прецизен контрол на внесените данни: `delimiter`. 

След като файлът е прочетен във фрейма `df`, можем да видим размерите на таблицата (брой редове, брой колони) като използваме `shape` свойството му:

In [11]:
df = pd.read_csv("dataset_with_duplicates.csv", delimiter="|")
df.shape

(109101, 7)

Структурите данни на pandas притежават методите `head(n)` и `tail(n)`, с които можем да видим `n` брой редове от съответно началото или края на структурата. Нека изобразим ред от нашия нов фрейм, за да се уверим, че данните са правилно внесени.

In [12]:
df.head(1)

Unnamed: 0,name,sex,birthdate,username,address,SSN,mail
0,Sheri Lopez,F,01-05-1979,pgarcia,"191 Bean Parkway Princeborough, NH 15235",381-76-3124,lmorris@jarvis-oneal.com


In [18]:
df.duplicated().any()

True

In [23]:
df.duplicated(subset=["name", "birthdate"]).any()

True

In [15]:
duplicate_records = df[df.duplicated(keep=False)]  # can keep 'first', 'last', or all.
len(duplicate_records)

200

In [17]:
duplicate_records.sort_values(by=["name", "birthdate"]).head(6)

Unnamed: 0,name,sex,birthdate,username,address,SSN,mail
42310,Aaron Wiggins,F,22-07-1990,curtistucker,USCGC Sawyer FPO AE 76145,117-35-7508,stricklandamber@parker.com
72463,Aaron Wiggins,F,22-07-1990,curtistucker,USCGC Sawyer FPO AE 76145,117-35-7508,stricklandamber@parker.com
60408,Aaron Wood,M,13-12-1975,loganerica,"3152 Rebecca Circles Brandonville, ME 06536",391-56-9591,cjones@hotmail.com
92458,Aaron Wood,M,13-12-1975,loganerica,"3152 Rebecca Circles Brandonville, ME 06536",391-56-9591,cjones@hotmail.com
12628,Alexandria Lopez,F,05-07-1982,aaron29,"6914 Little Highway Apt. 004 Scotttown, NY 94890",002-90-2021,daviserica@yahoo.com
107692,Alexandria Lopez,F,05-07-1982,aaron29,"6914 Little Highway Apt. 004 Scotttown, NY 94890",002-90-2021,daviserica@yahoo.com
