In [2]:
import numpy as np
import pandas as pd

In [3]:
### Data Transformation

In [15]:
###### Отстраняване на дублираните редове
dframe = pd.DataFrame({ 'color': ['white','white','red','red','white'], 'value': [2,1,3,3,2]})
dframe

dframe.duplicated() # Series of Booleans: False - не се дублира, True - дублира се от предишен ред
dframe[dframe.duplicated()] # показва кои редове се дублират
dframe.drop_duplicates() # показва DaFr без дублираните редове. НЕ модифицира таблицата!

Unnamed: 0,color,value
0,white,2
1,white,1
2,red,3


In [42]:
##### Mapping. Създаване на съответствия. Трите функции приемат като аргумент dictionary

# Промяна на стойност на дадена клетка чрез replace()
frame = pd.DataFrame({ 'item':['ball','mug','pen','pencil','ashtray'], 'color':['white','rosso','verde','black','yellow'],
                      'price':[5.56,4.20,1.30,0.56,2.75]}) # два от цветовете не са на английски
#newcolors = {'rosso': 'red','verde': 'green'} # трябва да направим речник стойност:съответствие
#frame.replace(newcolors) # вече можем да заместим стойностите със съответствията. НЕ модифицира таблицата!

ser = pd.Series([1,3,np.nan,4,6,np.nan,3]) # ако искаме да заместим само една стойност с нещо друго
ser.replace(np.nan,0) 

# Създаване на нова колона чрез map()
fra = pd.DataFrame({ 'item':['ball','mug','pen','pencil','ashtray'],'color':['white','red','green','black','yellow']})
price = {'ball' : 5.56,'mug' : 4.20,'bottle' : 1.30,'scissors' : 3.41,'pen' : 1.30,'pencil' : 0.56,'ashtray' : 2.75} 
# речник с price:item, дори ако даден item го няма в таблицата
fra['price'] = fra['item'].map(price) # добавяме нова колона с цената. МОДИФИЦИРА таблицата
fra

# Промяна на индекси и колони чрез rename()
reindex = {0: 'first',1: 'second',2: 'third',3: 'fourth',4: 'fifth'} # речник стар индекс:нов индекс; използваме горната таблица
fra.rename(reindex) # показва таблица. НЕ модифицира таблицата
recolumn = {'item':'object','price': 'value'} # може да сменим имената на колоните
#fra.rename(columns=recolumn) # променяма само колоните
fra.rename(index=reindex,columns=recolumn) # променяма редовете и колоните
#fra.rename(index={1:'first'}, columns={'item':'object'}) # ако искаме да променим само един индекс и/или колона
#fra.rename(columns={'item':'object'}, inplace=True) # ако искаме промените да се запазят. МОДИФИЦИРА таблицата!

Unnamed: 0,item,color,price
0,ball,white,5.56
1,mug,red,4.2
2,pen,green,1.3
3,pencil,black,0.56
4,ashtray,yellow,2.75


In [82]:
####### Discretization and Binning. Разпределяне на много данни в по-малко на брой групи(bins)

results = [12,34,67,55,28,90,99,12,3,56,74,44,87,23,49,89,87,99,6,43,24,10,4,18] # list с много данни от 0 до 100
bins = [0,25,50,75,100] # ще ги разпределим в тези четири групи, дадени като списък
cat = pd.cut(results, bins) # специален обект от вид Categorical;
pd.value_counts(cat) # това вече е полезно: counts в отделните категории

bin_names = ['unlikely','less likely','likely','highly likely'] # можем да именуваме отделните bins като първо направим списък
pd.cut(results, bins, labels=bin_names) # след това извикваме cut() със съответните аргументи
pd.value_counts(pd.cut(results, bins, labels=bin_names)) # counts в отделните категории

pd.cut(results, 4) # ако на cut() дадем integer вместо bin, то обхватът (!) на данните ще се раздели на толкова равни части
pd.value_counts(pd.cut(results, 4))

quin = pd.qcut(results,3) # mоже да разделим на части, в които counts са едни и същи, но границите в общия случай варират
quin # в qcut() тези части може да са произволен брой: 3,4,5 и т.н. 
pd.value_counts(quin)#

(59.667, 99.0]      8
(23.667, 59.667]    8
(2.999, 23.667]     8
dtype: int64

In [95]:
###### Detecting and Filtering Outliers

randframe = pd.DataFrame(np.random.randn(1000,3)) # 
randframe.describe() # показва статистиката на всяка колона; колоните са с имена by default: 0, 1, 2
randframe.std() # ще потърсим дали има стйности, отдалечени на повече от 3 std от нулата
randframe[(np.abs(randframe) > (3*randframe.std())).any(1)] # чрез any(1) прилагаме филтрирането върху всяка колона

Unnamed: 0,0,1,2
154,-3.984554,-0.454385,0.86573
185,0.344182,3.57733,1.024214
189,-0.573285,-3.159015,1.175266
293,1.65773,-0.638622,-3.825313
358,0.512332,3.227593,1.233048
458,-3.180439,-2.447506,0.305432
632,3.14037,-0.603767,0.775779
807,3.351611,-2.368304,-0.507264
960,-1.326612,0.015607,3.764275


In [120]:
##### Permutation (random reordering) and Random Sampling
nframe = pd.DataFrame(np.arange(35).reshape(7,5))
nframe

new_order = np.random.permutation(5) # числа от 0 до 4, в произволно подреждане
new_order
nframe.take(new_order) # редовете се преподреждат в съответствие с горната пермутация

new_ord = [0,4,2] # може да се зададе с list
nframe.take(new_ord) # само част от редовете ще претърпят пермутация

# Random Sampling
sample = np.random.randint(0, len(nframe), size=3) # Array произволна извадка with replacement от три елемента
sample # може да съдържа
nframe.take(sample) #

Unnamed: 0,0,1,2,3,4
2,10,11,12,13,14
2,10,11,12,13,14
5,25,26,27,28,29
