<a href="https://colab.research.google.com/github/NinaNikolova/data_mining/blob/main/03_Pandas_Data_Cleaning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data Cleaning - Този код показва процеса на почистване, обработка и трансформация на данни с помощта на pandas и NumPy

In [1]:
import numpy as np
import pandas as pd

In [2]:
a = [ ['Kristina', 164, 'female', '9307060000'],
     ['Mariya', None, 'female', '9001010000'],
     ['Darina', 158, None, '9810110000'],
     ['Elica', 168, 'female', '9904030000'],
     ['Valentin', '184', 'male', '9305110000'],
     ['Ivan', 170, 'male', '9305110000'],
     ['Kaloyan', 180, 'male', '96020100001'],
     ['Atanas', 170, 'Male', '9905170000'],
     ['Ivan', 170, 'male', '9305110000'],
    ]
df = pd.DataFrame(a, columns = ['Name', 'Height', 'Gender', 'EGN']) # Кодът създава DataFrame с данни за хора
df

Unnamed: 0,Name,Height,Gender,EGN
0,Kristina,164.0,female,9307060000
1,Mariya,,female,9001010000
2,Darina,158.0,,9810110000
3,Elica,168.0,female,9904030000
4,Valentin,184.0,male,9305110000
5,Ivan,170.0,male,9305110000
6,Kaloyan,180.0,male,96020100001
7,Atanas,170.0,Male,9905170000
8,Ivan,170.0,male,9305110000


#### Намиране и коригиране на грешни данни
🔹 Невалидни ЕГН

In [3]:
df[df['EGN'].str.len()!=10].index # Проверява дали ЕГН е дълъг 10 символа

Index([6], dtype='int64')

In [4]:
df.at[6, 'EGN'] = df.at[6, 'EGN'][:10] # Коригира грешен ЕГН чрез отрязване на първите 10 символа
df

Unnamed: 0,Name,Height,Gender,EGN
0,Kristina,164.0,female,9307060000
1,Mariya,,female,9001010000
2,Darina,158.0,,9810110000
3,Elica,168.0,female,9904030000
4,Valentin,184.0,male,9305110000
5,Ivan,170.0,male,9305110000
6,Kaloyan,180.0,male,9602010000
7,Atanas,170.0,Male,9905170000
8,Ivan,170.0,male,9305110000


#### Дублирани стойности

In [5]:
df[df.duplicated()] # Намира дублирани редове

Unnamed: 0,Name,Height,Gender,EGN
8,Ivan,170,male,9305110000


In [6]:
df[df.duplicated(['EGN', 'Name'], keep=False)] # Намира дублирани ЕГН + Име

Unnamed: 0,Name,Height,Gender,EGN
5,Ivan,170,male,9305110000
8,Ivan,170,male,9305110000


In [7]:
df.drop_duplicates(subset='EGN', keep="last", inplace=True) # Премахва дублиращи се редове по ЕГН, като запазва последния запис
# df = df.drop_duplicates(subset='EGN', keep="last")
df

Unnamed: 0,Name,Height,Gender,EGN
0,Kristina,164.0,female,9307060000
1,Mariya,,female,9001010000
2,Darina,158.0,,9810110000
3,Elica,168.0,female,9904030000
6,Kaloyan,180.0,male,9602010000
7,Atanas,170.0,Male,9905170000
8,Ivan,170.0,male,9305110000


- inplace=True, промените се прилагат директно върху обекта, без да се връща нова променена версия.

#### Извличане допълнителна информация

In [8]:
df.columns

Index(['Name', 'Height', 'Gender', 'EGN'], dtype='object')

In [9]:
df['Year'] = pd.to_numeric(df['EGN'].str[:2]) # взема първите два знака от всеки низ в колоната "EGN" ; конвертира извлечените низове в числови стойности
df

Unnamed: 0,Name,Height,Gender,EGN,Year
0,Kristina,164.0,female,9307060000,93
1,Mariya,,female,9001010000,90
2,Darina,158.0,,9810110000,98
3,Elica,168.0,female,9904030000,99
6,Kaloyan,180.0,male,9602010000,96
7,Atanas,170.0,Male,9905170000,99
8,Ivan,170.0,male,9305110000,93


За да игнорирате по-горния warning изпълнете:
``` Python
import pandas as pd
pd.options.mode.chained_assignment = None  # default='warn'
```

####  Работа с липсващи данни

In [10]:
print(df.isnull()) # Проверка за липсващи стойности

    Name  Height  Gender    EGN   Year
0  False   False   False  False  False
1  False    True   False  False  False
2  False   False    True  False  False
3  False   False   False  False  False
6  False   False   False  False  False
7  False   False   False  False  False
8  False   False   False  False  False


In [11]:
df.dropna() # Изтрива редове с липсващи стойности

Unnamed: 0,Name,Height,Gender,EGN,Year
0,Kristina,164,female,9307060000,93
3,Elica,168,female,9904030000,99
6,Kaloyan,180,male,9602010000,96
7,Atanas,170,Male,9905170000,99
8,Ivan,170,male,9305110000,93


In [12]:
df

Unnamed: 0,Name,Height,Gender,EGN,Year
0,Kristina,164.0,female,9307060000,93
1,Mariya,,female,9001010000,90
2,Darina,158.0,,9810110000,98
3,Elica,168.0,female,9904030000,99
6,Kaloyan,180.0,male,9602010000,96
7,Atanas,170.0,Male,9905170000,99
8,Ivan,170.0,male,9305110000,93


Какво правим ако искаме да запазим примери/инастанции?

Запълване на липсващи стойности (например височина)

In [13]:
# Попълва празните стойности със средната стойност за съответния пол
df['Height'].mean()

np.float64(168.33333333333334)

In [14]:
mean_height_male = df[df['Gender']=='male']['Height'].mean()
mean_height_male

np.float64(175.0)

In [15]:
mean_height_female = df[df['Gender']=='female']['Height'].mean()
mean_height_female

np.float64(166.0)

In [16]:
df.iloc[4,0] # използва достъп чрез индексиране по позиция
# df.iloc[0, 0]

'Kaloyan'

In [17]:
df.at[0,'Height'] = None # Изразът df.at[0, 'Height'] = None означава, че задаваме None (липсваща стойност) в колоната 'Height' за реда с индекс 0.

In [18]:
df.at[4,'Height'] = None

In [19]:
df

Unnamed: 0,Name,Height,Gender,EGN,Year
0,Kristina,,female,9307060000.0,93.0
1,Mariya,,female,9001010000.0,90.0
2,Darina,158.0,,9810110000.0,98.0
3,Elica,168.0,female,9904030000.0,99.0
6,Kaloyan,180.0,male,9602010000.0,96.0
7,Atanas,170.0,Male,9905170000.0,99.0
8,Ivan,170.0,male,9305110000.0,93.0
4,,,,,


In [20]:
df.drop(4, inplace=True) # изтрива реда с индекс 4 от df.

In [21]:
fh = df.loc[(df['Gender']=='female') & (df['Height'].isnull()), 'Height'] # Този израз извлича всички липсващи (NaN) стойности от колоната 'Height', но само за жените в df.
fh

Unnamed: 0,Height
0,
1,


In [22]:
df.loc[(df['Gender']=='female') & (df['Height'].isnull()), 'Height'] = mean_height_female # задава стойност на липсващите стойности в колоната 'Height' за редовете, в които полът е женски и височината е липсваща-заменя с средната стойност на височината за жените.

In [23]:
fh[0] = 5 # тойността на първия елемент (на индекс 0) в структурата fh (например списък) се променя на 5.

In [24]:
print(fh[1])

None


In [25]:
fh

Unnamed: 0,Height
0,5.0
1,


In [26]:
df.at[0,'Height'] = None
df.at[1,'Height'] = None

In [27]:
df

Unnamed: 0,Name,Height,Gender,EGN,Year
0,Kristina,,female,9307060000,93.0
1,Mariya,,female,9001010000,90.0
2,Darina,158.0,,9810110000,98.0
3,Elica,168.0,female,9904030000,99.0
6,Kaloyan,180.0,male,9602010000,96.0
7,Atanas,170.0,Male,9905170000,99.0
8,Ivan,170.0,male,9305110000,93.0


In [28]:
df.dtypes # показва типовете данни на всяка колона в DataFrame-а df

Unnamed: 0,0
Name,object
Height,object
Gender,object
EGN,object
Year,float64


In [29]:
df['Height'] = df['Height'].astype(float)
df.dtypes

Unnamed: 0,0
Name,object
Height,float64
Gender,object
EGN,object
Year,float64


In [30]:
df['Height'] = pd.to_numeric(df['Height'])
df.dtypes

Unnamed: 0,0
Name,object
Height,float64
Gender,object
EGN,object
Year,float64


In [31]:
df

Unnamed: 0,Name,Height,Gender,EGN,Year
0,Kristina,,female,9307060000,93.0
1,Mariya,,female,9001010000,90.0
2,Darina,158.0,,9810110000,98.0
3,Elica,168.0,female,9904030000,99.0
6,Kaloyan,180.0,male,9602010000,96.0
7,Atanas,170.0,Male,9905170000,99.0
8,Ivan,170.0,male,9305110000,93.0


In [32]:
df.dropna(inplace=True)
df

Unnamed: 0,Name,Height,Gender,EGN,Year
3,Elica,168.0,female,9904030000,99.0
6,Kaloyan,180.0,male,9602010000,96.0
7,Atanas,170.0,Male,9905170000,99.0
8,Ivan,170.0,male,9305110000,93.0


#### Irrelevant information

In [33]:
df = df.drop('Name', axis=1)
df

Unnamed: 0,Height,Gender,EGN,Year
3,168.0,female,9904030000,99.0
6,180.0,male,9602010000,96.0
7,170.0,Male,9905170000,99.0
8,170.0,male,9305110000,93.0


##### Какво правим ако искаме да изтрием ред?

In [34]:
df.drop(3,axis=0) # изтрива реда с етикет (индекс) 3 от DataFrame-а df. Аргументът axis=0 указва, че операцията се извършва по редовете - ако беше axis=1, щеше да се изтрива колона

Unnamed: 0,Height,Gender,EGN,Year
6,180.0,male,9602010000,96.0
7,170.0,Male,9905170000,99.0
8,170.0,male,9305110000,93.0


In [35]:
df

Unnamed: 0,Height,Gender,EGN,Year
3,168.0,female,9904030000,99.0
6,180.0,male,9602010000,96.0
7,170.0,Male,9905170000,99.0
8,170.0,male,9305110000,93.0


#### Мащабиране (Scaling) и Нормализиране (Normalization) са техники за предварителна обработка на данни, които се използват за подобряване на ефективността на алгоритмите за машинно обучение
-Мащабиране (Scaling) - Преобразуването на данните така, че те да попаднат в определен диапазон. Най-често използваните техники са:

--Min-Max Scaling: Променя стойностите, така че да попаднат в интервала [0, 1] или друг избран диапазон.

--Standardization (Z-score Scaling): Преобразува данните така, че да имат средна стойност 0 и стандартно отклонение 1.
-Нормализиране (Normalization)- Преобразуване на данните така, че да се променят пропорциите им спрямо някаква норма. Една от популярните техники е:

-L2 нормализация: Всеки ред от данните се преобразува така, че нормата му (например евклидовата норма) да стане 1.

-Извлича относителната важност на различни характеристики, особено при работа с данни, където редовете имат различна дължина или мащаб, и спомага за стабилността на алгоритмите, които разчитат на разстояния.

Min-Max Normalization

In [36]:
df['NormalizedHeight']=(df['Height']-df['Height'].min())/(df['Height'].max()-df['Height'].min())
df

Unnamed: 0,Height,Gender,EGN,Year,NormalizedHeight
3,168.0,female,9904030000,99.0,0.0
6,180.0,male,9602010000,96.0,1.0
7,170.0,Male,9905170000,99.0,0.166667
8,170.0,male,9305110000,93.0,0.166667


What about "_Mean Normalization (Z-Score)_"?

In [37]:
# Normalize the 'Height' using "Mean Normalization".
df['HeightZScore'] = (df['Height']-df['Height'].mean())/df['Height'].std()
df

Unnamed: 0,Height,Gender,EGN,Year,NormalizedHeight,HeightZScore
3,168.0,female,9904030000,99.0,0.0,-0.738549
6,180.0,male,9602010000,96.0,1.0,1.477098
7,170.0,Male,9905170000,99.0,0.166667,-0.369274
8,170.0,male,9305110000,93.0,0.166667,-0.369274


##### Min-max normalization Методът min-max нормализация преобразува всички характеристики така, че да попаднат в точно определен диапазон (обикновено [0, 1]). Това гарантира еднаква скала за всички, но има недостатък – изключителните стойности (outliers) могат силно да изкривят разпределението, защото крайният диапазон се определя от тях.

##### От друга страна, Z-score нормализация (или стандартизация) изважда средната стойност и дели на стандартното отклонение, което позволява на този метод да се справя по-добре с изключителни стойности. Въпреки това, Z-score нормализацията не гарантира, че характеристиките ще имат абсолютно еднаква скала, тъй като резултатните стойности могат да варират и не са ограничени в определен диапазон, както при min-max нормализацията.

#### Проверка enum стойности

In [38]:
print(df['Gender'].value_counts())

Gender
male      2
female    1
Male      1
Name: count, dtype: int64


In [39]:
df['Gender'] = df['Gender'].str.lower() # взема колоната "Gender" от DataFrame-а df и преобразува всички низове в нея към малки букви.
print(df['Gender'].value_counts()) # отпечатва броя на уникалните стойности в колоната

Gender
male      3
female    1
Name: count, dtype: int64


#### Категориални данни - представляват тип данни, които се групират в различни категории или класове, вместо да представляват количествени стойности. Те могат да бъдат номинални или наредени:

###### Номинални данни: Данните са разделени на категории, които нямат вътрешен ред. Примери включват пол ("мъж", "жена"), видове цветове или градове.

###### Наредени данни (Ordinal): Данните имат вътрешен ред, като например оценки ("добър", "по-добър", "отличен") или степен на удовлетвореност. Въпреки това, разликата между категориите не е задължително равномерна.

###### Характеристики на категориалните данни:
Номиналност: Данните са представени чрез имена или етикети, без математическа стойност; Групиране: Често се използват за групиране и категоризиране на наблюденията, което позволява по-лесен анализ и визуализация; Представяне:
Могат да се кодират чрез техники като one-hot encoding при работа с алгоритми за машинно обучение; Категориалните данни са от съществено значение при анализа на данни, тъй като те помагат да се разберат различните групи и тяхното разпределение в набор от данни.

In [40]:
df

Unnamed: 0,Height,Gender,EGN,Year,NormalizedHeight,HeightZScore
3,168.0,female,9904030000,99.0,0.0,-0.738549
6,180.0,male,9602010000,96.0,1.0,1.477098
7,170.0,male,9905170000,99.0,0.166667,-0.369274
8,170.0,male,9305110000,93.0,0.166667,-0.369274


In [41]:
df = pd.concat([df.drop('Gender', axis=1), pd.get_dummies(df['Gender'])], axis=1) # Премахване на колоната "Gender" - axis=1 показва, че става дума за колона; Създаване на dummy променливи - като за всяка уникална стойност се създава отделна колона с бинарни стойности (0 или 1).
df # pd.concat([...], axis=1) обединява двата DataFrame-а хоризонтално, така че новият DataFrame df съдържа всички оригинални колони (без "Gender") и добавените dummy колони за "Gender".

Unnamed: 0,Height,EGN,Year,NormalizedHeight,HeightZScore,female,male
3,168.0,9904030000,99.0,0.0,-0.738549,True,False
6,180.0,9602010000,96.0,1.0,1.477098,False,True
7,170.0,9905170000,99.0,0.166667,-0.369274,False,True
8,170.0,9305110000,93.0,0.166667,-0.369274,False,True


#### Тип данни

In [42]:
print(df.dtypes)

Height              float64
EGN                  object
Year                float64
NormalizedHeight    float64
HeightZScore        float64
female                 bool
male                   bool
dtype: object


In [43]:
df['Height'] = df['Height'].astype(int)
print(df.dtypes)

Height                int64
EGN                  object
Year                float64
NormalizedHeight    float64
HeightZScore        float64
female                 bool
male                   bool
dtype: object


In [44]:
df.head()

Unnamed: 0,Height,EGN,Year,NormalizedHeight,HeightZScore,female,male
3,168,9904030000,99.0,0.0,-0.738549,True,False
6,180,9602010000,96.0,1.0,1.477098,False,True
7,170,9905170000,99.0,0.166667,-0.369274,False,True
8,170,9305110000,93.0,0.166667,-0.369274,False,True


In [45]:
df.describe()

Unnamed: 0,Height,Year,NormalizedHeight,HeightZScore
count,4.0,4.0,4.0,4.0
mean,172.0,96.75,0.333333,0.0
std,5.416026,2.872281,0.451335,1.0
min,168.0,93.0,0.0,-0.738549
25%,169.5,95.25,0.125,-0.461593
50%,170.0,97.5,0.166667,-0.369274
75%,172.5,99.0,0.375,0.092319
max,180.0,99.0,1.0,1.477098


#### Функцията ```apply()```

Създаване данни.

In [46]:
a = [ ['Kristina', 164, 'female', '9307060000'],
     ['Mariya', None, 'female', '9001010000'],
     ['Darina', 158, 'female', '9810110000'],
     ['Elica', 168, 'female', '9904030000'],
     ['Valentin', '184', 'male', '9305110000'],
     ['Ivan', 170, 'male', '9305110000'],
     ['Kaloyan', 180, 'male', '9602010000'],
     ['Atanas', 170, 'male', '9905170000'],
     ['Ivan', 170, 'male', '9305110000'],
    ]
df = pd.DataFrame(a, columns = ['Name', 'Height', 'Gender', 'EGN'])
df

Unnamed: 0,Name,Height,Gender,EGN
0,Kristina,164.0,female,9307060000
1,Mariya,,female,9001010000
2,Darina,158.0,female,9810110000
3,Elica,168.0,female,9904030000
4,Valentin,184.0,male,9305110000
5,Ivan,170.0,male,9305110000
6,Kaloyan,180.0,male,9602010000
7,Atanas,170.0,male,9905170000
8,Ivan,170.0,male,9305110000


In [47]:
df['Height'] = pd.to_numeric(df['Height'])
print(df.dtypes)
df

Name       object
Height    float64
Gender     object
EGN        object
dtype: object


Unnamed: 0,Name,Height,Gender,EGN
0,Kristina,164.0,female,9307060000
1,Mariya,,female,9001010000
2,Darina,158.0,female,9810110000
3,Elica,168.0,female,9904030000
4,Valentin,184.0,male,9305110000
5,Ivan,170.0,male,9305110000
6,Kaloyan,180.0,male,9602010000
7,Atanas,170.0,male,9905170000
8,Ivan,170.0,male,9305110000


Apply функцията ```apply()``` използвайки  ```lambda``` за запълеване липсващи стойности в колоната 'Height'.

In [48]:
mean_height = df['Height'].mean()
mean_height

np.float64(170.5)

In [49]:
a = np.nan
a

nan

In [50]:
float(df.iloc[1,1])

nan

In [51]:
type(np.nan)

float

In [52]:
float(df.iloc[1,1]) is np.nan

False

In [53]:
df.iloc[1,1]

np.float64(nan)

In [54]:
df.iloc[1,1] is np.nan

False

In [55]:
df['HeightFilledByMean2'] = df['Height']

In [56]:
np.isnan(df.iloc[1,1])

np.True_

In [57]:
df['HeightFilledByMean2'] = df['Height'].apply(lambda x: x if not np.isnan(x) else mean_height) # df['Height'].apply(...) прилага функцията върху всяка стойност x в колоната "Height".; np.isnan(x) проверява дали x е липсваща стойност (NaN).
df # Ако x не е NaN → остава непроменена. Ако x е NaN → заменя се със mean_height

Unnamed: 0,Name,Height,Gender,EGN,HeightFilledByMean2
0,Kristina,164.0,female,9307060000,164.0
1,Mariya,,female,9001010000,170.5
2,Darina,158.0,female,9810110000,158.0
3,Elica,168.0,female,9904030000,168.0
4,Valentin,184.0,male,9305110000,184.0
5,Ivan,170.0,male,9305110000,170.0
6,Kaloyan,180.0,male,9602010000,180.0
7,Atanas,170.0,male,9905170000,170.0
8,Ivan,170.0,male,9305110000,170.0


By gender:

In [58]:
mean_height_male, mean_height_female

(np.float64(175.0), np.float64(166.0))

In [59]:
def apply_mean_height_by_gender(x, mean_height_male_var, mean_height_female_var):
    if x['Height'] == x['Height']:
        return x['Height']
    elif x['Gender']=='male':
        return mean_height_male_var
    else:
        return mean_height_female_var

In [60]:
mean_height_female

np.float64(166.0)

In [61]:
df['HeightFilledByMeanAndGender'] = df.apply(lambda x: apply_mean_height_by_gender(x, mean_height_male, mean_height_female), axis=1) # попълва липсващите стойности в колоната "Height" на DataFrame-а df, като използва различна средна стойност за мъже и жени.
df

Unnamed: 0,Name,Height,Gender,EGN,HeightFilledByMean2,HeightFilledByMeanAndGender
0,Kristina,164.0,female,9307060000,164.0,164.0
1,Mariya,,female,9001010000,170.5,166.0
2,Darina,158.0,female,9810110000,158.0,158.0
3,Elica,168.0,female,9904030000,168.0,168.0
4,Valentin,184.0,male,9305110000,184.0,184.0
5,Ivan,170.0,male,9305110000,170.0,170.0
6,Kaloyan,180.0,male,9602010000,180.0,180.0
7,Atanas,170.0,male,9905170000,170.0,170.0
8,Ivan,170.0,male,9305110000,170.0,170.0


##### Apply вункцията ```apply()``` без ```lambda``` за създаване колоана 'Height' с _discrete_ value.

In [62]:
def discretization_height(height):
    if height >= 180:
        return "Tall"
    elif height < 180 and height >= 170:
        return "Normal"
    else:
        return "Short"

In [63]:
df['DiscretHeight'] = df['Height'].apply(discretization_height)
df

Unnamed: 0,Name,Height,Gender,EGN,HeightFilledByMean2,HeightFilledByMeanAndGender,DiscretHeight
0,Kristina,164.0,female,9307060000,164.0,164.0,Short
1,Mariya,,female,9001010000,170.5,166.0,Short
2,Darina,158.0,female,9810110000,158.0,158.0,Short
3,Elica,168.0,female,9904030000,168.0,168.0,Short
4,Valentin,184.0,male,9305110000,184.0,184.0,Tall
5,Ivan,170.0,male,9305110000,170.0,170.0,Normal
6,Kaloyan,180.0,male,9602010000,180.0,180.0,Tall
7,Atanas,170.0,male,9905170000,170.0,170.0,Normal
8,Ivan,170.0,male,9305110000,170.0,170.0,Normal


По пол:

In [64]:
def discretization_height_by_gender(row):
    if (row['Height'] >= 180 and row['Gender'] == 'male') or (row['Height'] >= 165 and row['Gender'] == 'female'):
        return "Tall"
    else:
        return "Normal"

In [65]:
df['DiscretHeightByGender'] = df.apply(lambda x: discretization_height_by_gender(x), axis=1)
df

Unnamed: 0,Name,Height,Gender,EGN,HeightFilledByMean2,HeightFilledByMeanAndGender,DiscretHeight,DiscretHeightByGender
0,Kristina,164.0,female,9307060000,164.0,164.0,Short,Normal
1,Mariya,,female,9001010000,170.5,166.0,Short,Normal
2,Darina,158.0,female,9810110000,158.0,158.0,Short,Normal
3,Elica,168.0,female,9904030000,168.0,168.0,Short,Tall
4,Valentin,184.0,male,9305110000,184.0,184.0,Tall,Tall
5,Ivan,170.0,male,9305110000,170.0,170.0,Normal,Normal
6,Kaloyan,180.0,male,9602010000,180.0,180.0,Tall,Tall
7,Atanas,170.0,male,9905170000,170.0,170.0,Normal,Normal
8,Ivan,170.0,male,9305110000,170.0,170.0,Normal,Normal


In [66]:
df[df['Gender']=='female']

Unnamed: 0,Name,Height,Gender,EGN,HeightFilledByMean2,HeightFilledByMeanAndGender,DiscretHeight,DiscretHeightByGender
0,Kristina,164.0,female,9307060000,164.0,164.0,Short,Normal
1,Mariya,,female,9001010000,170.5,166.0,Short,Normal
2,Darina,158.0,female,9810110000,158.0,158.0,Short,Normal
3,Elica,168.0,female,9904030000,168.0,168.0,Short,Tall


#### Друг начин на запълване липсващи стойности със средна за всеки клас (_using "```group```"_)

In [67]:
df = pd.DataFrame({'value': [1, np.nan, np.nan, 2, 3, 1, 3, np.nan, 3], 'name': ['A','A', 'B','B','B','B', 'C','C','C']}) # създава DataFrame df с две колони: "value" – съдържа числови стойности, включително NaN (липсващи стойности)."name" – съдържа категориални данни (A, B, C), които могат да представляват групи или категории.
df

Unnamed: 0,value,name
0,1.0,A
1,,A
2,,B
3,2.0,B
4,3.0,B
5,1.0,B
6,3.0,C
7,,C
8,3.0,C


In [68]:
df["value"] = df.groupby("name")["value"].transform(lambda x: x.fillna(x.mean())) # попълва липсващите стойности (NaN) в колоната "value" със средната стойност за съответната група в колоната "name"
df

Unnamed: 0,value,name
0,1.0,A
1,1.0,A
2,2.0,B
3,2.0,B
4,3.0,B
5,1.0,B
6,3.0,C
7,3.0,C
8,3.0,C


In [69]:
df = pd.DataFrame({'value1': [1, np.nan, np.nan, 2, 3, 1, 3, np.nan, 3],
                   'value2': [20, np.nan, np.nan, 30, 40, 20, 40, np.nan, 40],
                   'name': ['A','A', 'B','B','B','B', 'C','C','C']})
df

Unnamed: 0,value1,value2,name
0,1.0,20.0,A
1,,,A
2,,,B
3,2.0,30.0,B
4,3.0,40.0,B
5,1.0,20.0,B
6,3.0,40.0,C
7,,,C
8,3.0,40.0,C


In [70]:
df[["value1","value2"]]

Unnamed: 0,value1,value2
0,1.0,20.0
1,,
2,,
3,2.0,30.0
4,3.0,40.0
5,1.0,20.0
6,3.0,40.0
7,,
8,3.0,40.0


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7bead894ea10>

In [72]:
df[["value1","value2"]] = df.groupby("name")[["value1", "value2"]].transform(lambda x: x.fillna(x.mean())) #  групира DataFrame-а df по колоната "name" и извлича само колоните "value1" и "value2" от групираните данни.
df

Unnamed: 0,value1,value2,name
0,1.0,20.0,A
1,1.0,20.0,A
2,2.0,30.0,B
3,2.0,30.0,B
4,3.0,40.0,B
5,1.0,20.0,B
6,3.0,40.0,C
7,3.0,40.0,C
8,3.0,40.0,C


In [73]:
df

Unnamed: 0,value1,value2,name
0,1.0,20.0,A
1,1.0,20.0,A
2,2.0,30.0,B
3,2.0,30.0,B
4,3.0,40.0,B
5,1.0,20.0,B
6,3.0,40.0,C
7,3.0,40.0,C
8,3.0,40.0,C


In [74]:
df.groupby(["name","value2"])["value1"].transform(lambda x: x.max())

Unnamed: 0,value1
0,1.0
1,1.0
2,2.0
3,2.0
4,3.0
5,1.0
6,3.0
7,3.0
8,3.0


In [75]:
# # DEPRICATED and REMOVED !!!
# from sklearn.datasets import load_boston
# boston = load_boston()

In [76]:
df = pd.DataFrame([
    ['A',1,1],
    ['A',1,1],
    ['A',2,1],
    ['B',2,1],
    ['B',2,1],
    ['B',3,1],
    ['B',3,1],
    ['C',3,1],
    ['C',3,1],
    ['C',3,1],
    ['C',1,1],
    ['C',1,1]
])
df.columns = ['C1','C2','C3']
df

Unnamed: 0,C1,C2,C3
0,A,1,1
1,A,1,1
2,A,2,1
3,B,2,1
4,B,2,1
5,B,3,1
6,B,3,1
7,C,3,1
8,C,3,1
9,C,3,1


In [77]:
df.groupby(['C1', 'C2']).size()

Unnamed: 0_level_0,Unnamed: 1_level_0,0
C1,C2,Unnamed: 2_level_1
A,1,2
A,2,1
B,2,2
B,3,2
C,1,2
C,3,3


In [78]:
df.groupby(['C1', 'C2']).sum() # рупира DataFrame-а df по колоните "C1" и "C2", след което изчислява сумата на числовите колони във всяка група.

Unnamed: 0_level_0,Unnamed: 1_level_0,C3
C1,C2,Unnamed: 2_level_1
A,1,2
A,2,1
B,2,2
B,3,2
C,1,2
C,3,3


In [79]:
df.groupby(['C1', 'C2'])["C3"].transform(lambda x: x.sum()) # рупира DataFrame-а df по колоните "C1" и "C2", след което изчислява сумата на колоната "C3" за всяка група и присвоява тази сума обратно на всеки ред в съответната група.

Unnamed: 0,C3
0,2
1,2
2,1
3,2
4,2
5,2
6,2
7,3
8,3
9,3


In [80]:

df

Unnamed: 0,C1,C2,C3,C4
0,A,1,1,2
1,A,1,1,2
2,A,2,1,1
3,B,2,1,2
4,B,2,1,2
5,B,3,1,2
6,B,3,1,2
7,C,3,1,3
8,C,3,1,3
9,C,3,1,3
