# Preprocessing w Python

## Część 1:

1. Obsługa brakujących wartości.
2. Usuwanie duplikatów.
3. Identyfikacja i obsługa wartości odstających (outlierów).
4. Skalowanie danych: normalizacja i standaryzacja.

In [1]:
# Import potrzebnych bibliotek

import numpy as np
import pandas as pd
from sklearn.impute import KNNImputer
from sklearn.preprocessing import MinMaxScaler, StandardScaler

In [2]:
# Wczytanie danych

# data = [['A', 10.38, 50, 4],
#         ['B', 15.50, 30, 5],
#         ['C', 8.29, 70, 3],
#         ['D', 20.99, 30, 4],
#         ['E', 12.00, 200, 4],
#         ['F', 14.49, 'MISSING', 2],
#         ['G', 11.99, 60, 5],
#         ['H', 85.89, 5, 1],
#         ['I', 10.38, 50, 4]]

# df = pd.DataFrame(data, columns=['Produkt', 'Cena', 'Liczba sprzedanych', 'Ocena klienta'])
# df = df.set_index(df.columns[0])
# df.to_csv('C:\\Users\\katar\\Desktop\\produkty.csv')

df = pd.read_csv('C:\\Users\\katar\\Desktop\\produkty.csv', index_col=0)

df

Unnamed: 0_level_0,Cena,Liczba sprzedanych,Ocena klienta
Produkt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,10.38,50,4
B,15.5,30,5
C,8.29,70,3
D,20.99,30,4
E,12.0,200,4
F,14.49,MISSING,2
G,11.99,60,5
H,85.89,5,1
I,10.38,50,4


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9 entries, A to I
Data columns (total 3 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Cena                9 non-null      float64
 1   Liczba sprzedanych  9 non-null      object 
 2   Ocena klienta       9 non-null      int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 288.0+ bytes


In [4]:
df = df.replace('MISSING', np.NaN)

df

Unnamed: 0_level_0,Cena,Liczba sprzedanych,Ocena klienta
Produkt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,10.38,50.0,4
B,15.5,30.0,5
C,8.29,70.0,3
D,20.99,30.0,4
E,12.0,200.0,4
F,14.49,,2
G,11.99,60.0,5
H,85.89,5.0,1
I,10.38,50.0,4


In [5]:
df['Liczba sprzedanych'] = df['Liczba sprzedanych'].apply(pd.to_numeric, errors='coerce')

df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9 entries, A to I
Data columns (total 3 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Cena                9 non-null      float64
 1   Liczba sprzedanych  8 non-null      float64
 2   Ocena klienta       9 non-null      int64  
dtypes: float64(2), int64(1)
memory usage: 288.0+ bytes


## 1. Obsługa brakujących wartości

In [6]:
df.isnull()

Unnamed: 0_level_0,Cena,Liczba sprzedanych,Ocena klienta
Produkt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,False,False,False
B,False,False,False
C,False,False,False
D,False,False,False
E,False,False,False
F,False,True,False
G,False,False,False
H,False,False,False
I,False,False,False


In [7]:
df.isnull().values.any()

True

In [8]:
# Usuwanie wierszy z brakami w danych

df.dropna()

Unnamed: 0_level_0,Cena,Liczba sprzedanych,Ocena klienta
Produkt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,10.38,50.0,4
B,15.5,30.0,5
C,8.29,70.0,3
D,20.99,30.0,4
E,12.0,200.0,4
G,11.99,60.0,5
H,85.89,5.0,1
I,10.38,50.0,4


In [9]:
# Usuwanie kolumn z brakami w danych

df.dropna(axis=1)

Unnamed: 0_level_0,Cena,Ocena klienta
Produkt,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10.38,4
B,15.5,5
C,8.29,3
D,20.99,4
E,12.0,4
F,14.49,2
G,11.99,5
H,85.89,1
I,10.38,4


In [10]:
# Uzupełnianie braków w danych inną, stałą wartość

df.fillna(50)

Unnamed: 0_level_0,Cena,Liczba sprzedanych,Ocena klienta
Produkt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,10.38,50.0,4
B,15.5,30.0,5
C,8.29,70.0,3
D,20.99,30.0,4
E,12.0,200.0,4
F,14.49,50.0,2
G,11.99,60.0,5
H,85.89,5.0,1
I,10.38,50.0,4


In [11]:
df

Unnamed: 0_level_0,Cena,Liczba sprzedanych,Ocena klienta
Produkt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,10.38,50.0,4
B,15.5,30.0,5
C,8.29,70.0,3
D,20.99,30.0,4
E,12.0,200.0,4
F,14.49,,2
G,11.99,60.0,5
H,85.89,5.0,1
I,10.38,50.0,4


In [12]:
# Uzupełnianie braków w danych wartością średnią

df_mean = df.copy()

df_mean['Liczba sprzedanych'] = df['Liczba sprzedanych'].fillna(df['Liczba sprzedanych'].mean())

df_mean['Liczba sprzedanych'] = df_mean['Liczba sprzedanych'].round().astype(int)

df_mean

Unnamed: 0_level_0,Cena,Liczba sprzedanych,Ocena klienta
Produkt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,10.38,50,4
B,15.5,30,5
C,8.29,70,3
D,20.99,30,4
E,12.0,200,4
F,14.49,62,2
G,11.99,60,5
H,85.89,5,1
I,10.38,50,4


In [13]:
df

Unnamed: 0_level_0,Cena,Liczba sprzedanych,Ocena klienta
Produkt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,10.38,50.0,4
B,15.5,30.0,5
C,8.29,70.0,3
D,20.99,30.0,4
E,12.0,200.0,4
F,14.49,,2
G,11.99,60.0,5
H,85.89,5.0,1
I,10.38,50.0,4


In [14]:
# Uzupełnianie braków w danych metodą najbliższych sąsiadów k-NN (k = 3)

imputer = KNNImputer(n_neighbors=3)
imputer.fit(df[['Liczba sprzedanych']])
df['Liczba sprzedanych'] = imputer.transform(df[['Liczba sprzedanych']])

df['Liczba sprzedanych'] = df['Liczba sprzedanych'].round().astype(int)

df

Unnamed: 0_level_0,Cena,Liczba sprzedanych,Ocena klienta
Produkt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,10.38,50,4
B,15.5,30,5
C,8.29,70,3
D,20.99,30,4
E,12.0,200,4
F,14.49,62,2
G,11.99,60,5
H,85.89,5,1
I,10.38,50,4


In [15]:
df.isnull().values.any()

False

## 2. Usuwanie duplikatów

In [16]:
df.duplicated()

Produkt
A    False
B    False
C    False
D    False
E    False
F    False
G    False
H    False
I     True
dtype: bool

In [17]:
df.duplicated().any()

True

In [18]:
df.duplicated().sum()

1

In [19]:
duplicates = df[df.duplicated()]

duplicates

Unnamed: 0_level_0,Cena,Liczba sprzedanych,Ocena klienta
Produkt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
I,10.38,50,4


In [20]:
df = df.drop_duplicates()

df

Unnamed: 0_level_0,Cena,Liczba sprzedanych,Ocena klienta
Produkt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,10.38,50,4
B,15.5,30,5
C,8.29,70,3
D,20.99,30,4
E,12.0,200,4
F,14.49,62,2
G,11.99,60,5
H,85.89,5,1


In [21]:
df.duplicated().any()

False

## 3. Identyfikacja i obsługa wartości odstających (outlierów)

In [22]:
# Wykrywanie outlierów metodą rozstępu międzykwartylowego (IQR)

def find_outliers_iqr(df):
    outlier_results = {}
    
    for column in df.select_dtypes(include=['float64', 'int32', 'int64']).columns:
        Q1 = df[column].quantile(0.25)
        Q3 = df[column].quantile(0.75)
        IQR = Q3 - Q1
        
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        
        outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
        
        outlier_results[column] = {
            'Q1': Q1,
            'Q3': Q3,
            'IQR': IQR,
            'Lower Bound': lower_bound,
            'Upper Bound': upper_bound,
            'Outliers': outliers
        }
        
    return outlier_results

df_iqr = df

outlier_results = find_outliers_iqr(df_iqr)

for column, results in outlier_results.items():
    print(f"\nDla atrybutu: {column}")
    print(f"Q1: {results['Q1']}")
    print(f"Q3: {results['Q3']}")
    print(f"IQR: {results['IQR']}")
    print(f"Typowy przedział zmienności: [{round(results['Lower Bound'], 2)}; {round(results['Upper Bound'], 2)}]")
    print("Wykryte outliery:")
    print(results['Outliers'])


Dla atrybutu: Cena
Q1: 11.5875
Q3: 16.8725
IQR: 5.284999999999998
Typowy przedział zmienności: [3.66; 24.8]
Wykryte outliery:
          Cena  Liczba sprzedanych  Ocena klienta
Produkt                                          
H        85.89                   5              1

Dla atrybutu: Liczba sprzedanych
Q1: 30.0
Q3: 64.0
IQR: 34.0
Typowy przedział zmienności: [-21.0; 115.0]
Wykryte outliery:
         Cena  Liczba sprzedanych  Ocena klienta
Produkt                                         
E        12.0                 200              4

Dla atrybutu: Ocena klienta
Q1: 2.75
Q3: 4.25
IQR: 1.5
Typowy przedział zmienności: [0.5; 6.5]
Wykryte outliery:
Empty DataFrame
Columns: [Cena, Liczba sprzedanych, Ocena klienta]
Index: []


In [23]:
# Usuwanie wykrytych outlierów:

for column in outlier_results.keys():
    Q1 = outlier_results[column]['Q1']
    Q3 = outlier_results[column]['Q3']
    IQR = outlier_results[column]['IQR']
    
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    df_iqr = df_iqr[(df_iqr[column] >= lower_bound) & (df_iqr[column] <= upper_bound)]

df_iqr

Unnamed: 0_level_0,Cena,Liczba sprzedanych,Ocena klienta
Produkt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,10.38,50,4
B,15.5,30,5
C,8.29,70,3
D,20.99,30,4
F,14.49,62,2
G,11.99,60,5


In [24]:
# Wykrywanie outlierów metodą Z-score

df_zscore = df

z_scores = (df_zscore - df_zscore.mean()) / df_zscore.std()

threshold = 2  # Próg dla outlierów

outliers = df_zscore[(z_scores < -threshold) | (z_scores > threshold)]

print("Z-score dla każdej kolumny:")
print(z_scores)

outliers_display = outliers.dropna(how='all')  # Pokaż tylko te wiersze, które mają co najmniej jedną wartość

print("\nWykryte outliery:")
outliers_display

Z-score dla każdej kolumny:
             Cena  Liczba sprzedanych  Ocena klienta
Produkt                                             
A       -0.465311           -0.225904       0.353553
B       -0.267786           -0.563705       1.060660
C       -0.545941            0.111896      -0.353553
D       -0.055988           -0.563705       0.353553
E       -0.402813            2.307601       0.353553
F       -0.306751           -0.023224      -1.060660
G       -0.403199           -0.057004       1.060660
H        2.447788           -0.985956      -1.767767

Wykryte outliery:


Unnamed: 0_level_0,Cena,Liczba sprzedanych,Ocena klienta
Produkt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E,,200.0,
H,85.89,,


In [25]:
# Usuwanie wykrytych outlierów:

mask = (z_scores >= -threshold) & (z_scores <= threshold)  

df_zscore = df_zscore[mask.all(axis=1)]

df_zscore

Unnamed: 0_level_0,Cena,Liczba sprzedanych,Ocena klienta
Produkt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,10.38,50,4
B,15.5,30,5
C,8.29,70,3
D,20.99,30,4
F,14.49,62,2
G,11.99,60,5


In [26]:
df = df_zscore

df

Unnamed: 0_level_0,Cena,Liczba sprzedanych,Ocena klienta
Produkt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,10.38,50,4
B,15.5,30,5
C,8.29,70,3
D,20.99,30,4
F,14.49,62,2
G,11.99,60,5


## 4. Skalowanie danych: normalizacja i standaryzacja

In [27]:
# Normalizacja danych metodą min-max

index = ['A', 'B', 'C', 'D', 'F', 'G']

scaler = MinMaxScaler()

df_normalized = pd.DataFrame(scaler.fit_transform(df), columns=df.columns, index=index)

df_normalized

Unnamed: 0,Cena,Liczba sprzedanych,Ocena klienta
A,0.164567,0.5,0.666667
B,0.567717,0.0,1.0
C,0.0,1.0,0.333333
D,1.0,0.0,0.666667
F,0.488189,0.8,0.0
G,0.291339,0.75,1.0


In [28]:
# Standaryzacja danych Z-score

scaler = StandardScaler()

df_standardized = pd.DataFrame(scaler.fit_transform(df), columns=df.columns, index=index)

df_standardized

Unnamed: 0,Cena,Liczba sprzedanych,Ocena klienta
A,-0.789696,-0.021492,0.156174
B,0.463375,-1.310995,1.093216
C,-1.301203,1.268011,-0.780869
D,1.807,-1.310995,0.156174
F,0.216187,0.75221,-1.717911
G,-0.395664,0.62326,1.093216
