In [37]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split

## Wczytywanie

In [38]:
df_diabetes = pd.read_csv('./diabetes.csv')

In [39]:
features = list(df_diabetes.columns.values)
features.remove('Outcome')
print(features)
X = df_diabetes[features]
y = df_diabetes['Outcome']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

print(X_train.shape)
print(X_test.shape)

['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age']
(576, 8)
(192, 8)


In [40]:
def check_zero_entries(data, fields):
    for field in fields:
        print('Kolumna %s: liczba "zerowych" pól: %d' % (field, len(data.loc[ data[field] == 0, field ])))

In [41]:
#Zamiana wartości zerowych na wartości średnie w danej kolumnie
def impute_zero_field_by_mean(data, field):
    nonzero_vals = data.loc[data[field] != 0, field]
    mean = np.mean(nonzero_vals)
    k = len(data.loc[ data[field] == 0, field]) 
    data.loc[ data[field] == 0, field ] = mean
    print('Kolumna: %s; wypełniona %d pól z wartością średnią: %.3f' % (field, k, mean))

In [42]:
#Zamiana wartości zerowych na wartość mediany w danej kolumnie
def impute_zero_field_by_medium(data, field):
    nonzero_vals = data.loc[data[field] != 0, field]
    median = np.median(nonzero_vals)
    k = len(data.loc[ data[field] == 0, field])
    data.loc[ data[field] == 0, field ] = median
    print('Kolumna: %s; wypełniona %d pól z wartością mediany: %.3f' % (field, k, median))

## Sprawdzenie
Czy istnieją wartości zerowe.

In [43]:
check_zero_entries(X_train, ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI'])

Kolumna Glucose: liczba "zerowych" pól: 4
Kolumna BloodPressure: liczba "zerowych" pól: 25
Kolumna SkinThickness: liczba "zerowych" pól: 163
Kolumna Insulin: liczba "zerowych" pól: 270
Kolumna BMI: liczba "zerowych" pól: 8


## Zamiana brakujących wartości

In [44]:
for field in ['Glucose', 'BloodPressure']:
    impute_zero_field_by_mean(X_train, field)

for field in ['SkinThickness', 'Insulin', 'BMI']:
    impute_zero_field_by_medium(X_train, field)

Kolumna: Glucose; wypełniona 4 pól z wartością średnią: 122.003
Kolumna: BloodPressure; wypełniona 25 pól z wartością średnią: 72.846
Kolumna: SkinThickness; wypełniona 163 pól z wartością mediany: 30.000
Kolumna: Insulin; wypełniona 270 pól z wartością mediany: 127.500
Kolumna: BMI; wypełniona 8 pól z wartością mediany: 32.500


In [45]:
check_zero_entries(X_train, ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI'])

Kolumna Glucose: liczba "zerowych" pól: 0
Kolumna BloodPressure: liczba "zerowych" pól: 0
Kolumna SkinThickness: liczba "zerowych" pól: 0
Kolumna Insulin: liczba "zerowych" pól: 0
Kolumna BMI: liczba "zerowych" pól: 0


## Podobnie dla zbioru testowego

In [46]:
check_zero_entries(X_test, ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI'])

Kolumna Glucose: liczba "zerowych" pól: 1
Kolumna BloodPressure: liczba "zerowych" pól: 10
Kolumna SkinThickness: liczba "zerowych" pól: 64
Kolumna Insulin: liczba "zerowych" pól: 104
Kolumna BMI: liczba "zerowych" pól: 3


In [47]:
for field in ['Glucose', 'BloodPressure']:
    impute_zero_field_by_mean(X_test, field)

for field in ['SkinThickness', 'Insulin', 'BMI']:
    impute_zero_field_by_medium(X_test, field)

Kolumna: Glucose; wypełniona 1 pól z wartością średnią: 120.738
Kolumna: BloodPressure; wypełniona 10 pól z wartością średnią: 71.071
Kolumna: SkinThickness; wypełniona 64 pól z wartością mediany: 28.500
Kolumna: Insulin; wypełniona 104 pól z wartością mediany: 115.000
Kolumna: BMI; wypełniona 3 pól z wartością mediany: 31.200


## Ponowne sprawdzenie

In [48]:
check_zero_entries(X_test, ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI'])

Kolumna Glucose: liczba "zerowych" pól: 0
Kolumna BloodPressure: liczba "zerowych" pól: 0
Kolumna SkinThickness: liczba "zerowych" pól: 0
Kolumna Insulin: liczba "zerowych" pól: 0
Kolumna BMI: liczba "zerowych" pól: 0


In [49]:
print(X_train.shape)
print(X_test.shape)
print(y_train.size)
print(y_test.size)

(576, 8)
(192, 8)
576
192


## Zapis do pojedynczych plików .csv

In [50]:
X_train.to_csv('train/X_train.csv', index=False)
y_train.to_csv('train/y_train.csv', index=False)
X_test.to_csv('test/X_test.csv', index=False)
y_test.to_csv('test/y_test.csv', index=False)

Sprawdzenie poprawności zapisu:

In [51]:
test = pd.read_csv('train/X_train.csv')
print(test.shape)

(576, 8)
