In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
diabetes = pd.read_csv('data/diabetes_data.csv')
diabetes.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Gender
0,6,98,58,33,190,34.0,0.43,43,0,Female
1,2,112,75,32,0,35.7,0.148,21,0,Female
2,2,108,64,0,0,30.8,0.158,21,0,Female
3,8,107,80,0,0,24.6,0.856,34,0,Female
4,7,136,90,0,0,29.9,0.21,50,0,Female


In [62]:
# 8.1 Начнём с поиска дубликатов в данных. Найдите все повторяющиеся строки в данных и удалите их.
# Для поиска используйте все признаки в данных. Сколько записей осталось в данных?
cleaned_diabetes = diabetes.drop_duplicates()
print(cleaned_diabetes.shape[0])

768


In [63]:
# 8.2 Далее найдите все неинформативные признаки в данных и избавьтесь от них. В качестве порога информативности возьмите 0.95: 
# удалите все признаки, для которых 95 % значений повторяются или 95 % записей уникальны. В ответ запишите имена признаков, 
# которые вы нашли (без кавычек).

# Список неинформативных признаков
low_information_cols = []

# Цикл по всем столбцам
for col in cleaned_diabetes.columns:
    # Наибольшая относительная частота в признаке
    top_freq = cleaned_diabetes[col].value_counts(normalize=True).max()
    # Доля уникальных значений от размера признака
    nunique_ratio = cleaned_diabetes[col].nunique() / cleaned_diabetes[col].count()
    # Сравниваем наибольшую частоту с порогом
    if top_freq > 0.95:
        low_information_cols.append(col)
        print(f'{col}: {round(top_freq*100, 2)}% одинаковых значений')
    # Сравниваем долю уникальных значений с порогом
    if nunique_ratio > 0.95:
        low_information_cols.append(col)
        print(f'{col}: {round(nunique_ratio*100, 2)}% уникальных значений')
cleaned_diabetes.head()

Gender: 100.0% одинаковых значений


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Gender
0,6,98,58,33,190,34.0,0.43,43,0,Female
1,2,112,75,32,0,35.7,0.148,21,0,Female
2,2,108,64,0,0,30.8,0.158,21,0,Female
3,8,107,80,0,0,24.6,0.856,34,0,Female
4,7,136,90,0,0,29.9,0.21,50,0,Female


In [64]:
cleaned_diabetes = cleaned_diabetes.drop('Gender', axis=1)
cleaned_diabetes.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,98,58,33,190,34.0,0.43,43,0
1,2,112,75,32,0,35.7,0.148,21,0
2,2,108,64,0,0,30.8,0.158,21,0
3,8,107,80,0,0,24.6,0.856,34,0
4,7,136,90,0,0,29.9,0.21,50,0


In [65]:
# 8.3 Замените все записи, равные 0, в столбцах Glucose, BloodPressure, SkinThickness, Insulin и BMI на символ пропуска. 
# Его вы можете взять из библиотеки numpy: np.nan.
# Какая доля пропусков содержится в столбце Insulin? Ответ округлите до сотых.

cleaned_diabetes['Glucose'] = cleaned_diabetes['Glucose'].apply(lambda x: np.nan if x == 0 else x)
cleaned_diabetes['SkinThickness'] = cleaned_diabetes['SkinThickness'].apply(lambda x: np.nan if x == 0 else x)
cleaned_diabetes['BloodPressure'] = cleaned_diabetes['BloodPressure'].apply(lambda x: np.nan if x == 0 else x)
cleaned_diabetes['Insulin'] = cleaned_diabetes['Insulin'].apply(lambda x: np.nan if x == 0 else x)
cleaned_diabetes['BMI'] = cleaned_diabetes['BMI'].apply(lambda x: np.nan if x == 0 else x)

In [66]:
round(cleaned_diabetes.isnull().mean(),2)

Pregnancies                 0.00
Glucose                     0.01
BloodPressure               0.05
SkinThickness               0.30
Insulin                     0.49
BMI                         0.01
DiabetesPedigreeFunction    0.00
Age                         0.00
Outcome                     0.00
dtype: float64

In [67]:
# 8.4 Удалите из данных признаки, где число пропусков составляет более 30 %.
# Сколько признаков осталось в ваших данных (с учетом удаленных неинформативных признаков в задании 8.2)?

thresh = cleaned_diabetes.shape[0]*0.7
cleaned_diabetes = cleaned_diabetes.dropna(thresh=thresh, axis=1)
print(cleaned_diabetes.shape[1])

8


In [68]:
# 8.5 Удалите из данных только те строки, в которых содержится более двух пропусков одновременно.
# Чему равно результирующее число записей в таблице?
x = cleaned_diabetes.shape[1]
cleaned_diabetes = cleaned_diabetes.dropna(thresh= x-2, axis=0)
cleaned_diabetes.shape[0]

761

In [69]:
cleaned_diabetes.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,98.0,58.0,33.0,34.0,0.43,43,0
1,2,112.0,75.0,32.0,35.7,0.148,21,0
2,2,108.0,64.0,,30.8,0.158,21,0
3,8,107.0,80.0,,24.6,0.856,34,0
4,7,136.0,90.0,,29.9,0.21,50,0


In [74]:
# 8.6 В оставшихся записях замените пропуски на медиану. Чему равно среднее значение в столбце SkinThickness? 
# Ответ округлите до десятых.

values = {
    'Pregnancies': cleaned_diabetes['Pregnancies'].median(),
    'Glucose': cleaned_diabetes['Glucose'].median(),
    'BloodPressure': cleaned_diabetes['BloodPressure'].median(),
    'SkinThickness': cleaned_diabetes['SkinThickness'].median(),
    'BMI': cleaned_diabetes['BMI'].median(),
    'DiabetesPedigreeFunction': cleaned_diabetes['DiabetesPedigreeFunction'].median(),
    'Age': cleaned_diabetes['Age'].median(),
    'Outcome': cleaned_diabetes['Outcome'].median()
    }
cleaned_diabetes = cleaned_diabetes.fillna(values)
round(cleaned_diabetes['SkinThickness'].mean(), 1)

np.float64(29.1)

In [76]:
# 8.7 Сколько выбросов найдёт классический метод межквартильного размаха в признаке SkinThickness?

def outliers_iqr_mod(data, feature, left=1.5, right=1.5, log_scale=False):
    if log_scale:
        x= np.log(data[feature])
    else:
        x= data[feature]
    quartile1, quartile3 = x.quantile(0.25), x.quantile(0.75),
    iqr = quartile3 - quartile1
    lower_bound = quartile1 - (iqr*left)
    upper_bound = quartile3 + (iqr*right)
    outliers = data[(x < lower_bound) | (x > upper_bound)]
    cleaned = data[( x >= lower_bound) & (x <= upper_bound)]
    return outliers, cleaned
outliers, cleaned_data = outliers_iqr_mod(cleaned_diabetes, 'SkinThickness')
print(outliers.shape[0])
print(cleaned_data.shape[0])

87
674


In [78]:
# 8.8 Сколько выбросов найдёт классический метод z-отклонения в признаке SkinThickness?

def outliers_z_score(data, feature, log_scale=False):
    if log_scale:
        x= np.log(data[feature] + 1)
    else:
        x= data[feature]
    mu = x.mean()
    sigma = x.std()
    lower_bound = mu - 3 * sigma
    upper_bound = mu + 3 * sigma
    outliers = data[(x < lower_bound) | (x > upper_bound)]
    cleaned = data[( x >= lower_bound) & (x <= upper_bound)]
    return outliers, cleaned

outliers, cleaned_data = outliers_z_score(cleaned_diabetes, 'SkinThickness')
print(outliers.shape[0])


4


In [80]:
def outliers_z_score1(data, feature, log_scale=False):
    if log_scale:
        x= np.log(data[feature])
    else:
        x= data[feature]
    mu = x.mean()
    sigma = x.std()
    lower_bound = mu - 3 * sigma
    upper_bound = mu + 3 * sigma
    outliers = data[(x < lower_bound) | (x > upper_bound)]
    cleaned = data[( x >= lower_bound) & (x <= upper_bound)]
    return outliers, cleaned

In [83]:
# 8.9 Найдите сначала число выбросов в признаке DiabetesPedigreeFunction 
# с помощью классического метода межквартильного размаха.
# Затем найдите число выбросов в этом же признаке в логарифмическом масштабе
# (при логарифмировании единицу прибавлять не нужно!). Какова разница между двумя этими числами
# (вычтите из первого второе)?

outliers, cleaned_data = outliers_iqr_mod(cleaned_diabetes, 'DiabetesPedigreeFunction')
outliers1, cleaned_data1 = outliers_z_score1(cleaned_diabetes, 'DiabetesPedigreeFunction', log_scale=True)
print(outliers.shape[0] - outliers1.shape[0])

29


## Необходимо:

 - Считать данные из Excel в DataFrame (Data_Parsing) и (Data_Company).
 - Подтянуть к базе парсинга данные из базы компании (item_id, color_id, current_price) и сформировать столбец разницы цен в % (цена конкурента к нашей цене).
 - Определить сильные отклонения от среднего в разности цен в пределах бренда-категории (то есть убрать случайные выбросы, сильно искажающие сравнение). Критерий — по вкусу, написать комментарий в коде.
 - Записать новый файл Excel с базой парсинга, приклееными к ней столбцами из пункта 2 и с учётом пункта 3 (можно добавить столбец outlier и проставить Yes для выбросов).

In [13]:
excel = pd.ExcelFile('data/Data_TSUM.xlsx')
data_parsing = excel.parse('Data_Parsing', axis=0)

data_company = excel.parse('Data_Company', axis=0)
data_parsing.head()

Unnamed: 0,brand,Category,producer_id,producer_color,price
0,Valentino,Shoes,aaaaa1111_11,black,167
1,Valentino,Shoes,aaaaa1111_12,black,188
2,Valentino,Shoes,aaaaa1111_13,black,184
3,Valentino,Shoes,aaaaa1111_14,bla//ck,196
4,Valentino,Shoes,aaaaa1111_15,bla\\ck,250
