# <center> Диабет

In [4]:
import pandas as pd
import numpy as np
import plotly
import plotly.express as px
import matplotlib 
import matplotlib.pyplot as plt
import seaborn as sns


#используем датасет с данными о диабете
diab_df = pd.read_csv('data/diabetes_data.csv') 
diab_df.tail()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Gender
773,6,103,72,32,190,37.7,0.324,55,0,Female
774,1,71,48,18,76,20.4,0.323,22,0,Female
775,0,117,0,0,0,33.8,0.932,44,0,Female
776,4,154,72,29,126,31.3,0.338,37,0,Female
777,5,147,78,0,0,33.7,0.218,65,0,Female


In [2]:
diab_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 778 entries, 0 to 777
Data columns (total 10 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               778 non-null    int64  
 1   Glucose                   778 non-null    int64  
 2   BloodPressure             778 non-null    int64  
 3   SkinThickness             778 non-null    int64  
 4   Insulin                   778 non-null    int64  
 5   BMI                       778 non-null    float64
 6   DiabetesPedigreeFunction  778 non-null    float64
 7   Age                       778 non-null    int64  
 8   Outcome                   778 non-null    int64  
 9   Gender                    778 non-null    object 
dtypes: float64(2), int64(7), object(1)
memory usage: 60.9+ KB


посмотрим какой процент пропусков в каждом столбце

In [5]:
diab_df.isnull().mean()



Pregnancies                 0.0
Glucose                     0.0
BloodPressure               0.0
SkinThickness               0.0
Insulin                     0.0
BMI                         0.0
DiabetesPedigreeFunction    0.0
Age                         0.0
Outcome                     0.0
Gender                      0.0
dtype: float64

согласно .isnull() все данные заведены и пропусов нет, но визуальный осмотр первых и последних строк говорит об обратном

In [12]:
mask = diab_df.duplicated()
data = diab_df[mask]
diab_df= diab_df.drop_duplicates()
print(data.shape[:])
print(diab_df.shape[:])

(10, 9)
(768, 9)


теперь найдем все неинформативные признаки, т.е признаки в которых более 95% значений повторяются либо 95% значений уникальны

In [15]:
low_information_cols= []

for col in diab_df.columns:
    top_freq = diab_df[col].value_counts(normalize=True).max()
    nunique_ratio = diab_df[col].nunique() / diab_df[col].count()
    if (top_freq > 0.95) | (nunique_ratio > 0.95):
        low_information_cols.append(col)
display(low_information_cols)

['Gender']

в рехзультате метода isnull мы видели, что пропусков нет,  но в табличном выражении мы видим другое, в полях Glucose, BloodPressure, SkinThickness, Insulin и BMI. попробуем заменить "0" на символ пропуска 'NaN', допустим, что медицинских противопоказаний к этому нет.

In [6]:
list_of_columns = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']
for col in list_of_columns:
    print ('====', col, '=====')
    col_x = diab_df[col]
    for i in range(len(col_x)):
        if col_x[i] == 0:
            col_x[i] = np.nan
            print(i)
        i+=1
    diab_df[col] = col_x
        
display(diab_df)

==== Glucose =====
==== BloodPressure =====
==== SkinThickness =====
==== Insulin =====
==== BMI =====


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Gender
0,6,98.0,58.0,33.0,190.0,34.0,0.430,43,0,Female
1,2,112.0,75.0,32.0,,35.7,0.148,21,0,Female
2,2,108.0,64.0,,,30.8,0.158,21,0,Female
3,8,107.0,80.0,,,24.6,0.856,34,0,Female
4,7,136.0,90.0,,,29.9,0.210,50,0,Female
...,...,...,...,...,...,...,...,...,...,...
773,6,103.0,72.0,32.0,190.0,37.7,0.324,55,0,Female
774,1,71.0,48.0,18.0,76.0,20.4,0.323,22,0,Female
775,0,117.0,,,,33.8,0.932,44,0,Female
776,4,154.0,72.0,29.0,126.0,31.3,0.338,37,0,Female


In [7]:
diab_df.isnull().mean()

Pregnancies                 0.000000
Glucose                     0.006427
BloodPressure               0.046272
SkinThickness               0.298201
Insulin                     0.488432
BMI                         0.014139
DiabetesPedigreeFunction    0.000000
Age                         0.000000
Outcome                     0.000000
Gender                      0.000000
dtype: float64

In [17]:
diab_df = diab_df.drop('Insulin', axis=1)
diab_df = diab_df.drop('Gender', axis=1)

удаляем признаки с более 30% пропусков

In [18]:
diab_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 768 entries, 0 to 767
Data columns (total 8 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   763 non-null    float64
 2   BloodPressure             733 non-null    float64
 3   SkinThickness             541 non-null    float64
 4   BMI                       757 non-null    float64
 5   DiabetesPedigreeFunction  768 non-null    float64
 6   Age                       768 non-null    int64  
 7   Outcome                   768 non-null    int64  
dtypes: float64(5), int64(3)
memory usage: 54.0 KB


удаляем строки где есть более двух пропусков

In [24]:

diab_df=diab_df.dropna(
                    thresh=6,
                    axis=0
                    )
diab_df.info()


<class 'pandas.core.frame.DataFrame'>
Index: 761 entries, 0 to 767
Data columns (total 8 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               761 non-null    int64  
 1   Glucose                   756 non-null    float64
 2   BloodPressure             733 non-null    float64
 3   SkinThickness             541 non-null    float64
 4   BMI                       757 non-null    float64
 5   DiabetesPedigreeFunction  761 non-null    float64
 6   Age                       761 non-null    int64  
 7   Outcome                   761 non-null    int64  
dtypes: float64(5), int64(3)
memory usage: 53.5 KB


в оставшихся меняем пропуски на медиану

In [29]:
for col in diab_df.columns:
    diab_df = diab_df.fillna( {col:diab_df[col].median()})

diab_df['SkinThickness'].mean()

29.109067017082786

уходят вне зависимости от пола

9.7. Как отток клиентов зависит от числа приобретённых у банка услуг? Для ответа на этот вопрос постройте многоуровневую столбчатую диаграмму.