In [380]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

diabetes_data = pd.read_csv('data/diabetes_data.csv')
display(diabetes_data.head())
diabetes_data.info()


#Pregnancies — количество беременностей.
#Glucose — концентрация глюкозы в плазме через два часа при пероральном тесте на толерантность к глюкозе.
#BloodPressure — диастолическое артериальное давление (мм рт. ст.).
#SkinThickness — толщина кожной складки трицепса (мм).
#Insulin — двухчасовой сывороточный инсулин (ме Ед/мл).
#BMI — индекс массы тела {(вес в кг) / (рост в м)^2}.

#DiabetesPedigreeFunction — функция родословной диабета (чем она выше, тем выше шанс наследственной заболеваемости).
#Age — возраст.
#Outcome — наличие диабета (0 — нет, 1 — да).


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Gender
0,6,98,58,33,190,34.0,0.43,43,0,Female
1,2,112,75,32,0,35.7,0.148,21,0,Female
2,2,108,64,0,0,30.8,0.158,21,0,Female
3,8,107,80,0,0,24.6,0.856,34,0,Female
4,7,136,90,0,0,29.9,0.21,50,0,Female


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 778 entries, 0 to 777
Data columns (total 10 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               778 non-null    int64  
 1   Glucose                   778 non-null    int64  
 2   BloodPressure             778 non-null    int64  
 3   SkinThickness             778 non-null    int64  
 4   Insulin                   778 non-null    int64  
 5   BMI                       778 non-null    float64
 6   DiabetesPedigreeFunction  778 non-null    float64
 7   Age                       778 non-null    int64  
 8   Outcome                   778 non-null    int64  
 9   Gender                    778 non-null    object 
dtypes: float64(2), int64(7), object(1)
memory usage: 60.9+ KB


In [381]:
dupl_columns = list(diabetes_data.columns)

mask = diabetes_data.duplicated(subset=dupl_columns)
sber_duplicates = diabetes_data[mask]
print(f'Число найденных дубликатов: {sber_duplicates.shape[0]}')

Число найденных дубликатов: 10


In [382]:
diabetes_data = diabetes_data.drop_duplicates(subset=dupl_columns)
print(f'Результирующее число записей: {diabetes_data.shape[0]}')

Результирующее число записей: 768


In [383]:
#список неинформативных признаков
low_information_cols = [] 

#цикл по всем столбцам
for col in diabetes_data.columns:
    #наибольшая относительная частота в признаке
    top_freq = diabetes_data[col].value_counts(normalize=True).max()
    #доля уникальных значений от размера признака
    nunique_ratio = diabetes_data[col].nunique() / diabetes_data[col].count()
    # сравниваем наибольшую частоту с порогом
    if top_freq > 0.95:
        low_information_cols.append(col)
        print(f'{col}: {round(top_freq*100, 2)}% одинаковых значений')
    # сравниваем долю уникальных значений с порогом
    if nunique_ratio > 0.95:
        low_information_cols.append(col)
        print(f'{col}: {round(nunique_ratio*100, 2)}% уникальных значений')

Gender: 100.0% одинаковых значений


In [384]:
information_sber_data = diabetes_data.drop(low_information_cols, axis=1)
print(f'Результирующее число признаков: {information_sber_data.shape[1]}')

Результирующее число признаков: 9


In [385]:
display(information_sber_data)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,98,58,33,190,34.0,0.430,43,0
1,2,112,75,32,0,35.7,0.148,21,0
2,2,108,64,0,0,30.8,0.158,21,0
3,8,107,80,0,0,24.6,0.856,34,0
4,7,136,90,0,0,29.9,0.210,50,0
...,...,...,...,...,...,...,...,...,...
763,5,139,64,35,140,28.6,0.411,26,0
764,1,96,122,0,0,22.4,0.207,27,0
765,10,101,86,37,0,45.6,1.136,38,1
766,0,141,0,0,0,42.4,0.205,29,1


In [386]:
display(information_sber_data.isnull().sum())
9

Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64

9

In [387]:
information_sber_data['Glucose'] = information_sber_data['Glucose'].replace(0, np.nan)
information_sber_data['BloodPressure'] = information_sber_data['BloodPressure'].replace(0, np.nan)
information_sber_data['SkinThickness'] = information_sber_data['SkinThickness'].replace(0, np.nan)
information_sber_data['Insulin'] = information_sber_data['Insulin'].replace(0, np.nan)
information_sber_data['BMI'] = information_sber_data['BMI'].replace(0, np.nan)

display(information_sber_data)

information_sber_data['Insulin'].isnull().sum()/information_sber_data['Insulin'].isnull().count()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,98.0,58.0,33.0,190.0,34.0,0.430,43,0
1,2,112.0,75.0,32.0,,35.7,0.148,21,0
2,2,108.0,64.0,,,30.8,0.158,21,0
3,8,107.0,80.0,,,24.6,0.856,34,0
4,7,136.0,90.0,,,29.9,0.210,50,0
...,...,...,...,...,...,...,...,...,...
763,5,139.0,64.0,35.0,140.0,28.6,0.411,26,0
764,1,96.0,122.0,,,22.4,0.207,27,0
765,10,101.0,86.0,37.0,,45.6,1.136,38,1
766,0,141.0,,,,42.4,0.205,29,1


0.4869791666666667

In [388]:
#список неинформативных признаков
low_information_cols = [] 

#цикл по всем столбцам
for col in information_sber_data.columns:
    percent = information_sber_data[col].isnull().sum()/information_sber_data[col].isnull().count()
    if percent > 0.3:
        low_information_cols.append(col)
        print(f'{col}: {round(percent*100, 2)}% пропусков')
    

Insulin: 48.7% пропусков


In [389]:
information_sber_data_df = information_sber_data.copy()

information_sber_data_df = information_sber_data.drop(low_information_cols, axis=1)
print(f'Результирующее число признаков: {information_sber_data_df.shape[1]}')
display(information_sber_data_df)

Результирующее число признаков: 8


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,98.0,58.0,33.0,34.0,0.430,43,0
1,2,112.0,75.0,32.0,35.7,0.148,21,0
2,2,108.0,64.0,,30.8,0.158,21,0
3,8,107.0,80.0,,24.6,0.856,34,0
4,7,136.0,90.0,,29.9,0.210,50,0
...,...,...,...,...,...,...,...,...
763,5,139.0,64.0,35.0,28.6,0.411,26,0
764,1,96.0,122.0,,22.4,0.207,27,0
765,10,101.0,86.0,37.0,45.6,1.136,38,1
766,0,141.0,,,42.4,0.205,29,1


In [390]:
#создаем копию исходной таблицы
df = information_sber_data_df.copy()

#отбрасываем строки с числом пропусков более 2 в строке
m = information_sber_data_df.shape[1] #число признаков после удаления столбцов
df = information_sber_data_df.dropna(thresh=m-2, axis=0)

print(df.shape)

#создаем словарь имя столбца: число(признак) на который надо заменить пропуски
values = df.median()
#заполняем пропуски в соответствии с заявленным словарем
df = df.fillna(values)
display(df)

(761, 8)


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,98.0,58.0,33.0,34.0,0.430,43,0
1,2,112.0,75.0,32.0,35.7,0.148,21,0
2,2,108.0,64.0,29.0,30.8,0.158,21,0
3,8,107.0,80.0,29.0,24.6,0.856,34,0
4,7,136.0,90.0,29.0,29.9,0.210,50,0
...,...,...,...,...,...,...,...,...
763,5,139.0,64.0,35.0,28.6,0.411,26,0
764,1,96.0,122.0,29.0,22.4,0.207,27,0
765,10,101.0,86.0,37.0,45.6,1.136,38,1
766,0,141.0,72.0,29.0,42.4,0.205,29,1


In [393]:
df['SkinThickness'].describe()

count    761.000000
mean      29.109067
std        8.831608
min        7.000000
25%       25.000000
50%       29.000000
75%       32.000000
max       99.000000
Name: SkinThickness, dtype: float64

In [392]:
def outliers_iqr(data, feature):
    x = data[feature]
    quartile_1, quartile_3 = x.quantile(0.25), x.quantile(0.75),
    iqr = quartile_3 - quartile_1
    lower_bound = quartile_1 - (iqr * 1.5)
    upper_bound = quartile_3 + (iqr * 1.5)
    outliers = data[(x < lower_bound) | (x > upper_bound)]
    cleaned = data[(x >= lower_bound) & (x <= upper_bound)]
    return outliers, cleaned

In [395]:
outliers, cleaned = outliers_iqr(df, 'SkinThickness')
print(f'Число выбросов по методу Тьюки: {outliers.shape[0]}')
print(f'Результирующее число записей: {cleaned.shape[0]}')

Число выбросов по методу Тьюки: 87
Результирующее число записей: 674


In [406]:
def outliers_z_score(data, feature, log_scale=False):
    if log_scale:
        x = np.log(data[feature])
    else:
        x = data[feature]
    mu = x.mean()
    sigma = x.std()
    lower_bound = mu - 3 * sigma
    upper_bound = mu + 3 * sigma
    outliers = data[(x < lower_bound) | (x > upper_bound)]
    cleaned = data[(x >= lower_bound) & (x <= upper_bound)]
    return outliers, cleaned

In [399]:
outliers, cleaned = outliers_z_score(df, 'SkinThickness')
print(f'Число выбросов по методу z-отклонения: {outliers.shape[0]}')
print(f'Результирующее число записей: {cleaned.shape[0]}')

Число выбросов по методу z-отклонения: 4
Результирующее число записей: 757


In [410]:
def outliers_iqr_mod(data, feature, left=1.5, right=1.5, log_scale=False):
    if log_scale:
        x = np.log(data[feature])
    else:
        x= data[feature]
    quartile_1, quartile_3 = x.quantile(0.25), x.quantile(0.75),
    iqr = quartile_3 - quartile_1
    lower_bound = quartile_1 - (iqr * left)
    upper_bound = quartile_3 + (iqr * right)
    outliers = data[(x < lower_bound) | (x > upper_bound)]
    cleaned = data[(x >= lower_bound) & (x <= upper_bound)]
    return outliers, cleaned

In [412]:
outliers1, cleaned1 = outliers_iqr(df, 'DiabetesPedigreeFunction')
print(f'Число выбросов по методу Тьюки: {outliers1.shape[0]}')
print(f'Результирующее число записей: {cleaned1.shape[0]}')

outliers2, cleaned2 = outliers_iqr_mod(df, 'DiabetesPedigreeFunction', log_scale=True)
print(f'Число выбросов по методу Тьюки: {outliers2.shape[0]}')
print(f'Результирующее число записей: {cleaned2.shape[0]}')

print(outliers1.shape[0] - outliers2.shape[0])

Число выбросов по методу Тьюки: 29
Результирующее число записей: 732
Число выбросов по методу Тьюки: 0
Результирующее число записей: 761
29


In [1]:
import os
# получить текущий путь
start_path = os.getcwd()
display(start_path)

os.chdir("..") # подняться на один уровень выше
display(os.getcwd())

display(os.chdir(start_path))

print(os.listdir())

if 'tmp.py' not in os.listdir():
    print("Файл отсутствует в данной директории")

'c:\\Users\\Kovyljan\\Documents\\VS CODE\\IDE\\PYTHON-14. Очистка данных'

'c:\\Users\\Kovyljan\\Documents\\VS CODE\\IDE'

None

['data', 'DS_6_6.ipynb', 'Очистка данных.ipynb']
Файл отсутствует в данной директории


In [2]:
print(start_path)
print(os.path.join(start_path, 'test'))

c:\Users\Kovyljan\Documents\VS CODE\IDE\PYTHON-14. Очистка данных
c:\Users\Kovyljan\Documents\VS CODE\IDE\PYTHON-14. Очистка данных\test


In [3]:
import os

def walk_desc(path=None):
    start_path = path if path is not None else os.getcwd()

    for root, dirs, files in os.walk(start_path):
        print("Текущая директория", root)
        print("---")

        if dirs:
            print("Список папок", dirs)
        else:
            print("Папок нет")
        print("---")

        if files:
            print("Список файлов", files)
        else:
            print("Файлов нет")
        print("---")

        if files and dirs:
            print("Все пути:")
        for f in files:
            print("Файл ", os.path.join(root, f))
        for d in dirs:
            print("Папка ", os.path.join(root, d))
        print("===")

walk_desc()

Текущая директория c:\Users\Kovyljan\Documents\VS CODE\IDE\PYTHON-14. Очистка данных
---
Список папок ['data']
---
Список файлов ['DS_6_6.ipynb', 'Очистка данных.ipynb']
---
Все пути:
Файл  c:\Users\Kovyljan\Documents\VS CODE\IDE\PYTHON-14. Очистка данных\DS_6_6.ipynb
Файл  c:\Users\Kovyljan\Documents\VS CODE\IDE\PYTHON-14. Очистка данных\Очистка данных.ipynb
Папка  c:\Users\Kovyljan\Documents\VS CODE\IDE\PYTHON-14. Очистка данных\data
===
Текущая директория c:\Users\Kovyljan\Documents\VS CODE\IDE\PYTHON-14. Очистка данных\data
---
Папок нет
---
Список файлов ['diabetes_data.csv', 'sber_data.csv']
---
Файл  c:\Users\Kovyljan\Documents\VS CODE\IDE\PYTHON-14. Очистка данных\data\diabetes_data.csv
Файл  c:\Users\Kovyljan\Documents\VS CODE\IDE\PYTHON-14. Очистка данных\data\sber_data.csv
===


Создайте любой файл на операционной системе под название input.txt и построчно перепишите его в файл output.txt.

In [None]:
with open("input.txt", "r") as input_file:
    with open("output.txt", "w") as output_file:
        for line in input_file:
            output_file.write(line)

Дан файл numbers.txt, компоненты которого являются действительными числами (файл создайте самостоятельно и заполните любыми числам, в одной строке одно число). Найдите сумму наибольшего и наименьшего из значений и запишите результат в файл output.txt.

In [None]:
filename = 'numbers.txt'
output = 'output.txt'

with open(filename) as f:
    min_ = max_ = float(f.readline())  # считали первое число
    for line in f:
        num =  float(line)
        if num > max_:
            max_ = num
        elif num < min_:
            min_ = num

    sum_ = min_ + max_

with open(output, 'w') as f:
    f.write(str(sum_))
    f.write('\n')

В текстовый файл построчно записаны фамилии и имена учащихся класса и их оценки за контрольную. Подсчитайте количество учащихся, чья оценка меньше 3 баллов. Cодержание файла:

In [None]:
count = 0
for line in open("input.txt"):
    points = int(line.split()[-1])
    if points < 3:
        count += 1

Выполните реверсирование строк файла (перестановку строк файла в обратном порядке).

In [None]:
with open("input.txt", "r") as input_file:
    with open("output.txt", "w") as output_file:
        for line in reversed(input_file.readlines()):
            output_file.write(line)

In [2]:
try:
    i = int(input('Введите число:\t'))
except ValueError as e:
    print('Вы ввели неправильное число')
else:
    print(f'Вы ввели {i}')
finally:
    print('Выход из программы')

Вы ввели неправильное число
Выход из программы


In [24]:
class NonPositiveDigitException(ValueError):
    pass
 
class Square:
    def __init__(self, a):
        if a <= 0:
            raise NonPositiveDigitException('Неправильно указана сторона квадрата')
        
        
a = Square(7)
display(a)

<__main__.Square at 0x1f6b01a5550>