In [3]:
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns 
 
def check_and_handle_data(df): 
    """ 
    Проверка данных на пропуски, выбросы и ошибки, обработка аномалий. 
 
    Args: 
        df (pd.DataFrame): DataFrame с данными. 
 
    Returns: 
        pd.DataFrame: DataFrame с обработанными данными. 
    """ 
 
    # 1. Проверка на пропуски: 
    print("Пропуски в данных:") 
    print(df.isnull().sum())  # Вывод количества пропусков по столбцам 
 
    # Заполнение пропусков (в зависимости от типа данных): 
    # - Числовые столбцы: средним значением или медианой 
    for col in df.select_dtypes(include=np.number): 
        df[col].fillna(df[col].mean(), inplace=True)  # Замена пропусков средним 
    # - Текстовые столбцы: "Unknown" или другим подходящим значением 
    for col in df.select_dtypes(include=object): 
        df[col].fillna("Unknown", inplace=True) 
 
    # 2. Проверка на выбросы: 
    print("\nПроверка на выбросы:") 
    for col in df.select_dtypes(include=np.number): 
        Q1 = df[col].quantile(0.25) 
        Q3 = df[col].quantile(0.75) 
        IQR = Q3 - Q1 
        lower_bound = Q1 - 1.5 * IQR 
        upper_bound = Q3 + 1.5 * IQR 
        print(f"Выбросы в '{col}':") 
        print(f"  Нижняя граница: {lower_bound}") 
        print(f"  Верхняя граница: {upper_bound}") 
        df = df[(df[col] >= lower_bound) & (df[col] <= upper_bound)]  # Удаление выбросов 
 
    # 3. Проверка на ошибки: 
    #  - Проверка типа данных: 
    #     - Преобразование в нужный тип данных, если это возможно (например, "Номер телефона" в числовой) 
    #     - Проверка значений на соответствие ограничениям (например, "Количество комнат" > 0) 
    #  - Проверка на дубликаты: 
    #     - Удаление дубликатов, если они есть 
    #  - Проверка на некорректные значения: 
    #     - Замена некорректных значений на "Unknown" или на значение по умолчанию 
    #  - Проверка на логические ошибки: 
    #     - Проверка на несоответствие значений в разных столбцах (например, "Площадь" < "Количество комнат") 
 
    # ... (Добавьте свою логику проверки и обработки ошибок) 
 
    print("\nДанные проверены и обработаны.") 
    return df 
 
# Пример использования: 
df = pd.read_csv("dataa.csv") 
df = check_and_handle_data(df)

Пропуски в данных:
Дипломат                                       79
developer                                      79
https://krym.cian.ru/sale/flat/292125018/       0
Москва и Московская область                     0
sale                                            0
flat                                            0
2                                               0
8                                               0
2.1                                             0
66.0                                           19
-1                                           1318
0                                            1307
22622160                                      666
Unnamed: 13                                   952
Unnamed: 14                                  1638
Unnamed: 15                                  5222
Unnamed: 16                                  5571
Резиденция Дипломат                          5382
dtype: int64

Проверка на выбросы:

Данные проверены и обработаны.


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna("Unknown", inplace=True)
