In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

def check_and_handle_data(df):
    """
    Проверка данных на пропуски, выбросы и ошибки, обработка аномалий.

    Args:
        df (pd.DataFrame): DataFrame с данными.

    Returns:
        pd.DataFrame: DataFrame с обработанными данными.
    """

    # 1. Проверка на пропуски:
    print("Пропуски в данных:")
    print(df.isnull().sum())  # Вывод количества пропусков по столбцам

    # Заполнение пропусков (в зависимости от типа данных):
    # - Числовые столбцы: средним значением или медианой
    for col in df.select_dtypes(include=np.number):
        df[col].fillna(df[col].mean(), inplace=True)  # Замена пропусков средним
    # - Текстовые столбцы: "Unknown" или другим подходящим значением
    for col in df.select_dtypes(include=object):
        df[col].fillna("Unknown", inplace=True)

    # 2. Проверка на выбросы:
    print("\nПроверка на выбросы:")
    for col in df.select_dtypes(include=np.number):
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        print(f"Выбросы в '{col}':")
        print(f"  Нижняя граница: {lower_bound}")
        print(f"  Верхняя граница: {upper_bound}")
        df = df[(df[col] >= lower_bound) & (df[col] <= upper_bound)]  # Удаление выбросов

    # 3. Проверка на ошибки:
    #  - Проверка типа данных:
    #     - Преобразование в нужный тип данных, если это возможно (например, "Номер телефона" в числовой)
    #     - Проверка значений на соответствие ограничениям (например, "Количество комнат" > 0)
    #  - Проверка на дубликаты:
    #     - Удаление дубликатов, если они есть
    #  - Проверка на некорректные значения:
    #     - Замена некорректных значений на "Unknown" или на значение по умолчанию
    #  - Проверка на логические ошибки:
    #     - Проверка на несоответствие значений в разных столбцах (например, "Площадь" < "Количество комнат")

    # ... (Добавьте свою логику проверки и обработки ошибок)

    print("\nДанные проверены и обработаны.")
    return df

# Пример использования:
df = pd.read_csv("dataa.csv")
df = check_and_handle_data(df)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Загружаем данные из CSV-файла
df = pd.read_csv('cian_parsing.csv', header=None, names=[
    "Компания", "Тип", "Город", "Тип сделки", "Тип объекта", "Этажность", "Количество комнат", "Площадь (кв.м)",
    "Цена (руб.)", "Район", "Улица", "Дом", "Станция метро", "ЖК"
], sep=",", on_bad_lines='warn')




In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Загружаем данные из CSV-файла
df = pd.read_csv('cian_parsing.csv', header=None, names=[
    "Компания", "Тип", "Город", "Тип сделки", "Тип объекта", "Этажность", "Количество комнат", "Площадь (кв.м)",
    "Цена (руб.)", "Район", "Улица", "Дом", "Станция метро", "ЖК"
], sep=",", on_bad_lines='warn')


# Преобразуем столбцы в числовые типы
df['Этажность'] = df['Этажность'].astype(int)
df['Количество комнат'] = df['Количество комнат'].astype(int)
df['Площадь (кв.м)'] = df['Площадь (кв.м)'].astype(float)
df['Цена (руб.)'] = df['Цена (руб.)'].astype(float)

# Гистограммы числовых признаков
plt.figure(figsize=(12, 8))

plt.subplot(2, 2, 1)
sns.histplot(df['Этажность'], kde=True)
plt.title('Гистограмма этажности')

plt.subplot(2, 2, 2)
sns.histplot(df['Количество комнат'], kde=True)
plt.title('Гистограмма количества комнат')

plt.subplot(2, 2, 3)
sns.histplot(df['Площадь (кв.м)'], kde=True)
plt.title('Гистограмма площади')

plt.subplot(2, 2, 4)
sns.histplot(df['Цена (руб.)'], kde=True)
plt.title('Гистограмма цены')

plt.tight_layout()
plt.show()

# Зависимость цены от площади с учетом количества комнат
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Площадь (кв.м)', y='Цена (руб.)', hue='Количество комнат', data=df)
plt.title('Зависимость цены от площади с учетом количества комнат')
plt.xlabel('Площадь (кв.м)')
plt.ylabel('Цена (руб.)')
plt.show()

# KDE распределение площади жилья
plt.figure(figsize=(8, 4))
sns.kdeplot(df['Площадь (кв.м)'], shade=True)
plt.title('KDE распределение площади жилья')
plt.xlabel('Площадь (кв.м)')
plt.show()

In [None]:
from google.colab import drive
drive.mount('/content/drive')

# Новый раздел