# Сбор и разметка данных (семинары)
## Урок 8. Работа с данными
1. Скачайте датасет House Prices Kaggle со страницы конкурса (https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/data) и сохраните его в том же каталоге, что и ваш скрипт или блокнот Python.
2. Загрузите датасет в pandas DataFrame под названием df.


3. Выполните предварительную обработку данных, выполнив следующие шаги:
   
   **a**. Определите и обработайте отсутствующие значения в датасете. Определите, в каких столбцах есть отсутствующие значения, и решите, как их обработать (например, заполнить средним, медианой или модой, или отбросить столбцы/строки с существенными отсутствующими значениями).
   
   **b**. Проверьте и обработайте любые дублирующиеся строки в датасете. c. Проанализируйте типы данных в каждом столбце и при необходимости преобразуйте их (например, из объектных в числовые типы).


4. Проведите разведочный анализ данных (EDA), ответив на следующие вопросы: 
   
   **a**. Каково распределение целевой переменной 'SalePrice'? Есть ли какие-либо выбросы? 

   **b**. Исследуйте взаимосвязи между целевой переменной и другими характеристиками. Есть ли сильные корреляции? 

   **c**. Исследуйте распределение и взаимосвязи других важных характеристик, таких как 'OverallQual', 'GrLivArea', 'GarageCars' и т.д. 

   **d**. Визуализируйте данные, используя соответствующие графики (например, гистограммы, диаграммы рассеяния, квадратные диаграммы), чтобы получить представление о датасете.


5. Выполните проектирование признаков путем реализации следующих преобразований: 
   **a**. Работайте с категориальными переменными, применяя one-hot encoding или label encoding, в зависимости от характера переменной. 
   **b**. При необходимости создайте новые характеристики, такие как общая площадь или возраст объекта недвижимости, путем объединения существующих характеристик.


6. Сохраните очищенный и преобразованный набор данных в новый CSV-файл под названием 'cleaned_house_prices.csv'.

In [2]:
import pandas as pd
import numpy as np
import  matplotlib.pyplot as plt
import  matplotlib
import seaborn as sns
from datetime import datetime

In [3]:
df = pd.read_csv('train.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'train.csv'

Исследуем датасет

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.shape

Ищем пропуски

In [None]:
df.isnull().sum()

Заменяем пропуски случайными значениями но с вероятностью заполнить наиболее часто встречающимися 

In [None]:
cont = df['MSZoning'].values
df['MSZoning'] = df['MSZoning'].fillna(np.random.choice(cont))
df['MSZoning'].isnull().sum()

Заменяем пропуски медианными значениями

In [None]:

df['LotFrontage'] = df['LotFrontage'].fillna(df['LotFrontage'].median())
df['LotFrontage'].isnull().sum()

Удаляем дубликаты, но видим что размер не изменился => дубликатов нет

In [None]:

df.drop_duplicates()
df.shape

Заменяем значения наличия центрального на 1 и 0

In [None]:

df['CentralAir'] = df['CentralAir'].replace('Y', 1)
df['CentralAir'] = df['CentralAir'].replace('N', 0)

Исследуеи значение стоймости жилья

In [None]:
df['SalePrice'].describe()

- Слишком большое стандартное отклонение
- Большая разница между минимальным значением и 25-м процентилем.
- Большая разница между максимальным значением и 75-м процентилем.

In [None]:

f, ax = plt.subplots(figsize=(15, 12))
sns.boxplot(df['SalePrice'])

видим большое количество выбросов

In [None]:
f, ax = plt.subplots(figsize=(18, 17))
sns.histplot(df['SalePrice'])

Посмотрим на корреляцию значений

In [None]:
f, ax = plt.subplots(figsize=(15, 15))
k = 5
corr = df.corr(numeric_only=True)
cols = corr.nlargest(k, 'SalePrice')['SalePrice'].index
cm = np.corrcoef(df[cols].values.T)
hm = sns.heatmap(cm, cbar=True, annot=True, square=True, 
                 fmt='.2f', annot_kws={'size': 10},  yticklabels=cols.values, xticklabels=cols.values)
plt.show()

Видим, что наибольшая корреляция с параметрами **GrLivArea** и **SalePrice**

In [None]:
f, ax = plt.subplots(figsize=(15, 15))
plt.scatter(x = df['GrLivArea'], y=df['SalePrice'])
plt.ylabel('SalePrice', fontsize=15)
plt.xlabel('GrLivArea', fontsize=15)

Избавляемся от выбросов в GrLivArea

In [None]:
df = df.drop(df[df.GrLivArea > 4000].index)
df

In [None]:
f, ax = plt.subplots(figsize=(15, 15))
plt.scatter(x = df['GrLivArea'], y=df['SalePrice'])
plt.ylabel('SalePrice', fontsize=15)
plt.xlabel('GrLivArea', fontsize=15)

In [None]:
fig, ax = plt.subplots()
ax.scatter(x = df['OverallQual'], y = df['SalePrice'])
plt.ylabel('SalePrice', fontsize=13)
plt.xlabel('OverallQual', fontsize=13)
plt.show()

Создаём новый столбец с возрастом дома

In [None]:
df['age_house'] = datetime.now().year - df.YearBuilt
df[['SalePrice', 'age_house']]

In [None]:
f, ax = plt.subplots(figsize=(15, 15))
plt.scatter(x = df['age_house'], y=df['SalePrice'])
plt.ylabel('SalePrice', fontsize=15)
plt.xlabel('age_house', fontsize=15)

Видим, что зависимости от возраста нет

Сохраняем обновлённый датасет в файл]

In [None]:
df.to_csv('cleaned_house_prices.csv')