### Задание 1: Анализ данных о домах

**Цель**: Провести первичный анализ данных о домах, предоставленных в файле `kc-house-data.csv`.

**Шаги для выполнения задания**:

1. **Загрузка данных**  
    Используйте библиотеку pandas для загрузки данных из файла `kc-house-data.csv`.
    
2. **Визуальный осмотр данных**  
    Выведите на экран первые 5 строк датафрейма для ознакомления с данными.

3. **Анализ признаков**  
    Изучите каждый из признаков датафрейма, попробуйте понять их содержание и значение.

In [7]:
import pandas as pd

# Загрузка данных с использованием кодировки ISO-8859-1
house_data = pd.read_csv('i:/!GeekBrains/Business Intelligence/II четверть Специализация/14 Python для аналитиков/Урок02Семинар/kc-house-data.csv', encoding='ISO-8859-1')

# Вывод первых 5 строк датафрейма
house_data.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


### Задание 2: Первичный анализ данных о домах

**Описание задачи:**

1. Провести первичный анализ данных.
2. Изучить типы данных.
3. Найти количество пропущенных ячеек в данных.
4. Посчитать основные статистики по всем признакам.
5. Провести анализ полученных статистик.

In [9]:
# Первичный анализ данных: вывод основной информации о датафрейме
print(house_data.info())

# Изучение типов данных
print("\nТипы данных:\n", house_data.dtypes)

# Поиск пропущенных значений
print("\nКоличество пропущенных значений по признакам:\n", house_data.isnull().sum())

# Основные статистики по всем признакам
print("\nОсновные статистики:\n", house_data.describe())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21613 entries, 0 to 21612
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             21613 non-null  int64  
 1   date           21613 non-null  object 
 2   price          21613 non-null  float64
 3   bedrooms       21613 non-null  int64  
 4   bathrooms      21613 non-null  float64
 5   sqft_living    21613 non-null  int64  
 6   sqft_lot       21613 non-null  int64  
 7   floors         21613 non-null  float64
 8   waterfront     21613 non-null  int64  
 9   view           21613 non-null  int64  
 10  condition      21613 non-null  int64  
 11  grade          21613 non-null  int64  
 12  sqft_above     21613 non-null  int64  
 13  sqft_basement  21613 non-null  int64  
 14  yr_built       21613 non-null  int64  
 15  yr_renovated   21613 non-null  int64  
 16  zipcode        21613 non-null  int64  
 17  lat            21613 non-null  float64
 18  long  

**Описание данных:**
- `id`: уникальный идентификатор дома
- `date`: дата продажи дома
- `price`: цена продажи дома
- `bedrooms`: количество спален
- `bathrooms`: количество ванных комнат
- `sqft_living`: общая жилая площадь (в квадратных футах)
- `sqft_lot`: общая площадь участка (в квадратных футах)
- `floors`: количество этажей
- `waterfront`: вид на набережную (0 = нет, 1 = есть)
- `view`: индекс просмотра (от 0 до 4)
- ... и так далее до `sqft_lot15`: площадь участка ближайших 15 соседей

**Размерность данных:**
- В данных содержится 21 613 строк и 21 столбец.

**Типы данных:**
- Большинство признаков имеют числовой тип (целочисленный `int64` или вещественный `float64`).
- Признак `date` имеет тип `object` (строка). Возможно, потребуется преобразование этого признака в формат даты.

**Пропущенные значения:**
- Отсутствуют пропущенные значения во всех столбцах.

**Основные статистические характеристики:**
- `price`: Средняя цена дома составляет примерно 540,088 единиц, с минимальной ценой 75,000 и максимальной 7,700,000.
- `bedrooms`: В большинстве домов от 3 до 4 спален, но есть дома с 33 спальнями.
- `bathrooms`: Среднее количество ванных комнат в доме - около 2, но есть дома с 8 ванными.
- `sqft_living`: Средняя жилая площадь составляет 2079 кв. футов, но есть дома размером всего 290 кв. футов и до 13,540 кв. футов.

    * **Год постройки (`yr_built`)**: дома были построены в промежутке с 1900 по 2015 год.
    * **Географическое расположение (`lat`, `long`)**: координаты распределены вокруг широты 47.56 и долготы -122.21, что соответствует району Сиэтла.
    * **Площадь жилья в 2015 году (`sqft_living15`)**: средняя площадь составляет примерно 1987 кв. футов.

**Выводы:**

1. Данные полные и не имеют пропущенных значений.
2. Некоторые признаки имеют аномалии или выбросы, например, 33 спальни в одном доме. Необходимо дополнительное исследование или уточнение данных.
3. Цены на дома весьма разнообразны, и могут быть связаны с различными характеристиками домов, такими как площадь, количество спален и т.д.
4. Для более глубокого анализа можно рассмотреть корреляции между признаками, а также визуализировать распределения и зависимости между различными переменными.


### Задание 3: Ответьте на несколько вопросов о данных

**3.1** В каком диапазоне изменяются стоимости недвижимости?  
**3.2** Какую долю в среднем занимают жилая площадь от всей площади по всем домам?  
**3.3** Как много домов с разными этажами в данных?  
**3.4** Насколько хорошие состояния у домов в данных?  
**3.5** Найдите года, когда построили первый дом и когда построили последний дом в данных?

In [13]:
# 3.1 В каком диапазоне изменяются стоимости недвижимости?
min_price = house_data['price'].min()
max_price = house_data['price'].max()

# 3.2 Какую долю в среднем занимают жилая площадь от всей площади по всем домам?
avg_living_ratio = (house_data['sqft_living'] / house_data['sqft_lot']).mean()

# 3.3 Как много домов с разными этажами в данных?
floors_counts = house_data['floors'].value_counts()

# 3.4 Насколько хорошие состояния у домов в данных?
condition_counts = house_data['condition'].value_counts()

# 3.5 Найдите года, когда построили первый дом, когда построили последний дом в данных?
min_year_built = house_data['yr_built'].min()
max_year_built = house_data['yr_built'].max()

print(f"Диапазон стоимости недвижимости: от ${min_price} до ${max_price}")
print(f"Средняя доля жилой площади от всей площади: {avg_living_ratio:.2%}")
print("\nКоличество домов с разными этажами:")
print(floors_counts)
print("\nКоличество домов с различным состоянием:")
print(condition_counts)
print(f"\nПервый дом был построен в {min_year_built} году, последний в {max_year_built} году.")


Диапазон стоимости недвижимости: от $75000.0 до $7700000.0
Средняя доля жилой площади от всей площади: 32.37%

Количество домов с разными этажами:
floors
1.0    10680
2.0     8241
1.5     1910
3.0      613
2.5      161
3.5        8
Name: count, dtype: int64

Количество домов с различным состоянием:
condition
3    14031
4     5679
5     1701
2      172
1       30
Name: count, dtype: int64

Первый дом был построен в 1900 году, последний в 2015 году.


### Задание 4: Ответьте на несколько вопросов о недвижимости

#### Описание задачи:

1. **Сколько в среднем стоят дома, у которых 2 спальни?**
2. **Какая в среднем общая площадь домов, у которых стоимость больше 600 000?**
3. **Как много домов коснулся ремонт?**
4. **Насколько в среднем стоимость домов с оценкой grade домов выше 10 отличается от стоимости домов с оценкой grade меньше 4?**

In [14]:
# 4.1 Средняя стоимость домов с 2 спальнями
average_price_2_bedrooms = house_data[house_data['bedrooms'] == 2]['price'].mean()

# 4.2 Средняя площадь домов, стоимость которых больше 600 000
average_sqft_high_price = house_data[house_data['price'] > 600000]['sqft_living'].mean()

# 4.3 Количество домов, которые были отремонтированы
houses_renovated = len(house_data[house_data['yr_renovated'] != 0])

# 4.4 Разница в средней стоимости домов с разными оценками
average_price_high_grade = house_data[house_data['grade'] > 10]['price'].mean()
average_price_low_grade = house_data[house_data['grade'] < 4]['price'].mean()
difference = average_price_high_grade - average_price_low_grade

# Вывод результатов
print(f"1. Средняя стоимость домов с 2 спальнями: ${average_price_2_bedrooms:.2f}")
print(f"2. Средняя площадь домов стоимостью выше $600,000: {average_sqft_high_price:.2f} кв. футов")
print(f"3. Количество домов, которые были отремонтированы: {houses_renovated}")
print(f"4. Разница в средней стоимости домов между высоким и низким грейдом: ${difference:.2f}")


1. Средняя стоимость домов с 2 спальнями: $401372.68
2. Средняя площадь домов стоимостью выше $600,000: 2895.47 кв. футов
3. Количество домов, которые были отремонтированы: 914
4. Разница в средней стоимости домов между высоким и низким грейдом: $1488885.12


### Задача 5: Выбор дома для клиента

**Вопросы**:
1. Выберите дом клиенту: Клиент хочет дом с видом на набережную, как минимум с тремя ванными и с подвалом. Сколько вариантов есть у клиента?
2. Выберите дом клиенту: Клиент хочет дом либо с очень красивым видом из окна, либо с видом на набережную, в очень хорошем состоянии и год постройки не меньше 1980 года. В какой ценовом диапазоне будут дома?
3. Выберите дом клиенту: Клиент хочет дом без подвала, с двумя этажами, стоимостью до 150000. Какая оценка по состоянию у таких домов в среднем?

In [16]:
# Создание булевых масок для каждого условия
mask1 = (house_data['waterfront'] == 1) & (house_data['bathrooms'] >= 3) & (house_data['sqft_basement'] > 0)
mask2 = ((house_data['view'] == 4) | (house_data['waterfront'] == 1)) & (house_data['condition'] == 5) & (house_data['yr_built'] >= 1980)
mask3 = (house_data['sqft_basement'] == 0) & (house_data['floors'] == 2) & (house_data['price'] <= 150000)

# Применение масок
houses_with_requirements_1 = house_data[mask1]
houses_with_requirements_2 = house_data[mask2]
houses_with_requirements_3 = house_data[mask3]

# Получение результатов
num_options_1 = len(houses_with_requirements_1)
min_price_2, max_price_2 = houses_with_requirements_2['price'].min(), houses_with_requirements_2['price'].max()
avg_condition_3 = houses_with_requirements_3['condition'].mean()

# Вывод результатов
print(f"1. У клиента {num_options_1} вариантов домов, соответствующих его требованиям.")
print(f"2. Дома, соответствующие требованиям клиента, находятся в ценовом диапазоне от ${min_price_2:.2f} до ${max_price_2:.2f}.")
print(f"3. Дома, соответствующие требованиям клиента, в среднем имеют состояние, оцененное как {avg_condition_3:.2f} (где 1 - плохое состояние, 5 - отличное состояние).")

1. У клиента 41 вариантов домов, соответствующих его требованиям.
2. Дома, соответствующие требованиям клиента, находятся в ценовом диапазоне от $1295000.00 до $3000000.00.
3. Дома, соответствующие требованиям клиента, в среднем имеют состояние, оцененное как 3.00 (где 1 - плохое состояние, 5 - отличное состояние).
