In [63]:
!pip install numpy matplotlib seaborn pandas



In [64]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Первое задание

In [65]:
# Считаем данные с разделителем в виде звёздочки
# Без индексов, с кодировкой utf-8

df = pd.read_csv('avito_flats_inner_merged.csv', sep='*', index_col=None, encoding='utf-8')

In [66]:
# Индексы остались, давайте дропнем их

df = df.drop(['Unnamed: 0'], axis=1)

In [67]:
df.columns

Index(['id', 'Город', 'Улица', 'Геометка_дома', 'Цена', 'Количество_комнат',
       'Общая_площадь', 'Материал_стен', 'Дата', 'Площадь_кухни',
       'Жилая_площадь', 'Этаж', 'Фото', 'Описание'],
      dtype='object')

In [68]:
# Удалим дупликаты
df = df.drop_duplicates()

In [69]:
# Проверка на пустые значения

for column in df.columns:
  if df[column].isna().any():
    print("Столбец {} содержит пустые значения".format(column))
  else:
    print("Столбец {} не содержит пустые значения".format(column))

Столбец id не содержит пустые значения
Столбец Город не содержит пустые значения
Столбец Улица содержит пустые значения
Столбец Геометка_дома не содержит пустые значения
Столбец Цена не содержит пустые значения
Столбец Количество_комнат не содержит пустые значения
Столбец Общая_площадь не содержит пустые значения
Столбец Материал_стен не содержит пустые значения
Столбец Дата не содержит пустые значения
Столбец Площадь_кухни не содержит пустые значения
Столбец Жилая_площадь не содержит пустые значения
Столбец Этаж не содержит пустые значения
Столбец Фото не содержит пустые значения
Столбец Описание не содержит пустые значения


In [70]:
df['Цена'].fillna(df['Цена'].mean(), inplace=True)
df['Улица'].fillna(df['Улица'].mode()[0], inplace=True)
df['Общая_площадь'].fillna(df['Общая_площадь'].mean(), inplace=True)

In [71]:
# Преобразование даты в формат datetime

df['Дата'] = pd.to_datetime(df['Дата'], format='%Y-%m-%d', errors='coerce')

In [72]:
# Обработка текстовых данных (например, удаление лишних символов, приведение к нижнему регистру):

df['Описание'] = df['Описание'].str.lower()

## Гипотезы

### Сегментация по районам:
Гипотеза: Различные районы города могут иметь разные характеристики и цены на жилье. Вы можете сегментировать объявления по городским районам и провести анализ влияния района на цены и другие параметры.

### Сегментация по типам материалов стен:
Гипотеза: Тип материала стен может влиять на стоимость жилья и его привлекательность. Вы можете сегментировать объявления по материалу стен и проверить, есть ли различия в ценах и других характеристиках.

### Сегментация по числу комнат:
Гипотеза: Квартиры с разным количеством комнат могут привлекать разные категории покупателей. Вы можете сегментировать объявления по количеству комнат и исследовать различия в предпочтениях покупателей.

### Сегментация по времени размещения объявлений:
Гипотеза: Сезонные изменения могут влиять на цены и спрос на жилье. Сегментация по времени размещения объявлений может помочь выявить сезонные тенденции на рынке недвижимости.

### Сегментация по площади квартир:
Гипотеза: Размер квартиры может быть важным фактором при выборе жилья. Вы можете сегментировать объявления по площади и исследовать, как размер влияет на цены и спрос.

# Второе задание

In [73]:
df = pd.read_csv('town_1959.csv', encoding='cp1251')

In [74]:
# Вывод общей информации о данных
print(df.info())

# Вывод статистики по числовым данным, включая среднее и медиану
print(df.describe())

# Вывод среднего и медианы по столбцу 'население'
mean_population = df['население'].mean()
median_population = df['население'].median()

print(f"Среднее население: {mean_population}")
print(f"Медианное население: {median_population}")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1004 entries, 0 to 1003
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   номер      1004 non-null   object 
 1   город      1004 non-null   object 
 2   население  1004 non-null   float64
dtypes: float64(1), object(2)
memory usage: 23.7+ KB
None
         население
count  1004.000000
mean     52.925199
std     204.885662
min       0.100000
25%      10.700000
50%      19.250000
75%      37.975000
max    5046.000000
Среднее население: 52.92519920318725
Медианное население: 19.25
