# Анализ числовых данных

In [None]:
!gdown --id 18yofdxO2BYBmlw8wmVHEwGFiALR2F4lC 
import pandas as pd
dataset = pd.read_csv('housing_market_dataset.csv') 

Downloading...
From: https://drive.google.com/uc?id=18yofdxO2BYBmlw8wmVHEwGFiALR2F4lC
To: /content/housing_market_dataset.csv
100% 29.3M/29.3M [00:00<00:00, 252MB/s]


## Неграфический анализ


![](https://miro.medium.com/max/1400/0*YwPNRwWwTfra-IzR)
 

Особенности Series  
*   В Series индексы привязаны к элементу и при сортировки связь сохраняется 
*   Индексы могут быть не только целыми числами, но также строками или датами, как в dict


### Какой год построки максимальный и минимальный?

In [None]:
year_of_construction = dataset['Год постройки']

In [None]:
max_value = year_of_construction.max()
min_value = year_of_construction.min()
print('Максимальный год постройки: ', max_value, 'Минимальный год постройки: ', min_value)

Максимальный год постройки:  2021.0 Минимальный год постройки:  1876.0


### Какой год построки средний?

In [None]:
mean_value = year_of_construction.mean()
print('Средний год постройки: ', mean_value)

Средний год постройки:  2001.1397864768683


### Альтернативный способ - медиана
Медиана — число, которое находится ровно в середине отсортированного массива значений

In [None]:
[1900, 2022, 2022, 2021, 2019] # среднее = 1996.8, медиана = 2021

In [None]:
median_value = year_of_construction.median()
print('Медиана года постройки: ', median_value)

Медиана года постройки:  2018.0


### Процентили
Процентиль — это определенная часть выборки данных, мера, в которой определенный процент всех значений в датасете равен этой мере или меньше ее.

Другими словами - показатель того, какой процент значений находится ниже определенного уровня. 
Например, значение 10-го процентиля указывает, что 10% значений располагается ниже этого уровня.

In [None]:
percentile_10_value = year_of_construction.quantile(0.10)
percentile_25_value = year_of_construction.quantile(0.25)
percentile_50_value = year_of_construction.quantile(0.50)
percentile_75_value = year_of_construction.quantile(0.75)
percentile_90_value = year_of_construction.quantile(0.90)
print('10-й процентиль года постройки: ', percentile_10_value)
print('25-й процентиль года постройки: ', percentile_25_value)
print('50-й процентиль года постройки: ', percentile_50_value)
print('75-й процентиль года постройки: ', percentile_75_value)
print('90-й процентиль года постройки: ', percentile_90_value)

10-й процентиль года постройки:  1962.0
25-й процентиль года постройки:  1979.0
50-й процентиль года постройки:  2018.0
75-й процентиль года постройки:  2019.0
90-й процентиль года постройки:  2020.0


### Describe

In [None]:
year_of_construction.describe()

count    7025.000000
mean     2001.139786
std        25.060692
min      1876.000000
25%      1979.000000
50%      2018.000000
75%      2019.000000
max      2021.000000
Name: Год постройки, dtype: float64

In [None]:
dataset.describe()

Unnamed: 0,Год постройки,Кол-во просмотров,Кол-во просмотров сегодня,Количество этажей,Количество комнат,Этажность,Номер этажа
count,7025.0,13001.0,7224.0,12510.0,13001.0,13001.0,13001.0
mean,2001.139786,94.52419,1.844546,17.488649,1.974848,17.444043,8.624798
std,25.060692,199.666472,2.7124,19.682982,0.91251,9.728213,6.693463
min,1876.0,1.0,1.0,1.0,1.0,1.0,1.0
25%,1979.0,35.0,1.0,12.0,1.0,12.0,3.0
50%,2018.0,65.0,1.0,16.0,2.0,16.0,7.0
75%,2019.0,97.0,2.0,22.0,3.0,22.0,12.0
max,2021.0,5739.0,38.0,1960.0,25.0,100.0,95.0


 ## Шаблон анализа

In [None]:
# Создание переменной с Series
year_of_construction = dataset['Год постройки']

In [None]:
# Расчет минимального и максимального значения Series
max_value = year_of_construction.max()
min_value = year_of_construction.min()
print('Максимальный год постройки: ', max_value, 'Минимальный год постройки: ', min_value)

In [None]:
# Расчет среднего значения Series
mean_value = year_of_construction.mean()
print('Средний год постройки: ', mean_value)

In [None]:
# Расчет медианы Series
median_value = year_of_construction.median()
print('Медиана года постройки: ', median_value)

In [None]:
# Расчет 10-го и 25-го процентилей Series
percentile_10_value = year_of_construction.quantile(0.10)
percentile_25_value = year_of_construction.quantile(0.25)
print('10-й процентиль года постройки: ', percentile_10_value)
print('25-й процентиль года постройки: ', percentile_25_value)

In [None]:
# Для расчета всех основных статистических показателей сразу
year_of_construction.describe()

## Графический анализ ящик с усами - boxplot 

In [None]:
import matplotlib.pyplot as plt

In [None]:
floor_number = dataset['Номер этажа']

In [None]:
plt.boxplot(floor_number)
plt.show()

In [None]:
year_of_construction = dataset['Год постройки']
plt.boxplot(year_of_construction)
plt.show()

In [None]:
year_of_construction_without_na = year_of_construction.dropna()
year_of_construction_without_na

In [None]:
plt.boxplot(year_of_construction_without_na)
plt.show()

## Графический анализ - Гистограмма 

In [None]:
plt.hist(year_of_construction)
plt.show()

In [None]:
plt.hist(dataset['Номер этажа'].dropna(), bins = 10)
plt.show()

In [None]:
plt.hist(dataset['Номер этажа'], bins = 100)
plt.show()

In [None]:
plt.hist(dataset['Номер этажа'], bins = 25)
plt.show()

## Выбросы и их обработка

In [None]:
plt.hist(dataset['Номер этажа'], bins = 50)
plt.show()

In [None]:
plt.hist(dataset['Номер этажа'], bins = 50)

plt.xlim((None,55))
plt.show()

## Какие выводы мы можем сделать из проведенного анализа?

In [None]:
plt.hist(dataset['Год постройки'].dropna(), bins = 50)
plt.show()

In [None]:
plt.hist(dataset['Номер этажа'], bins = 50)

plt.xlim((None,50))
plt.show()

 ## Шаблон анализа

In [None]:
# Импортируем библиотеку визуализации
import matplotlib.pyplot as plt

In [None]:
# Для визуального представления данных в том числе медианы, квартилей и выбросов используем boxplot
plt.boxplot(dataset['Номер этажа'])
plt.show()

In [None]:
# Альтернативный способ визуализировать колонку - гистограмма
plt.hist(dataset['Номер этажа'], bins = 50)
plt.xlim((None,55)) # для "отрезания" от графика неинформативного
plt.show()

#### Как выбирать колонки для анализа?
Для выбора используем одну из двух тактик: 

1) Пытаемся сформулировать вопросы для интересных вам колонок и ответить на них 

2) Анализироватьк каждую колонку по порядку