In [1]:
import numpy as np
import pandas as pd

from scipy.stats import mode

import warnings
warnings.filterwarnings('ignore')

In [2]:
DATASET_PATH = './csv/housing.csv'
PREPARED_DATASET_PATH = './csv/housing_prepared.csv'

In [3]:
df = pd.read_csv(DATASET_PATH, sep=',')
df.head(4)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY,0
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY,1
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY,2
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY,3


In [4]:
df_num_features = df.select_dtypes(include=['float', 'int'])
df_num_features.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,id
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,0
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,1
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,2
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,3
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,4


In [5]:
# longitude в максимуме - забыт минус
# latitude - выбросы
# total_rooms - отрицательное значение
df.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,id
count,20640.0,20640.0,19918.0,20640.0,20433.0,20041.0,20640.0,20640.0,20640.0,20640.0
mean,-119.471242,35.036934,28.65363,2635.763081,537.870553,1425.418243,499.53968,3.870671,206855.816909,10319.5
std,5.041408,94.903955,12.576796,2181.615252,421.38507,1135.185798,382.329753,1.899822,115395.615874,5958.399114
min,-124.35,-13534.03,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0,0.0
25%,-121.8,33.93,18.0,1447.75,296.0,786.0,280.0,2.5634,119600.0,5159.75
50%,-118.49,34.26,29.0,2127.0,435.0,1165.0,409.0,3.5348,179700.0,10319.5
75%,-118.01,37.71,37.0,3148.0,647.0,1726.0,605.0,4.74325,264725.0,15479.25
max,122.03,1327.13,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0,20639.0


In [6]:
a = np.array([1, 2, 3, 4, 5])
a

array([1, 2, 3, 4, 5])

#### Среднее арифметическое

In [7]:
mean = a.sum() / len(a)
mean

3.0

#### Дисперсия и стандартное отклонение

Дисперсия - средний квадрат отклонение от математического ожидания (среднего арифметического). Она выражает разброс чисел относительно среднего значения.

Стандартное отклонение (среднеквадратичное отклонение) - это величина, характеризующая разброс данных относительно среднего значения.

In [8]:
a - mean

array([-2., -1.,  0.,  1.,  2.])

In [9]:
variance = np.mean((a - mean) ** 2)
std = np.sqrt(variance)
variance, std

(2.0, 1.4142135623730951)

#### Аналогичные методы в Numpy

In [10]:
mean_np = np.mean(a)
mean_np

3.0

In [11]:
std_np = np.std(a)
std_np

1.4142135623730951

#### Медиана

Медиана это значение, которое является серединой отсортированной выборки. Может быть дробной, если в выборке четное количество элементов.

In [12]:
# Медиана это квантиль 50%
a = [3, 4, 5, 6, 1, 2, 2, 6, 2]
a = np.sort(a)
a

array([1, 2, 2, 2, 3, 4, 5, 6, 6])

In [13]:
len(a)

9

In [14]:
np.quantile(a, 0.5)

3.0

In [15]:
np.median(a)

3.0

#### Мода

Мода - это объект с максимальной частотой, встречаемый в выборке. Используется для категориальных признаков.

In [16]:
mode(a)

ModeResult(mode=array([2]), count=array([3]))

#### Применение статистики

In [17]:
np.quantile(df['total_rooms'], q=0.5)

2127.0

In [18]:
df['total_rooms'].median()

2127.0

In [19]:
np.quantile(df['total_rooms'], q=0.25)

1447.75

In [20]:
df['total_rooms'].describe()

count    20640.000000
mean      2635.763081
std       2181.615252
min          2.000000
25%       1447.750000
50%       2127.000000
75%       3148.000000
max      39320.000000
Name: total_rooms, dtype: float64

In [21]:
df['total_rooms'].mode()

0    1527.0
dtype: float64

#### Частотность значений

In [23]:
df['total_rooms'].value_counts()

1527.0     18
1613.0     17
1582.0     17
2127.0     16
1717.0     15
           ..
9614.0      1
10839.0     1
11872.0     1
6205.0      1
10035.0     1
Name: total_rooms, Length: 5926, dtype: int64

In [24]:
df[df['total_rooms'] == 1527].shape

(18, 11)