# Описательные статистики

In [26]:
from google.colab import drive
drive.mount('/content/drive/')

Drive already mounted at /content/drive/; to attempt to forcibly remount, call drive.mount("/content/drive/", force_remount=True).


In [27]:
import statistics
import pandas as pd

In [28]:
df = pd.read_csv('/content/drive/MyDrive/Задачи/sleep75.csv')

In [29]:
df.shape, df.size

((706, 34), 24004)

Основные переменные в датафрейме `df`
- `sleep`: продолжительность сна (мин/нед)
- `totwrk`: рабочее время (мин/нед)
- `age`: возраст (в годах)
- `educ`: уровень образрвания в годах
- `male`: гендерный фактор (бинарная, =1 для мужчин)
- `south`: географический фактор (бинарная, =1 если живёт на юге)

In [30]:
df.shape, df.size

((706, 34), 24004)

Для удобства создадим новый дата фрейм `df1` с количественными переменными: `sleep, totwrk, age`, `educ`

In [31]:
df1 = df[['sleep', 'totwrk', 'age', 'educ']]
df1.head(n=6)

Unnamed: 0,sleep,totwrk,age,educ
0,3113,3438,32,12
1,2920,5020,31,14
2,2670,2815,44,17
3,3083,3786,30,12
4,3448,2580,64,14
5,4063,1205,41,12


## Основные описательные статистики по переменным дата фрейма
метод `.descrive()` из библиотеки `pandas`

In [32]:
df1.describe()

Unnamed: 0,sleep,totwrk,age,educ
count,706.0,706.0,706.0,706.0
mean,3266.355524,2122.92068,38.815864,12.780453
std,444.413448,947.470123,11.342637,2.784702
min,755.0,0.0,23.0,1.0
25%,3015.0,1553.5,29.0,12.0
50%,3270.5,2288.0,36.0,12.0
75%,3532.25,2691.75,48.0,16.0
max,4695.0,6415.0,65.0,17.0


## Корреляции и ковариации
Методы `.cov()` и `.corr()` из библиотеки `pandas` вычисляют ковариационну и корреляционную матрицы соответственно для переменных из датафрейма

In [33]:
df1.cov()

Unnamed: 0,sleep,totwrk,age,educ
sleep,197503.31314,-135324.471051,455.553501,-117.572899
totwrk,-135324.471051,897699.633416,-532.718173,86.023696
age,455.553501,-532.718173,128.655408,-8.396512
educ,-117.572899,86.023696,-8.396512,7.754568


In [34]:
# round( df1.corr(), 3)
df1.corr().round(3)

Unnamed: 0,sleep,totwrk,age,educ
sleep,1.0,-0.321,0.09,-0.095
totwrk,-0.321,1.0,-0.05,0.033
age,0.09,-0.05,1.0,-0.266
educ,-0.095,0.033,-0.266,1.0


Методы `.covariance()` и `correlation()` из библиотеки `statistics` вычисляют ковариацию и корреляция для двух переменных (массивов данных)

## Выборочное среднее
метод ``.mean()`` из библиотеки ``pandas``

In [35]:
df1.mean().round(3)

sleep     3266.356
totwrk    2122.921
age         38.816
educ        12.780
dtype: float64

метод ``.mean()`` из библиотеки ``statistics`` (для одномерного массива). Результат округляется с использованием функции `round()`

In [36]:
round( statistics.mean(df['sleep']), 2)

3266.36

## Стандартное отклонение
метод ``.std()`` из библиотеки ``pandas``

In [37]:
df1.std().round(3)

sleep     444.413
totwrk    947.470
age        11.343
educ        2.785
dtype: float64

метод ``.stdev()`` из библиотеки ``statistics`` (для одномерного массива). Результат округляется с использованием функции `round()`

In [38]:
round( statistics.stdev(df['sleep']), 3)

444.413

Смещённая дисперсия $Var(X)$: метод `.pstdev()` из библиотеки ``statistics`` (для одномерного массива). Результат округляется с использованием функции `round()`

In [39]:
round( statistics.pstdev(df['sleep']), 3)

444.099

# Медиана
метод ``.median()`` из библиотеки ``pandas``

In [40]:
df1.median()

sleep     3270.5
totwrk    2288.0
age         36.0
educ        12.0
dtype: float64

метод `.median()` из библиотеки ``statistics`` (для одномерного массива).

In [41]:
statistics.median(df['sleep'])

3270.5

# Квантили
метод ``.quantile()`` из библиотеки ``pandas``: аргумент $q=0.25$ для первой квартили и $q=0.75$ для третей квартили

In [42]:
df1.quantile(q=0.25), df1.quantile(q=0.75)

(sleep     3015.0
 totwrk    1553.5
 age         29.0
 educ        12.0
 Name: 0.25, dtype: float64,
 sleep     3532.25
 totwrk    2691.75
 age         48.00
 educ        16.00
 Name: 0.75, dtype: float64)

Метод `.quantiles(n=4)` из библиотеки `statistics` вычисляет квантили из условия, что они делят выборку на $n$ равных частей (по умолчанию на 4 части)

In [43]:
statistics.quantiles(data=df['sleep'], n=4)

[3015.0, 3270.5, 3533.75]

In [45]:
data = pd.read_csv('/content/drive/MyDrive/Задачи/Diamond.csv')

In [49]:
data

Unnamed: 0,carat,colour,clarity,certification,price
0,0.30,D,VS2,GIA,1302
1,0.30,E,VS1,GIA,1510
2,0.30,G,VVS1,GIA,1510
3,0.30,G,VS1,GIA,1260
4,0.31,D,VS1,GIA,1641
...,...,...,...,...,...
303,1.01,I,VS1,HRD,8175
304,1.02,F,VVS2,HRD,10796
305,1.06,H,VVS2,HRD,9890
306,1.02,H,VS2,HRD,8959


In [47]:
round(statistics.mean(data['price']), 2)

5019.48

In [50]:
round(statistics.median(data['carat']), 2)

0.62

In [56]:
data['price'].corr(data['carat']).round(2)

0.94