# Общая статистика всех данных
Изначально при анализе данных после их загрузки

Снимают общую статистику

In [1]:
import pandas as pd

# Загружаем данные из csv
movies = pd.read_csv('movies.csv')

In [2]:
# Смотрим первые несколько строк датасета
print(movies.head())

                              movie  production_budget  domestic_gross  \
0                     Evan Almighty        175000000.0     100289690.0   
1                        Waterworld        175000000.0      88246220.0   
2  King Arthur: Legend of the Sword        175000000.0      39175066.0   
3                          47 Ronin        175000000.0      38362475.0   
4    Jurassic World: Fallen Kingdom        170000000.0     416769345.0   

   worldwide_gross mpaa_rating      genre  
0     1.741313e+08          PG     Comedy  
1     2.642462e+08       PG-13     Action  
2     1.399507e+08       PG-13  Adventure  
3     1.517168e+08       PG-13     Action  
4     1.304866e+09       PG-13     Action  


In [3]:
# Для того чтобы получить быструю общую статистику по всем полям используется метод describe с параметром include='all'
print(movies.describe(include='all'))
# Как видно по результату числовые данные расчитали среднее значение (mean), стандартное отклонение (std), минимальное (min), максимальное (max), квартили (25%, 50% | median, 75%)
# А для категорийных переменных были расчитаны такие показатели как кол-во уникальных (unique), значение которое встречается чаще всего (top), и его частота возникновения (freq)

                 movie  production_budget  domestic_gross  worldwide_gross  \
count             3401       3.401000e+03    3.401000e+03     3.401000e+03   
unique            3400                NaN             NaN              NaN   
top     Tau ming chong                NaN             NaN              NaN   
freq                 2                NaN             NaN              NaN   
mean               NaN       3.328474e+07    4.542179e+07     9.411512e+07   
std                NaN       3.489239e+07    5.882566e+07     1.409182e+08   
min                NaN       2.500000e+05    0.000000e+00     0.000000e+00   
25%                NaN       9.000000e+06    6.118683e+06     1.061881e+07   
50%                NaN       2.000000e+07    2.553382e+07     4.015902e+07   
75%                NaN       4.500000e+07    6.032379e+07     1.176152e+08   
max                NaN       1.750000e+08    4.745447e+08     1.304866e+09   

       mpaa_rating  genre  
count         3264   3401  
unique 

## Central Tendency для кол-ых данных

Полученные значение числовых данных при общей статистике называют центральной тенденцией

- среднее значение (mean): значение которое расситывает выражения деления суммы всех значений на их кол-во
- значение медианы (median): значение середины отсортированного списка (1,2,3,4,5 -> 3)
- моды (mode): наиболее часто встречаемо значение в переменной
- обрезанное среднее (trimmed mean): среднее значение исключая Х процент от самого малого и самого большого значения

In [4]:
# Для расчета среднего значение используется метод mean
print('mean', movies.production_budget.mean())
# Что расчитать медиану используется метод median
print('median', movies.production_budget.median())
# Для расчета мода используется метод Mode
print('mode', movies.production_budget.mode())
# Для расчета trimmed mean нет специального метода у pandas но данный метод есть в библиотеке scipy
# pip install scipy
from scipy.stats import trim_mean
print('trim_mean', trim_mean(movies.production_budget, proportiontocut=0.2))
# данный метод принимает параметрами колонку dataframe , и значение пропорции указывается как дробное число от 0 до 1
# что является процентом отступа от минимального и максимального значений

mean 33284743.23640106
median 20000000.0
mode 0    20000000.0
Name: production_budget, dtype: float64
trim_mean 23949546.79078883


## Spread для кол-ых данных

К параметрам разброса значений относят
- диапазон (*range*): Значение расчитывается как разница между максимальным и минимальным значением
- интерквартильный диапазон (*IQR Interwuartile range*): Значение расчитывается как разница между 75 и 25 квартилем
- дисперсия (*variance*): среднее значение квадратов расстояния от каждого значения до среднего
- Стандартное отклонение (*SD Standart deviation*): значение равное квадратному корню дисперсии
- Среднее абсолютное распределение (*MAD Mean absolute deviation*): абсолютное среднее значение расстояния от каждого значения до среднего

In [7]:
# Для расчета значения range нет отдельного метода и используется встроенные методы max() min() и математическое действие
print('range', movies.production_budget.max() - movies.production_budget.min())
# Для расчета IQR использутся метод библиотеки scipy.stats
from scipy.stats import iqr
print('IQR', iqr(movies.production_budget))
# Также можно воспользоваться внутренними методами Pandas
print('IQR pandas', movies.production_budget.quantile(0.75) - movies.production_budget.quantile(0.25))
# Для расчета дисперии используется метод var
print('VAR', movies.production_budget.var())
# Для расчета стандартного отклонения используется метод std
print('std', movies.production_budget.std())
# Для расчета MAD показателя используются другие методы
mad = abs(movies.production_budget - movies.production_budget.mean()).mean()
print('MAD', mad)

range 174750000.0
IQR 36000000.0
IQR pandas 36000000.0
VAR 1217478921139147.8
std 34892390.5907742
MAD 26090426.818845242


### Что обозначают значения разброса
- range: показывает, насколько широко разбросаны данные. Большой диапазон свидетельсвтует о большой вариабельности данных, а маленький наборот
- IQR: 
    - большое значение говорит о том, что центральная половина данных сиольно разбросана, это в свою очередь может указывать на
        - Наличие выборосов (экстремальных значений) 
        - Ассиментрию распределения: когда данные скошены в одну сторону
    - малое значение говорит о том что центральная половина данных сгруппирована близко друг к другу. Это может указывать на
        - Высокую однородность данных
        - Симметричное распределение
- VAR: 
    - Высокая дисперсия
        - Говорит о том, что данные сильно разбросаны вокруг среднего значения
        - Указывает на большую неоднородность данных
        - Может свидетельствовать о наличии выбросов или большой вариабельности
    - Низкая дисперсия
        - Означает, что данные сгруппированы близко к серднему значению
        - Указывает на небольшую неоднородность данных
        - Может свидетельствовать о высокой однородности данных или о том, что данные имеют небольшую вариабельность
- STD: рассчитывают для
    - Стандартизации данных: многие реальные данные имеют приблизительно нормальное распределение. СТандартизация позволяет перевести любые данные в шкалу стандартных нормальных отклонений, что упрощает сравнение разных наборов данных
    - Расчет вероятностей: Зная, что данные распределны нормально, можно использовать таблицы или программное обеспечение для расчета вероятности того, что случайная величина примет значение в определенном интервале
    - Статистические тесты: Многие статистические тесты основаны на преположении о нормальном распределении данных
    - Моделирование различных являений: Нормальное распределение часто используется для моделирования таких являений, как рост людей, результаты тестов, ошибки измерения и т.д.
- MAD: Данное значение рассчитывают для
    - Оценка разброса данных: Подобно дисперсии и стандартному отклонению, MAD показывает, насколько сильно разбросаны данные вокруг среднего значения
    - Устойчивость к выбросам: MAD менее чувствителем к выбросам, чем дисперсия и стандартное отклонениею Абсолютное значение отклонения не возводится в квадрат, как в дисперсии, что делает MAD более устойчивым к экстремальным значениям
    - Простота расчета: MAD проще рассчитать, чем дисперсию, так как не требует возведения в квадрат и извлечения корня
    - Использование в различных областях: MAD применяется в различных областях, включая статистику, финансы, машинное обучение и другие