TODO:
- разобраться с markdowm

1 Введение  
1.2 Генеральная совокупность и выборка.
- Генеральная совокупность (ГС) — совокупность всех объектов, относительно которых предполагается делать выводы при изучении конкретной задачи
- Репрезентативная выборка – это такая выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, с которой данный признак выступает в этой генеральной совокупности

Способы формирования выборки
- простая случайная выборка (simple random sample)
- стратифицированная выборка (stratified sample) 
    - разбивка ГС на различные по своей природе страты (группы элементов, которые различаются между собой по определенным признакам)
    - выбор набора элементов из каждой страты
-  групповая выборка (cluster sample)
    - разбивка ГС на кластеры (группы элементов, которые очень похожи между собой)
    - выбор нескольких целых кластеров	

| групповая выборка | стратифицированная выборка |
|---------------------|---------------------|
| Выборка формируется только из нескольких субпопуляций (кластеров)  | Выборка формируется из всех субпопуляций (страт) |
| В пределах кластера элементы должны быть разнородны, тогда как между разными кластерам поддерживается однородность или схожесть| В пределах страты элементы должны быть однородны, а между стратами должна быть разнородность (различия)|
| Схема выборки нужна только для кластеров, попавших в выборку | Должна быть сформирована полная схема выборки для всех стратифицированных субпопуляций |
| Повышает эффективность выборки, уменьшая стоимость | Повышает точность |

In [19]:
# подключение библиотек

from fractions import Fraction # работа с рациональными числами (в виде обыкновенной дроби)
import random                  # генерация случайных значений
import pandas as pd            # для работы с данными


In [8]:
# формирование массива рациональных чисел - генеральная совокупность

array_number = []
n = 10000                       # кол-во чисел в генеральной совокупности
limit = 1000                   # верхний и нижний предел значений чисел в генеральной совокупности 

for i in range(n):
    array_number.append(random.randint(-limit, limit))

print(array_number[:10])       # вывод первых 10 чисел для примера

[-307, -687, 178, -341, -355, 744, -125, -407, 619, 728]


In [9]:
# формирование простой случайной выборки

# sample - возвращает случайно выбранные элементы из этой последовательности без повторений
sample_size = 1000
random_sample = random.sample(array_number, sample_size) 

print("Случайная выборка ({} элементов) из генеральной совокупности: \n".format(sample_size), random_sample)

Случайная выборка(1000 элементов) из генеральной совокупности: 
 [-138, -673, -932, -654, 915, 332, -676, 535, 75, 730, 658, -135, 932, 669, -325, -777, 732, 92, 550, 304, -521, -854, -521, -611, -78, -829, -469, -850, -702, 702, -667, -252, -477, 461, 883, 408, -718, -272, 790, -622, 112, -178, -939, -811, -790, 649, -913, -366, 905, -809, -587, 719, 647, -72, 372, -986, 182, 829, -201, 669, 908, 472, -63, 725, -954, 756, 445, -676, -351, -411, 6, -130, -882, 757, 599, -276, -595, -356, 557, -219, -344, 221, 567, 490, -410, 224, 540, -191, -638, -564, -189, -506, -97, 9, -984, -388, 852, 336, -744, -327, 30, -600, -453, -236, -612, 126, 714, 618, 446, -204, 564, 280, -14, -162, -618, 136, 547, 536, -358, 784, -568, 377, -380, 750, -612, -206, -361, -498, -94, 362, 641, -568, -461, 63, -399, -134, -900, 569, 912, -509, 428, -134, 570, -753, -463, 125, -342, -236, 157, -336, -233, -347, -1000, -766, 459, -81, 496, 927, -964, 865, -603, 334, -226, -307, 131, -573, 611, -447, 925, -607, -

In [15]:
# формирование стратифицированной выборки
# разобьем на две страты (отрицательные и неотрицаткльные числа)

strata = [[x for x in array_number if x >= 0], [x for x in array_number if x < 0]]

sample_size_per_stratum = 500 # размер выборки из каждой страты
strata_size = 2               # кол-во страт

# Формирование стратифицированной выборки
stratified_sample = []
for stratum in strata:
    stratified_sample.extend(random.sample(stratum, sample_size_per_stratum))

# Вывод стратифицированной выборки
print("Стратифицированная выборка ({} элементов) из рациональных чисел:\n".format(sample_size_per_stratum * strata_size), stratified_sample)

Стратифицированная выборка (1000 элементов) из рациональных чисел:
 [65, 949, 595, 448, 155, 472, 298, 945, 461, 577, 817, 483, 692, 623, 352, 785, 518, 324, 642, 268, 680, 880, 516, 861, 693, 98, 769, 623, 717, 446, 844, 551, 119, 888, 190, 998, 444, 161, 969, 426, 780, 590, 220, 766, 321, 734, 206, 237, 245, 18, 279, 359, 814, 129, 22, 495, 385, 734, 321, 408, 100, 344, 980, 148, 122, 982, 420, 736, 115, 286, 58, 447, 727, 322, 591, 520, 653, 303, 484, 795, 725, 824, 515, 222, 518, 83, 47, 671, 985, 992, 54, 94, 289, 33, 80, 955, 338, 103, 545, 150, 125, 156, 970, 636, 173, 539, 78, 299, 622, 11, 754, 576, 511, 933, 470, 840, 992, 912, 279, 17, 149, 9, 185, 678, 32, 540, 758, 196, 360, 472, 43, 457, 301, 334, 243, 192, 379, 637, 688, 188, 605, 643, 355, 884, 281, 430, 791, 217, 53, 787, 459, 855, 575, 161, 632, 61, 720, 228, 999, 91, 537, 352, 908, 3, 828, 195, 282, 225, 137, 117, 196, 539, 596, 379, 745, 591, 914, 737, 69, 652, 308, 403, 511, 760, 841, 674, 288, 678, 316, 235, 664, 

In [None]:
# формирование групповой выборки (кластеры)

Характеристики генеральной совокупности:
- Количественные - измеряемые
    - непрерывные
    - дискретные
- Качественные (номинативные) - разделение испытуемых на группы, цифры как маркеры (например: 1 -женщины, 2 – мужчины). Цифры как имена групп, не для расчетов.
- Ранговые - похоже на номинативные, показатель для сравнения (быстрее/медленнее и т.п.)

**Описательная статистика** - раздел статистики, который описывает и систематизирует основные характеристики данных путем использования различных методов, графиков и числовых показателей. 
Цель описательной статистики - предоставить краткое и информативное описание набора данных, чтобы лучше понять их распределение, центральные тенденции, разброс и другие важные свойства.

**Гистограмма частот** - это графическое представление распределения частоты встречаемости значений в наборе данных.

_Предлагаю для интереса начать исследовать набор реальных данных, поэтому дальше я буду работать с данными о кредитной истории различных людей_ 

In [22]:
# загрузка данных из файла XLSX
df = pd.read_excel('CreditScoreData.xlsx')

# вывод данных
df.head()

credit_ratio =0

Unnamed: 0,ID,Customer_ID,Month,Name,Age,SSN,Occupation,Annual_Income,Monthly_Inhand_Salary,Num_Bank_Accounts,...,Credit_Mix,Outstanding_Debt,Credit_Utilization_Ratio,Credit_History_Age_Months,Payment_of_Min_Amount,Total_EMI_per_month,Amount_invested_monthly,Payment_Behaviour,Monthly_Balance,Credit_Score
0,0x160f,CUS_0x21b1,February,Rick Rothackerj,28,004-07-5839,Teacher,34847.84,3037.986667,2,...,Good,605.03,38.550848,320,No,18.816215,40.391238,High_spent_Large_value_payments,484.591214,Good
1,0x1612,CUS_0x21b1,May,Rick Rothackerj,28,004-07-5839,Teacher,34847.84,3037.986667,2,...,Good,605.03,34.977895,323,No,18.816215,130.11542,Low_spent_Small_value_payments,444.867032,Good
2,0x1613,CUS_0x21b1,June,Rick Rothackerj,28,004-07-5839,Teacher,34847.84,3037.986667,2,...,Good,605.03,33.38101,324,No,18.816215,43.47719,High_spent_Large_value_payments,481.505262,Good
3,0x1615,CUS_0x21b1,August,Rick Rothackerj,28,004-07-5839,Teacher,34847.84,3037.986667,2,...,Good,605.03,32.933856,326,No,18.816215,218.904344,Low_spent_Small_value_payments,356.078109,Good
4,0x1626,CUS_0xb891,January,Jasond,54,072-31-6145,Entrepreneur,30689.89,2612.490833,2,...,Good,632.46,26.544229,207,No,16.415452,81.228859,Low_spent_Large_value_payments,433.604773,Standard


Меры центральной тенденции – (узкий диапазон, высокие значения):
- Мода (mode) – значение измеряемого признака, которое встречается максимально часто.
График Dot Plot (точечный график) поможет;
- Медиана (median) – значение признака, которое делит упорядоченное (по
возрастанию/\убыванию) множество данных пополам. Если в середине 2 значения
оказываются в случае с как с четными числами, лорроллгорвемцабто находится среднее
значение этих двух цифр (с CDуммируются цифры и делятся на 2);
- Среднее значение – сумма всех значений измеренного признака делится на
количество измеренных значений. (переменная = «Х» с черточкой «-» вверху
используется для среднего значения из выборки, а для генеральной совокупности
латинская буква М).

In [2]:

import math

def calculate_variance(data):
    n = len(data)
    mean = sum(data) / n
    variance = sum((x - mean) ** 2 for x in data) / n
    return variance

def calculate_standard_deviation(variance):
    return math.sqrt(variance)

# Пример использования:
data = [1, 5, 2, 7, 1, 9, 3, 8, 5, 9]
variance = calculate_variance(data)
standard_deviation = calculate_standard_deviation(variance)

print("Дисперсия:", variance)
print("Среднеквадратичное отклонение:", standard_deviation)




Дисперсия: 9.0
Среднеквадратичное отклонение: 3.0
