# Основы статистики

Импорт модулей

In [1]:
import pandas as pd

## Введение

### 1.2 Генеральная совокупность и выборка.

**Генеральная совокупность**\
*множество всех тех объектов, относительно которых мы хотели бы делать выводы в рамках исследования некоторой научной проблемы.* (множество всех тех объектов на которые мы бы хотели обобщить исследование)

**Выборка**\
это метод исследования, когда из общей изучаемой (генреральной) совокупности однородных единиц отбирается некоторая её часть (выборочная совокупность) и только эта часть подвергается обследованию.

**Репрезентативная выборка**\
это часть целевой аудитории, которая отражает ключевые характеристики всей совокупности пользователей (пол, возраст, местоположение, интересы).\
Выборка считается репрезентативной, когда по выбранной маленькой группе можно судить о более широкой аудитории. То есть когда свойства, присущие выбранной из целевой аудитории группы, можно распространить на всю целевую аудиторию. \
Допустимая погрешность при расчёте репрезентативной выборки варьируется в пределах 1-5%.


#### Способы формирования выборок

**Простая случайная выборка(simple random sample)**\
Чтобы её сформировать мы случайным образом начинаем выбирать элементы генеральной совокупности для участия в нашем эксперименте или исследовании (репрезентативная)

In [15]:
# Load a sample dataframe
df = pd.read_csv('data/digital_marketing_campaign_dataset.csv')

# Select 10 random rows
sample_df = df.sample(frac=0.1) # or n = 10

sample_df.head()

Unnamed: 0,CustomerID,Age,Gender,Income,CampaignChannel,CampaignType,AdSpend,ClickThroughRate,ConversionRate,WebsiteVisits,PagesPerVisit,TimeOnSite,SocialShares,EmailOpens,EmailClicks,PreviousPurchases,LoyaltyPoints,AdvertisingPlatform,AdvertisingTool,Conversion
5669,13669,67,Female,83236,Social Media,Retention,3417.486998,0.297308,0.18954,21,8.229019,11.614871,51,15,4,0,2156,IsConfid,ToolConfid,1
438,8438,29,Female,47277,Social Media,Retention,6452.280521,0.273119,0.023014,4,9.525454,3.091852,65,4,4,9,3178,IsConfid,ToolConfid,1
319,8319,37,Male,127158,Email,Conversion,3787.271271,0.013527,0.059055,27,1.878308,7.384574,5,2,1,1,4095,IsConfid,ToolConfid,0
576,8576,48,Male,61911,Referral,Consideration,8126.841514,0.251169,0.097291,41,7.174327,1.021642,36,16,8,7,1817,IsConfid,ToolConfid,1
2159,10159,21,Male,43089,Email,Awareness,8537.254923,0.157866,0.011972,1,6.317396,7.007969,6,18,9,3,2847,IsConfid,ToolConfid,1


**Стратифицированная выборка**\
Перед тем, как случайным образом извлекать элементы генеральной совокупности для нашего исследования, мы сначала разобъем генеральную совокупность на несколько обособленных и различных по своей природе групп(страт)

In [18]:
df_male = df.loc[df['Gender'] == 'Male', :]\
            .sample(n=5)
df_female = df.loc[df['Gender'] == 'Female', :]\
            .sample(n=5)

In [19]:
frames = [df_male, df_female]
sample_df2 = pd.concat(frames)
sample_df2

Unnamed: 0,CustomerID,Age,Gender,Income,CampaignChannel,CampaignType,AdSpend,ClickThroughRate,ConversionRate,WebsiteVisits,PagesPerVisit,TimeOnSite,SocialShares,EmailOpens,EmailClicks,PreviousPurchases,LoyaltyPoints,AdvertisingPlatform,AdvertisingTool,Conversion
4217,12217,23,Male,122746,SEO,Awareness,9534.090065,0.153715,0.048952,41,6.296166,4.301185,83,7,6,5,704,IsConfid,ToolConfid,1
5336,13336,20,Male,90390,Referral,Conversion,3979.781943,0.109068,0.108782,15,6.874297,3.203529,64,5,9,5,1878,IsConfid,ToolConfid,1
5273,13273,66,Male,129715,PPC,Consideration,5796.295319,0.053839,0.185101,46,9.453333,6.120514,66,9,9,0,4,IsConfid,ToolConfid,1
946,8946,38,Male,82495,PPC,Consideration,8917.969871,0.044657,0.115512,13,2.543003,6.304194,42,10,3,5,899,IsConfid,ToolConfid,1
391,8391,38,Male,23436,Referral,Retention,1131.362918,0.209128,0.178064,39,2.714786,1.906094,73,13,9,7,1889,IsConfid,ToolConfid,1
3519,11519,18,Female,68263,Email,Conversion,9038.83707,0.039043,0.030482,5,6.645336,13.925412,89,7,7,2,1117,IsConfid,ToolConfid,1
5725,13725,41,Female,31880,SEO,Consideration,612.999472,0.030315,0.045346,2,7.306867,3.178099,26,7,8,1,1928,IsConfid,ToolConfid,0
4318,12318,45,Female,141796,PPC,Conversion,9546.006504,0.239374,0.064987,2,8.10273,0.740972,16,11,8,7,1728,IsConfid,ToolConfid,1
610,8610,65,Female,134454,Email,Retention,9528.712223,0.274778,0.111022,30,1.739418,4.36072,95,12,9,7,1436,IsConfid,ToolConfid,1
7840,15840,38,Female,90825,Email,Awareness,6454.709111,0.259819,0.093651,39,3.100438,4.128055,19,15,7,2,2438,IsConfid,ToolConfid,0
