In [23]:
import scipy.stats as stats
dataA = []
dataB = []
dataC = []
dataD = []

# Функция open позволяет открыть файл, первый параметр - имя файла, 
# второй - модификатор доступа(r - сокращение от read, то есть мы открываем файл на чтение)
# Кроме того мы используем конструкцию with. Это позволяет нам гарантировать закрытие файла.
# Как только код внутри блока with будет выполнен файл будет закрыт. Удобно то, что не имеет
# значения как завершится код внутри блока with, даже если он завершится с ошибкой файл все
# равно будет закрыт. Можешь отдельно почитать про работу с файлами через пару функций open-close.
# Почему вообще важно закрывать файл? Потому что в целом с одним и тем же файлом может работать
# несколько пользователей и если мы откроем файл и не закроем его, то операционная система 
# будет считать, что файл занят и не даст дргугим пользователям модифицировать его.
with open('genetherapy.csv', 'r') as f: 
    
    # считываем все строки файла в переменную lines
    lines = f.readlines()
    
    # так как lines является итерируемой коллекцией, мы можем пройти в цикле по всем элементам 
    # этой коллекции. В нашем случае один элемент = одна строка. На каждой новой итерации 
    # мы считываем новую строку в переменную line
    for line in lines:

        # Так как мы считали файл вручную, то каждая строка будет содержать в том числе скрытые 
        # символы окончаняи строки - \n и возможно \r. Чтобы дальше работать с данными нам надо
        # удалить эти символы. Это делается функцией rstrip(), она удаляет из конца строки те символы,
        # которые мы ей передаем. После этого функций split() мы разбиваем строку на отдельные элементы.
        # В split() в качестве переменной надо передать разделитель, по которому будет разбиваться строка.
        # Так как мы точно знаем что у нас 2 колонки в файле и python поддерживает множественное 
        # присваивание значений переменным, мы можем использовать конструкцию ниже. 
        # Важный момент что переменные expr и therapy будут создавать заново при каждой новой итерации цикла
        # и после завершения цикла они будут недоступны.
        # Подумай что будет в переменных при самом первом проходе цикла ))))
        expr, therapy = line.rstrip('\n\r').split(',')

        # Теперь проверяем значение переменной therapy и в зависимости от результат складываем expr в 
        # соответствующий массив. При этом в исходном csv файле значения столбца therapy записаны в кавычках.
        # Для сравнения значений, уберем эти кавычки. Функция strip() работает так же как и rstrip() выше, с
        # той разницей что удаляет символы и в начале и в конце строки.
        # На самом деле это самый понятный но при этом очень не красивый способ выполнить эту оперцию. Если ты
        # используешь версию python старше чем 3.10 ты можешь заменить эту конструкцию на операторр match case
        # Но и это не лучший, самый красивый вариант с использованием стурктуры данных словарь.
        if therapy.strip('"') == 'A':
            dataA.append(expr) # append добавялет значение expr в соответствующий массив
        elif therapy.strip('"') == 'B':
            dataB.append(expr)
        elif therapy.strip('"') == 'C':
            dataC.append(expr)
        elif therapy.strip('"') == 'D':
            dataD.append(expr)

# Мы закончили читать файл, вышли из блока with. Здесь просто печатаем что у нас получилось в каждом из массивов
# функция format() позволяет создавать различные форматированные строки в python.
print("Therapy A: {0}".format(dataA))
print("Therapy B: {0}".format(dataB))
print("Therapy C: {0}".format(dataC))
print("Therapy D: {0}".format(dataD))

# Ну и финальный шаг с расчетом статистики, ради которого все затевалось
result = stats.f_oneway(dataA, dataB, dataC, dataD)
print(result)

Therapy A: ['100', '96', '101', '95', '103', '99', '97', '96', '98', '106', '106', '104', '95', '95', '105']
Therapy B: ['100', '100', '95', '84', '101', '101', '95', '106', '105', '97', '103', '94', '94', '100', '107']
Therapy C: ['91', '96', '94', '96', '91', '85', '98', '93', '100', '85', '101', '101', '90', '98', '97']
Therapy D: ['92', '85', '95', '89', '91', '91', '99', '94', '97', '94', '87', '93', '96', '92', '90']
F_onewayResult(statistic=8.03730248114399, pvalue=0.00015249722895229536)


In [4]:
import scipy.stats as stats

data = {}
with open('genetherapy.csv', 'r') as f: 
    lines = f.readlines()
    for line in lines:
        expr, therapy = line.rstrip('\n\r').split(',')
        try:
            float(expr)
        except:
            continue
        else:
            if therapy not in data:
                data[therapy] = [expr]
            else:
                data[therapy].append(expr)
d = []
for key in data.keys():
    print("Therapy {0}: {1}".format(key, data[key]))
    d.append(data[key])

result = stats.f_oneway(*d)
print(result)
# Задание со звездочкой, разобраться как оно работает. Делает то же самое. 
#Но теперь код будет отрабатывать независимо от того какие значения в поле therapy. 
#Так же будут отбрасываться строки у которых expr нельзя перевести в число. 
#Можешь поэкспериментировать с csv-ой

Therapy "A": ['100', '96', '101', '95', '103', '99', '97', '96', '98', '106', '106', '104', '95', '95', '105']
Therapy "B": ['100', '100', '95', '84', '101', '101', '95', '106', '105', '97', '103', '94', '94', '100', '107']
Therapy "C": ['91', '96', '94', '96', '91', '85', '98', '93', '100', '85', '101', '101', '90', '98', '97']
Therapy "D": ['92', '85', '95', '89', '91', '91', '99', '94', '97', '94', '87', '93', '96', '92', '90']
F_onewayResult(statistic=8.03730248114399, pvalue=0.00015249722895229536)


In [12]:
import scipy.stats as stats
dataA = []
dataB = []
dataC = []
dataD = []
URL = 'https://stepik.org/media/attachments/lesson/8083/genetherapy.csv'

with open(URL, 'r') as f: # оператор OPEN не умеет читать ссылки
    

    lines = f.readlines()
 
    for line in lines:

    
        expr, therapy = line.rstrip('\n\r').split(',')

        if therapy.strip('"') == 'A':
            dataA.append(expr) # append добавялет значение expr в соответствующий массив
        elif therapy.strip('"') == 'B':
            dataB.append(expr)
        elif therapy.strip('"') == 'C':
            dataC.append(expr)
        elif therapy.strip('"') == 'D':
            dataD.append(expr)

print("Therapy A: {0}".format(dataA))
print("Therapy B: {0}".format(dataB))
print("Therapy C: {0}".format(dataC))
print("Therapy D: {0}".format(dataD))

result = stats.f_oneway(dataA, dataB, dataC, dataD)
print(result)

FileNotFoundError: [Errno 2] No such file or directory: 'https://stepik.org/media/attachments/lesson/8083/genetherapy.csv'

In [11]:
import pandas as pd
import scipy.stats as stats
URL = 'https://stepik.org/media/attachments/lesson/9250/atherosclerosis.csv' # как открыть таблицу тупо из ссылки, не скачивая ее
data = pd.read_csv(URL)
print(data)

          expr  age dose
0   107.351478    1   D1
1   104.504438    1   D1
2   103.435134    1   D1
3   109.572882    1   D1
4   114.993803    1   D1
..         ...  ...  ...
59  101.851582    2   D2
60  105.239530    2   D2
61   99.350198    2   D2
62  108.091455    2   D2
63  111.639129    2   D2

[64 rows x 3 columns]


In [14]:
import pandas as pd
URL = 'https://stepik.org/media/attachments/lesson/8083/genetherapy.csv' # как открыть таблицу тупо из ссылки, не скачивая ее
data = pd.read_csv(URL)
print(data)

    expr Therapy
0    100       A
1     96       A
2    101       A
3     95       A
4    103       A
5     99       A
6     97       A
7     96       A
8     98       A
9    106       A
10   106       A
11   104       A
12    95       A
13    95       A
14   105       A
15   100       B
16   100       B
17    95       B
18    84       B
19   101       B
20   101       B
21    95       B
22   106       B
23   105       B
24    97       B
25   103       B
26    94       B
27    94       B
28   100       B
29   107       B
30    91       C
31    96       C
32    94       C
33    96       C
34    91       C
35    85       C
36    98       C
37    93       C
38   100       C
39    85       C
40   101       C
41   101       C
42    90       C
43    98       C
44    97       C
45    92       D
46    85       D
47    95       D
48    89       D
49    91       D
50    91       D
51    99       D
52    94       D
53    97       D
54    94       D
55    87       D
56    93       D
57    96      

In [1]:
import scipy.stats as stats

dataA = []
dataB = []
dataC = []
dataD = []

with open('atherosclerosis.csv', 'r') as f: # это уже другой файл: https://stepik.org/media/attachments/lesson/9250/atherosclerosis.csv
    
    # считываем все строки файла в переменную lines
    lines = f.readlines()
    

    for line in lines: # сделали цикл для переменной line в массиве считанных lines

        expr, age, dose = line.rstrip('\n\r').split(',') # почистили собранные line от ненужных окончаний, 
            # добавили разделитель

        if age.strip('"') == '1' and dose.strip('"') == 'D1': # задали условия, при одновременном выполнении  
        # которых значение в строке line из множества строк lines попадет в массив dataA
            dataA.append(expr) # append добавялет значение expr в соответствующий массив
        elif age.strip('"') == '1' and dose.strip('"') == 'D2':
            dataB.append(expr)
        elif age.strip('"') == '2' and dose.strip('"') == 'D1':
            dataC.append(expr)
        elif age.strip('"') == '2' and dose.strip('"') == 'D2':
            dataD.append(expr)

print("1 group: {0}".format(dataA))
print("2 group: {0}".format(dataB))
print("3 group: {0}".format(dataC))
print("4 group: {0}".format(dataD))

# Ну и финальный шаг с расчетом статистики, ради которого все затевалось

result = stats.f_twoway(dataA, dataB, dataC, dataD)
print(result)

1 group: ['107.351478054914', '104.504438134304', '103.435134210494', '109.572882092261', '114.99380251712', '106.060605357622', '114.593613086389', '103.445768791242', '102.818701663282', '105.053771656134', '102.622521313243', '101.556490777749', '90.918788355138', '107.07892859075', '105.31817820369', '96.8103224207562']
2 group: ['107.999877879655', '106.767976590375', '99.9629920980222', '107.154914700786', '100.679918262015', '106.417726553716', '109.626718303506', '106.683772163296', '106.169251002182', '111.552089774447', '105.13782223425', '107.648486076925', '110.833714699185', '105.582136234946', '94.5546115921606', '101.961820706695']
3 group: ['101.062275979053', '100.763332320682', '94.2909916928403', '90.9709491182601', '105.03067173909', '98.4552947178921', '97.0302686754771', '104.207160207475', '102.128772575986', '98.2937412734246', '103.947550971205', '112.008915731737', '98.1486335158637', '99.2229452447424', '102.787408035945', '107.727966061797']
4 group: ['101.4

AttributeError: module 'scipy.stats' has no attribute 'f_twoway'

In [26]:
import pandas as pd
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
# как открыть таблицу тупо из ссылки, не скачивая ее
data = pd.read_csv('atherosclerosis.csv')
print(data)

          expr  age dose
0   107.351478    1   D1
1   104.504438    1   D1
2   103.435134    1   D1
3   109.572882    1   D1
4   114.993803    1   D1
5   106.060605    1   D1
6   114.593613    1   D1
7   103.445769    1   D1
8   102.818702    1   D1
9   105.053772    1   D1
10  102.622521    1   D1
11  101.556491    1   D1
12   90.918788    1   D1
13  107.078929    1   D1
14  105.318178    1   D1
15   96.810322    1   D1
16  101.062276    2   D1
17  100.763332    2   D1
18   94.290992    2   D1
19   90.970949    2   D1
20  105.030672    2   D1
21   98.455295    2   D1
22   97.030269    2   D1
23  104.207160    2   D1
24  102.128773    2   D1
25   98.293741    2   D1
26  103.947551    2   D1
27  112.008916    2   D1
28   98.148634    2   D1
29   99.222945    2   D1
30  102.787408    2   D1
31  107.727966    2   D1
32  107.999878    1   D2
33  106.767977    1   D2
34   99.962992    1   D2
35  107.154915    1   D2
36  100.679918    1   D2
37  106.417727    1   D2
38  109.626718    1   D2


In [1]:
import pandas as pd # задача из примеров stepic - двухфакторный анализ влияния возраста и дозы на эксцентрирующий ген

import statsmodels.api as sm
from statsmodels.formula.api import ols
URL = 'https://stepik.org/media/attachments/lesson/9250/atherosclerosis.csv' # как открыть таблицу тупо из ссылки, не скачивая ее
data = pd.read_csv(URL)
#perform two-way ANOVA
model = ols('expr ~ age + dose + age:dose', data).fit()
sm.stats.anova_lm(model, typ=2)


Unnamed: 0,sum_sq,df,F,PR(>F)
dose,16.912241,1.0,0.638094,0.427552
age,197.452754,1.0,7.449841,0.008313
age:dose,0.927077,1.0,0.034978,0.852272
Residual,1590.257424,60.0,,


In [10]:
# задача из видео на ютубе - о влиянии возраста и пола на средний балл за тест по математике
import pandas as pd
import numpy as np


import statsmodels.api as sm # импортируем билиотеку статистики 
from statsmodels.formula.api import ols # импортируем модуль two-way analysis для сравнения двух факторов

# создаем массив данных
df = pd.DataFrame({'gender': ['boys','boys','boys', 'girls','girls','girls',
                              'boys','boys','boys', 'girls','girls','girls',
                             'boys','boys','boys', 'girls','girls','girls'], # создали 1 столбец (мальчики/девочки)
                   'age': ['10y','10y','10y','10y','10y','10y',
                           '11y','11y','11y','11y','11y','11y',
                           '12y','12y','12y','12y','12y','12y'], # создали 2 столбец возраст
                   'score': [4,6,8,4,8,9,6,6,9,7,10,13,8,9,13,12,14,16]}) # создали 3 столбец - средний балл


print(df)


#perform two-way ANOVA
model = ols('score ~ gender + age + gender:age', df).fit()
sm.stats.anova_lm(model, typ=2)

   gender  age  score
0    boys  10y      4
1    boys  10y      6
2    boys  10y      8
3   girls  10y      4
4   girls  10y      8
5   girls  10y      9
6    boys  11y      6
7    boys  11y      6
8    boys  11y      9
9   girls  11y      7
10  girls  11y     10
11  girls  11y     13
12   boys  12y      8
13   boys  12y      9
14   boys  12y     13
15  girls  12y     12
16  girls  12y     14
17  girls  12y     16


Unnamed: 0,sum_sq,df,F,PR(>F)
gender,32.0,1.0,5.647059,0.034994
age,93.0,2.0,8.205882,0.005677
gender:age,7.0,2.0,0.617647,0.555502
Residual,68.0,12.0,,


In [12]:
# пример 3 с платформы stepik про влияние инъекции гормона на показатель кальция в крови птиц с учетом их пола
import pandas as pd
import numpy as np


import statsmodels.api as sm # импортируем билиотеку статистики 
from statsmodels.formula.api import ols # импортируем модуль two-way analysis для сравнения двух факторов

URL= 'https://stepik.org/media/attachments/lesson/9250/birds.csv'
data = pd.read_csv(URL)
print(data)
#perform two-way ANOVA
model = ols('var4 ~ hormone + sex + hormone:sex', data).fit()
sm.stats.anova_lm(model, typ=2)

         var4  hormone  sex
0   17.859039        1    1
1   20.842343        1    1
2   19.318099        1    1
3   20.064451        1    1
4   17.620316        1    1
..        ...      ...  ...
59  17.054195        0    0
60  22.951551        0    0
61  18.799382        0    0
62  16.543161        0    0
63  25.683038        0    0

[64 rows x 3 columns]


Unnamed: 0,sum_sq,df,F,PR(>F)
hormone,0.847472,1.0,0.086528,0.769653
sex,0.119762,1.0,0.012228,0.912318
hormone:sex,89.483384,1.0,9.13639,0.003682
Residual,587.650394,60.0,,


In [None]:
# НАУЧИСЬ ДЕЛАТЬ ТАБЛИЦУ ПРОЩЕ! нужно как-то вводить данные автоматизировано, а не вручную