## Домашнее задание к занятию "A/B-тесты"

### Описание задачи

![banner](https://storage.googleapis.com/kaggle-datasets-images/635/1204/126be74882028aac7241553cef0e27a7/dataset-original.jpg)

Покемоны - это маленькие существа, которые сражаются друг с другом на соревнованиях. Все покемоны имеют разные характеристики (сила атаки, защиты и т. д.) И относятся к одному или двум так называемым классам (вода, огонь и т. д.).
Профессор Оук является изобретателем Pokedex - портативного устройства, которое хранит информацию обо всех существующих покемонах. Как его ведущий специалист по данным, Вы только что получили от него запрос с просьбой осуществить аналитику данных на всех устройствах Pokedex.

### Описание набора данных
Профессор Оук скопировал все содержимое в память одного устройства Pokedex, в результате чего получился набор данных, с которым Вы будете работать в этой задаче. В этом файле каждая строка представляет характеристики одного покемона:

* `pid`: Numeric - ID покемона
* `HP`: Numeric - Очки здоровья
* `Attack`: Numeric - Сила обычной атаки
* `Defense`: Numeric - Сила обычной защиты
* `Sp. Atk`: Numeric - Сила специальной атаки
* `Sp. Def`: Numeric - Сила специальной защиты
* `Speed`: Numeric - Скорость движений
* `Legendary`: Boolean - «True», если покемон редкий
* `Class 1`: Categorical - Класс покемона
* `Class 2`: Categorical - Класс покемона

In [1]:
import warnings
from gc import set_debug

# Отключение предупреждений (warnings)
warnings.filterwarnings("ignore")

import pandas as pd

from scipy.stats import ttest_ind
from scipy.stats import f_oneway, shapiro

pokemon = pd.read_csv('https://raw.githubusercontent.com/a-milenkin/datasets_for_t-tests/main/pokemon.csv', on_bad_lines='skip')  # Откроем датасет
pokemon.head()

# Обратите внимание, что у покемона может быть один или два класса.
# Если у покемона два класса, считается, что они имеют одинаковую значимость.

Unnamed: 0,pid,Name,Class 1,Class 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,False
3,4,Mega Venusaur,Grass,Poison,80,100,123,122,120,80,False
4,5,Charmander,Fire,,39,52,43,60,50,65,False


### Задачи

<div class="alert alert-info">
<b>Задание № 1:</b>
    
Профессор Оук подозревает, что покемоны в классе `Grass` имеют более сильную обычную атаку, чем покемоны в классе `Rock`. Проверьте, прав ли он, и убедите его в своём выводе статистически.
    
    
Примечание: если есть покемоны, которые относятся к обоим классам, просто выбросьте их;
    
Вы можете предположить, что распределение обычных атак является нормальным для всех классов покемонов.

</div>

In [45]:
from scipy.stats import ttest_ind, shapiro

# Фильтрация покемонов по классам 'Grass' и 'Rock'
grass_pokemons = pokemon[(pokemon['Class 1'] == 'Grass') & (pokemon['Class 2'] != 'Rock')]['Attack']
rock_pokemons = pokemon[(pokemon['Class 1'] == 'Rock') & (pokemon['Class 2'] != 'Grass')]['Attack']

# Проверка нормальности с использованием теста Шапиро
shapiro_grass = shapiro(grass_pokemons)
shapiro_rock = shapiro(rock_pokemons)

# Если данные нормально распределены, проводим t-тест
if shapiro_grass.pvalue > 0.05 and shapiro_rock.pvalue > 0.05:
    t_stat, p_value = ttest_ind(grass_pokemons, rock_pokemons, equal_var=False)
    
    if p_value < 0.05:
        print("Статистически значимая разница между средними значениями атак существует.")
    else:
        print("Нет статистически значимой разницы между средними значениями атак.")
else:
    print("Одна или обе выборки не распределены нормально. Рассмотрим альтернативные методы анализа.")


Статистически значимая разница между средними значениями атак существует.


<div class="alert alert-info">
<b>Задание № 2:</b>
    
Профессор Оук уже долго не может спать по ночам, ведь его волнует вопрос, а правда ли, что покемоны в классе `Water` в среднем быстрее, чем покемоны в классе `Normal`.
    
    
Проверьте, прав ли он, и убедите его в своём выводе статистически.
    
Примечание: если есть покемоны, которые относятся к обоим классам, выбросьте их;
    
Вы можете предположить, что распределение скорости движения является нормальным для всех классов покемонов.
</div>

In [49]:
# Фильтрация покемонов по классам 'Water' и 'Normal'
water_pokemons = pokemon[(pokemon['Class 1'] == 'Water') & (pokemon['Class 2'] != 'Normal')]['Speed']
normal_pokemons = pokemon[(pokemon['Class 1'] == 'Normal') & (pokemon['Class 2'] != 'Water')]['Speed']

# Проверка нормальности с использованием теста Шапиро
shapiro_water = shapiro(water_pokemons)
shapiro_normal = shapiro(normal_pokemons)

# Если данные нормально распределены, проводим t-тест
if shapiro_water.pvalue > 0.05 and shapiro_normal.pvalue > 0.05:
    t_stat, p_value = ttest_ind(water_pokemons, normal_pokemons, equal_var=False)
    
    if p_value < 0.05:
        print("Статистически значимая разница между средними значениями скоростей существует.")
    else:
        print("Нет статистически значимой разницы между средними значениями скоростей.")
else:
    print("Одна или обе выборки не распределены нормально. Рассмотрим альтернативные методы анализа.")


Нет статистически значимой разницы между средними значениями скоростей.


<div class="alert alert-info">
<b>Задание № 3:</b>
    
Профессор Оук тот еще безумец. Он изобрёл сыворотку, способную ускорить покемона. Однако мы усомнились в эффективности его вакцины. Професоор дал эту сыворотку следующим покемонам: смотри массив `treathed_pokemon`. Проверьте, работает ли вообще его сыворотка, убедите всех в своём выводе статистически.
    
    
Вы можете предположить, что распределение скорости движения является нормальным для всех классов покемонов.

</div>

In [50]:
# Покемоны, которые принимали сыворотку увеличения скорости
treathed_pokemon = ['Mega Beedrill', 'Mega Alakazam',
                    'Deoxys Normal Forme', 'Mega Lopunny']

In [51]:
from scipy.stats import mannwhitneyu

# Фильтрация покемонов по сыворотке
treated_pokemons = pokemon[pokemon['Name'].isin(treathed_pokemon)]['Speed']
non_treated_pokemons = pokemon[~pokemon['Name'].isin(treathed_pokemon)]['Speed']

# Проверка нормальности с использованием теста Шапиро
shapiro_treated = shapiro(treated_pokemons)
shapiro_non_treated = shapiro(non_treated_pokemons)

# Если хотя бы одна из выборок не нормально распределена, применяем тест Манна-Уитни
if shapiro_treated.pvalue <= 0.05 or shapiro_non_treated.pvalue <= 0.05:
    u_stat, p_value = mannwhitneyu(treated_pokemons, non_treated_pokemons, alternative='two-sided')
    
    if p_value < 0.05:
        print("Статистически значимая разница между распределениями скоростей покемонов с сывороткой и без сыворотки существует.")
    else:
        print("Нет статистически значимой разницы между распределениями скоростей покемонов с сывороткой и без сыворотки.")
else:
    print("Выборки распределены нормально. Рассмотрим использование t-теста.")


Статистически значимая разница между распределениями скоростей покемонов с сывороткой и без сыворотки существует.


<div class="alert alert-info">
<b>Задание № 4:</b>
    
Профессор Оук всегда любил истории про легендарных покемонов. Однако профессор не очень уверен, что они лучше остальных покемонов. Оук предложил разобраться в этом нам. Проверьте, действительно ли сумма характеристик `HP`,`Attack`,`Defense` у легендарных покемонов выше, чем у других покемонов?

А произведение этих же параметров?

Найдите ответы на эти вопросы и убедите всех в своём выводе статистически.
   

Вы можете предположить, что распределение сум и произведений этих параметров является нормальным для всех классов покемонов.

</div>

In [52]:
# Создание новых столбцов для суммы и произведения характеристик
pokemon['sum_stats'] = pokemon['HP'] + pokemon['Attack'] + pokemon['Defense']
pokemon['prod_stats'] = pokemon['HP'] * pokemon['Attack'] * pokemon['Defense']

# Фильтрация по легендарным и не-легендарным покемонам
legendary_pokemons = pokemon[pokemon['Legendary'] == True]
non_legendary_pokemons = pokemon[pokemon['Legendary'] == False]

# Применяем тест Манна-Уитни для суммы характеристик
u_stat_sum, p_value_sum = mannwhitneyu(legendary_pokemons['sum_stats'], non_legendary_pokemons['sum_stats'], alternative='two-sided')

# Применяем тест Манна-Уитни для произведения характеристик
u_stat_prod, p_value_prod = mannwhitneyu(legendary_pokemons['prod_stats'], non_legendary_pokemons['prod_stats'], alternative='two-sided')

# Интерпретация результатов для суммы характеристик
if p_value_sum < 0.05:
    print("Сумма характеристик легендарных покемонов значительно больше.")
else:
    print("Нет статистически значимой разницы в сумме характеристик между легендарными и не-легендарными покемонами.")

# Интерпретация результатов для произведения характеристик
if p_value_prod < 0.05:
    print("Произведение характеристик легендарных покемонов значительно больше.")
else:
    print("Нет статистически значимой разницы в произведении характеристик между легендарными и не-легендарными покемонами.")


Сумма характеристик легендарных покемонов значительно больше.
Произведение характеристик легендарных покемонов значительно больше.


<div class="alert alert-info">
<b>Задание № 5:</b>
    
Профессор Оук частенько наблюдает за боями покемонов. После очередных таких боёв Оук выделил четыре класса `best_defence_class`, которые на его взгляд одинаковы по "силе обычной защиты" `Defense`.

Проверьте, действительно ли эти классы покемонов не отличаются по уровню защиты статистически значимо? Всё та же статистика вам в помощь!
   

Вы можете предположить, что распределение параметров защитных характеристик является нормальным для всех классов покемонов.

</div>

In [53]:
best_defence_class = ['Rock', 'Ground', 'Steel', 'Ice']
best_defence_class

['Rock', 'Ground', 'Steel', 'Ice']

In [55]:
from scipy.stats import kruskal

# Фильтрация покемонов, которые принадлежат одному из этих классов
filtered_pokemon = pokemon[pokemon['Class 1'].isin(best_defence_class)]

# Группируем данные по классам и извлекаем защиты
groups = [filtered_pokemon[filtered_pokemon['Class 1'] == cls]['Defense'] for cls in best_defence_class]

# Применяем тест Круссала-Уоллиса
kruskal_stat, kruskal_p_value = kruskal(*groups)

# Интерпретация результатов теста Круссала-Уоллиса
if kruskal_p_value < 0.05:
    print("Средние значения защиты различаются между классами.")
else:
    print("Нет статистически значимой разницы в защите между классами.")


Средние значения защиты различаются между классами.


# **Примечание:**

Домашнее задание сдается ссылкой [Google Colab](https://colab.research.google.com/). Мы не сможем проверить его или помочь, если вы пришлете:

*   файлы;
*   архивы;
*   скриншоты кода.

Все обсуждения и консультации по выполнению домашнего задания ведутся только на соответствующем канале в Discord.

**Как правильно задавать вопросы аспирантам, преподавателям и коллегам:**

Прежде чем задать вопрос, попробуйте найти ответ в интернете. Навык самостоятельного поиска информации — один из важнейших. Каждый практикующий специалист любого уровня делает это ежедневно.

Сформулируйте вопрос по алгоритму:

1.   Что я делаю?
2.   Какого результата я ожидаю?
3.   Как фактический результат отличается от ожидаемого?
4.   Что я уже попробовал сделать, чтобы исправить проблему?

По возможности прикрепите к вопросу скриншоты либо ссылки на код. Не выкладывайте все решение, оставляйте только проблемный и воспроизводимый участок кода.