# Домашнее задание к лекции "Статистика. Практика"

## Задание 1

Вернемся к [набору данных о видеоиграх](https://github.com/obulygin/pyda_homeworks/blob/master/stat_case_study/video_games_sales.csv).

Ответьте на следующие вопросы:

1) Как критики относятся к спортивным играм?  
2) Критикам нравятся больше игры на PC или на PS4?  
3) Критикам больше нравятся стрелялки или стратегии?  

Для каждого вопроса:
- сформулируйте нулевую и альтернативную гипотезы;
- выберите пороговый уровень статистической значимости;
- опишите полученные результаты статистического теста.

In [1]:
import matplotlib.pyplot as plt
import pandas as pd
import scipy.stats as stats

In [2]:
df = pd.read_csv('video_games_sales.csv')

In [3]:
df.head()

Unnamed: 0,Rank,Name,basename,Genre,ESRB_Rating,Platform,Publisher,Developer,VGChartz_Score,Critic_Score,...,NA_Sales,PAL_Sales,JP_Sales,Other_Sales,Year,Last_Update,url,status,Vgchartzscore,img_url
0,1,Wii Sports,wii-sports,Sports,E,Wii,Nintendo,Nintendo EAD,,7.7,...,,,,,2006.0,,http://www.vgchartz.com/game/2667/wii-sports/?...,1,,/games/boxart/full_2258645AmericaFrontccc.jpg
1,2,Super Mario Bros.,super-mario-bros,Platform,,NES,Nintendo,Nintendo EAD,,10.0,...,,,,,1985.0,,http://www.vgchartz.com/game/6455/super-mario-...,1,,/games/boxart/8972270ccc.jpg
2,3,Mario Kart Wii,mario-kart-wii,Racing,E,Wii,Nintendo,Nintendo EAD,,8.2,...,,,,,2008.0,11th Apr 18,http://www.vgchartz.com/game/6968/mario-kart-w...,1,8.7,/games/boxart/full_8932480AmericaFrontccc.jpg
3,4,PlayerUnknown's Battlegrounds,playerunknowns-battlegrounds,Shooter,,PC,PUBG Corporation,PUBG Corporation,,,...,,,,,2017.0,13th Nov 18,http://www.vgchartz.com/game/215988/playerunkn...,1,,/games/boxart/full_8052843AmericaFrontccc.jpg
4,5,Wii Sports Resort,wii-sports-resort,Sports,E,Wii,Nintendo,Nintendo EAD,,8.0,...,,,,,2009.0,,http://www.vgchartz.com/game/24656/wii-sports-...,1,8.8,/games/boxart/full_7295041AmericaFrontccc.jpg


#### 1) Как критики относятся к спортивным играм?
Будем считать, что критики относятся положительно к играм, если среднее значение выставленного ими балла больше и равно 7,5.

Тогда, 

* H0: средний выставленный критиками балл для спортивной игры >= 7,5
* H1: средний выставленный критиками балл для спортивной игры < 7,5

Сравниваем значение по выборке с константой, поэтому нужен одновыборочный критерий. Тест нужен односторонний, т.к. нас интересует только неравенство в меньшую сторону.

In [5]:
sports_score = df[df.Genre == 'Sports'].loc[pd.notna(df.Critic_Score), :].Critic_Score
sports_score.mean()

7.291424418604655

In [6]:
alpha = 0.05
result = stats.ttest_1samp(sports_score, 7.5, alternative='less')
print(result)
if (result.statistic < 0) & (result.pvalue < alpha): 
    print('Отвергаем нулевую гипотезу, среднее значение балла критиков меньше 7.5')
else:
    print('Не отвергаем нулевую гипотезу, критикам нравятся спортивные игры')

Ttest_1sampResult(statistic=-3.719660933773832, pvalue=0.00010788894520804316)
Отвергаем нулевую гипотезу, среднее значение балла критиков меньше 7.5


#### Итог:
Критики негативно относятся к спортивным играм, т.к. среднее значение балла критиков меньше 7.5.

Пороговый уровень статистической значимости равен pvalue=0.000107

#### 2) Критикам нравятся больше игры на PC или на PS4?

* H0: критикам нравятся игры на PC больше, чем на PS4
* H1: критикам нравятся игры на PC меньше, чем на PS4

Сравниваем две выборки, поэтому нужен двухвыборочный двухсторонний критерий.

In [10]:
PS4_score = df[df.Platform == 'PS4'].loc[pd.notna(df.Critic_Score), :].Critic_Score
PC_score = df[df.Platform == 'PC'].loc[pd.notna(df.Critic_Score), :].Critic_Score
print(PS4_score.mean())
print(PC_score.mean())

7.904587155963299
7.541849710982658


In [12]:
alpha = 0.05
result = stats.ttest_ind(PC_score, PS4_score, equal_var=False, alternative='less')
print(result)
if (result.statistic < 0) & (result.pvalue < alpha): 
    print('Отвергаем нулевую гипотезу, критикам нравятся игры на PC меньше, чем на PS4')
else:
    print('Не отвергаем нулевую гипотезу, критикам нравятся игры на PC больше, чем на PS4')

Ttest_indResult(statistic=-2.7394476056351627, pvalue=0.0034659041251271054)
Отвергаем нулевую гипотезу, критикам нравятся игры на PC меньше, чем на PS4


#### Итог:
Критикам нравятся игры на PS4 больше чем, на PC.

Пороговый уровень статистической значимости равен pvalue=0.0034.

#### 3) Критикам больше нравятся стрелялки или стратегии?
* H0: стрелялки критикам нравятся меньше, чем стратегии либо нравятся также.
* H1: стрелялки критикам нравятся больше, чем стратегии.

Сравниваем две выборки, поэтому нужен двухвыборочный двухсторонний критерий.

In [15]:
shooter_score = df[df.Genre == 'Shooter'].loc[pd.notna(df.Critic_Score), :].Critic_Score
strategy_score = df[df.Genre == 'Strategy'].loc[pd.notna(df.Critic_Score), :].Critic_Score
print(shooter_score.mean(), strategy_score.mean())

7.2868327402135264 7.429268292682925


In [19]:
alpha = 0.05
result = stats.ttest_ind(shooter_score, strategy_score, equal_var=False, alternative='greater')
print(result)

if (result.statistic > 0) & (result.pvalue < alpha): 
    print('Отвергаем нулевую гипотезу, стрелялки критикам нравятся больше, чем стратегии.')
else:
    print('Нет оснований отвергать нулевую гипотезу, стрелялки критикам нравятся меньше, чем стратегии либо нравятся также')

Ttest_indResult(statistic=-1.6073949711166526, pvalue=0.9458060679288847)
Нет оснований отвергать нулевую гипотезу, стрелялки критикам нравятся меньше, чем стратегии либо нравятся также


#### Итог:
Статистический коэффицент меньше нуля, pvalue намного больше 5%, значит
стрелялки критикам нравятся меньше, чем стратегии либо нравятся также.

Пороговый уровень статистической значимости равен pvalue=0.945

## Задание 2

Реализуйте базовую модель логистической регрессии для классификации текстовых сообщений (используемые данные [здесь](https://github.com/obulygin/pyda_homeworks/blob/master/stat_case_study/spam.csv)) по признаку спама. Для этого:

1) Привидите весь текст к нижнему регистру;  
2) Удалите мусорные символы;  
3) Удалите стоп-слова;  
4) Привидите все слова к нормальной форме;  
5) Преобразуйте все сообщения в вектора TF-IDF. Вам поможет следующий код:  

```
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(df.Message)
names = tfidf.get_feature_names()
tfidf_matrix = pd.DataFrame(tfidf_matrix.toarray(), columns=cname)
```

Можете поэкспериментировать с параметрами [TfidfVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html);  
6) Разделите данные на тестовые и тренировочные в соотношении 30/70, укажите `random_state=42`. Используйте [train_test_split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html);  
7) Постройте модель [логистической регрессии](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html), укажите `random_state=42`, оцените ее точность на тестовых данных;  
8) Опишите результаты при помощи [confusion_matrix](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html?highlight=confusion_matrix#sklearn.metrics.confusion_matrix);  
9) Постройте датафрейм, который будет содержать все исходные тексты сообщений, классифицированные неправильно (с указанием фактического и предсказанного).

In [20]:
import re

In [21]:
spam = pd.read_csv('spam.csv')
spam.head()

Unnamed: 0,Category,Message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [22]:
spam_mod = spam.copy(deep=True)

#### 1) Привидите весь текст к нижнему регистру

In [25]:
spam_mod.Message = spam_mod.Message.str.lower()
spam_mod

Unnamed: 0,Category,Message
0,ham,"go until jurong point, crazy.. available only ..."
1,ham,ok lar... joking wif u oni...
2,spam,free entry in 2 a wkly comp to win fa cup fina...
3,ham,u dun say so early hor... u c already then say...
4,ham,"nah i don't think he goes to usf, he lives aro..."
...,...,...
5567,spam,this is the 2nd time we have tried 2 contact u...
5568,ham,will ü b going to esplanade fr home?
5569,ham,"pity, * was in mood for that. so...any other s..."
5570,ham,the guy did some bitching but i acted like i'd...


#### 2) Удалите мусорные символы

In [26]:
spam_mod.Message = spam_mod['Message'].apply(lambda row: re.sub('[\W_]+',' ', row))
spam_mod

Unnamed: 0,Category,Message
0,ham,go until jurong point crazy available only in ...
1,ham,ok lar joking wif u oni
2,spam,free entry in 2 a wkly comp to win fa cup fina...
3,ham,u dun say so early hor u c already then say
4,ham,nah i don t think he goes to usf he lives arou...
...,...,...
5567,spam,this is the 2nd time we have tried 2 contact u...
5568,ham,will ü b going to esplanade fr home
5569,ham,pity was in mood for that so any other suggest...
5570,ham,the guy did some bitching but i acted like i d...


#### 3) Удалите стоп-слова

In [27]:
from nltk.corpus import stopwords

In [28]:
stopwords_set = set(stopwords.words('english'))

In [29]:
def clean_stop_words(row):
    text = row.split()
    text_without_sw = [word for word in text if word not in stopwords_set]
    return ' '.join(text_without_sw)

In [30]:
spam_mod.Message = spam_mod['Message'].apply(clean_stop_words)
spam_mod

Unnamed: 0,Category,Message
0,ham,go jurong point crazy available bugis n great ...
1,ham,ok lar joking wif u oni
2,spam,free entry 2 wkly comp win fa cup final tkts 2...
3,ham,u dun say early hor u c already say
4,ham,nah think goes usf lives around though
...,...,...
5567,spam,2nd time tried 2 contact u u 750 pound prize 2...
5568,ham,ü b going esplanade fr home
5569,ham,pity mood suggestions
5570,ham,guy bitching acted like interested buying some...


#### 4) Привидите все слова к нормальной форме;

In [31]:
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()

In [32]:
def lemmatize_text(row):
    text = row.split()
    lemmatized_text = [wordnet_lemmatizer.lemmatize(word) for word in text]
    return ' '.join(lemmatized_text)

In [33]:
spam_mod.Message = spam_mod['Message'].apply(lemmatize_text)
spam_mod

Unnamed: 0,Category,Message
0,ham,go jurong point crazy available bugis n great ...
1,ham,ok lar joking wif u oni
2,spam,free entry 2 wkly comp win fa cup final tkts 2...
3,ham,u dun say early hor u c already say
4,ham,nah think go usf life around though
...,...,...
5567,spam,2nd time tried 2 contact u u 750 pound prize 2...
5568,ham,ü b going esplanade fr home
5569,ham,pity mood suggestion
5570,ham,guy bitching acted like interested buying some...


#### 5) Преобразуйте все сообщения в вектора TF-IDF. 

In [34]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(spam_mod.Message)
names = tfidf.get_feature_names()
tfidf_matrix = pd.DataFrame(tfidf_matrix.toarray(), columns=names)

In [35]:
tfidf_matrix

Unnamed: 0,00,000,000pes,008704050406,0089,0121,01223585236,01223585334,0125698789,02,...,zhong,zindgi,zoe,zogtorius,zoom,zouk,zyada,èn,ú1,〨ud
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5567,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5568,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5569,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5570,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


6) Разделите данные на тестовые и тренировочные в соотношении 30/70, укажите random_state=42. Используйте train_test_split;

7) Постройте модель логистической регрессии, укажите random_state=42, оцените ее точность на тестовых данных;


In [36]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(tfidf_matrix, spam_mod.Category, test_size=0.30, random_state=42)

In [37]:
from sklearn.linear_model import LogisticRegression

In [38]:
LR = LogisticRegression(random_state=42)

In [41]:
LR.fit(X_train, Y_train)

LogisticRegression(random_state=42)

In [42]:
LR.predict(X_test)

array(['ham', 'ham', 'ham', ..., 'ham', 'spam', 'ham'], dtype=object)

In [43]:
result = pd.DataFrame([Y_test, LR.predict(X_test)]).T

In [44]:
result

Unnamed: 0,Category,Unnamed 0
3245,ham,
944,ham,ham
1044,ham,ham
2484,ham,
812,ham,ham
...,...,...
2505,ham,
2525,spam,
4975,ham,
650,spam,ham


In [45]:
from sklearn.metrics import accuracy_score

In [46]:
accuracy_score(Y_test, LR.predict(X_test))

0.958732057416268

8) Опишите результаты при помощи confusion_matrix;

In [47]:
from sklearn.metrics import confusion_matrix

In [48]:
confusion_matrix(Y_test, LR.predict(X_test))

array([[1445,    3],
       [  66,  158]], dtype=int64)

1445+158 верно предсказанных значения, 66+3 неправильно предсказанных

In [51]:
tn, fp, fn, tp = confusion_matrix(Y_test, LR.predict(X_test)).ravel()

In [55]:
accuracy = (tp + tn) / (tn + fp + fn + tp)
print('Точность классификации: %.2f ' % accuracy)
recall = (tp) / (fn + tp)
print('Чувствительность - отношение общего количества правильно классифицированных положительных классов \n к общему количеству положительных классов: %.2f' %recall)
precision = (tp) / (fp + tp)
print('Точность - отношение общего количества правильно классифицированных положительных классов \n к общему количеству предсказанных положительных классов: %.2f ' % precision )

Точность классификации: 0.96 
Чувствительность - отношение общего количества правильно классифицированных положительных классов 
 к общему количеству положительных классов: 0.71
Точность - отношение общего количества правильно классифицированных положительных классов 
 к общему количеству предсказанных положительных классов: 0.98 


In [56]:
from sklearn.metrics import classification_report
print(classification_report(Y_test, LR.predict(X_test)))

              precision    recall  f1-score   support

         ham       0.96      1.00      0.98      1448
        spam       0.98      0.71      0.82       224

    accuracy                           0.96      1672
   macro avg       0.97      0.85      0.90      1672
weighted avg       0.96      0.96      0.96      1672



9) Постройте датафрейм, который будет содержать все исходные тексты сообщений, классифицированные неправильно (с указанием фактического и предсказанного).

In [57]:
mistakes = result[result.Category != result['Unnamed 0']]
mistakes.columns = ['Test','Predicted']
mistakes

Unnamed: 0,Test,Predicted
3245,ham,
2484,ham,
2973,ham,
2991,ham,
2942,ham,
...,...,...
2505,ham,
2525,spam,
4975,ham,
650,spam,ham


In [58]:
mistakes.merge(spam, left_index=True, right_index=True)

Unnamed: 0,Test,Predicted,Category,Message
3245,ham,,ham,Squeeeeeze!! This is christmas hug.. If u lik ...
2484,ham,,ham,Mm have some kanji dont eat anything heavy ok
2973,ham,,ham,Sary just need Tim in the bollox &it hurt him ...
2991,ham,,ham,"Love isn't a decision, it's a feeling. If we c..."
2942,ham,,ham,My supervisor find 4 me one lor i thk his stud...
...,...,...,...,...
2505,ham,,ham,"Hello, my boytoy! I made it home and my consta..."
2525,spam,,spam,FREE entry into our £250 weekly comp just send...
4975,ham,,ham,Aiyo u so poor thing... Then u dun wan 2 eat? ...
650,spam,ham,spam,"You have won ?1,000 cash or a ?2,000 prize! To..."
