# Домашнее задание к лекции "Статистика. Практика"

## Задание 1

Вернемся к [набору данных о видеоиграх](https://github.com/obulygin/pyda_homeworks/blob/master/stat_case_study/video_games_sales.csv).

Ответьте на следующие вопросы:

1) Как критики относятся к спортивным играм?  
2) Критикам нравятся больше игры на PC или на PS4?  
3) Критикам больше нравятся стрелялки или стратегии?  

Для каждого вопроса:
- сформулируйте нулевую и альтернативную гипотезы;
- выберите пороговый уровень статистической значимости;
- опишите полученные результаты статистического теста.

## Решение:

In [1]:
import pandas as pd

In [2]:
games = pd.read_csv('video_games_sales.csv')

### Как критики относятся к спортивным играм?

H0: критики оценивают спортивные игры в целом положительно (средняя оценка выше (>=) 5)  
H1: критики оценивают спортивные игры в целом отрицательно (средняя оценка ниже (<) 5)  

Во всех примерах будем принимать уровень значимости 0.05 (вопрос жизни и смерти у нас не стоит, так что стандартный уровень вполне подойдет для наших задач)

In [162]:
from scipy import stats as st
alpha = 0.05

In [163]:
result = st.ttest_1samp(games[games.Genre == 'Sports'].Critic_Score.dropna(), 5)
print(result)

if (result.statistic < 0) & (result.pvalue / 2 < alpha):
    print('Отвергаем нулевую гипотезу, средняя оценка меньше 5')
else:
    print('Не отвергаем нулевую нулевую гипотезу, средняя оценка больше 5')

Ttest_1sampResult(statistic=40.864428307278445, pvalue=4.500149759724238e-186)
Не отвергаем нулевую нулевую гипотезу, средняя оценка больше 5


Значение статистики достаточно большое, а p-value очень маленькое (на несколько порядков меньше уровня значимости). 

Попробуем проверить более смелую гипотезу.

H0: критики очень хорошо относятся к спортивным (средняя оценка выше (>=) 7.5)  
H1: критики относятся к спортивным играм в целом положительно, с умеренным энтузиазмом (средняя оценка ниже (<) 7.5)

In [17]:
result = st.ttest_1samp(games[games.Genre == 'Sports'].Critic_Score.dropna(), 7.5)
print(result)

if (result.statistic < 0) & (result.pvalue / 2 < alpha):
    print('Отвергаем нулевую гипотезу, средняя оценка меньше 7,5')
else:
    print('Не отвергаем нулевую нулевую гипотезу, средняя оценка больше 7,5')

Ttest_1sampResult(statistic=-3.719660933773832, pvalue=0.00021577789041608633)
Отвергаем нулевую гипотезу, средняя оценка меньше 7,5


Более смелая гипотеза не подтвердилась. Статистика отрицательная, а p-value на два порядка меньше уровня значимости.

**Вывод:** критики относятся к спортивным играм в целом положительно, с умеренным энтузиазмом

### Критикам нравятся больше игры на PC или на PS4?  

H0: критики оценивают игры на PC и PS4 одинаково  
H1: критики оценивают игры на PC и PS4 по-разному


In [28]:
result = st.ttest_ind(games[games.Platform == 'PC'].Critic_Score.dropna(), games[games.Platform == 'PS4'].Critic_Score.dropna(), equal_var=False)
print(result)
if (result.pvalue < alpha):
    print('Отвергаем нулевую гипотезу, критики оценивают игры на PC и PS4 по-разному')
else:
    print('Не отвергаем нулевую гипотезу, критики оценивают игры на PC и PS4 одинаково')

Ttest_indResult(statistic=-2.7394476056351627, pvalue=0.006931808250254211)
Отвергаем нулевую гипотезу, критики оценивают игры на PC и PS4 по-разному


Значение статистики отрицательное, поэтому делаем **вывод**:

Критики оценивают игры на PC и PS4 по-разному. Игры на игры на PS4 в целом нравятся критикам больше, чем игры на PC.

### Критикам больше нравятся стрелялки или стратегии?  

H0: критики оценивают стрелялки и стратегии одинаково  
H1: критики оценивают стрелялки и стратегии по-разному

In [34]:
result = st.ttest_ind(games[games.Genre == 'Shooter'].Critic_Score.dropna(), games[games.Genre == 'Strategy'].Critic_Score.dropna(), equal_var=False)
print(result)
if (result.pvalue < alpha):
    print('Отвергаем нулевую гипотезу, критики оценивают стрелялки и стратегии по-разному')
else:
    print('Не отвергаем нулевую гипотезу, критики оценивают стрелялки и стратегии одинаково')

Ttest_indResult(statistic=-1.6073949711166526, pvalue=0.10838786414223071)
Не отвергаем нулевую гипотезу, критики оценивают стрелялки и стратегии одинаково


Оценки стратегий чуть лучше, но этуразницу нельзя считать статистически значимой.

**Вывод**: Критики оценивают стрелялки и стратегии одинаково.

## Задание 2

Реализуйте базовую модель логистической регрессии для классификации текстовых сообщений (используемые данные [здесь](https://github.com/obulygin/pyda_homeworks/blob/master/stat_case_study/spam.csv)) по признаку спама. Для этого:

**1) Приведите весь текст к нижнему регистру**;

In [41]:
spam = pd.read_csv('spam.csv')

In [42]:
spam.head()

Unnamed: 0,Category,Message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [58]:
spam.loc[:, 'Message'] = spam['Message'].apply(str.lower)

In [59]:
spam.head()

Unnamed: 0,Category,Message
0,ham,"go until jurong point, crazy.. available only ..."
1,ham,ok lar... joking wif u oni...
2,spam,free entry in 2 a wkly comp to win fa cup fina...
3,ham,u dun say so early hor... u c already then say...
4,ham,"nah i don't think he goes to usf, he lives aro..."


**2) Удалите мусорные символы**;

In [60]:
import re

In [63]:
spam.loc[:, 'Message'] = spam['Message'].apply(lambda x: re.sub('[\W_]+', ' ', x))

In [64]:
spam.head()

Unnamed: 0,Category,Message
0,ham,go until jurong point crazy available only in ...
1,ham,ok lar joking wif u oni
2,spam,free entry in 2 a wkly comp to win fa cup fina...
3,ham,u dun say so early hor u c already then say
4,ham,nah i don t think he goes to usf he lives arou...


**3) Удалите стоп-слова**;

In [72]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/author/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [73]:
from nltk.corpus import stopwords

In [74]:
stopwords_set = set(stopwords.words('english'))
spam.loc[:, 'Message'] = spam['Message'].apply(lambda x: ' '.join([word for word in x.strip().split(' ') if word not in stopwords_set]))

In [75]:
spam.head()

Unnamed: 0,Category,Message
0,ham,go jurong point crazy available bugis n great ...
1,ham,ok lar joking wif u oni
2,spam,free entry 2 wkly comp win fa cup final tkts 2...
3,ham,u dun say early hor u c already say
4,ham,nah think goes usf lives around though


**4) Приведите все слова к нормальной форме**;

In [76]:
from nltk.stem import WordNetLemmatizer

In [78]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /Users/author/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [79]:
wordnet_lemmatizer = WordNetLemmatizer()
spam.loc[:, 'Message'] = spam['Message'].apply(lambda x: ' '.join([wordnet_lemmatizer.lemmatize(word) for word in x.split(' ')]))

In [80]:
spam.head()

Unnamed: 0,Category,Message
0,ham,go jurong point crazy available bugis n great ...
1,ham,ok lar joking wif u oni
2,spam,free entry 2 wkly comp win fa cup final tkts 2...
3,ham,u dun say early hor u c already say
4,ham,nah think go usf life around though


**5) Преобразуйте все сообщения в вектора TF-IDF**. Вам поможет следующий код:  

```
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(df.Message)
names = tfidf.get_feature_names()
tfidf_matrix = pd.DataFrame(tfidf_matrix.toarray(), columns=cname)
```

Можете поэкспериментировать с параметрами [TfidfVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html);  

In [86]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(spam.Message)
names = tfidf.get_feature_names()
tfidf_matrix = pd.DataFrame(tfidf_matrix.toarray(), columns = names)

In [89]:
tfidf_matrix.free.head()

0    0.000000
1    0.000000
2    0.115769
3    0.000000
4    0.000000
Name: free, dtype: float64

**6) Разделите данные на тестовые и тренировочные в соотношении 30/70**, укажите `random_state=42`. Используйте [train_test_split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html);  

In [None]:
from sklearn.model_selection import train_test_split

In [91]:
X_train, X_test, y_train, y_test = train_test_split(tfidf_matrix, spam.Category.tolist(), test_size=0.3, random_state=42)

**7) Постройте модель** [логистической регрессии](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html), укажите `random_state=42`, оцените ее точность на тестовых данных;

In [97]:
from sklearn.linear_model import LogisticRegression

In [98]:
model = LogisticRegression()
model.fit(X_train, y_train)

LogisticRegression()

In [99]:
y_pred = model.predict(X_test)

In [100]:
model.score(X_test, y_test)

0.958732057416268

**8) Опишите результаты** при помощи [confusion_matrix](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html?highlight=confusion_matrix#sklearn.metrics.confusion_matrix);  

In [101]:
from sklearn.metrics import confusion_matrix

In [108]:
confusion_matrix(y_test, y_pred)

array([[1445,    3],
       [  66,  158]])

Наша модель не так хороша, как кажется на первый взгляд (по расчету score).
Она хорошо справляется с определением обычных писем (всего 3 из них попали в спам), но в том, что касается фильтрации спама (основной задачи нашей модели), дела обстоят совсем не так хорошо.

Модель пропустила 66 спам-сообщений из 224 — почти 30% спама прошли фильтр.

**9) Постройте датафрейм**, который будет содержать все исходные тексты сообщений, классифицированные неправильно (с указанием фактического и предсказанного).

In [159]:
joined = pd.DataFrame([X_test.index, y_test, y_pred]).T
joined.set_index(0, inplace=True)
joined.columns = ['Category', 'Filter']
joined.drop(joined[joined['Category'] == joined['Filter']].index, inplace = True)

In [160]:
result = joined.join(pd.read_csv('spam.csv').Message, how='left').sort_index()

In [161]:
result

Unnamed: 0_level_0,Category,Filter,Message
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
15,spam,ham,"XXXMobileMovieClub: To use your credit, click ..."
19,spam,ham,England v Macedonia - dont miss the goals/team...
68,spam,ham,"Did you hear about the new ""Divorce Barbie""? I..."
95,spam,ham,Your free ringtone is waiting to be collected....
135,spam,ham,Want 2 get laid tonight? Want real Dogging loc...
...,...,...,...
4652,spam,ham,A £400 XMAS REWARD IS WAITING FOR YOU! Our com...
5037,spam,ham,You won't believe it but it's true. It's Incre...
5120,spam,ham,PRIVATE! Your 2003 Account Statement for 078
5366,spam,ham,A £400 XMAS REWARD IS WAITING FOR YOU! Our com...
