# Домашнее задание к лекции "Статистика. Практика"

## Задание 1
Вернемся к набору данных о видеоиграх.

Ответьте на следующие вопросы:

* Как критики относятся к спортивным играм?
* Критикам нравятся больше игры на PC или на PS4?
* Критикам больше нравятся стрелялки или стратегии?

Для каждого вопроса:

* сформулируйте нулевую и альтернативную гипотезы;
* выберите пороговый уровень статистической значимости;
* опишите полученные результаты статистического теста.

In [1]:
import pandas as pd
from scipy import stats as st

In [2]:
# Загрузимданные в датафрейм
df = pd.read_csv('video_games_sales.csv')
df.head()

Unnamed: 0,Rank,Name,basename,Genre,ESRB_Rating,Platform,Publisher,Developer,VGChartz_Score,Critic_Score,...,NA_Sales,PAL_Sales,JP_Sales,Other_Sales,Year,Last_Update,url,status,Vgchartzscore,img_url
0,1,Wii Sports,wii-sports,Sports,E,Wii,Nintendo,Nintendo EAD,,7.7,...,,,,,2006.0,,http://www.vgchartz.com/game/2667/wii-sports/?...,1,,/games/boxart/full_2258645AmericaFrontccc.jpg
1,2,Super Mario Bros.,super-mario-bros,Platform,,NES,Nintendo,Nintendo EAD,,10.0,...,,,,,1985.0,,http://www.vgchartz.com/game/6455/super-mario-...,1,,/games/boxart/8972270ccc.jpg
2,3,Mario Kart Wii,mario-kart-wii,Racing,E,Wii,Nintendo,Nintendo EAD,,8.2,...,,,,,2008.0,11th Apr 18,http://www.vgchartz.com/game/6968/mario-kart-w...,1,8.7,/games/boxart/full_8932480AmericaFrontccc.jpg
3,4,PlayerUnknown's Battlegrounds,playerunknowns-battlegrounds,Shooter,,PC,PUBG Corporation,PUBG Corporation,,,...,,,,,2017.0,13th Nov 18,http://www.vgchartz.com/game/215988/playerunkn...,1,,/games/boxart/full_8052843AmericaFrontccc.jpg
4,5,Wii Sports Resort,wii-sports-resort,Sports,E,Wii,Nintendo,Nintendo EAD,,8.0,...,,,,,2009.0,,http://www.vgchartz.com/game/24656/wii-sports-...,1,8.8,/games/boxart/full_7295041AmericaFrontccc.jpg


In [3]:
# Определим как критики относятся к спортивным играм
# Определим среднюю оценку по всем видам игр
average_rating = df.Critic_Score.mean()
average_rating

7.21370869033052

### Как критики относятся к спортивным играм?
H0: критики относятся к спортивным играм положительно (Critic_Score >= average_rating)

H1: критики относятся к спортивным играм негативно (Critic_Score < average_rating)

In [4]:
alpha = 0.05 # Принимаем пороговый уровень статистической значимости, равный 0,05. Далее это значение принимаем везде
result = st.ttest_1samp(df[(df['Genre'] == 'Sports')].Critic_Score.dropna(), average_rating)
print(result)
if (result.statistic < 0) & (result.pvalue / 2 < alpha):
    print('Отвергаем нулевую гипотезу,  критики относятся к спортивным играм негативно')
else:
    print('Не отвергаем нулевую гипотезу, критики относятся к спортивным играм положительно')

Ttest_1sampResult(statistic=1.385953985922894, pvalue=0.16621064929327967)
Не отвергаем нулевую гипотезу, критики относятся к спортивным играм положительно


Из полученных значений видим, что средняя оценка по спортивным играм выше средней оценки по всем играм. 

### Критикам нравятся больше игры на PC или на PS4?
H0: критики одинаково относятся к играм на PC или на PS4

H1: критики по разному относятся к играм на PC или на PS4

In [5]:
result = st.ttest_ind(df[(df['Platform'] == 'PC')].Critic_Score.dropna(), 
                      df[(df['Platform'] == 'PS4')].Critic_Score.dropna(), equal_var=False)
print(result)
if (result.pvalue < alpha):
    print('Отвергаем нулевую гипотезу, критики по разному относятся к играм на PC или на PS4')
else:
    print('Не отвергаем нулевую гипотезу')

Ttest_indResult(statistic=-2.7394476056351627, pvalue=0.006931808250254211)
Отвергаем нулевую гипотезу, критики по разному относятся к играм на PC или на PS4


Из полученных результатов видим, что критики по разному относятся к играм на PC или на PS4. В среднем оценки игр на PC ниже, чем на PS4.

### Критикам больше нравятся стрелялки или стратегии?
H0: критики одинаково относятся к стрелялкам или стратегиям

H1: критики по разному относятся к стрелялкам или стратегиям

In [6]:
result = st.ttest_ind(df[(df['Genre'] == 'Shooter')].Critic_Score.dropna(), 
                      df[(df['Genre'] == 'Strategy')].Critic_Score.dropna(), equal_var=False)
print(result)
if (result.pvalue < alpha):
    print('Отвергаем нулевую гипотезу, критики по разному относятся к стрелялкам или стратегиям')
else:
    print('Не отвергаем нулевую гипотезу')

Ttest_indResult(statistic=-1.6073949711166526, pvalue=0.10838786414223071)
Не отвергаем нулевую гипотезу


Из полученных результатов видим, что критики одинаково относятся к стрелялкам или стратегиям.

## Задание 2
Реализуйте базовую модель логистической регрессии для классификации текстовых сообщений (используемые данные здесь) по признаку спама. Для этого:

1) Привидите весь текст к нижнему регистру;

2) Удалите мусорные символы;

3) Удалите стоп-слова;

4) Привидите все слова к нормальной форме;

5) Преобразуйте все сообщения в вектора TF-IDF. Вам поможет следующий код:

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()

tfidf_matrix = tfidf.fit_transform(df.Message)

names = tfidf.get_feature_names()

tfidf_matrix = pd.DataFrame(tfidf_matrix.toarray(), columns=names)

Можете поэкспериментировать с параметрами TfidfVectorizer;

6) Разделите данные на тестовые и тренировочные в соотношении 30/70, укажите random_state=42. Используйте train_test_split;

7) Постройте модель логистической регрессии, укажите random_state=42, оцените ее точность на тестовых данных;

8) Опишите результаты при помощи confusion_matrix;

9) Постройте датафрейм, который будет содержать все исходные тексты сообщений, классифицированные неправильно (с указанием фактического и предсказанного).

In [7]:
import re
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

In [8]:
spam = pd.read_csv('spam.csv')
spam.head()

Unnamed: 0,Category,Message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [9]:
my_spam = spam.copy()

In [10]:
# Приводим весь текст к нижнему регистру
my_spam.Message = my_spam.Message.str.lower()
my_spam.head()

Unnamed: 0,Category,Message
0,ham,"go until jurong point, crazy.. available only ..."
1,ham,ok lar... joking wif u oni...
2,spam,free entry in 2 a wkly comp to win fa cup fina...
3,ham,u dun say so early hor... u c already then say...
4,ham,"nah i don't think he goes to usf, he lives aro..."


In [11]:
# Удаляем мусорные символы
my_spam.Message = my_spam.Message.apply(lambda x: re.sub('[\W_]+',' ', x))
my_spam.head()

Unnamed: 0,Category,Message
0,ham,go until jurong point crazy available only in ...
1,ham,ok lar joking wif u oni
2,spam,free entry in 2 a wkly comp to win fa cup fina...
3,ham,u dun say so early hor u c already then say
4,ham,nah i don t think he goes to usf he lives arou...


In [12]:
# Разделяем на слова
my_spam.Words = my_spam.Message.apply(lambda x: x.split())
my_spam.head()

  


Unnamed: 0,Category,Message
0,ham,go until jurong point crazy available only in ...
1,ham,ok lar joking wif u oni
2,spam,free entry in 2 a wkly comp to win fa cup fina...
3,ham,u dun say so early hor u c already then say
4,ham,nah i don t think he goes to usf he lives arou...


In [13]:
# Удаляем стоп-слова
from nltk.corpus import stopwords
stopwords_set = set(stopwords.words('english'))
my_spam.Words = my_spam.Words.apply(lambda x: [word for word in x if word not in stopwords_set])
my_spam.head()

Unnamed: 0,Category,Message
0,ham,go until jurong point crazy available only in ...
1,ham,ok lar joking wif u oni
2,spam,free entry in 2 a wkly comp to win fa cup fina...
3,ham,u dun say so early hor u c already then say
4,ham,nah i don t think he goes to usf he lives arou...


In [14]:
# Приводим все слова к нормальной форме
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()
my_spam.Words = my_spam.Words.apply(lambda x: [wordnet_lemmatizer.lemmatize(word) for word in x])
my_spam.head()

Unnamed: 0,Category,Message
0,ham,go until jurong point crazy available only in ...
1,ham,ok lar joking wif u oni
2,spam,free entry in 2 a wkly comp to win fa cup fina...
3,ham,u dun say so early hor u c already then say
4,ham,nah i don t think he goes to usf he lives arou...


In [15]:
# Переведем все слова в строки
my_spam.Words = my_spam.Words.apply(lambda x: ' '.join(x))
my_spam.head()

Unnamed: 0,Category,Message
0,ham,go until jurong point crazy available only in ...
1,ham,ok lar joking wif u oni
2,spam,free entry in 2 a wkly comp to win fa cup fina...
3,ham,u dun say so early hor u c already then say
4,ham,nah i don t think he goes to usf he lives arou...


In [16]:
# Преобразуем все сообщения в вектора TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(my_spam.Words)
names = tfidf.get_feature_names()
tfidf_matrix = pd.DataFrame(tfidf_matrix.toarray(), columns=names)
tfidf_matrix.head()

Unnamed: 0,00,000,000pes,008704050406,0089,0121,01223585236,01223585334,0125698789,02,...,zhong,zindgi,zoe,zogtorius,zoom,zouk,zyada,èn,ú1,〨ud
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [17]:
# Разделиv данные на тестовые и тренировочные в соотношении 30/70
X = tfidf_matrix
y = my_spam.Category
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)

In [18]:
# Построем модель логистической регрессии
model = LogisticRegression(random_state=42)
model.fit(X_train, y_train)



LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=42, solver='warn', tol=0.0001, verbose=0,
                   warm_start=False)

In [19]:
y_pred = model.predict(X_test)
y_pred

array(['ham', 'ham', 'ham', ..., 'ham', 'spam', 'ham'], dtype=object)

In [20]:
# Посмотрим полученный результат
y_pred_df = pd.Series(y_pred)
y_pred_df.index = y_test.index
result = pd.concat([y_test, y_pred_df], axis=1)
result.columns = ['y_test', 'y_pred']
result

Unnamed: 0,y_test,y_pred
3245,ham,ham
944,ham,ham
1044,ham,ham
2484,ham,ham
812,ham,ham
...,...,...
2505,ham,ham
2525,spam,spam
4975,ham,ham
650,spam,spam


In [21]:
# Произведем расчет точности 
# Используем метрику для сбалансированных классов
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred)

0.958732057416268

In [22]:
# Опишем результаты при помощи confusion_matrix
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, y_pred)

array([[1445,    3],
       [  66,  158]], dtype=int64)

Из полученных значений видим, что в предсказанных значениях 3 ошибок 1 типа (ложно-положительное решение) и 66 ошибок 2 типа (ложно-отрицательное решение).

In [23]:
# Построем датафрейм, который будет содержать все исходные тексты сообщений, классифицированные неправильно 
# (с указанием фактического и предсказанного)
result[(result['y_test'] != result['y_pred'])].join(spam.drop('Category', axis=1), how='left')
# Используем колонку сообщений исходного датафрейма, так как в нем отсутствуют какие-либо изменения

Unnamed: 0,y_test,y_pred,Message
2952,ham,spam,Hey now am free you can call me.
881,spam,ham,Reminder: You have not downloaded the content ...
1961,spam,ham,Guess what! Somebody you know secretly fancies...
3864,spam,ham,Oh my god! I've found your number again! I'm s...
2575,spam,ham,Your next amazing xxx PICSFREE1 video will be ...
...,...,...,...
4543,spam,ham,FreeMsg Hi baby wow just got a new cam moby. W...
752,spam,ham,You have an important customer service announc...
309,spam,ham,TheMob> Check out our newest selection of cont...
495,ham,spam,Are you free now?can i call now?
