### Задача предоставлена партнером олимпиады — Федеральным исследовательским центром "Информатика и управление" РАН

        На некотором несуществующем интернет-ресурсе "Политическая кухня" популярностью пользуются два вида видеороликов: про политику и про кулинарию. При этом под роликами про консервативную политику комментарии оставляют только консерваторы, про либеральную --- только либералы. Кулинарные видео комментируют только кулинары. Иногда на ресурсе "Политическая кухня" происходит сбой, и комментарии перепутываются (кулинарный комментарий попадает под политическое видео, либеральный --- под консервативное видео и т.п.), тогда необходимо по комментарию определить, кто его оставил (консерватор, либерал или кулинар) и перенести в соответствующий раздел. Доступа к самим текстам комментариев у команды "Политической кухни" нет, но все тексты прошли обработку лингвистическим анализатором и каждый представлен набором численных признаков.
    
    

> Перед вами стоит задача разработать алгоритм машинного обучения, предсказывающий кем был написан комментарий: консерватором, либералом или кулинаром.

### Формат ввода

[Набор данных](https://disk.yandex.ru/d/9XuZIF8IIAx2fw)


Тренировочная выборка Train.csv представляет собой csv-таблицу со столбцами-признаками и столбцом целевой переменной target.

Описание признаков обучающих данных:

• ___comments_count___ – общее количество комментариев под видео, для которого создан комментарий,

• ___replies_count___ – общее количество ответов на комментарии под видео,

• ___both_count___ – общее количество сообщений под видео,

• ___sentence_count___ – общее количество предложений под видео,

• ___word_count___ – общее количество слов под видео,

• ___target___ – метка кем был оставлен комментарий (0 – либерал, 1 – кулинар, 2 – консерватор),

• ___остальные столбцы___ – признаки, полученные с помощью лингвистического анализатора.

Тестовая выборка Test.csv представляет собой csv-таблицу со столбцами-признаками --- данные, ответы на которые нужно послать в тестирующую систему.

### Формат вывода
В файле SampleSubmission.csv показан формат файла ответа, который нужно загружать в систему. В связи с особенностями работы скрипта подсчета метрики качества, необходимо сохранять порядок следования строк в выходном файле submission.csv.

>Примечания:
Используемая метрика --- многоклассовый F1-score с глобальным усреднением.

Ваш балл вычисляется по формуле 
f1⋅10, где f1 --- результат работы вашего алгоритма.
______


######  1. Импорт библиотек

In [1]:
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np

In [2]:
def  Export(filename,y_pred):
    df_export=pd.read_csv('data/SampleSubmission.csv')
    df_export['target'] = y_pred
    df_export.to_csv('out/'+filename+'.csv', sep=',',index=False)


###### 2. Импортируем тренировочный и тестовый датафрейм, и выведем оглавление таблиц

In [3]:
df_test = pd.read_csv('data/Test.csv')
df_train = pd.read_csv('data/Train.csv')

In [4]:
df_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1449 entries, 0 to 1448
Data columns (total 24 columns):
 #   Column                                       Non-Null Count  Dtype
---  ------                                       --------------  -----
 0   comments_count                               1449 non-null   int64
 1   replies_count                                1449 non-null   int64
 2   both_count                                   1449 non-null   int64
 3   sentence_count                               1449 non-null   int64
 4   word_count                                   1449 non-null   int64
 5   basic_emotions                               1449 non-null   int64
 6   basic emotions_fear                          1449 non-null   int64
 7   basic_emotions_anger                         1449 non-null   int64
 8   basic_emotions_sadness                       1449 non-null   int64
 9   basic_emotions_joy                           1449 non-null   int64
 10  basic_emotions_surprise_

In [5]:
df_test.describe()

Unnamed: 0,comments_count,replies_count,both_count,sentence_count,word_count,basic_emotions,basic emotions_fear,basic_emotions_anger,basic_emotions_sadness,basic_emotions_joy,...,emotions_of_social_evaluation_shame,emotions_of_social_evaluation_guilt,emotions_of_social_evaluation_embarrassment,emotions_of_social_evaluation_pride,emotions_of_social_evaluation_envy,state,state_excited,state_rest,state_estimate,state_process_execution
count,1449.0,1449.0,1449.0,1449.0,1449.0,1449.0,1449.0,1449.0,1449.0,1449.0,...,1449.0,1449.0,1449.0,1449.0,1449.0,1449.0,1449.0,1449.0,1449.0,1449.0
mean,1215.049689,545.133195,1760.182885,1877.486542,16387.34,321.20842,28.761905,16.770186,70.017943,101.520359,...,4.89579,2.977916,1.819186,2.371981,1.31815,149.850932,17.981366,122.601104,0.536232,8.732229
std,13920.010027,4974.52721,18853.504819,19024.54819,153106.3,3333.997187,376.616407,139.917454,984.441194,786.874788,...,61.400175,23.120022,22.019746,21.726173,10.107787,1496.692402,193.95088,1228.80017,3.02023,74.595577
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,36.0,6.0,46.0,67.0,605.0,11.0,0.0,0.0,1.0,3.0,...,0.0,0.0,0.0,0.0,0.0,5.0,0.0,4.0,0.0,0.0
50%,116.0,60.0,194.0,212.0,2172.0,36.0,2.0,2.0,5.0,11.0,...,0.0,0.0,0.0,0.0,0.0,17.0,2.0,14.0,0.0,1.0
75%,432.0,251.0,711.0,764.0,6774.0,123.0,6.0,7.0,17.0,42.0,...,1.0,1.0,0.0,1.0,0.0,61.0,6.0,50.0,0.0,4.0
max,376029.0,129164.0,505193.0,500449.0,3880182.0,87515.0,9950.0,3815.0,29824.0,19716.0,...,1731.0,539.0,699.0,548.0,209.0,39637.0,5246.0,32440.0,60.0,1904.0


In [6]:
print(df_train)

      comments_count  replies_count  both_count  sentence_count  word_count  \
0                152            223         375             514        6682   
1                306            129         435             488        4550   
2                 89             13         102             180        1373   
3                193             87         280             336        2509   
4                509             26         535             969        7076   
...              ...            ...         ...             ...         ...   
3376             830             77         907            1578       11310   
3377              30              0          30              36         334   
3378              69             10          79             131        1209   
3379             252            180         432             567        5922   
3380             732            438        1170            1231       11797   

      basic_emotions  basic emotions_fear  basic_em

In [7]:
df_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3381 entries, 0 to 3380
Data columns (total 25 columns):
 #   Column                                       Non-Null Count  Dtype
---  ------                                       --------------  -----
 0   comments_count                               3381 non-null   int64
 1   replies_count                                3381 non-null   int64
 2   both_count                                   3381 non-null   int64
 3   sentence_count                               3381 non-null   int64
 4   word_count                                   3381 non-null   int64
 5   basic_emotions                               3381 non-null   int64
 6   basic emotions_fear                          3381 non-null   int64
 7   basic_emotions_anger                         3381 non-null   int64
 8   basic_emotions_sadness                       3381 non-null   int64
 9   basic_emotions_joy                           3381 non-null   int64
 10  basic_emotions_surprise_

In [8]:
df_train.describe()

Unnamed: 0,comments_count,replies_count,both_count,sentence_count,word_count,basic_emotions,basic emotions_fear,basic_emotions_anger,basic_emotions_sadness,basic_emotions_joy,...,emotions_of_social_evaluation_guilt,emotions_of_social_evaluation_embarrassment,emotions_of_social_evaluation_pride,emotions_of_social_evaluation_envy,state,state_excited,state_rest,state_estimate,state_process_execution,target
count,3381.0,3381.0,3381.0,3381.0,3381.0,3381.0,3381.0,3381.0,3381.0,3381.0,...,3381.0,3381.0,3381.0,3381.0,3381.0,3381.0,3381.0,3381.0,3381.0,3381.0
mean,716.322094,389.283644,1105.605738,1175.560485,10650.12,193.550133,14.044957,12.559006,34.935226,68.86572,...,2.174209,1.125702,1.572612,1.073943,94.000887,11.471162,76.454599,0.419403,5.655723,1.432121
std,4299.374831,2296.896085,6520.227387,6664.666222,59777.82,1119.565542,98.82436,66.774307,231.774475,400.77136,...,14.517021,7.772497,9.579771,8.89371,521.524465,66.381813,431.28558,1.879135,26.564209,0.59824
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,36.0,6.0,45.0,69.0,623.0,11.0,0.0,0.0,1.0,3.0,...,0.0,0.0,0.0,0.0,5.0,0.0,4.0,0.0,0.0,1.0
50%,107.0,53.0,172.0,203.0,2003.0,34.0,2.0,2.0,5.0,10.0,...,0.0,0.0,0.0,0.0,16.0,2.0,12.0,0.0,1.0,1.0
75%,408.0,250.0,691.0,702.0,6342.0,112.0,6.0,7.0,17.0,37.0,...,1.0,0.0,1.0,0.0,56.0,6.0,45.0,0.0,4.0,2.0
max,136877.0,91912.0,228789.0,227434.0,2107711.0,42833.0,2856.0,1801.0,9254.0,16315.0,...,370.0,257.0,262.0,376.0,16778.0,2317.0,13539.0,48.0,874.0,2.0


In [9]:
print(df_test)

      comments_count  replies_count  both_count  sentence_count  word_count  \
0                196            121         317             425        4026   
1                 59             12          71             187        1698   
2                 44              0          44              54         393   
3                664            278         942            1296       10235   
4                 11              0          11              57        1275   
...              ...            ...         ...             ...         ...   
1444              59              0          59              83         589   
1445             109             37         146             167        2047   
1446              74             31         105             184        2165   
1447            2098            389        2487            4090       24219   
1448              44              0          44              47         304   

      basic_emotions  basic emotions_fear  basic_em

#### Обработка датафрейма

### метрика


In [10]:
from sklearn.utils import shuffle


df_train_metric = shuffle(df_train)

df_train_metricTrain = df_train_metric.sample(frac=0.7)

df_train_metricTrainX = df_train_metricTrain.drop('target', axis=1)
df_train_metricTrainY = df_train_metricTrain['target']

df_train_metricTest = df_train_metric.drop(df_train_metricTrain.index)

df_train_metricTest_Y = df_train_metricTest['target']
df_train_metricTest_X = df_train_metricTest.drop('target', axis=1)


### КНН

In [11]:
from sklearn.metrics import f1_score
from sklearn.neighbors import KNeighborsClassifier 

for i in range(1,2):
    kNN = KNeighborsClassifier(n_neighbors=i) 
    kNN.fit(df_train_metricTrainX, df_train_metricTrainY)

    predMetric = kNN.predict(df_train_metricTest_X)
    
    print(str(i)+" "+ str(f1_score(df_train_metricTest_Y.values, predMetric, average='micro')))

print(predMetric)
print(df_train_metricTest_Y.values)

1 0.722879684418146
[2 1 1 ... 1 1 1]
[1 1 2 ... 1 1 1]


Классификатор повышения градиента

In [12]:
from sklearn.ensemble import GradientBoostingClassifier

for i in range(1,2):
    clf = GradientBoostingClassifier(n_estimators=1000, learning_rate=0.2,max_depth=1, random_state=0).fit(df_train_metricTrainX, df_train_metricTrainY)
    predMetric = clf.predict(df_train_metricTest_X)
    
    print(str(i)+" "+ str(f1_score(df_train_metricTest_Y.values, predMetric, average='micro')))

print(predMetric)
print(df_train_metricTest_Y.values)

1 0.849112426035503
[2 1 2 ... 2 1 1]
[1 1 2 ... 1 1 1]


LGBM Classifier

In [13]:
#from lightgbm import LGBMClassifier

Классификатор XGBoost

In [14]:
#from xgboost.sklearn import XGBClassifier

Случайный Forest

In [15]:
from sklearn.ensemble import RandomForestClassifier

Древо решений

In [16]:
from sklearn.tree import DecisionTreeClassifier

Классификатор стохастического градиентного спуска

In [17]:
from sklearn.linear_model import SGDClassifier

Наивный байесовский (гауссовский, полиномиальный)

In [18]:
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import MultinomialNB

Машина опорных векторов

In [19]:
from sklearn.svm import SVC

Логистическая регрессия

In [20]:
from sklearn.linear_model import LogisticRegression

##### Предсказание 

In [21]:
df_train_Y = df_train['target']
df_train_X = df_train.drop('target', axis=1)

print(df_train_Y)
print(df_train_X)

0       2
1       2
2       1
3       1
4       1
       ..
3376    1
3377    1
3378    2
3379    2
3380    0
Name: target, Length: 3381, dtype: int64
      comments_count  replies_count  both_count  sentence_count  word_count  \
0                152            223         375             514        6682   
1                306            129         435             488        4550   
2                 89             13         102             180        1373   
3                193             87         280             336        2509   
4                509             26         535             969        7076   
...              ...            ...         ...             ...         ...   
3376             830             77         907            1578       11310   
3377              30              0          30              36         334   
3378              69             10          79             131        1209   
3379             252            180         432            

In [22]:
df_test_X = df_test

In [23]:
kNN = KNeighborsClassifier(n_neighbors=11) 
kNN.fit(df_train_X, df_train_Y) 

y_pred = kNN.predict(df_test_X)
print(y_pred)
#print(kNN.predict_proba(df_test_XY)) 

Export('submission', y_pred)

[2 2 1 ... 2 1 1]


In [24]:


for i in range(1,2):
    clf = GradientBoostingClassifier(n_estimators=1000, learning_rate=0.2,max_depth=1, random_state=0).fit(df_train_X, df_train_Y)
    y_pred = clf.predict(df_test_X)
    

Export('submission', y_pred)