# Import

In [66]:
import pandas as pd

# Some functions

In [150]:
def is_first_high(string):
    return 'A' <= string[0] <= 'Я' or string[0] == 'Ё'

In [151]:
def is_first_low(string):
    return 'а' <= string[0] <= 'я' or string[0] == 'ё'

# Work

In [2]:
df = pd.read_csv('train.csv')

In [114]:
df.head(5)

Unnamed: 0,Word,Label
0,Аалтонен,1
1,Аар,0
2,Аарон,0
3,ААРОН,0
4,Аарона,0


In [115]:
df.tail(5)

Unnamed: 0,Word,Label
101403,Ёлкин,1
101404,ёлкой,0
101405,ёлок,0
101406,ёлочкой,0
101407,ёмкость,0


### Посмотрим на метки слов, у которых первая буква строчная

In [73]:
df[df.Word.apply(lambda x: is_first_low(x))].Label.value_counts(normalize=True)

0    0.977279
1    0.022721
Name: Label, dtype: float64

* Вывод: 97.7% слов со строчной первой буквой принадлежат классу 0

Посмотрим на слова, начинающие со строчной буквы, которые "якобы" являются фамилиями:

In [121]:
df[(df.Word.apply(lambda x: is_first_low(x))) & (df.Label == 1)]

Unnamed: 0,Word,Label
43,аббревиатура,1
446,автокаско,1
475,автоматизация,1
486,автоматов,1
658,агент,1
673,агентство,1
749,агрегирования,1
809,адаптация,1
1052,азот,1
1320,акт,1


Что-то эти слова не похожи на фамилии!

* #### Ну давайте предположим, что все слова, начинающиеся со строчной буквы, принадлежат классу 0

###  Посмотрим на метки слов, у которых первая буква заглавная

In [154]:
df[(df.Word.apply(lambda x: is_first_high(x)))].Label.value_counts()

0    36316
1     9372
Name: Label, dtype: int64

In [82]:
df[(df.Word.apply(lambda x: is_first_high(x)))].Label.value_counts(normalize=True)

0    0.79487
1    0.20513
Name: Label, dtype: float64

Тут уже нет такого явного перевеса

* Посмотрим на слова из большего(нулевого) класса из этих слов

In [128]:
df[(df.Word.apply(lambda x: is_first_high(x))) & (df.Label == 0)]

Unnamed: 0,Word,Label
1,Аар,0
2,Аарон,0
3,ААРОН,0
4,Аарона,0
6,Аароне,0
7,Ааронов,0
8,Аахена,0
13,Абажуры,0
16,Абакана,0
31,Аббатиса,0


Ну вроде бы и вправду тут нет фамилий, но на счет этих еще не понятно: Абдурахманов, Абдурахманович

* Теперь посмотрим на слова из первого класса из этих слов

In [81]:
df[(df.Word.apply(lambda x: is_first_high(x))) & (df.Label == 1)]

Unnamed: 0,Word,Label
0,Аалтонен,1
5,Аарона,1
9,Абабков,1
18,Абакумов,1
19,Абалкина,1
20,Абатуровым,1
21,Абашев,1
22,Абашидзе,1
23,Абашкина,1
24,Аббас,1


Ну более менее похоже на правду

* видно, что корни слов во многих случаях совпадают

по-хорошему надо для похожих слов найти максимальный префикс, но что-то пока сложно

поэтому ограничимся первыми 5 символами

так же выберем те префиксы, относительны частоты которых в классе 1 больше чем в 0

In [199]:
clazz_1 = dict()
for word in df[(df.Word.apply(lambda x: is_first_high(x))) & (df.Label == 1)].Word.values:
    st = word[:5].lower()
    if st in clazz_1:
        clazz_1[st] += 1
    else:
        clazz_1[st] = 1

In [202]:
clazz_2 = dict()
for word in df[(df.Word.apply(lambda x: is_first_low(x))) | (df.Label == 0)].Word.values:
    st = word[:5].lower()
    if st in clazz_2:
        clazz_2[st] += 1
    else:
        clazz_2[st] = 1

In [206]:
start_words = set()
for key in clazz_1:
    if key in clazz_2:
        if clazz_1[key] / 9372 > clazz_2[key] / 36316:
            start_words.add(key)
    else:
        start_words.add(key)         

# Test

In [209]:
test_df = pd.read_csv('test.csv')

In [219]:
def predict(x):
    if is_first_low(x): return 0
    if x.lower()[:5] in start_words:
        return 1
    return 0

In [220]:
test_df['Prediction'] = test_df.Word.apply(lambda x: predict(x))

In [232]:
submission_df = pd.read_csv('sample_submission.csv')

In [233]:
submission_df.Prediction = test_df['Prediction']

In [231]:
submission_df.to_csv('answer.csv', index=False)