# Домашнее задание 2 по обработке текстов

Рассмотрим задачу бинарной классификации. Пусть дано два списка имен: мужские и женские имена. Требуется разработать классификатор, который по данному имени будет определять мужское оно или женское.

Данные: 
* Женские имена: female.txt
* Мужские имена: male.txt

## Часть 1. Предварительная обработка данных

1. Удалите неоднозначные имена (те имена, которые являются и мужскими, и женскими дновременно), если такие есть; 
2. Создайте обучающее и тестовое множество так, чтобы в обучающем множестве классы были сбалансированы, т.е. к классу принадлежало бы одинаковое количество имен;

##  Часть 2. Базовый метод классификации

Используйте метод наивного Байеса или логистическую регрессию для классификации имен: в качестве признаков используйте символьные $n$-граммы. Сравните результаты, получаемые при разных $n=2,3,4$ по $F$-мере и аккуратности. В каких случаях метод ошибается?

Для генерации $n$-грамм используйте:

In [None]:
from nltk.util import ngrams

##  Часть 3. Нейронная сеть


Используйте  реккурентную нейронную сеть с  LSTM для решения задачи. В ней может быть несколько слоев с LSTM, несколько слоев c Bidirectional(LSTM).  У нейронной сети один выход, определяющий класс имени. 

Представление имени для классификации в этом случае: бинарная матрица размера (количество букв в алфавите $\times$ максимальная длина имени). Обозначим его через $x$. Если первая буква имени a, то $x[1][1] = 1$, если вторая – b, то  $x[2][1] = 1$.  

Не забудьте про регуляризацию нейронной сети дропаутами. 

Сравните результаты классификации разными методами. Какой метод лучше и почему?

Сравните результаты, получаемые при разных значениях дропаута, разных числах узлов на слоях нейронной сети по $F$-мере и аккуратности. В каких случаях нейронная сеть ошибается?

Если совсем не получается запрограммировать нейронную сеть самостоятельно, обратитесь к туториалу тут: https://github.com/divamgupta/lstm-gender-predictor

In [1]:
import pandas as pd
df_f = pd.read_csv('female.txt',names=['name'])
df_f['sex'] = 0
df_f.head()

Unnamed: 0,name,sex
0,Abagael,0
1,Abagail,0
2,Abbe,0
3,Abbey,0
4,Abbi,0


In [2]:
df_m = pd.read_csv('male.txt',names=['name'])
df_m['sex'] = 1
df_m.head()

Unnamed: 0,name,sex
0,Aamir,1
1,Aaron,1
2,Abbey,1
3,Abbie,1
4,Abbot,1


In [3]:
idx_f = df_f.name.isin(df_m.name.tolist()).tolist()

In [4]:
female = df_f.copy()
for i in range(0, len(df_f)):
    if idx_f[i] == True:
        female.drop(i, inplace = True)

In [5]:
female.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4636 entries, 0 to 5000
Data columns (total 2 columns):
name    4636 non-null object
sex     4636 non-null int64
dtypes: int64(1), object(1)
memory usage: 108.7+ KB


In [6]:
idx_m = df_m.name.isin(df_f.name.tolist()).tolist()

In [7]:
male = df_m.copy()
for i in range(0, len(df_m)):
    if idx_m[i] == True:
        male.drop(i, inplace = True)

In [8]:
male.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2578 entries, 0 to 2942
Data columns (total 2 columns):
name    2578 non-null object
sex     2578 non-null int64
dtypes: int64(1), object(1)
memory usage: 60.4+ KB


In [9]:
from sklearn.model_selection import train_test_split

In [10]:
X_f, X_over_f = train_test_split(female, test_size=len(female)-len(male), random_state=42)


In [11]:
X = X_f.merge(male, how = 'outer')
X.head()

Unnamed: 0,name,sex
0,Dorry,0
1,Teddi,0
2,Nanni,0
3,Fenelia,0
4,Nanon,0


In [12]:
# Разбиваем выборку на обучение и тест
X_train, X_test, y_train, y_test = train_test_split(X.name, X.sex, test_size=0.2, random_state=42)

## Часть 2. Базовый метод классификации

In [13]:
import matplotlib.pyplot as plt
import seaborn as sns
import random
random.seed(1228)
from sklearn.feature_extraction.text import *
from sklearn.metrics import *
from sklearn.pipeline import Pipeline
%matplotlib inline

In [14]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import SGDClassifier, LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.decomposition import TruncatedSVD, LatentDirichletAllocation


In [16]:
X_train.head()

2481      Laurene
5020       Weslie
99            Mab
2224    Margarete
2284       Sibeal
Name: name, dtype: object

In [17]:
n = 2

In [38]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer(ngram_range=(n, n), analyzer='char')
X_train_counts = count_vect.fit_transform(X_train)
X_train_counts

<4124x5745 sparse matrix of type '<class 'numpy.int64'>'
	with 12744 stored elements in Compressed Sparse Row format>

In [39]:
X_test_counts = count_vect.transform(X_test)
X_test_counts

<1032x5745 sparse matrix of type '<class 'numpy.int64'>'
	with 2338 stored elements in Compressed Sparse Row format>

In [40]:
#clf = MultinomialNB()
clf = LogisticRegression()

In [41]:
clf.fit(X_train_counts, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [42]:
predictions = clf.predict(X_test_counts)

In [None]:
n = 2

In [29]:
print("Precision: {0:6.2f}".format(precision_score(y_test, predictions)))
print("Recall: {0:6.2f}".format(recall_score(y_test, predictions)))
print("F1-measure: {0:6.2f}".format(f1_score(y_test, predictions)))
print("Accuracy: {0:6.2f}".format(accuracy_score(y_test, predictions)))


Precision:   0.81
Recall:   0.76
F1-measure:   0.78
Accuracy:   0.78


In [30]:
n = 3

In [36]:
print("Precision: {0:6.2f}".format(precision_score(y_test, predictions)))
print("Recall: {0:6.2f}".format(recall_score(y_test, predictions)))
print("F1-measure: {0:6.2f}".format(f1_score(y_test, predictions)))
print("Accuracy: {0:6.2f}".format(accuracy_score(y_test, predictions)))


Precision:   0.79
Recall:   0.85
F1-measure:   0.82
Accuracy:   0.81


In [37]:
n = 4

In [43]:
print("Precision: {0:6.2f}".format(precision_score(y_test, predictions)))
print("Recall: {0:6.2f}".format(recall_score(y_test, predictions)))
print("F1-measure: {0:6.2f}".format(f1_score(y_test, predictions)))
print("Accuracy: {0:6.2f}".format(accuracy_score(y_test, predictions)))


Precision:   0.77
Recall:   0.89
F1-measure:   0.82
Accuracy:   0.81


### при n = 2 ошибка больше
