# 영문 이름으로 성별 예측
- 미국 남녀 이름의 alphabet을 보고 남녀 성별을 예측

- nltk : natural language toolkit
- nltk에서 제공하는 남녀 이름 database를 download

In [1]:
from nltk.corpus import names
import nltk

nltk.download('names')

[nltk_data] Downloading package names to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\names.zip.


True

- male.txt : 남자 이름 database
- female.txt : 여자 이름 database

In [2]:
labeled_names = ([(name, '남자') for name in names.words('male.txt')] + 
                 [(name, '여자') for name in names.words('female.txt')])
labeled_names[:10]

[('Aamir', '남자'),
 ('Aaron', '남자'),
 ('Abbey', '남자'),
 ('Abbie', '남자'),
 ('Abbot', '남자'),
 ('Abbott', '남자'),
 ('Abby', '남자'),
 ('Abdel', '남자'),
 ('Abdul', '남자'),
 ('Abdulkarim', '남자')]

In [3]:
import random

random.shuffle(labeled_names,  )
labeled_names[0:10]

[('Julia', '여자'),
 ('Cy', '남자'),
 ('Archon', '남자'),
 ('Duke', '남자'),
 ('Izak', '남자'),
 ('Eleonore', '여자'),
 ('Piet', '남자'),
 ('Bernd', '남자'),
 ('Haskel', '남자'),
 ('Vernor', '남자')]

- gender_features() : 마지막 글자 한 자만 추출한다.
   * 이름의 마지막 문자가 성별과 많이 관련있다고 알려져 있다. 확인 필요
   * 마지막 문자를 이용해 성별을 예측해 보는 모델 생성

In [4]:
def gender_features(word):
    return {'last_letter': word[-1]}

gender_features('Sopi')

{'last_letter': 'i'}

In [5]:
featuresets = [(gender_features(n), gender) for (n, gender) in labeled_names]
featuresets[0:10]

[({'last_letter': 'a'}, '여자'),
 ({'last_letter': 'y'}, '남자'),
 ({'last_letter': 'n'}, '남자'),
 ({'last_letter': 'e'}, '남자'),
 ({'last_letter': 'k'}, '남자'),
 ({'last_letter': 'e'}, '여자'),
 ({'last_letter': 't'}, '남자'),
 ({'last_letter': 'd'}, '남자'),
 ({'last_letter': 'l'}, '남자'),
 ({'last_letter': 'r'}, '남자')]

In [6]:
len(featuresets)

7944

### NaiveBaysesClassifier 
- train_set : 2,000 ~ 끝까지
- test_set : 0 ~ 1999

In [7]:
train_set, test_set = featuresets[2000:], featuresets[:2000]
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [8]:
classifier.classify(gender_features('Sephipa'))

'여자'

In [9]:
#  likelihood ratios
classifier.show_most_informative_features(5)

Most Informative Features
             last_letter = 'k'                남자 : 여자     =     55.9 : 1.0
             last_letter = 'a'                여자 : 남자     =     32.8 : 1.0
             last_letter = 'p'                남자 : 여자     =     14.4 : 1.0
             last_letter = 'v'                남자 : 여자     =     14.4 : 1.0
             last_letter = 'f'                남자 : 여자     =     12.8 : 1.0


In [10]:
print(nltk.classify.accuracy(classifier, test_set))

0.7605


### 새로운 특성 사용
- 이름의 첫번째 문자
- 이름의 마지막 문자
- 이름의 전체 길이
- 이름에서의 각 alphabet의 빈도 수

In [11]:
def gender_features2(name):
    features = {}
    features["first_letter"] = name[0].lower()
    features["last_letter"] = name[-1].lower()
    features["length"] = len(name)
    for letter in 'abcdefghijklmnopqrstuvwxyz':
        features["count({})".format(letter)] = name.lower().count(letter)
#        features["has({})".format(letter)] = (letter in name.lower())
    return features

gender_features2('Joshua') 

{'first_letter': 'j',
 'last_letter': 'a',
 'length': 6,
 'count(a)': 1,
 'count(b)': 0,
 'count(c)': 0,
 'count(d)': 0,
 'count(e)': 0,
 'count(f)': 0,
 'count(g)': 0,
 'count(h)': 1,
 'count(i)': 0,
 'count(j)': 1,
 'count(k)': 0,
 'count(l)': 0,
 'count(m)': 0,
 'count(n)': 0,
 'count(o)': 1,
 'count(p)': 0,
 'count(q)': 0,
 'count(r)': 0,
 'count(s)': 1,
 'count(t)': 0,
 'count(u)': 1,
 'count(v)': 0,
 'count(w)': 0,
 'count(x)': 0,
 'count(y)': 0,
 'count(z)': 0}

In [12]:
labeled_names[0:10]

[('Julia', '여자'),
 ('Cy', '남자'),
 ('Archon', '남자'),
 ('Duke', '남자'),
 ('Izak', '남자'),
 ('Eleonore', '여자'),
 ('Piet', '남자'),
 ('Bernd', '남자'),
 ('Haskel', '남자'),
 ('Vernor', '남자')]

In [13]:
featuresets = [(gender_features2(n), gender) for (n, gender) in labeled_names]
featuresets[0:2]

[({'first_letter': 'j',
   'last_letter': 'a',
   'length': 5,
   'count(a)': 1,
   'count(b)': 0,
   'count(c)': 0,
   'count(d)': 0,
   'count(e)': 0,
   'count(f)': 0,
   'count(g)': 0,
   'count(h)': 0,
   'count(i)': 1,
   'count(j)': 1,
   'count(k)': 0,
   'count(l)': 1,
   'count(m)': 0,
   'count(n)': 0,
   'count(o)': 0,
   'count(p)': 0,
   'count(q)': 0,
   'count(r)': 0,
   'count(s)': 0,
   'count(t)': 0,
   'count(u)': 1,
   'count(v)': 0,
   'count(w)': 0,
   'count(x)': 0,
   'count(y)': 0,
   'count(z)': 0},
  '여자'),
 ({'first_letter': 'c',
   'last_letter': 'y',
   'length': 2,
   'count(a)': 0,
   'count(b)': 0,
   'count(c)': 1,
   'count(d)': 0,
   'count(e)': 0,
   'count(f)': 0,
   'count(g)': 0,
   'count(h)': 0,
   'count(i)': 0,
   'count(j)': 0,
   'count(k)': 0,
   'count(l)': 0,
   'count(m)': 0,
   'count(n)': 0,
   'count(o)': 0,
   'count(p)': 0,
   'count(q)': 0,
   'count(r)': 0,
   'count(s)': 0,
   'count(t)': 0,
   'count(u)': 0,
   'count(v)': 0,


In [14]:
train_set, test_set = featuresets[2000:], featuresets[:2000]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, test_set))

0.7795


In [15]:
classifier.show_most_informative_features(100)

Most Informative Features
             last_letter = 'k'                남자 : 여자     =     55.9 : 1.0
             last_letter = 'a'                여자 : 남자     =     32.8 : 1.0
             last_letter = 'p'                남자 : 여자     =     14.4 : 1.0
             last_letter = 'v'                남자 : 여자     =     14.4 : 1.0
             last_letter = 'f'                남자 : 여자     =     12.8 : 1.0
             last_letter = 'd'                남자 : 여자     =     11.2 : 1.0
             last_letter = 'b'                남자 : 여자     =      9.3 : 1.0
             last_letter = 'm'                남자 : 여자     =      8.8 : 1.0
             last_letter = 'o'                남자 : 여자     =      7.4 : 1.0
             last_letter = 'r'                남자 : 여자     =      7.0 : 1.0
                count(v) = 2                  여자 : 남자     =      6.7 : 1.0
             last_letter = 'z'                남자 : 여자     =      6.6 : 1.0
            first_letter = 'w'                남자 : 여자     =      5.4 : 1.0

### 잘못 예측한 경우에 대한 조사

In [16]:
train_names = labeled_names[1500:]
devtest_names = labeled_names[500:1500]
test_names = labeled_names[:500]

In [17]:
train_set = [(gender_features(n), gender) for (n, gender) in train_names]
devtest_set = [(gender_features(n), gender) for (n, gender) in devtest_names]
test_set = [(gender_features(n), gender) for (n, gender) in test_names]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, devtest_set)) 

0.759


In [18]:
train_set[:20]

[({'last_letter': 'a'}, '여자'),
 ({'last_letter': 'n'}, '남자'),
 ({'last_letter': 's'}, '여자'),
 ({'last_letter': 'd'}, '여자'),
 ({'last_letter': 'a'}, '여자'),
 ({'last_letter': 'a'}, '여자'),
 ({'last_letter': 'y'}, '여자'),
 ({'last_letter': 'l'}, '남자'),
 ({'last_letter': 'a'}, '여자'),
 ({'last_letter': 'r'}, '여자'),
 ({'last_letter': 'l'}, '남자'),
 ({'last_letter': 'e'}, '남자'),
 ({'last_letter': 'e'}, '남자'),
 ({'last_letter': 'n'}, '여자'),
 ({'last_letter': 'e'}, '여자'),
 ({'last_letter': 'y'}, '남자'),
 ({'last_letter': 'n'}, '남자'),
 ({'last_letter': 'a'}, '여자'),
 ({'last_letter': 'a'}, '여자'),
 ({'last_letter': 'a'}, '여자')]

In [19]:
errors = []
for (name, tag) in devtest_names:
    guess = classifier.classify(gender_features(name))
    if guess != tag:
        errors.append( (tag, guess, name) )

In [20]:
for (tag, guess, name) in sorted(errors):
    print('correct={:<8} guess={:<8s} name={:<30}'.format(tag, guess, name))

correct=남자       guess=여자       name=Abbey                         
correct=남자       guess=여자       name=Adolph                        
correct=남자       guess=여자       name=Aguste                        
correct=남자       guess=여자       name=Alaa                          
correct=남자       guess=여자       name=Aldrich                       
correct=남자       guess=여자       name=Alex                          
correct=남자       guess=여자       name=Amery                         
correct=남자       guess=여자       name=Andrea                        
correct=남자       guess=여자       name=Andy                          
correct=남자       guess=여자       name=Ansell                        
correct=남자       guess=여자       name=Antoine                       
correct=남자       guess=여자       name=Averell                       
correct=남자       guess=여자       name=Barnie                        
correct=남자       guess=여자       name=Bartholemy                    
correct=남자       guess=여자       name=Benjy      

### 사용 특성
- 마지막 두 문자 

In [21]:
def gender_features(word):
    return {'suffix1': word[-1:],
            'suffix2': word[-2:]}

In [22]:
train_set = [(gender_features(n), gender) for (n, gender) in train_names]
devtest_set = [(gender_features(n), gender) for (n, gender) in devtest_names]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, devtest_set))

0.798


In [23]:
# train_set[:20]
train_names[:20]

[('Carlina', '여자'),
 ('Darren', '남자'),
 ('Philis', '여자'),
 ('Rosalynd', '여자'),
 ('Elicia', '여자'),
 ('Phaidra', '여자'),
 ('Essy', '여자'),
 ('Mikhail', '남자'),
 ('Marietta', '여자'),
 ('Brear', '여자'),
 ('Gil', '남자'),
 ('Arne', '남자'),
 ('Samuele', '남자'),
 ('Karmen', '여자'),
 ('Harrie', '여자'),
 ('Geoffry', '남자'),
 ('Marven', '남자'),
 ('Delora', '여자'),
 ('Cosetta', '여자'),
 ('Kyla', '여자')]