# 영문 이름으로 성별 예측
- 미국 남녀 이름의 alphabet을 보고 남녀 성별을 예측

<table class="tfo-notebook-buttons" align="left">
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/swkim01/DSAC1-2/blob/main/gg-15-이름성별예측.ipynb"><img src="https://github.com/swkim01/DSAC1-2/raw/main/colab_logo_32px.png" />구글 코랩에서 실행</a>
  </td>
  <td>
    <a target="_blank" href="https://github.com/swkim01/DSAC1-2/blob/main/gg-15-이름성별예측.ipynb"><img src="https://github.com/swkim01/DSAC1-2/raw/main/GitHub-Mark-32px.png" />깃헙에서 소스 보기</a>
  </td>
</table>

- nltk : natural language toolkit
- nltk에서 제공하는 남녀 이름 database를 download

In [1]:
from nltk.corpus import names
import nltk

nltk.download('names')

[nltk_data] Downloading package names to
[nltk_data]     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]   Package names is already up-to-date!


True

- male.txt : 남자 이름 database
- female.txt : 여자 이름 database

In [10]:
labeled_names = ([(name, '남자') for name in names.words('male.txt')] + 
                 [(name, '여자') for name in names.words('female.txt')])
labeled_names[:10]

[('Aamir', '남자'),
 ('Aaron', '남자'),
 ('Abbey', '남자'),
 ('Abbie', '남자'),
 ('Abbot', '남자'),
 ('Abbott', '남자'),
 ('Abby', '남자'),
 ('Abdel', '남자'),
 ('Abdul', '남자'),
 ('Abdulkarim', '남자')]

In [11]:
import random

random.shuffle(labeled_names,  )
labeled_names[0:10]

[('Yaakov', '남자'),
 ('Elihu', '남자'),
 ('Susann', '여자'),
 ('Lira', '여자'),
 ('Maxwell', '남자'),
 ('Agneta', '여자'),
 ('Natalee', '여자'),
 ('Willyt', '여자'),
 ('Kath', '여자'),
 ('Waldo', '남자')]

- gender_features() : 마지막 글자 한 자만 추출한다.
   * 이름의 마지막 문자가 성별과 많이 관련있다고 알려져 있다. 확인 필요
   * 마지막 문자를 이용해 성별을 예측해 보는 모델 생성

In [13]:
def gender_features(word):
    return {'last_letter': word[-1]}

gender_features('Sopi')

{'last_letter': 'i'}

In [14]:
featuresets = [(gender_features(n), gender) for (n, gender) in labeled_names]
featuresets[0:10]

[({'last_letter': 'v'}, '남자'),
 ({'last_letter': 'u'}, '남자'),
 ({'last_letter': 'n'}, '여자'),
 ({'last_letter': 'a'}, '여자'),
 ({'last_letter': 'l'}, '남자'),
 ({'last_letter': 'a'}, '여자'),
 ({'last_letter': 'e'}, '여자'),
 ({'last_letter': 't'}, '여자'),
 ({'last_letter': 'h'}, '여자'),
 ({'last_letter': 'o'}, '남자')]

In [15]:
len(featuresets)

7944

### NaiveBaysesClassifier 
- train_set : 2,000 ~ 끝까지
- test_set : 0 ~ 1999

In [16]:
train_set, test_set = featuresets[2000:], featuresets[:2000]
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [17]:
classifier.classify(gender_features('Sephipa'))

'여자'

In [18]:
#  likelihood ratios
classifier.show_most_informative_features(5)

Most Informative Features
             last_letter = 'a'                여자 : 남자     =     39.2 : 1.0
             last_letter = 'k'                남자 : 여자     =     37.0 : 1.0
             last_letter = 'f'                남자 : 여자     =     11.5 : 1.0
             last_letter = 'd'                남자 : 여자     =      9.2 : 1.0
             last_letter = 'm'                남자 : 여자     =      8.0 : 1.0


In [19]:
print(nltk.classify.accuracy(classifier, test_set))

0.767


### 새로운 특성 사용
- 이름의 첫번째 문자
- 이름의 마지막 문자
- 이름의 전체 길이
- 이름에서의 각 alphabet의 빈도 수

In [20]:
def gender_features2(name):
    features = {}
    features["first_letter"] = name[0].lower()
    features["last_letter"] = name[-1].lower()
    features["length"] = len(name)
    for letter in 'abcdefghijklmnopqrstuvwxyz':
        features["count({})".format(letter)] = name.lower().count(letter)
#        features["has({})".format(letter)] = (letter in name.lower())
    return features

gender_features2('Joshua') 

{'first_letter': 'j',
 'last_letter': 'a',
 'length': 6,
 'count(a)': 1,
 'count(b)': 0,
 'count(c)': 0,
 'count(d)': 0,
 'count(e)': 0,
 'count(f)': 0,
 'count(g)': 0,
 'count(h)': 1,
 'count(i)': 0,
 'count(j)': 1,
 'count(k)': 0,
 'count(l)': 0,
 'count(m)': 0,
 'count(n)': 0,
 'count(o)': 1,
 'count(p)': 0,
 'count(q)': 0,
 'count(r)': 0,
 'count(s)': 1,
 'count(t)': 0,
 'count(u)': 1,
 'count(v)': 0,
 'count(w)': 0,
 'count(x)': 0,
 'count(y)': 0,
 'count(z)': 0}

In [21]:
labeled_names[0:10]

[('Yaakov', '남자'),
 ('Elihu', '남자'),
 ('Susann', '여자'),
 ('Lira', '여자'),
 ('Maxwell', '남자'),
 ('Agneta', '여자'),
 ('Natalee', '여자'),
 ('Willyt', '여자'),
 ('Kath', '여자'),
 ('Waldo', '남자')]

In [22]:
featuresets = [(gender_features2(n), gender) for (n, gender) in labeled_names]
featuresets[0:2]

[({'first_letter': 'y',
   'last_letter': 'v',
   'length': 6,
   'count(a)': 2,
   'count(b)': 0,
   'count(c)': 0,
   'count(d)': 0,
   'count(e)': 0,
   'count(f)': 0,
   'count(g)': 0,
   'count(h)': 0,
   'count(i)': 0,
   'count(j)': 0,
   'count(k)': 1,
   'count(l)': 0,
   'count(m)': 0,
   'count(n)': 0,
   'count(o)': 1,
   'count(p)': 0,
   'count(q)': 0,
   'count(r)': 0,
   'count(s)': 0,
   'count(t)': 0,
   'count(u)': 0,
   'count(v)': 1,
   'count(w)': 0,
   'count(x)': 0,
   'count(y)': 1,
   'count(z)': 0},
  '남자'),
 ({'first_letter': 'e',
   'last_letter': 'u',
   'length': 5,
   'count(a)': 0,
   'count(b)': 0,
   'count(c)': 0,
   'count(d)': 0,
   'count(e)': 1,
   'count(f)': 0,
   'count(g)': 0,
   'count(h)': 1,
   'count(i)': 1,
   'count(j)': 0,
   'count(k)': 0,
   'count(l)': 1,
   'count(m)': 0,
   'count(n)': 0,
   'count(o)': 0,
   'count(p)': 0,
   'count(q)': 0,
   'count(r)': 0,
   'count(s)': 0,
   'count(t)': 0,
   'count(u)': 1,
   'count(v)': 0,


In [23]:
train_set, test_set = featuresets[2000:], featuresets[:2000]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, test_set))

0.7885


In [24]:
classifier.show_most_informative_features(100)

Most Informative Features
             last_letter = 'a'                여자 : 남자     =     39.2 : 1.0
             last_letter = 'k'                남자 : 여자     =     37.0 : 1.0
             last_letter = 'f'                남자 : 여자     =     11.5 : 1.0
             last_letter = 'd'                남자 : 여자     =      9.2 : 1.0
             last_letter = 'm'                남자 : 여자     =      8.0 : 1.0
             last_letter = 'o'                남자 : 여자     =      7.8 : 1.0
             last_letter = 'r'                남자 : 여자     =      7.7 : 1.0
             last_letter = 'z'                남자 : 여자     =      6.9 : 1.0
             last_letter = 'v'                남자 : 여자     =      5.6 : 1.0
             last_letter = 'g'                남자 : 여자     =      5.5 : 1.0
             last_letter = 'w'                남자 : 여자     =      5.4 : 1.0
            first_letter = 'w'                남자 : 여자     =      5.0 : 1.0
                count(w) = 1                  남자 : 여자     =      4.5 : 1.0

### 잘못 예측한 경우에 대한 조사

In [26]:
train_names = labeled_names[1500:]
devtest_names = labeled_names[500:1500]
test_names = labeled_names[:500]

In [27]:
train_set = [(gender_features(n), gender) for (n, gender) in train_names]
devtest_set = [(gender_features(n), gender) for (n, gender) in devtest_names]
test_set = [(gender_features(n), gender) for (n, gender) in test_names]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, devtest_set)) 

0.78


In [28]:
train_set[:20]

[({'last_letter': 'r'}, '남자'),
 ({'last_letter': 'c'}, '남자'),
 ({'last_letter': 'l'}, '여자'),
 ({'last_letter': 'y'}, '남자'),
 ({'last_letter': 'a'}, '여자'),
 ({'last_letter': 'n'}, '남자'),
 ({'last_letter': 'y'}, '남자'),
 ({'last_letter': 'a'}, '남자'),
 ({'last_letter': 'y'}, '여자'),
 ({'last_letter': 'a'}, '여자'),
 ({'last_letter': 'y'}, '남자'),
 ({'last_letter': 'a'}, '여자'),
 ({'last_letter': 'a'}, '여자'),
 ({'last_letter': 'e'}, '여자'),
 ({'last_letter': 'i'}, '여자'),
 ({'last_letter': 'i'}, '여자'),
 ({'last_letter': 'a'}, '여자'),
 ({'last_letter': 'y'}, '남자'),
 ({'last_letter': 'e'}, '여자'),
 ({'last_letter': 'a'}, '여자')]

In [29]:
errors = []
for (name, tag) in devtest_names:
    guess = classifier.classify(gender_features(name))
    if guess != tag:
        errors.append( (tag, guess, name) )

In [30]:
for (tag, guess, name) in sorted(errors):
    print('correct={:<8} guess={:<8s} name={:<30}'.format(tag, guess, name))

correct=남자       guess=여자       name=Abdel                         
correct=남자       guess=여자       name=Abe                           
correct=남자       guess=여자       name=Abel                          
correct=남자       guess=여자       name=Addie                         
correct=남자       guess=여자       name=Alexei                        
correct=남자       guess=여자       name=Alfonse                       
correct=남자       guess=여자       name=Andrej                        
correct=남자       guess=여자       name=Anthony                       
correct=남자       guess=여자       name=Antony                        
correct=남자       guess=여자       name=Archy                         
correct=남자       guess=여자       name=Axel                          
correct=남자       guess=여자       name=Barnie                        
correct=남자       guess=여자       name=Barry                         
correct=남자       guess=여자       name=Billie                        
correct=남자       guess=여자       name=Billy      

### 사용 특성
- 마지막 두 문자 

In [31]:
def gender_features(word):
    return {'suffix1': word[-1:],
            'suffix2': word[-2:]}

In [32]:
train_set = [(gender_features(n), gender) for (n, gender) in train_names]
devtest_set = [(gender_features(n), gender) for (n, gender) in devtest_names]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, devtest_set))

0.784


In [33]:
# train_set[:20]
train_names[:20]

[('Meier', '남자'),
 ('Vic', '남자'),
 ('Sheril', '여자'),
 ('Bradley', '남자'),
 ('Ofilia', '여자'),
 ('Walton', '남자'),
 ('Hillary', '남자'),
 ('Sascha', '남자'),
 ('Audy', '여자'),
 ('Kassia', '여자'),
 ('Rodney', '남자'),
 ('Clotilda', '여자'),
 ('Kristina', '여자'),
 ('Sherrie', '여자'),
 ('Adi', '여자'),
 ('Eddi', '여자'),
 ('Allianora', '여자'),
 ('Conroy', '남자'),
 ('Aveline', '여자'),
 ('Maia', '여자')]