<a href="https://colab.research.google.com/github/ttogle918/ds-section4-sprint2/blob/master/N421_count-based_representation/N421a_Count_based_Representation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img align="right" src="https://ds-cs-images.s3.ap-northeast-2.amazonaws.com/Codestates_Fulllogo_Color.png" width=100>

## *AIB / SECTION 4 / SPRINT 2 / NOTE 1*

# 📝 Assignment

---


# Count-based_Representation

indeed.com 에서 Data Scientist 키워드로 Job descrition을 찾아 스크래핑한 데이터를 이용해 과제를 진행해 보겠습니다.

[Data_Scienties.csv](https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/indeed/Data_Scientist.csv) 파일에는 1300여개의 Data Scientist job description 정보가 담겨 있습니다.

## 1. 데이터 전처리 (Text preprocessing)

In [23]:
import re
import string

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### 0) 텍스트 분석에 앞서 데이터 전처리를 진행합니다.

- 파일을 불러온 후 title, company, description 에 해당하는 Column만 남겨주세요.
- 중복값을 제거하세요.

In [24]:
df = pd.read_csv('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/indeed/Data_Scientist.csv')

In [25]:
df = df[['title', 'company', 'description']]
df.duplicated().sum()

543

In [26]:
df = df.drop_duplicates()
df.isna().sum()

title          0
company        0
description    0
dtype: int64

In [27]:
df.shape

(757, 3)

### 1) 토큰을 정제합니다.

- 문자를 소문자로 통일
- 분석에 관련 없는 정보 제거
- 이번 과제는 `spacy` 로부터 `"en_core_web_sm"` 을 로드하여 진행해주세요.

- **문항 1) 대문자를 소문자로 변경하는 함수를 입력하세요.**
- **문항 2) 정규 표현식을 사용하여 re 라이브러리에서 알파벳 소문자, 숫자만 받을 수 있는 코드를 작성하세요.**

In [28]:
import spacy
from spacy.tokenizer import Tokenizer

nlp = spacy.load("en_core_web_sm")
tokenizer = Tokenizer(nlp.vocab)

In [29]:
def lower_and_regex(sentence):
    """
    모든 대문자를 소문자로 변경 후
    정규식을 이용하여 알파벳 소문자 이외의 구두점 삭제
    """
    sentence = sentence.replace('\n', ' ')
    sentence = sentence.lower()
    sentence = re.sub(r"[^a-z0-9 ]", "", sentence)
    tokens = sentence.split()
    return tokens

In [47]:
df['tokens'] = df['description'].apply(lower_and_regex)
df.tail()

Unnamed: 0,title,company,description,tokens,lemmas
1288,Senior Data Analyst,Intuit,Our Expert Delivery & Business Intelligence te...,"[expert, delivery, business, intelligence, tea...","[expert, delivery, business, intelligence, tea..."
1294,"Senior / Data Scientist, Advertising Business",Spotify,"Music for everyone, no credit card needed. It’...","[music, credit, card, needed, promise, platfor...","[music, credit, card, need, promise, platform,..."
1295,Senior Data & Applied Scientist,Microsoft,Senior Data & Applied Scientist\nDo you have a...,"[senior, applied, scientist, passion, machine,...","[senior, data, applied, scientist, passion, da..."
1297,Senior Data Scientist,eBay Inc.,eBay is a global commerce leader that allows y...,"[ebay, global, commerce, leader, allows, shape...","[ebay, global, commerce, leader, allow, shape,..."
1299,Senior Data Scientist,Spring Discovery,tl;dr\nSpring is accelerating the discovery of...,"[tldr, spring, accelerating, discovery, therap...","[tl;dr, spring, accelerate, discovery, therapy..."


### 2) 정제한 토큰을 시각화 합니다.

- Top 10 토큰을 프린트 합니다.
- 토큰의 수, 빈도 순위, 존재 문서 수, 비율 등 정보를 계산합니다.
- 토큰 순위에 따른 퍼센트 누적 분포 그래프를 시각화합니다.

- **문항 3) 추천 토큰 순위 10개 단어를 입력하세요.**

In [31]:
# Top 10 토큰을 프린트
from collections import Counter

word_counts = Counter()
df['tokens'].apply(lambda x: word_counts.update(x))
word_counts.most_common(10)

[('and', 21863),
 ('to', 12694),
 ('the', 10538),
 ('of', 8839),
 ('data', 7425),
 ('in', 6769),
 ('a', 6436),
 ('with', 5727),
 ('for', 4132),
 ('or', 3812)]

In [32]:
# 토큰의 수, 빈도 순위, 존재 문서 수, 비율 등 정보를 계산
# word_counts

In [33]:
# wc = word_count(df['tokens'])
# wc.head()

In [34]:
# import seaborn as sns

# sns.lineplot(x='rank', y='cul_percent', data=wc);

### 4) 확장된 불용어 사전을 사용해 토큰을 정제합니다.


- **문항 4) 기본 불용어 사전에 두 단어(`"data", "work"`)를 추가하는 코드를 사용해주세요.**
- **문항 5) 불용어를 제거하고 난 뒤 토큰 순위 10개의 단어를 입력하세요.**

In [35]:
# 문항 4)
print(nlp.Defaults.stop_words)
STOP_WORDS = nlp.Defaults.stop_words.union(["data", "work"])

{'re', 'same', '’s', 'a', 'whatever', 'see', '‘d', 'also', 'doing', 'than', 'sometime', 'nine', 'latter', 'full', 'they', 'might', 'made', 'is', 'its', 'although', 'himself', '’d', 'ten', 'serious', "'ll", 'various', 'hereby', '’ll', 'in', 'afterwards', 'around', 'therein', 'and', 'very', 'were', 'to', 'thence', 'moreover', 'own', 'beforehand', 'say', 'rather', 'into', 'latterly', 'whose', 'namely', 'at', 'well', 'seeming', 'eight', 'while', 'since', 'indeed', 'i', 'somewhere', 'whereas', 'where', 'it', 'up', 'from', 'several', 'nothing', 'no', 'thru', 'though', 'does', 'thereby', 'former', 'per', 'me', 'further', 'our', 'yourselves', 'seemed', 'must', 'over', 'be', 'often', 'thus', 'first', 'n’t', 'has', 'hence', 'too', 'until', 'why', 'now', 'each', 'any', 'off', 'together', 'anyhow', 'please', 'along', 'not', 'other', 'even', 'sixty', 'hereupon', 'just', 'when', 'itself', 'being', 'can', 'anything', 'anyone', 'became', 'much', 'we', 'something', 'such', 'among', 'regarding', 'mostly

In [36]:
tokens = []

for doc in tokenizer.pipe(df['description']):
    doc_tokens = []
    
    for token in doc:
        txt = re.sub(r"[^a-z0-9 ]", "", token.text.lower()).strip()
        if txt not in STOP_WORDS:
            if txt not in ['', '\n'] :
              doc_tokens.append(txt)

    tokens.append(doc_tokens)
    
df['tokens'] = tokens
df.head()

Unnamed: 0,title,company,description,tokens
0,Data Scientist (Structured Products),EquiTrust Life Insurance Company,Job Details\nDescription\nEssential Duties and...,"[job, details, description, essential, duties,..."
2,"Specialist, Data Science",Nationwide,As a team member in the Finance and Internal A...,"[team, member, finance, internal, audit, depar..."
4,Sr. Data Scientist (Remote),American Credit Acceptance,Overview:\nAmerican Credit Acceptance seeks a ...,"[overview, american, credit, acceptance, seeks..."
5,Data Scientist Associate Sr (DADS06) BTB - LEG...,"JPMorgan Chase Bank, N.A.",J.P. Morgan's Corporate & Investment Bank (CIB...,"[jp, morgans, corporate, investment, bank, cib..."
6,Data Scientist,VyStar Credit Union,"At VyStar, we offer competitive pay, an excell...","[vystar, offer, competitive, pay, excellent, b..."


In [39]:
# 문항 5) 불용어를 제거하고 난 뒤 토큰 순위 10개의 단어를 입력하세요.
# Top 10 토큰을 프린트
# from collections import Counter

word_counts = Counter()
df['tokens'].apply(lambda x: word_counts.update(x)) # update가 안됌.. 새로 객체를 받아서 실행하면 됌
most_10_word = word_counts.most_common(10)
most_10_word

[('experience', 3450),
 ('business', 2064),
 ('science', 1648),
 ('team', 1625),
 ('learning', 1596),
 ('analysis', 1349),
 ('skills', 1251),
 ('machine', 1152),
 ('analytics', 1136),
 ('models', 1034)]

### 5) Lemmatization(표제어 추출) 사용 효과를 분석해 봅니다.



- **문항 6) Lemmatization을 진행한 뒤 상위 10개 단어를 입력하세요.**

In [46]:
# Lemmatization 과정을 함수로 만들어 봅시다
def get_lemmas(tokens):
    lemmas = []
    for token in tokens :
      lemmas.append(token.lemma_)
    
    return lemmas

df['lemmas'] = df['tokens'].apply(get_lemmas)
df['lemmas'].head()

AttributeError: ignored

In [44]:
# from collections import Counter

lemmas_word_counts = Counter()
df['lemmas'].apply(lambda x: lemmas_word_counts.update(x))
most_10__lemmas_word = lemmas_word_counts.most_common(10)
most_10__lemmas_word

[('datum', 5505),
 (' ', 4022),
 ('experience', 3666),
 ('work', 2913),
 ('team', 2336),
 ('data', 2236),
 ('business', 2193),
 ('science', 1735),
 ('analysis', 1609),
 ('model', 1471)]

In [None]:
!pip install squarify

In [None]:
import squarify

wc = lemmas_word_counts(df['lemmas'])
wc_top20 = wc[wc['rank'] <= 20]

squarify.plot(sizes=wc_top20['percent'], label=wc_top20['word'], alpha=0.6 )
plt.axis('off')
plt.show()

In [None]:
# squarify.plot(sizes=wc_top20['percent'], label=wc_top20['word'], alpha=0.6 )
# plt.axis('off')
# plt.show()

## 2. 유사한 문서 찾기

### 1) `TfidfVectorizer`를 이용해 각 문서들을 벡터화 한 후 KNN 모델을 만들고, <br/> 내가 원하는 `job description`을 질의해 가장 가까운 검색 결과들을 가져오고 분석합니다.

- **문항 9) 88번 index의 `job description`와 5개의 가장 유사한 `job description`이 있는 index를 입력하세요.**
    - 답은 88번 인덱스를 포함합니다.
    - `max_features = 3000` 으로 설정합니다.
    - [88, 90, 91, 93, 94] 형태로 답을 입력해주세요

## 3. TF-IDF 이용한 텍스트 분류 진행하기

TF-IDF를 이용해 문장 혹은 문서를 벡터화한 경우, 이 벡터값을 이용해 문서 분류 태스크를 진행할 수 있습니다. 

현재 다루고 있는 데이터셋에는 label이 존재하지 않으므로, title 컬럼에 "Senior"가 있는지 없는지 여부를 통해 Senior 직무 여부를 분류하는 작업을 진행해보겠습니다.

### 1) title 컬럼에 "Senior" 문자열이 있으면 1, 없으면 0인 "Senior"라는 새로운 컬럼을 생성해주세요.

문항 7) 새롭게 만든 Senior 컬럼에서 값이 1인 (Senior O) 데이터의 개수는?

In [None]:
df['senior'] = df['title'].apply()

문항 8) sklearn의 `train_test_split`을 통해 train 데이터와 valid 데이터로 나눈 후, `sklearn`의 `DecisionTreeClassifier`를 이용해 분류를 진행해주세요. 

단, x값은 위에서 학습한 dtm_tfidf를 그대로 이용해주세요. train_test_split과 DecisionTreeClassifier의 random_state을 42로 고정하고, test_size는 0.1로 설정해주세요.

학습을 완료한 후, test 데이터에 대한 예측을 진행하고 label 1에 대한 precision과 recall 값을 적어주세요

In [None]:
### 이곳에서 과제를 진행해 주세요 ### 