# 2024-2 언어데이터과학 12강 (2024-10-22) 모두의 말뭉치 (3) 데이터 분석

# 오늘의 목표

1. 일상 대화 말뭉치의 각 발화에 발화자 정보를 추가하여 데이터프레임으로 저장할 수 있다.
2. 부사적으로 쓰이는 '완전'과 '완전히', '아주'의 사용 빈도를 발화자의 연령과 성별에 따라 집계할 수 있다.

## 참고 문헌

김다미. (2021). 〈부사적 쓰임을 보이는 ‘완전’에 대한 통시적 고찰〉. 《국어학》 97, 439-475. https://kiss.kstudy.com/thesis/thesis-view.asp?key=3878140

> ‘완전(<완젼, 完全)’의 부사적 용법은 20세기 초 문헌 자료에서 발견되기 시작한다. 이는 앞 시기에 주로 다른 명사에 선행하여 그 의미를 수식/한정하던 관 형사적 용법의 명사 ‘완전’이 통사적 분포를 확장해 나가는 것으로 이해된다. 그러나 이 시기 ‘완전’의 의미는 ‘모든 측면에서 두루 (완벽하게)’ 정도의 추상성에 머무르고 있으며, **20세기 말에 이르러서야 비로소 강조부사 ‘아주, 매우, 정말, 진짜’ 등에 준하는 더욱 추상화된 의미로서의 용법이 관찰된다.** 이러한 ‘완전’의 통사적 분포 및 의미/기능의 확장 양상이 보편적인 문법화의 방향을 따른다는 것은 부사 ‘아주(<아조)’와의 비교적 관찰을 통해서도 확인해 볼 수 있다.

## 가설

발화자의 연령이 낮을수록 '완전'의 사용 빈도가 '아주'보다 높을 것이다(→ 발화자의 연령 정보가 필요하다).

# 실습

In [1]:
import pandas as pd

## 데이터 가공

### 발화(utterance) 정보를 데이터프레임으로 읽기

In [2]:
utterances = pd.read_csv('../data/nikl/NIKL_OM_utterances.csv.tar.gz', compression='gzip', on_bad_lines='skip')
utterances.dropna(inplace=True)
utterances = utterances[['id', 'form', 'speaker_id']]
utterances

Unnamed: 0,id,form,speaker_id
0,MDRW2100000001.1.1,안녕하세요,MDRW2100000001_1
1,MDRW2100000001.1.2,️,MDRW2100000001_2
3,MDRW2100000001.1.4,이거 해봐요><,MDRW2100000001_1
4,MDRW2100000001.1.5,"나의 직장인 멘탈 성향은 [안챙겨도 잘커요, 탕비실 선인장] 당신의 멘탈 성향은 ...",MDRW2100000001_2
5,MDRW2100000001.1.6,아앗...,MDRW2100000001_2
...,...,...,...
3069922,MMRW2100000241.1.2783,ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ,MMRW2100000241_1
3069923,MMRW2100000241.1.2784,아잌ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ,MMRW2100000241_3
3069924,MMRW2100000241.1.2785,가즈아,MMRW2100000241_3
3069925,MMRW2100000241.1.2786,ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ가즈아!,MMRW2100000241_2


### 발화자(speaker) 정보를 데이터프레임으로 읽기

In [3]:
speakers = pd.read_csv('../data/nikl/NIKL_OM_speakers.csv.tar.gz', compression='gzip', on_bad_lines='skip')
speakers

Unnamed: 0,data/nikl/NIKL_OM_speakers.csv,id,age,occupation,sex,birthplace,principal_residence,current_residence,device,keyboard,speaker_id
0,0.0,1.0,20대,전문가 및 관련 종사자,여성,울산,전북,경기,스마트폰,2벌식(쿼티),MDRW2100000001_1
1,1.0,2.0,20대,사무 종사자,여성,서울,서울,서울,스마트폰,2벌식(쿼티),MDRW2100000001_2
2,8.0,1.0,20대,사무 종사자,여성,서울,서울,서울,스마트폰,2벌식(쿼티),MDRW2100000002_1
3,9.0,2.0,20대,전문가 및 관련 종사자,여성,서울,해외/기타,서울,스마트폰,2벌식(쿼티),MDRW2100000002_2
4,10.0,1.0,20대,전문가 및 관련 종사자,여성,서울,해외/기타,서울,스마트폰,2벌식(쿼티),MDRW2100000003_1
...,...,...,...,...,...,...,...,...,...,...,...
95103,168263.0,3.0,20대,기타,여성,부산,부산,경기,스마트폰,2벌식(쿼티),MMRW2100000240_3
95104,168264.0,1.0,20대,사무 종사자,여성,경기,경기,경기,PC(데스크탑/노트북),2벌식(쿼티),MMRW2100000241_1
95105,168265.0,2.0,20대,무직/취업 준비생,여성,경기,경기,경기,스마트폰,2벌식(쿼티),MMRW2100000241_2
95106,168266.0,3.0,20대,기타,여성,경기,경기,경기,PC(데스크탑/노트북),2벌식(쿼티),MMRW2100000241_3


In [4]:
speakers.dropna(inplace=True)
speakers = speakers[['speaker_id', 'age', 'sex']]
speakers

Unnamed: 0,speaker_id,age,sex
0,MDRW2100000001_1,20대,여성
1,MDRW2100000001_2,20대,여성
2,MDRW2100000002_1,20대,여성
3,MDRW2100000002_2,20대,여성
4,MDRW2100000003_1,20대,여성
...,...,...,...
95102,MMRW2100000240_2,20대,여성
95103,MMRW2100000240_3,20대,여성
95104,MMRW2100000241_1,20대,여성
95105,MMRW2100000241_2,20대,여성


### 발화 정보와 발화자 정보를 통합한 데이터프레임 만들기

In [5]:
# 발화 정보에 발화자 정보 통합하기
# "speaker_id"라는 공통 열을 통해 두 데이터프레임을 합치기
df = utterances.merge(speakers, on='speaker_id')
df

Unnamed: 0,id,form,speaker_id,age,sex
0,MDRW2100000001.1.1,안녕하세요,MDRW2100000001_1,20대,여성
1,MDRW2100000001.1.2,️,MDRW2100000001_2,20대,여성
2,MDRW2100000001.1.4,이거 해봐요><,MDRW2100000001_1,20대,여성
3,MDRW2100000001.1.5,"나의 직장인 멘탈 성향은 [안챙겨도 잘커요, 탕비실 선인장] 당신의 멘탈 성향은 ...",MDRW2100000001_2,20대,여성
4,MDRW2100000001.1.6,아앗...,MDRW2100000001_2,20대,여성
...,...,...,...,...,...
2977835,MMRW2100000241.1.2783,ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ,MMRW2100000241_1,20대,여성
2977836,MMRW2100000241.1.2784,아잌ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ,MMRW2100000241_3,20대,여성
2977837,MMRW2100000241.1.2785,가즈아,MMRW2100000241_3,20대,여성
2977838,MMRW2100000241.1.2786,ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ가즈아!,MMRW2100000241_2,20대,여성


In [6]:
df.set_index('id', inplace=True)
df = df[['form', 'age', 'sex']]
df

Unnamed: 0_level_0,form,age,sex
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MDRW2100000001.1.1,안녕하세요,20대,여성
MDRW2100000001.1.2,️,20대,여성
MDRW2100000001.1.4,이거 해봐요><,20대,여성
MDRW2100000001.1.5,"나의 직장인 멘탈 성향은 [안챙겨도 잘커요, 탕비실 선인장] 당신의 멘탈 성향은 ...",20대,여성
MDRW2100000001.1.6,아앗...,20대,여성
...,...,...,...
MMRW2100000241.1.2783,ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ,20대,여성
MMRW2100000241.1.2784,아잌ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ,20대,여성
MMRW2100000241.1.2785,가즈아,20대,여성
MMRW2100000241.1.2786,ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ가즈아!,20대,여성


### 파일로 쓰기

#### CSV 파일로 저장하기

In [7]:
df.to_csv('../data/nikl/NIKL_OM_form_age_sex.csv', index=False)

In [8]:
# 파일 크기 확인하기 144_417_873 bytes -> 약 144MB
!ls -l ../data/nikl/NIKL_OM_form_age_sex.csv

-rw-rw-rw- 1 codespace codespace 144417873 Oct 19 03:24 ../data/nikl/NIKL_OM_form_age_sex.csv


#### TAR.GZ 파일로 압축하기

In [9]:
# 압축하기
!tar -czf ../data/nikl/NIKL_OM_form_age_sex.csv.tar.gz ../data/nikl/NIKL_OM_form_age_sex.csv

# 원본 파일 지우기
!rm ../data/nikl/NIKL_OM_form_age_sex.csv

tar: Removing leading `../' from member names


In [10]:
# 파일 크기 42_600_991 bytes -> 50MB 미만
!ls -l ../data/nikl/NIKL_OM_form_age_sex.csv.tar.gz

-rw-rw-rw- 1 codespace codespace 42600991 Oct 19 03:24 ../data/nikl/NIKL_OM_form_age_sex.csv.tar.gz


## 데이터 분석

### 데이터프레임에서 '완전'과 '아주'의 사용 빈도 세기

#### 코퍼스 전체에서 세기

In [11]:
# 데이터프레임의 'form' column에서 '완전'과 '아주'의 사용 빈도를 계산하는 함수
def count_wanjeon(df):
  output = {}
  output['완전'] = df['form'].str.count(r'\b완전\b').sum()
  output['아주'] = df['form'].str.count(r'\b아주\b').sum()
  return pd.Series(output)

In [12]:
counts_overall = count_wanjeon(df)
counts_overall

완전    8636
아주    3397
dtype: int64

In [13]:
counts_overall.div(counts_overall.sum()) * 100

완전    71.769301
아주    28.230699
dtype: float64

In [14]:
# 백분율을 구하는 함수
def get_percent(series):
    return series.div(series.sum()) * 100

#### 연령 요인별로 세기

In [15]:
counts_by_age = df.groupby('age').apply(count_wanjeon)
counts_by_age

  counts_by_age = df.groupby('age').apply(count_wanjeon)


Unnamed: 0_level_0,완전,아주
age,Unnamed: 1_level_1,Unnamed: 2_level_1
10대,589,60
20대,5062,1772
30대,2296,1101
40대 이상,689,464


In [16]:
counts_by_age.apply(get_percent, axis=1)

Unnamed: 0_level_0,완전,아주
age,Unnamed: 1_level_1,Unnamed: 2_level_1
10대,90.755008,9.244992
20대,74.070822,25.929178
30대,67.589049,32.410951
40대 이상,59.757155,40.242845


#### 성 요인별로 세기

In [17]:
counts_by_sex = df.groupby('sex').apply(count_wanjeon)
counts_by_sex

  counts_by_sex = df.groupby('sex').apply(count_wanjeon)


Unnamed: 0_level_0,완전,아주
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
남성,879,455
여성,7757,2942


In [18]:
counts_by_sex.apply(get_percent, axis=1)

Unnamed: 0_level_0,완전,아주
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
남성,65.892054,34.107946
여성,72.502103,27.497897


#### 연령, 성 요인별로 세기

In [19]:
counts_by_age_sex = df.groupby(['age', 'sex']).apply(count_wanjeon)
counts_by_age_sex

  counts_by_age_sex = df.groupby(['age', 'sex']).apply(count_wanjeon)


Unnamed: 0_level_0,Unnamed: 1_level_0,완전,아주
age,sex,Unnamed: 2_level_1,Unnamed: 3_level_1
10대,남성,37,1
10대,여성,552,59
20대,남성,566,245
20대,여성,4496,1527
30대,남성,188,126
30대,여성,2108,975
40대 이상,남성,88,83
40대 이상,여성,601,381


In [20]:
counts_by_age_sex.apply(get_percent, axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,완전,아주
age,sex,Unnamed: 2_level_1,Unnamed: 3_level_1
10대,남성,97.368421,2.631579
10대,여성,90.343699,9.656301
20대,남성,69.790382,30.209618
20대,여성,74.647186,25.352814
30대,남성,59.872611,40.127389
30대,여성,68.374959,31.625041
40대 이상,남성,51.461988,48.538012
40대 이상,여성,61.201629,38.798371
