# 정보구조 사용의 변이
* 정보구조란? 의사소통에서 화자가 발화를 통해 전달하려는 정보가 청자에게 새로운 것인지 아니면 주어져 있는 것인지에 대한 화자의 가정을 반영하는 언어적 양상 (출처: 최윤지(2016): 한국어 정보구조 연구)
* 정보구조의 규범적 사용: 신정보를 신정보처럼 제시 (담화에 새로운 내용을 제시할 때 청자가 이를 모를 것을 전제하고 말함)
* 정보구조의 전략적 사용: 신정보를 구정보처럼 제시 (담화에 새로운 내용을 제시할 때 청자가 이를 알 것을 전제하고 말함)

## 1. 새로운 주제 제시하는 문장 추출하기
* 담화의 새로운 주제는 'X 이라는 Y' 형태로 많이 나타난다 (출처: 최윤지(2016): 한국어 정보구조 연구)

In [109]:
import pandas as pd
df = pd.read_csv('spoken0523.csv')

In [None]:
# 'X이라는 Y', 단, X는 보통명사 또는 고유명사로 한정 
def check_new(speech):
    new_speech = []
    num = len(BeautifulSoup(speech).find_all('s'))
    for i in range(num):
        string = str(BeautifulSoup(speech).find_all('s')[i])
        if '/NNG+이/VCP+라는/ETM' in string or '/NNP+이/VCP+라는/ETM' in string:
            new_speech.append(string)
        else:
            continue
    return new_speech

In [None]:
df['신정보speech'] = df['speech'].apply(lambda x:check_new(x))

In [119]:
# 청자의 성별이 들어있는 df
# 청자의 성별에 해당하는 칼럼만 뽑아 df와 합치기 
listener = pd.read_csv('listener.csv')
listener = pd.DataFrame(listener['listener'])

In [110]:
df = df.join(job)
df.head()

Unnamed: 0,filename,speaker,gender,setting,speech,거든speech,거든&정의,거든&나,거든&과거,sent_num,...,잖|이라고,이라고&다며num,다며|이라고,이라고&거든num,거든|이라고,이라고&대num,대|이라고,이라고&단다num,단다|이라고,job
0,5CT_0013.txt,P1,F,집에서 특별히 하는 일 없이 자연스러운 대화를 나누고 있음,"[<u who=""P1"">\r\r\r\r\r\r\r\r\r\r\n5CT_0013-00...","['<s n=""00116"">\r\n5CT_0013-0008610\t일곱시\t일곱/N...",0,1,4,548,...,0.0,0,0.0,0,0.0,0,0.0,0,0.0,대학원생
1,5CT_0013.txt,P2,M,집에서 특별히 하는 일 없이 자연스러운 대화를 나누고 있음,"[<u who=""P2"">\r\r\r\r\r\r\r\r\r\r\n5CT_0013-00...","['<s n=""00685"">\r\n5CT_0013-0051350\t난리가\t난리/N...",1,1,1,521,...,0.0,0,0.0,1,0.25,0,0.0,0,0.0,회사원
2,5CT_0014.txt,P1,F,날씨에 대해 자연스러운 대화를 나누고 있음,"[<u who=""P1"">\r\r\r\r\r\r\r\r\r\r\n5CT_0014-00...","['<s n=""00030"">\r\n5CT_0014-0002410\t나가면\t나가/V...",0,8,10,478,...,0.0,0,0.0,1,1.0,0,0.0,0,0.0,대학생
3,5CT_0014.txt,P2,M,날씨에 대해 자연스러운 대화를 나누고 있음,"[<u who=""P2"">\r\r\r\r\r\r\r\r\r\r\n5CT_0014-00...","['<s n=""00206"">\r\n5CT_0014-0015810\t천안\t천안/NN...",0,3,4,518,...,,0,,0,,0,,0,,대학생
4,5CT_0015.txt,P1,F,여자들이 물품 구입에 관한 대화를 나누고 있음,"[<u who=""P1"">\r\r\r\r\r\r\r\r\r\r\n5CT_0015-00...","['<s n=""00035"">\r\n5CT_0015-0002760\t거기\t거기/NP...",0,14,14,639,...,0.333333,0,0.0,0,0.0,0,0.0,0,0.0,대학생


In [134]:
# 'X이라는 Y'를 한번 이상 한 사람들의 speech만 남기기 
new_df = df[df['신정보speech']!='[]']
new_df.shape # 총 309명 

(309, 44)

In [141]:
new_df.columns

Index(['filename', 'speaker', 'gender', 'setting', 'speech', '거든speech',
       '거든&정의', '거든&나', '거든&과거', 'sent_num', '잖', '거든', '잖 비율', '거든 비율',
       '잖speech', '거든&나 비율', '거든&과거 비율', '거든&정의 비율', '잖&정의', '잖&정의 비율', '잖&나',
       '잖&과거', '잖&나 비율', '잖&과거 비율', '대화상황', '나', '정의', '나 중 잖 비율', '정의 중 잖 비율',
       'age', '신정보speech', '이라고num', '이라고&잖num', '잖|이라고', '이라고&다며num',
       '다며|이라고', '이라고&거든num', '거든|이라고', '이라고&대num', '대|이라고', '이라고&단다num',
       '단다|이라고', 'job', 'listener'],
      dtype='object')

## 2. 한 열에 한 화자 → 한 열에 한 문장('X이라는 Y' 포함 문장)

In [142]:
from bs4 import BeautifulSoup
line_df = pd.DataFrame(columns=['filename', 'speaker', 'gender', 'listener','job','setting','age','new_speech'])
count=0
for i in range(len(new_df)):
    speech = BeautifulSoup(new_df['신정보speech'][i]).find_all('s')
    for j in range(len(speech)):
        filename = new_df.iloc[i,0]
        speaker = new_df.iloc[i,1]
        gender = new_df.iloc[i,2]
        listener = new_df.iloc[i,43]
        job = new_df.iloc[i,42]
        setting = new_df.iloc[i,3]
        age = new_df.iloc[i,29]
        new_speech = speech[j]
        line_df.loc[count] = [filename, speaker, gender, listener, job,setting,age,new_speech]
        count+=1

In [143]:
# 총 2518개의 문장
line_df

Unnamed: 0,filename,speaker,gender,listener,job,setting,age,new_speech
0,5CT_0013.txt,P1,F,M,대학원생,집에서 특별히 하는 일 없이 자연스러운 대화를 나누고 있음,30s,"<s n=""00196"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\..."
1,5CT_0013.txt,P2,M,F,회사원,집에서 특별히 하는 일 없이 자연스러운 대화를 나누고 있음,30s,"<s n=""00742"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\..."
2,5CT_0013.txt,P2,M,F,회사원,집에서 특별히 하는 일 없이 자연스러운 대화를 나누고 있음,30s,"<s n=""00748"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\..."
3,5CT_0013.txt,P2,M,F,회사원,집에서 특별히 하는 일 없이 자연스러운 대화를 나누고 있음,30s,"<s n=""00752"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\..."
4,5CT_0013.txt,P2,M,F,회사원,집에서 특별히 하는 일 없이 자연스러운 대화를 나누고 있음,30s,"<s n=""00754"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\..."
5,5CT_0014.txt,P1,F,M,대학생,날씨에 대해 자연스러운 대화를 나누고 있음,20s,"<s n=""00127"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\..."
6,5CT_0015.txt,P1,F,F,대학생,여자들이 물품 구입에 관한 대화를 나누고 있음,20s,"<s n=""00195"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\..."
7,5CT_0015.txt,P1,F,F,대학생,여자들이 물품 구입에 관한 대화를 나누고 있음,20s,"<s n=""00364"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\..."
8,5CT_0015.txt,P1,F,F,대학생,여자들이 물품 구입에 관한 대화를 나누고 있음,20s,"<s n=""01205"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\..."
9,5CT_0015.txt,P2,F,F,대학원생,여자들이 물품 구입에 관한 대화를 나누고 있음,20s,"<s n=""00530"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\..."


In [147]:
line_df.to_csv('oneline.csv', index=False, encoding='utf-8')

In [148]:
import pandas as pd
df = pd.read_csv('oneline.csv')
df.head()

Unnamed: 0,filename,speaker,gender,listener,job,setting,age,new_speech
0,5CT_0013.txt,P1,F,M,대학원생,집에서 특별히 하는 일 없이 자연스러운 대화를 나누고 있음,30s,"<s n=""00196"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\..."
1,5CT_0013.txt,P2,M,F,회사원,집에서 특별히 하는 일 없이 자연스러운 대화를 나누고 있음,30s,"<s n=""00742"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\..."
2,5CT_0013.txt,P2,M,F,회사원,집에서 특별히 하는 일 없이 자연스러운 대화를 나누고 있음,30s,"<s n=""00748"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\..."
3,5CT_0013.txt,P2,M,F,회사원,집에서 특별히 하는 일 없이 자연스러운 대화를 나누고 있음,30s,"<s n=""00752"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\..."
4,5CT_0013.txt,P2,M,F,회사원,집에서 특별히 하는 일 없이 자연스러운 대화를 나누고 있음,30s,"<s n=""00754"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\..."


## 3. 데이터 클리닝

In [75]:
string = df.new_speech[0]
string = string.replace('\\\\\\\\r\\\\\\\\r\\\\\\\\r\\\\\\\\r\\\\\\\\r\\\\\\\\r\\\\\\\\n', ' ')
string = string.replace('\\\\\\\\t', ' ')
#string = re.sub('[\dA-Za-z\/\+\_\-\>\<]','',string)
pattern = '[가-힣]'
tokens = string.split(' ')
sent = []
for i in range(len(tokens)):
    if re.search(pattern, tokens[i]) and '/' not in tokens[i]:
        sent.append(tokens[i])
        
' '.join(sent)

'한국 롤러코스터라고 그러는 거.'

In [144]:
# 문장 클리닝 
import re
def clean(string):
    # 특수문자는 공백으로
    string = string.replace('\\\\\\\\r\\\\\\\\r\\\\\\\\r\\\\\\\\r\\\\\\\\r\\\\\\\\r\\\\\\\\n', ' ')
    string = string.replace('\\\\\\\\t', ' ')
    pattern = '[가-힣]'
    tokens = string.split(' ')
    sent = []
    for i in range(len(tokens)):
        # 품사 태깅 없는 원문 단어만 
        if re.search(pattern, tokens[i]) and '/' not in tokens[i]:
            sent.append(tokens[i])
    return ' '.join(sent)

In [149]:
df['cleaned'] = df['new_speech'].apply(lambda x: clean(x))

In [150]:
df.head()

Unnamed: 0,filename,speaker,gender,listener,job,setting,age,new_speech,cleaned
0,5CT_0013.txt,P1,F,M,대학원생,집에서 특별히 하는 일 없이 자연스러운 대화를 나누고 있음,30s,"<s n=""00196"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\...",한국 롤러코스터라고 그러는 거.
1,5CT_0013.txt,P2,M,F,회사원,집에서 특별히 하는 일 없이 자연스러운 대화를 나누고 있음,30s,"<s n=""00742"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\...","컨버터라고 부르더라고 우리 같은 사람을 우리 같은 수입해 가지고 만들어서,"
2,5CT_0013.txt,P2,M,F,회사원,집에서 특별히 하는 일 없이 자연스러운 대화를 나누고 있음,30s,"<s n=""00748"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\...",그걸 컨버터라고 그러고.
3,5CT_0013.txt,P2,M,F,회사원,집에서 특별히 하는 일 없이 자연스러운 대화를 나누고 있음,30s,"<s n=""00752"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\...","프린터라고 그러거든 보통 프린팅 하는 데를,"
4,5CT_0013.txt,P2,M,F,회사원,집에서 특별히 하는 일 없이 자연스러운 대화를 나누고 있음,30s,"<s n=""00754"">\\\\r\\\\r\\\\r\\\\r\\\\r\\\\r\\\...","프린터라고 그러는데 그건 아니고 컨버터라고 그러더라고,"


In [151]:
df.to_csv('oneline.csv', index=False, encoding='utf-8')

## 4. 각 사회적 변수에 따라 어미 '-잖-' 또는 '-거든' 사용 비율 비교
* 사회적 변수: 성별, 연령, 사회적 지위 등
* '-거든'은 청자가 모른다고 전제할 때 사용하는 어미
* '-잖-'은 청자가 안다고 전제할 때 사용하는 어미 
* 따라서 신정보를 제시할 때, '-거든'을 쓰면 정보구조의 규범적 사용, '-잖-'을 쓰면 정보구조의 전략적 사용

In [154]:
# 선어말어미 '잖' 의 유무 
def count1(speech):
    if '잖/EP' in speech:
        return 1
    else:
        return 0

In [155]:
# 종결어미 '거든' 의 유무
def count2(speech):
    ef = ['거던/EF','거덩/EF', '거든/EF', '거든요/EF', '거등/EF', '거등요/EF', '그던/EF','그덩/EF',\
          '그든/EF','그든요/EF','그등/EF', '그등요/EF']
    if any(elem in speech for elem in ef):
        return 1
    else:
        return 0

In [156]:
df['잖'] = df['new_speech'].apply(lambda x:count1(x))
df['거든'] = df['new_speech'].apply(lambda x:count2(x))

In [159]:
# 화자의 성별에 따른 어미 사용 비율
df.groupby('gender').mean()[['잖','거든']]

Unnamed: 0_level_0,잖,거든
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
F,0.027165,0.026316
M,0.020149,0.030597


In [160]:
# 청자의 성별에 따른 어미 사용 비율
df.groupby('listener').mean()[['잖','거든']]

Unnamed: 0_level_0,잖,거든
listener,Unnamed: 1_level_1,Unnamed: 2_level_1
F,0.035806,0.038363
M,0.012658,0.01519
다수,0.023095,0.029446


In [165]:
# 화자의 성별 + 청자의 성별에 따른 어미 사용 비율
df.groupby(['gender','listener']).mean()[['잖','거든']]

Unnamed: 0_level_0,Unnamed: 1_level_0,잖,거든
gender,listener,Unnamed: 2_level_1,Unnamed: 3_level_1
F,F,0.027132,0.050388
F,M,0.005405,0.005405
F,다수,0.032653,0.023129
M,F,0.052632,0.015038
M,M,0.019048,0.02381
M,다수,0.016048,0.034102


In [163]:
# 대화상황에 따른 어미 사용 비율
df.groupby('대화상황').mean()[['잖','거든']]

Unnamed: 0_level_0,잖,거든
대화상황,Unnamed: 1_level_1,Unnamed: 2_level_1
강의,0.010911,0.018614
독백,0.0,0.029126
일상대화,0.050305,0.042683
토론,0.056962,0.075949
프로그램,0.0,0.0


In [164]:
# 연령에 따른 어미 사용 비율
df.groupby('age').mean()[['잖','거든']]

Unnamed: 0_level_0,잖,거든
age,Unnamed: 1_level_1,Unnamed: 2_level_1
10s,0.045455,0.0
20s,0.038698,0.036939
30s,0.010076,0.030227
40s,0.007519,0.019549
50s,0.0,0.011905
60s,0.0,0.0
70s,0.0,0.0
?,0.027027,0.021622


In [199]:
# 화자의 직업 분류하기 
teacher = ['강사', '교수', '교사', '명예교수', '목사', '선생님', '학원강사' ]
student = ['학생', '고등학생', '대학생', '대학원생', '수강생', '연구원']
mc = ['사회자', '아나운서', '축구해설자']
doc = ['의사','한의사']
home = ['주부']
work = ['직장인', '회사원', '직원']

def job_classifier(job):
    if any(elem in job for elem in teacher):
        return '선생님'
    elif any(elem in job for elem in student):
        return '학생'
    elif any(elem in job for elem in mc):
        return '진행자'
    elif any(elem in job for elem in doc):
        return '의사'
    elif any(elem in job for elem in home):
        return '주부'
    elif any(elem in job for elem in work):
        return '직장인'
    else:
        return '기타'

In [200]:
df['직업'] = df['job'].apply(lambda x : job_classifier(x))

In [171]:
# 화자의 상대적 지위 분류하기
high = ['선배','아버지', '발표자'] + teacher + doc
low = ['동생','후배']

def relation_classifier(job):
    if any(elem in job for elem in high):
        return '상'
    elif any(elem in job for elem in low):
        return '하'
    else:
        return '모름'

In [172]:
df['지위'] = df['job'].apply(lambda x : relation_classifier(x))

In [268]:
mean = df.groupby('gender').mean()[['잖','거든']]*100
mean = mean.reset_index()
mean

Unnamed: 0,gender,잖,거든
0,F,2.929688,2.734375
1,M,1.473297,3.867403


## 5. 결과 시각화

In [269]:
mean = pd.melt(mean, id_vars=['gender'], value_vars=['잖', '거든'], var_name='어미',value_name='비율')
mean

Unnamed: 0,gender,어미,비율
0,F,잖,2.929688
1,M,잖,1.473297
2,F,거든,2.734375
3,M,거든,3.867403


In [270]:
import plotly.express as px
fig = px.bar(mean, x="gender", y="비율", color='어미', barmode='group',
             height=400)
fig.update_layout(title="화자의 성별에 따른 어미 사용 비율", xaxis_title="화자의 성별", yaxis_title = "어미 사용 비율(%)")
fig.show()

In [271]:
mean3 = df.groupby('listener').mean()[['잖','거든']]*100
mean3 = mean3.reset_index()
mean3 = pd.melt(mean3, id_vars=['listener'], value_vars=['잖', '거든'], var_name='어미',value_name='비율')
mean3

Unnamed: 0,listener,어미,비율
0,F,잖,1.438849
1,M,잖,0.724638
2,다수,잖,2.570694
3,F,거든,4.316547
4,M,거든,2.173913
5,다수,거든,3.341902


In [272]:
fig = px.bar(mean3, x="listener", y="비율", color='어미', barmode='group',
             height=400)
fig.update_layout(title="청자의 성별에 따른 어미 사용 비율", xaxis_title="청자의 성별", yaxis_title = "어미 사용 비율(%)")
fig.show()

In [273]:
mean2 = df.groupby('지위').mean()[['잖','거든']]*100
mean2 = mean2.reset_index()
mean2 = pd.melt(mean2, id_vars=['지위'], value_vars=['잖', '거든'], var_name='어미',value_name='비율')
mean2

Unnamed: 0,지위,어미,비율
0,모름,잖,3.492063
1,상,잖,1.432665
2,하,잖,4.761905
3,모름,거든,5.079365
4,상,거든,2.578797
5,하,거든,2.380952


In [274]:
fig = px.bar(mean2, x="지위", y="비율", color='어미', barmode='group',
             height=400)
fig.update_layout(title="화자의 상대적 지위에 따른 어미 사용 비율", xaxis_title="화자의 상대적 지위", yaxis_title = "어미 사용 비율(%)")
fig.show()

## 6. 예시 

In [276]:
# 지위 높은 사람이 '-거든' 사용한 예시
high = list(df.query('지위=="상"')['cleaned'])
for i in range(len(high)):
    if '거든' in high[i]:
        print(high[i])

어~ 그리구 두 번째 어~ 두 번째로는 어~ 이기상의 가요발전소라는 거거든요.
헬렌이라는 여자는 이 사람의 전처거든요.
음~ 그~ 여기서 새로 수령자라는 단어는 개념을 새로 도입했거든요 이~ 논문 쓰신 분이,
말로 표현하는 것까지:: 포함하는 게 수령자라는 개념이거든요?
그리고 신동이라는 모차르트 음악이 많이 좀 틀리거든요?
까마귀라는 그림을 그렸는데 산이 저런 식으로 파란색으로 하거든요,
헤라클레스라는 피씨방 있었거든,
그:: 권력이라는 게 쉽게 없어지지 않았거든?
파샤이라는 종족이거든요?
머릿속에서 리싸이팅이라는 거를 하거든요?
매져란 특정이라는 뜻이거든요.
주파수라는 게 헤르쯔거든요?
서울과 일산 사이에 고양시라는 데가 있거든요?
좋을 만한 제품 시민운동이라는 생각이 들어가거든요 사실,
오해::라는 건 편견이라고 그랬거든요?


In [277]:
# 지위 낮은 사람이 '-잖-' 사용한 예시
low = list(df.query('지위=="하"')['cleaned'])
for i in range(len(low)):
    if '잖' in low[i]:
        print(low[i])

어~ 옛날에 뭐~ 통신 문화 같은 경우는 생각해 보면 어느 정도 돈을 지불하고 어느 정도 단계에 있어서 그~ 사람들이 어느 정도 계층이라는 게 있잖아요.
청에 대해서 저게 정운이라는 걸 생각을 이제 못 할 수가 있잖아요,


In [278]:
# 남성이 '-거든' 사용한 예시
aa = list(df.query('gender=="M"')['cleaned'])
for i in range(len(aa)):
    if '거든' in aa[i]:
        print(aa[i])

그~ 방송언어라는 것도 말씀하신 것처럼 우리 상당히 똑바로 자랐다는 생각을 하거든요 저두.
다양화의 추구라는 게 저~ 일본 코메디를 봤거든요.
하지만 그 나라가 지나가면서 시간이 흘러가면서도 그 신세대라는 사람들이 다시 기성세대가 됐을 때는 그런 부정부패라는 게 여전했다는 거라고 생각이 되거든요.
내 동경에 <name>이라는 사람이 있거든,
그리고 신동이라는 모차르트 음악이 많이 좀 틀리거든요?
까마귀라는 그림을 그렸는데 산이 저런 식으로 파란색으로 하거든요,
그때 내가 기억하기로는 세종 때 처음 조선이 독립이라는 단어를 썼거든요?
독립국이라는 단어를 썼거든요?
헤라클레스라는 피씨방 있었거든,
파스텔데 쵸콜로라는 게 있거든?
그:: 권력이라는 게 쉽게 없어지지 않았거든?
파샤이라는 종족이거든요?
매져란 특정이라는 뜻이거든요.
주파수라는 게 헤르쯔거든요?
좋을 만한 제품 시민운동이라는 생각이 들어가거든요 사실,
오해::라는 건 편견이라고 그랬거든요?
저축 계좌라는 뜻이거든,


In [279]:
# 여성이 '-잖-' 사용한 예시
aa = list(df.query('gender=="F"')['cleaned'])
for i in range(len(aa)):
    if '잖' in aa[i]:
        print(aa[i])

재투성이 아가씨라는 그런 말이잖아요.
수직적인 그런 예절은 발달했는데 수평적인 그런 매너 그니까 윗사람에 대한 예절이나 예의라는 개념 자체가 윗사람에 대한 어떤 개념이잖아요 근데,
물론 인제~ 그 부분이 그 부분이 뭐~ 욕에 해당되는 그 부분이라는 걸 누구나 알지만 방송에선 제시를 안 하잖아.
근데 아니 근데 만약에 지금 지금은 세계가 되게 막 지구촌이라는 말이 생길 만큼 되게 가깝잖아.
자꾸 우리가 의식적으로도 바꾸다 보면은 나중에 우리 세대가 아닌 다른 세대가 되거나 아니면 점점 그~ 이게 세계화가 되는 상황에서도 원격조정기라는 말이 사람들한테 익숙해지고 또 점점 의식이 바꿔서 나중엔 그게 전혀 불편하거나 어색하거나 그렇게 안 느낄 수 있다 안 느낄 수도 있잖아!
대화라는 게 그렇잖아요?
우리 사회라는 게 뭐~ 여러분이 경험하는 모든 일들이 사회잖아요.
그까 어떤 세대::의 가치관보다는 이 부정부패라는 거는 기본적으로 인간::이 욕심::이 있잖아요 인간의 본능 속에 욕심이 있잖아요 자기 것 챙기고자 하는.
어~ 옛날에 뭐~ 통신 문화 같은 경우는 생각해 보면 어느 정도 돈을 지불하고 어느 정도 단계에 있어서 그~ 사람들이 어느 정도 계층이라는 게 있잖아요.
어~ 저희들이 흔히 알고 있는 브이제이라는 그런 어~ 비디오 자키잖아요.
반말로 얘기를 가끔 한다거나 아니면 아까 보셨다시피 오빠라는 용어가 쓰였잖아요.
지금 이제 팅이라는 그~ 어떤 소리가 계속 나오잖아요,
청에 대해서 저게 정운이라는 걸 생각을 이제 못 할 수가 있잖아요,
그래서 그~ 문화인류학이라는 수업을 들었잖아?
연어라는 게 뭔가 와 닿지 않잖아요,
우리들은 그거 연어라는 거 누구나 알잖아 그거 보통 문장인데
그거는 어차피 그 아버지라는 그~ 원래 속해 있는 거잖아?
유에스던 피터라는 근까 거기에 당 당들이 있잖아::.


In [280]:
# 청자가 여성일 때 '-거든' 사용한 예시
aa = list(df.query('listener=="F"')['cleaned'])
for i in range(len(aa)):
    if '거든' in aa[i]:
        print(aa[i])

거기가 피피섬이라는 데거든요,
파샤이라는 종족이거든요?
냉동 인간이라는 소재가 나오고 그까 그 텔레비전 프로에 그런 게 있었거든요?
영어라는 근까 다른 말이 그렇거든요?
군대라는 경험이 상당히 세거든요 그런 게,
