### 설치
* 아래 셀의 주석을 풀고 실행시켜 필요한 패키지를 설치해 주세요
* 설치 후에 크롬을 리로드 해 주세요 (for plotly)

In [None]:
#!pip install plotly
#!pip install pandas
#!pip install matplotlib
#!pip install librosa
## F5 (chrome reload)

### 데이터 다운로드 주소
* 제공된 샘플 데이터는 아래 경로에서 다운로드 받은 데이터의 일부입니다.
* 라이센스가 있는 데이터이므로 아래 url에 회원 가입 후 '데이터 다운로드' 버튼을 눌러서 다운 로드 승인을 받아 주세요.
* <https://aihub.or.kr/opendata/keti-data/recognition-laguage/KETI-02-002>


------
### 데이터 프레임 생성 및 살펴 보기

In [None]:
# 파일 읽어서 생성하기
# 한글 인코딩 방식을 알려 주기 위해 encoding='cp949'옵션 지정.
import pandas as pd
df = pd.read_csv('./data/5차년도_2차.csv', encoding='cp949')
df

In [None]:
# 컬럼이 많아서 보기에 불편하므로 5개 컬럼만 발췌하기
df = df[['wav_id', '상황', '나이', '성별', '발화문']]
df


In [None]:
# 복사본 만들기. view 가 아니라 새로운 객체가 생성됨
df = df.copy()
df


In [None]:
# 몇 개의 row만 샘플링 

# 맨 위의 5개 추려서 보여주기 
display(df.head(5))
print('\n')

# 맨 아래의 5개 추려서 보여주기 
display(df.tail(5))
print('\n')

# 무작위로 5개 샘플링해서 보여주기 
display(df.sample(n=5))
print('\n')

------
### 서브 테이블(DataFrame or Series) 추출

In [None]:
# 한 컬럼만 분리하기.  Series 타입
s = df['상황']
print(type(s))
s

In [None]:
#   컬럼들 분리하기. DataFrame 타입 
i = ['상황']
t = df[i]  
print(type(t))
t

In [None]:
# 위 셀의 내용은 아래와 동일
t = df[['상황']]
print(type(t))
t

In [None]:
# 위에서 인덱싱 방법에 따라 결과가 eries vs DataFrame 인 것은
# numpy 의 인덱싱과 유사함.
import numpy as np
n = np.array([10, 11, 12, 13])
display(n[2])
display(n[[2]])

for i, e in enumerate(n[[2]]):
    print(f'i:{i}, e:{e}')

# 아래 코드는 위와 다르게 에러 발생
#for i, e in enumerate(n[2]):
#    print(f'i:{i}, e:{e}')

In [None]:
# numpy 형태로 값 얻기
# Series라 rank 가 1인 배열이다
print(s.shape)
print(s.values.shape)
s.values

In [None]:
# numpy 형태로 값 얻기
# DataFrame 이라 rank가 2인 배열이다
print(t.shape)
t.values

In [None]:
# 특정 컬럼의 값 기준으로 테이블로 분리
g = df.groupby('상황')
for situation, df_i in g:
    print(situation, len(df_i))
    display(df_i.tail(3))
    print('\n\n', '=' * 80, '\n'*3)
    

In [None]:
# 순회 가능한 groupby 객체가 만들어진다
# 원소는 (해당 컬럼의 특정 값, 해당 컬럼이 특정 값인 row로 구성된 DataFrame) 형태의 tuple 이다.
g = df.groupby('상황')
g

In [None]:
# 유니크한 값만 추출하기 :
s = df['상황']
s.unique() 

In [None]:
# 위의 코드는 아래와 동일한 값을 갖는다 
s = df['상황']
np.array(set(s))

In [None]:
# 유니크한 값들의 갯수
s.nunique() 

In [None]:
# 위의 코드는 아래와 동일한 값을 갖는다 
len(set(s.values))

In [None]:
# 특정 조건을 만족하는 row 만 골라내기. query 버전
situations = ['sadness', 'angry']
df.query('상황 in @situations') 

In [None]:
# 위의 코드는 아래와 동일한 값을 갖는다 
df.query('상황 in ["sadness", "angry"]') 

In [None]:
# 위의 코드는 아래와 동일한 값을 갖는다 
df.query('상황 == "sadness" or  상황 == "angry"') 

In [None]:
# 타입이 숫자인 컬럼에 대해서도 가능하다
df.query('나이 in [23, 48]')

In [None]:
# 특정 조건을 만족하는 row 만 골라내기. flag index 버전 
df[
    df['상황'] =='angry'
] # df.query('상황 == "angry"')

In [None]:
# 위 코드는 flag로 인덱싱한 예시이다
# flag 생성로직은 아래와 같다
# numpy 의 broadcast 와 유사하게 모든 원소에 대해 동일한 연산을 적용
df['상황'] =='angry'

In [None]:
# 생성된 플래그의 타입은 Series 이다
type(df.상황 == 'angry')

In [None]:
# 플래그로 인덱싱한 위의 코드를 다시 써 보면 다른과 같다
s = df.상황 == 'angry'
df[s]

------
### 그래프

In [None]:
# 나이 컬럼만 추출한다
df['나이']

In [None]:
# 히스토그래을 그려본다
df['나이'].hist()

In [None]:
# 좀 더 선명하게 그리기 위한 jupyter magic을 지정한다.
%config InlineBackend.figure_format = 'retina'

# 위의 그래프는 default 로 구간을 10으로 지정해서 그린 것이다
# 명시적으로 구간을 지정하기 위해서는 bins 패러미터 값을 지정한다
df['나이'].hist(bins=60)

In [None]:
# 글자수라는 컬럼과 남여 컬럼을 DataFrame 에 추가한다
# 기존 컬럼 값에 특정 함수를 적용하여 값을 채운다
df['글자수'] = df['발화문'].map(len)
df['남여'] = df['성별'].map({'male':'남자', 'female':'여자'})
df

In [None]:
# Series 에 map 을 적용하는 예시
df['글자수'].map(lambda e: '김' if 30 < e else '짧음')

In [None]:
# Series 데이터를 히스토그램으로 그려보기
df['글자수'].hist(bins=100)

In [None]:
# 그래프가 아니라 Series로 값을 얻기 
vc = df['상황'].value_counts()
vc

In [None]:
# interaction 이 가능한 plotly 라이브러리 사용해 보기
import plotly.graph_objects as go

# 막대 그래프 생성
b = go.Bar(x=vc.index, y=vc.values)

# 생성된 막대 그래프를 그리기
go.Figure(b)

In [None]:
# 그래프를 더 간단히 그릴 수 있는 express 사용해 보기
import plotly.express as px
px.pie(values=vc.values, names=vc.index)

------
### 데이터 검수

In [None]:
from glob import glob

# ./data/wavs 폴더 아래의 확장자가 wav인 파일 목록을 읽어 온다
wavs = glob('./data/wavs/*.wav')
wavs

In [None]:
# 확장자를 제외한 파일명을 stem 이라고 한다
# csv 라벨 파일의 wav_id 값으로 변환하기 위해 
# pathlib.Path 를 사용한다
from pathlib import Path
wavs  = [Path(e).stem for e in wavs]
wavs

In [None]:
# 데이터 프레임 형태로 변환한다
df_wav = pd.DataFrame(wavs, columns=['wav_id'])
df_wav

In [None]:
# 폴더에서 읽어온 값과 csv 라벨의 값을 병합한다
# 두 테이블에 동시에 존재하는 wav_id 만 병합에 사용하기 위해 how 패러미터에 inner값을 지정한다
df_wav = pd.merge(df, df_wav, how='inner', on='wav_id')
df_wav

In [None]:
# wav_id 값을 다시 경로로 바꾸어 'path'컬럼에 저장한다
to_path = lambda e: f'./data/wavs/{e}.wav'
df_wav['path'] = df_wav['wav_id'].map(to_path)
df_wav

In [None]:
# 첫 번째 사운드를 직접 들어본다
import IPython.display as ipd

path = df_wav.values[0][-1] 
print(path)
ipd.Audio(path)

In [None]:
# 자동 플레이가 되도록 autoplay 값을 지정한다
ipd.Audio(path, autoplay=True)

In [None]:
# 모든 사운드를 출력해 본다
for e in df_wav.values:
    path = e[-1]
    print(path)
    display(ipd.Audio(path))

In [None]:
# input 박스
# 사용자의 입력을 받는다.
# 실행 후 입력창에 'aaa'를 입력해 본다
c = input()
c

In [None]:
# clear_output
# output 셀을 지운다.
print('지워질 문장1')
print('지워질 문장2')
print('지워질 문장2')
input()
ipd.clear_output()
print('남겨질 문장')

In [None]:
# 사운드를 직접 들어본다
# 'q'를 누르면 듣기를 멈춘다
import IPython.display as ipd

for e in df_wav.values:
    print(e)
    display(ipd.Audio(e[-1], autoplay=True))
    c = input()
    if c in ['q', 'Q', 'ㅂ']:
        break
    ipd.clear_output()

In [None]:
# librosa 라이브러를  이용해 
# 사운드 파일의 내용을 numpy 형태로 읽어온다.
# numpy 값 뿐만 아니라 샘플링 비율(값 몇 개가 1초동안의 내용을 나타내는지를 알려줌)도 얻어낸다
# 파일의 값을 그대로 출력하는 오디오 위젯과
# librosa 로 읽어온 값을 출력하는 오디오 위젯을 동시에 출력한다
# librosa로 읽어온 값을 ipd.Audio가 출력할 때는 normalize 옵션값이 True 이다
# 듣다 보면 작은 사운드에 대해서도 normalize 를 수행한 경우 크게 들리는 것을 확인할 수 있다
import librosa
for i, e in df_wav.iterrows():
    wav, sr = librosa.load(e['path'])
    display(ipd.Audio(e['path'], autoplay=True))
    display(ipd.Audio(wav, rate=sr))
    if 'q' == input():
        break
    ipd.clear_output()

In [None]:
# 위의 셀을 실행하여 듣다가 소리가 지나치게 작은 파일에서 'q' 버튼을 눌러 루프를 빠져 나온다
# 샘플링 rate, 데이터 길이, 값의 분포 등을 조사해 본다.
print(sr, 13*sr, 14*sr)
print(wav.shape, wav.min(), wav.max(), wav.mean(), wav.std())
print(wav)

In [None]:
# normalize 값을 명시적으로 false 로 주면 값이 매우 작은 것을 알 수 있다
ipd.Audio(wav, rate=sr, normalize=False)

In [None]:
# 작은 값을 원본, 10배 증폭, 100배 증복 시킨다.
# 값을 그려보고 실제로 들어본다
# normalize 가 False 인 경우 -1, 1 사이로 절삭(clipping)을 해 줘야 된다.
import numpy as np
import matplotlib.pyplot as plt
from librosa.display import waveshow

for e in [1,10,100]:
    wav_n = (wav * e).clip(-1, 1)
    waveshow(wav_n)
    plt.show()
    display(ipd.Audio(wav_n, rate=sr, normalize=False))
    display(ipd.HTML('<hr>'))

In [None]:
# plotly express 로 그려본다.
# 모든 값을 다 그리기 때문에 시간이 좀 걸린다
# 마우스 드래그로 영역을 지정하여 확대해서 보기가 가능하다.
px.line(x=range(len(wav_n)), y=wav_n)