# Visualization

In [None]:
# 판다스와 matplotlib.pyplot 을 plt 로 임포트
import pandas as __
import _ as plt

## The plot Method
- By default, the `plot` method renders a line chart, which is ideal for showing trends over time.
- The `plot` method includes all numeric **DataFrame** columns by default. We can choose a subset with the `y` parameter.
- Matplotlib will use the index values for the x-axis and the values for the y-axis.
- Matplotlib will figure out reasonable intervals for the date index (days, months, years, etc.). These options are all customizable.


* 기본적으로 `plot` 메서드는 선 그래프를 렌더링하며, 이는 시간에 따른 추세를 보여주기에 적합.
* `plot` 메서드는 기본적으로 모든 숫자형 **DataFrame** 열을 포함하지만, `y` 매개변수를 사용하여 일부 열만 선택할 수 있음.
* Matplotlib은 인덱스 값을 x축으로, 해당 값을 y축으로 사용.
* Matplotlib은 날짜 인덱스(일, 월, 연 등)에 대해 적절한 간격을 자동으로 결정하며, 이 설정은 모두 사용자 정의가 가능.


In [None]:
# 이전에 사용했던 ibm 파일을 날짜시간형을 살려서 갖고 오자.
# 날짜 부분이 인덱스가 되도록 하자.
ibm = pd.read_csv("ibm.csv", parse_dates=_, index_col=_)

ibm.head()

### ibm 의 판매량 (Volume) 을 플랏해보자.

In [None]:
# x, y 축은 무엇일까?

## Modifying Plot Aesthetics with Templates
- The `plt.style.available` attribute returns a list of available styles.
- Use the `plt.style.use` method and pass in a sample style string.
- The next charts/graphs you render will implement that style.


* `plt.style.available` 속성은 사용 가능한 스타일 목록을 반환.
* `plt.style.use` 메서드를 사용하고, 원하는 스타일 이름을 문자열로 전달.
* 이후에 렌더링되는 차트나 그래프에 해당 스타일이 적용.


In [None]:
# 앞에서처럼, 이전에 사용했던 ibm 파일을 날짜시간형을 살려서 갖고 오자.
# 날짜 부분이 인덱스가 되도록 하자.
ibm = pd.read_csv("ibm.csv", parse_dates=_, index_col=_)

ibm.head()

### style 로 접근이 가능한 속성들을 확인해보자.

In [None]:
plt.style.available

### style 중 fivethirtyeight 을 써서, 폐장시 주가를 그려보자.

In [None]:
#
plt.style.use(_) # 미국의 데이터 저널리즘 사이트 FiveThirtyEight에서 사용하는 스타일
ibm.plot(y=_)

### 다른 스타일 dark_background 를 사용하여, 판매량을 플랏해보자.

In [None]:
#

### ggplot 스타일로 가장 낮은 주가들을 플랏해보자.

In [None]:
#

## Bar Charts
- A bar chart uses bars to represent occurrences of values/categories.
- We can customize the type of plot that matplotlib renders with the `kind` parameter.
- Pass `bar` for a bar graph and `barh` for a horizontal bar graph.


* 막대 그래프는 값이나 범주의 빈도를 막대로 표현.
* matplotlib이 렌더링할 그래프 유형은 `kind` 매개변수로 지정할 수 있음.
* 막대 그래프는 `bar`, 수평 막대 그래프는 `barh`를 전달.


In [None]:
# 주식 가격을 받아 가격이 50 이하이면 "Poor", 50 과 100 사이이면, Satisfactory,
# 100 이상이면 Excellent 를 반환하는 함수 rank_performance(stock_price) 를 만들고
# 이를 Close 가격에 적용하여 각 카테고리에 해당하는 주식이 몇개씩 있는지 카운트하여
# barh 로 플랏하는 코드를 작성하라.




## Pie Charts
- A pie chart uses a circle to represent proportions (how much each chunk contributes to the whole).
- Pass the `kind` parameter an argument of "pie".
- The `legend` parameter renders a legend to map colors to labels.


* 파이 차트는 원을 사용하여 각 항목이 전체에서 차지하는 비율.
* `kind` 매개변수에 `"pie"`를 전달하여 파이 차트를 생성할 수 있음.
* `legend` 매개변수를 사용하면 색상과 레이블을 연결하는 범례가 표시.


### 폐장시 가격의 평균을 구하라. 그리고 그 평균보다 큰 주식 가격은 Above Average 로, 그 이하는 Below Average 로 표기하는 함수를 만들고, 이를 Close 열에 적용하여 각 카테고리에 해당하는 주식 갯수를 세어 pie 차트로 플랏하라.

In [None]:
# 평균 구하기

In [None]:
# mark_average(stock_price) 함수 작성 및 플랏 코드 작성

# 복지데이터 활용

In [None]:
# 그래프 해상도 설정
import matplotlib.pyplot as plt
plt.rcParams.update({'figure.dpi' : '100'})
%config InlineBackend.figure_format = 'retina' # 해상도 향상 매직 명령어

---

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns # 그래프를 예쁘게 그릴 수 있는 패키지. but 세부 조정이 어려움.

In [None]:
!pip install pyreadstat

## 데이터 불러오기

In [None]:
# 데이터 불러오기
raw_welfare = pd.read_spss('Koweps_hpwc14_2019_beta2.sav')

# 복사본 만들기
welfare = raw_welfare.copy()

## 데이터 검토하기

In [None]:
welfare             # 앞부분, 뒷부분 출력

In [None]:
welfare.shape       # 행, 열 개수 출력

In [None]:
welfare.info()      # 변수 속성 출력

In [None]:
welfare.__  # 요약 통계량

## 변수명 바꾸기

In [None]:
welfare = welfare.rename(columns = {'h14_g3'     : 'sex',            #  성별
                                    'h14_g4'     : 'birth',          #  태어난 연도
                                    'h14_g10'    : 'marriage_type',  #  혼인 상태
                                    'h14_g11'    : 'religion',       #  종교
                                    'p1402_8aq1' : 'income',         #  월급
                                    'h14_eco9'   : 'code_job',       #  직업 코드
                                    'h14_reg7'   : 'code_region'})   #  지역 코드

## 성별에 따른 월급 차이 - 성별에 따라 월급이 다를까?



### 성별 변수 검토 및 전처리하기

#### 1. 변수 검토하기

In [None]:
welfare['sex'].dtypes  # 변수 타입 출력

In [None]:
welfare['sex'].value_counts()  # 빈도 구하기

#### 2. 전처리하기

In [None]:
# 이상치 확인
welfare['sex'].value_counts()

np.where(condition, x, y)
→ 조건이 참이면 x, 거짓이면 y로 채우는 조건 선택 함수.

In [None]:
# 이상치 결측 처리
welfare['sex'] = np.where(welfare['sex'] == 9, np.nan, welfare['sex'])

# 결측치 확인
welfare['sex'].isna().sum()

In [None]:
# 성별 항목 이름 부여
welfare['sex'] = np.where(welfare['sex'] == 1, 'male', 'female')

# 빈도 구하기
welfare['sex'].value_counts()

In [None]:
# 빈도 막대 그래프 만들기
sns.countplot(data = welfare, x = 'sex')

### 월급 변수 검토 및 전처리하기

#### 1. 변수 검토하기

In [None]:
welfare['income'].dtypes  # 변수 타입 출력

In [None]:
welfare['income'].describe()  # 요약 통계량 구하기

In [None]:
sns._(data = _, x = 'income')  # 히스토그램 만들기

In [None]:
# M
sns.histplot(data = welfare, x = 'income')  # 히스토그램 만들기

---

# 대통령 연설문 텍스트 마이닝

### `KoNLPy` 패키지 설치하기

#### 1. 자바 설치하기

#### 2. `KoNLPy` 의존성 패키지 설치하기

In [None]:
!pip install jpype1

#### 3. `KoNLPy` 설치하기

In [None]:
!pip install konlpy

### 가장 많이 사용된 단어 알아보기

#### 1. 연설문 불러오기

In [None]:
moon = open('speech_moon.txt', encoding = 'UTF-8').read()
moon

#### 2. 불필요한 문자 제거하기

In [None]:
# 불필요한 문자 제거하기
import re
moon = re.sub(__, ' ', moon) # moon 이라는 문자열에서 한글이 아닌 모든 문자를 공백으로 바꿈.
moon

#### 3. 명사 추출하기

In [None]:
# hannanum 만들기
import konlpy
hannanum = konlpy.tag.Hannanum() # 한나눔 형태 분석기 호출

In [None]:
# 명사 추출하기
hannanum.nouns("대한민국의 영토는 한반도와 그 부속도서로 한다")

In [None]:
# 연설문에서 명사 추출하기
nouns = hannanum.nouns(moon)
# nouns

In [None]:

# 데이터 프레임으로 변환
import pandas as pd
df_word = pd.DataFrame({'word' : __})
df_word

#### 4. 단어 빈도표 만들기

In [None]:
# 글자 수 추가
df_word['count'] = df_word['word']._._ # 길이를 새로운 열로 만듦.
df_word

In [None]:
# 두 글자 이상 단어만 남기기
df_word = df_word[_]
df_word.sort_values('count')

In [None]:
## 단어 빈도 구하기

# 단어별 분리
# 빈도 구하기
# 내림차순 정렬
df_word = df_word.groupby('word', as_index = __) \
                 .agg(n = ('word', __)) \
                 .sort_values('n', ascending = False)
df_word

#### 5. 단어 빈도 막대 그래프 만들기

In [None]:
# 단어 빈도 상위 20개 추출
top20 = df_word._(20)
top20

In [None]:
#


plt.rcParams.update({'font.family'    : 'Malgun Gothic',  # 한글 폰트 설정
                     'figure.dpi'     : '120',            # 해상도 설정
                     'figure.figsize' : [6.5, 6]})        # 가로 세로 크기 설정

# 막대 그래프 만들기
sns._(data = _, y = _, x = 'n')

# 인터랙티브 그래프(산점도)

In [None]:
# mpg.csv 를 데이터프레임으로 불러오기
mpg = pd.read_csv(_)

In [None]:
# 산점도 만들기
import plotly.express as px
px._(data_frame = _, x = 'cty', y = 'hwy', color = 'drv') # drv 는 구동방식