## 파이썬 라이브러리를 활용한 데이터 분석과 시각화

### numpy
* numpy는 n차원 데이터를 빠르고 쉽게 계산할 수 있게 해 주는 라이브러리입니다.
*  https://numpy.org/

### pandas
* pandas는 데이터 분석과 조작을 도와주는 라이브러리입니다.
*  https://pandas.pydata.org/

##  시각화 도구

<img src="https://rougier.github.io/python-visualization-landscape/landscape-colors.png">

### matplotlib
* https://matplotlib.org/

### matplotlib.pyplot
* pyplot은 matplotlib에 대한 상태 기반 인터페이스입니다.
* 파이썬의 가장 인기있는 데이터 시각화 도구입니다.
*  https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.html

### seaborn
* seaborn은 matplotlib에 기반한 통계적 데이터 시각화 지원 라이브러리입니다.
* pyplot을 사용하기 쉽게 추상화 한 시각화 도구 입니다.
*  https://seaborn.pydata.org/

### pandas visualization
* https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html


In [None]:
# pandas, numpy, seaborn, matplotlib.pyplot 을 불러옵니다.


In [None]:
# 저장한 Dataframe을 불러와 변수 df에 지정해줍니다.
# kosis-cancer.csv
# df


## 한글폰트 설정하기

In [None]:
# 데이터 시각화 도구에서 한글을 그대로 출력하게 되면 글자가 깨져서 나오게 되기 때문에 글꼴설정을 해줘야 한다.
def get_font_family():
    """
    시스템 환경에 따른 기본 폰트명을 반환하는 함수
    """
    import platform
    system_name = platform.system()

    if system_name == "Darwin" :
        font_family = "AppleGothic"
    elif system_name == "Windows":
        font_family = "Malgun Gothic"
    else:
        # Linux(colab)
        !apt-get install fonts-nanum -qq  > /dev/null
        !fc-cache -fv

        import matplotlib as mpl
        mpl.font_manager._rebuild()
        findfont = mpl.font_manager.fontManager.findfont
        mpl.font_manager.findfont = findfont
        mpl.backends.backend_agg.findfont = findfont

        font_family = "NanumBarunGothic"
    return font_family

In [None]:
# 위에서 만든 함수를 통해 시스템 폰트를 불러와줍니다.
get_font_family()

In [None]:
# 시각화를 위한 폰트설정
# 위에서 만든 함수를 통해 시스템 폰트를 불러와서 font_family라는 변수에 할당합니다.
plt.style.use("ggplot")

font_family = get_font_family()
# 폰트설정
plt.rc("font", family=font_family)
# 마이너스 폰트 설정
plt.rc("axes", unicode_minus=False)

%config InlineBackend.figure_format = 'retina'

### 폰트설정 확인하기

In [None]:
# 한글 폰트가 정상적으로 작동하는지 확인하기


## 한 개의 변수 빈도수 구하고 시각화 하기
* Keyword

    * Series.value_counts()
    * Series.value_counts().plot()
    * Series.value_counts().plot.bar()
    * Series.value_counts().plot.barh()
    * sns.countplot()

In [None]:
# "암검진별" column의 value별 개수를 확인해 봅니다.


In [None]:
# seaborn을 활용하여 암검진별 빈도수를 표현할 수 있습니다.


In [None]:
# seaborn countplot을 활용하여 암검진별 빈도수를 표현 합니다. hue="성별"에 따라 다른 색상으로 표현합니다.


In [None]:
# 데이터가 0 인것은 빈도수 계산에서 제외하도록
# 대상인원 이 0 보다 큰 데이터만 찾습니다.


In [None]:
# 데이터 > 0 보다 큰 데이터로 빈도수 시각화 해보기


### crosstab 으로 두 개의 빈도수 구하기

In [None]:
# crosstab 으로 시각화 결과를 구하기 df["성별"], df["암검진별"]
# 남성의 경우 항목이 있는지 여부를 표시하고 있기 때문에 실제 대상인원은 0이라도 해당 항목이 표시됩니다.


## 수치형 데이터

In [None]:
# .hist 를 사용하면 전체 수치 데이터에 대한 시각화를 할 수 있습니다.


## 2019 년 데이터만 보기

In [None]:
# 2019년의 데이터를 확인하기 위해 2019년의 데이터만 지정해줍니다.
# df_2019

In [None]:
# seaborn의 barplot을 사용해서 데이터를 시각화 할 수 있습니다.
# x축에는 암검진별, y축에는 데이터, hue값에는 성별을 넣어줍니다.
# 2019년 남자와 여자의 암검진별 수검인원을 비교합니다.
plt.figure(figsize=(15, 4))


In [None]:
# 2019년의 x="연령별", y='수검인원', hue='암검진별', kind="bar", col="성별" 시각화
plt.figure(figsize=(15, 6))


## 연도별 암검진 현황
### 평균 시각화

In [None]:
# pointplot 으로 연도별 암검진 **평균** 수검인원을 시각화 합니다.


### 합계 시각화

In [None]:
# pointplot 으로 연도별 암검진 **합계** 수검인원을 시각화 합니다.


In [None]:
# catplot 으로 연도별 암검진 수검인원을 시각화 합니다.


In [None]:
# catplot 으로 연도별 암검진 수검인원 **합계**를 pointplot으로 시각화 합니다.


## groupby와 pivot_table활용해보기

<img src = 'https://pandas.pydata.org/docs/_images/06_groupby.svg' width="800">

<img src = 'https://pandas.pydata.org/docs/_images/reshaping_pivot.png' width = '600'>

In [None]:
# groupby([인덱스 컬럼 리스트])[연산에 사용할 컬럼].연산()


In [None]:
# pivot_table로 같은 결과가 나오게 연산하기
