<a href="https://colab.research.google.com/github/hxk271/SocDataSci/blob/main/archive/W11.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Week 11 (seaborn과 plotly)

> 이번 주부터 좀 더 어려운 시각화를 연습한다. 이미 `matplotlib`의 기초를 학습하였지만, 오늘부터는 특히 pandas 프레임워크 안에서 seaborn과 plotly 라이브러리를 이용한 시각화를 공부하게 된다.
>
> 각 라이브러리 안에서 **시계열 도표(times-series plot)**, **산점도(scatter plot)**, **히스토그램(histogram)**, <b>상자-수염 도표(box-and-whiskers plot)</b>를 차례로 연습한다. 그 뒤에는 페이지와 컷의 조절을 연습한다.
>
> 다음의 데이터를 먼저 준비하자.

In [None]:
import gdown
links = ['https://drive.google.com/uc?id=1o7vqLOaWYNQbLD7CD5jJCt7_XiCMxGrm',          #EV_charge
         'https://drive.google.com/uc?id=1o4WtozcrNc5PadmelkQVcSyg-Iiyk5fb',          #global_internet_users
         'https://drive.google.com/uc?id=1oEULmOXaUroX0MMn43mhZF-mqi3Crcwr']          #medical_cost

for link in links:
    gdown.download(link)

## 1. 시계열 도표

> 먼저 시계열 도표를 그려보자. 연습을 위해 `global_internet_users.csv`를 불러와 내용을 살펴보자.

In [None]:
import pandas as pd

df = pd.read_csv('global_internet_users.csv')
df

> **연습문제 1-1**. 한국(`South Korea`), 중국(`China`), 인도(`India`) 레코드를 필터링하여 출력하시오.

In [None]:
#어떤 나라들이 있는지 살펴보자.
df['Entity'].unique()

cond1 = df['Entity']=='South Korea'
cond2 = df['Entity']=='China'
cond3 = df['Entity']=='India'
df.loc[cond1 | cond2 | cond3]

> 그런데 좀 더 편리하고 유용한 매서드가 있는데, 그건 `isin()`이다. 이때는 리스트(list) 안의 모든 레코드를 필터링한다.

In [None]:
# 임의 3 개의 entity 고유값을 가지는 행만 필터링
countries = ['South Korea', 'China', 'India']
subdf = df.loc[df['Entity'].isin(countries)]
subdf

> 자 이제 그림을 그리기 위한 라이브러리를 불러오자. 오늘부터 seaborn 라이브러리가 새롭게 등장한다.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

> matplotlib에서 `subplots()`는 여러 그래프를 그릴 때 특히 유용하다. 비유하자면 한 페이지에 여러 컷이 들어있는 만화를 떠올리면 좋다.
>
> seaborn 라이브러리를 사용하여 세 국가의 인터넷 사용자 수의 시계열 그래프를 그려보자. 라인 차트(line chart)를 그릴 때처럼 `sns.lineplot()`을 사용한다. 시계열 도표는 본질적으로 라인 차트이기 때문이다.

In [None]:
fig, ax = plt.subplots()        #fig는 페이지, ax는 컷
sns.lineplot(data=subdf,
             x='Year',
             y='No. of Internet Users',
             ax=ax,
             hue='Entity')                # Entity 변수별로 색조 구분. hue 패러미터를 사용하지 않으면 어떻게 되는지도 확인해보자

> 위 그래프에서 $y$축을 사용자 퍼센티지('Internet Users(%)')로 변경하여 다시 시각화해보자. `palette` 패러미터를 사용해보자.
>
> <b>범례(legends)</b>의 순서도 바꿀 수도 있다. 이런건 하나하나 외우지 않아도 된다(Why?).

In [None]:
countries = ['South Korea', 'China', 'India']       #범례 순서

fig, ax = plt.subplots()                            #fig는 페이지, ax는 컷
sns.lineplot(data=subdf,
             x='Year',
             y='Internet Users(%)',                 #이번엔 퍼센트
             ax=ax,
             hue='Entity', hue_order=countries,     #범례 순서
             palette='bright')                      #팔렛=bright, pastel, deep

> `hue` 대신 혹은 동시에 `style`을 사용해 국가를 구분할 수 있다. `markers` 패러미터를 사용하면 나름 강조에 편리하다.

In [None]:
countries = ['South Korea', 'China', 'India']

fig, ax = plt.subplots()
sns.lineplot(data=subdf,
             x='Year',
             y='Internet Users(%)',                 #이번엔 퍼센트
             ax=ax,
             hue='Entity', hue_order=countries,     #범례 순서
             palette='bright',                      #팔렛=bright, pastel, deep
             style='Entity',                        #모양으로 구분
             markers=['o','^','X'])

> 선의 두께를 조절할 수도 있다. 왜 중국을 나타내는 선이 두꺼워졌는지도 주의해서 살펴보자.

In [None]:
countries = ['South Korea', 'China', 'India']

fig, ax = plt.subplots()

sns.lineplot(data=subdf,
             x='Year',
             y='Internet Users(%)',                 #이번엔 퍼센트
             ax=ax,
             hue='Entity', hue_order=countries,     #범례 순서
             palette='bright',                      #팔렛=bright, pastel, deep
             #style='Entity',                       #모양으로 구분
             size='Entity', sizes=[3, 2, 1],        #두께
             #markers=['o','^','X']
             )

> **연습문제 1-2**. 한국(`South Korea`), 중국(`China`), 인도(`India`)의 휴대폰 등록대수를 시계열로 시각화하시오.

In [None]:
countries = ['South Korea', 'China', 'India']

fig, ax = plt.subplots()

sns.lineplot(data=subdf,
             x='Year',
             y='Cellular Subscription',
             ax=ax,
             hue='Entity', hue_order=countries,     #범례 순서
             )

## 2. 산점도

> 다음으로 산점도를 그려보자. `sns.load_dataset('tips')`를 사용하면 예제 자료를 얻을 수 있다.

In [None]:
df = sns.load_dataset('tips')     #tips data set
df

 > 도화지(`fig`)와 컷(`ax`)을 준비하고, 그 위에 `tip` 변수와 `total_bill` 변수의 산점도를 그려보자. 다행히 기본적인 접근은 시계열 도표의 그것과 비슷하다.

In [None]:
fig, ax = plt.subplots()
sns.scatterplot(data=df,          #scatter plot
                x='total_bill',
                y='tip',
                ax=ax)

> **연습문제 2-1**. `tips` 자료에서 총 청구액(`total_bill`)과 팁(`tip`)의 연관성을 시각화하되, 저녁 시간인지 점심 시간인지에 따라 다르게 표현하시오.

In [None]:
df = sns.load_dataset('tips')
fig, ax = plt.subplots()
sns.scatterplot(data=df,
                x='total_bill',
                y='tip',
                ax=ax,
                hue='time',       #time에 따라 색조를 다르게
                style='time')     #time에 따라 스타일도 다르게

> 그런데 산점도를 그릴 때는 반드시 <b>적합선(fitted line)</b>을 함께 그려야 한다. 사실 적합선은 <b>회귀분석(regression analysis)</b>을 통해 얻어야 한다(Why?). 다행히 좀 더 편리한 함수가 있다(`sns.regplot()`).

In [None]:
fig, ax = plt.subplots()
sns.regplot(data=df,
            x='total_bill',
            y='tip',
            ax=ax,
            ci=None)            # 신뢰구간 삭제

> 사실 세부적인 미세조정(fine-tuning) 또한 얼마든지 가능하다.

In [None]:
#스타일 옵션 조정은 딕트로
s_styles = {'s' : 10}             #산점도의 점 크기
l_styles = {'color' : 'gray',     #적합선의 색깔과 선 스타일
            'linestyle' : '--'}

#scatter plot
fig, ax = plt.subplots()
sns.regplot(data=df,
            x='total_bill',
            y='tip',
            ax=ax,
            ci=None,          # 신뢰구간 삭제
            scatter_kws=s_styles,
            line_kws=l_styles)

> **연습문제 2-2**. 검색 또는 생성형AI를 활용하여 위 결과물을 보다 각자 아름답게 꾸며보시오.
>
> ---
> 힌트: 이때 그냥 맡겨서는 안되고 시각화의 방향에 관한 프롬프트를 명확하게 제시해야 한다. 잘 이해하고 있어야 잘 요청할 수 있다! 그러므로 쇼케이스를 유심히 연구하자. 가령 다음 웹사이트를 살펴보자. \
> https://seaborn.pydata.org/tutorial/properties.html \
> https://seaborn.pydata.org/generated/seaborn.lineplot.html \
> https://seaborn.pydata.org/generated/seaborn.regplot.html

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Set a modern style theme
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("husl")

# Enhanced style options
s_styles = {
    's': 50,                    # Larger, more visible points
    'alpha': 0.6,               # Transparency for overlapping points
    'color': '#2E86AB',         # Beautiful blue color
    'edgecolor': 'white',       # White edge for better definition
}

l_styles = {
    'color': '#A23B72',         # Complementary purple-pink for regression line
    'linewidth': 2.5,           # Thicker line for visibility
    'linestyle': '-',           # Solid line looks cleaner
    'alpha': 0.8                # Slight transparency
}

# Create figure with better proportions
fig, ax = plt.subplots(figsize=(10, 6), dpi=100)

# Set background color
fig.patch.set_facecolor('#F8F9FA')
ax.set_facecolor('#FFFFFF')

# Create the enhanced scatter plot
sns.regplot(
    data=df,
    x='total_bill',
    y='tip',
    ax=ax,
    ci=95,                      # Add confidence interval with transparency
    scatter_kws=s_styles,
    line_kws=l_styles)

# Enhance labels and title
ax.set_xlabel('Total Bill ($)', fontsize=12, fontweight='medium', color='#2C3E50')
ax.set_ylabel('Tip ($)', fontsize=12, fontweight='medium', color='#2C3E50')
ax.set_title('Relationship between Total Bill and Tip Amount',
             fontsize=14, fontweight='bold', color='#1A1A1A', pad=20)

# Customize grid
ax.grid(True, linestyle='--', alpha=0.3, color='gray')
ax.set_axisbelow(True)  # Grid behind the plot

# Enhance tick labels
ax.tick_params(colors='#4A4A4A', which='both', labelsize=10)

# Add subtle spines styling
for spine in ['top', 'right']:
    ax.spines[spine].set_visible(False)
for spine in ['left', 'bottom']:
    ax.spines[spine].set_color('#CCCCCC')
    ax.spines[spine].set_linewidth(0.8)

# Add a subtle shadow/glow effect around the plot area
from matplotlib.patches import Rectangle
shadow = Rectangle((ax.get_xlim()[0], ax.get_ylim()[0]),
                   ax.get_xlim()[1] - ax.get_xlim()[0],
                   ax.get_ylim()[1] - ax.get_ylim()[0],
                   fill=False, edgecolor='#E0E0E0', linewidth=2,
                   zorder=-1, transform=ax.transData)
ax.add_patch(shadow)

# Add statistics annotation
correlation = df['total_bill'].corr(df['tip'])
textstr = f'Correlation: {correlation:.3f}'
ax.text(0.05, 0.95, textstr, transform=ax.transAxes, fontsize=11,
        verticalalignment='top', bbox=dict(boxstyle='round',
        facecolor='white', alpha=0.8, edgecolor='#CCCCCC'))

plt.tight_layout()
plt.show()

> 산점도로 그려지는 자료가 반드시 동질적인 집단으로 이루어졌다고는 말할 수 없을지도 모른다. 이럴 때는 대상을 나누어 표현할 필요가 있다. 그러므로 데이터의 다른 변수도 잘 이용하는 것이 중요하다.
>
> 아까 배웠듯 `sns.scatterplot()` 안에서 `hue` 그리고/또는 `style` 패러미터를 사용해 색조/스타일을 달리 표현한 산점도를 먼저 그린다.
>
> 그 뒤, `sns.regplot()`을 덧씌워 새로 그린 다음, `scatter=False` 패러미터를 준다.

In [None]:
#scatter plot
fig, ax = plt.subplots()
sns.scatterplot(data=df,
                x='total_bill',
                y='tip',
                ax=ax,
                hue='time',       #색조 다르게
                style='time')     #스타일 다르게

#fitted line
sns.regplot(data=df,
            x='total_bill',
            y='tip',
            ax=ax,
            #ci=None,          # 신뢰구간 삭제
            scatter=False)

> **연습문제 2-3**. `global_internet_users.csv` 자료에서 한국(`South Korea`), 중국(`China`), 인도(`India`) 레코드를 필터링하고, `Internet Users(%)`의 시계열 도표를 시각화하시오. 시계열 그래프와 산점도를 하나의 그래프 안에 출력하시오.
---
```python
#3국 데이터
df = pd.read_csv('global_internet_users.csv')
entities = ['South Korea', 'China', 'India']
df = df.loc[df['Entity'].isin(entities)]
```

In [None]:
#3국 데이터
df = pd.read_csv('global_internet_users.csv')
entities = ['South Korea', 'China', 'India']
df = df.loc[df['Entity'].isin(entities)]

fig, ax = plt.subplots()

#시계열도표
sns.lineplot(data=df,
             x='Year',
             y='Internet Users(%)',
             ax=ax,
             hue='Entity')

#산점도
sns.scatterplot(data=df,
                x='Year',
                y='Internet Users(%)',
                ax=ax,
                hue='Entity',
                legend=False)

## 3. 히스토그램

> 어떤 데이터가 주어졌을 때 가장 자주 그리는 도표 중 하나가 바로 히스토그램이다. `sns.histplot()`으로 그릴 수 있으며, 패러미터 사용에 있어서도 기존 방식과 대동소이하다!
>
> 이번엔 `total_bill`의 빈도분포표와 히스토그램을 그려보자.

In [None]:
df = sns.load_dataset('tips')

df['total_bill'].value_counts()

fig, ax = plt.subplots()
sns.histplot(data=df,
             x='total_bill',
             ax=ax)

> 막대 크기(bin size)를 수정해보자.

In [None]:
fig, ax = plt.subplots()
sns.histplot(data=df,
             x='total_bill',
             ax=ax,
             bins=30)

> `bins`의 수를 설정하는 대신, `binwidth`를 설정할 수도 있다.

In [None]:
fig, ax = plt.subplots()
sns.histplot(data=df,
             x='total_bill',
             ax=ax,
             binwidth=5)

> 특정 변수, 가령 `time`별로 색조(hue)를 달리하여 두 개 이상의 히스토그램을 하나의 그래프에 그릴 수 있다. 필요에 따라 히스토그램을 중첩시켜, 두 분포의 차이를 명료하게 대조할 수도 있다.

In [None]:
fig, ax = plt.subplots()
sns.histplot(data=df,
             x='total_bill',
             ax=ax,
             hue='time')

> 만약 `multiple` 패러미터에서 `stack`을 사용하면 누적(cumulative) 히스토그램을 그려준다.

In [None]:
fig, ax = plt.subplots()
sns.histplot(data=df,
             x='total_bill',
             ax=ax,
             hue='time',
             multiple='stack')

> **연습문제 3-1**. `tips` 자료에서 총 지불액 중 팁의 비율을 시각화하시오.

In [None]:
df['tip_ratio']=df['tip']/df['total_bill']

fig, ax = plt.subplots()
sns.histplot(data=df,
             x='tip_ratio',
             ax=ax)

## 4. 상자-수염 도표

> 상자-수염 도표는 양적변수를 범주별로 구분지어 요약할 때 종종 사용된다. `EV_charge.csv`는 전기차 충전 이력 <b>로그 파일(log file)</b>이다.
>
> 상자-수염 도표에서는 종종 이상치(outliers) 때문에 고민하게 된다. `showfliers` 패러미터로 조절할 수 있다. 이때 이상치를 아예 삭제하고 시각화한다는 점에 다소 주의해야 한다(Why?).

In [None]:
df = pd.read_csv('EV_charge.csv')
df

fig, ax = plt.subplots()
sns.boxplot(data=df,
            x='weekday',
            y='kwhTotal',
            #showfliers=False,          #outliers
            ax=ax)

> 그런데 잘 살펴보면 $x$축이 제대로 정렬되어 있지 않다. 그러므로 `order` 패러미터를 설정해야 한다.

In [None]:
weekday_order = ['Mon','Tue','Wed','Thu','Fri','Sat','Sun']

fig, ax = plt.subplots()
sns.boxplot(data=df,
            x='weekday',
            y='kwhTotal',
            showfliers=False,          #outliers
            ax=ax,
            order=weekday_order)      #order 패러미터

> <b>군집 산점도(swarm plot)</b>은 상자-수염 그림의 특수한 변형이다. 자료가 제법 크기 때문에 조금 오래 걸린다.

In [None]:
weekday_order = ['Mon','Tue','Wed','Thu','Fri','Sat','Sun']

fig, ax = plt.subplots()

#strip box plot
sns.swarmplot(data=df,
              x='weekday',
              y='kwhTotal',
              ax=ax,
              size=.5,       #사이즈를 줄이면 에러 메시지가 출력되지 않지만 이 그림을 원하지 않을수 있다.
              order=weekday_order)

> 멋진 시각적 효과를 위해 Seaborn의 `stripplot`과 `boxplot`을 동시에 활용할 수도 있다! 이때 점이 너무 크니 크기를 줄이라는 경고 메시지가 나오겠지만 무시하자.

In [None]:
weekday_order = ['Mon','Tue','Wed','Thu','Fri','Sat','Sun']

fig, ax = plt.subplots()

#box-and-whiskers plot
sns.boxplot(data=df,
            x='weekday',
            y='kwhTotal',
            ax=ax,
            showfliers=False,
            order=weekday_order)

#strip box plot
sns.swarmplot(data=df,
              x='weekday',
              y='kwhTotal',
              ax=ax,
              order=weekday_order,
              color='grey', alpha=0.4)

> 상자-수염 그림을 관심변수 유형별로 나란히 놓고 비교할 수도 있다. 이렇게 유형별로 묶는 방식을 <b>집단별 상자-수염 도표(Grouped box-and-whiskers plot)</b>라고 부른다.
>
> 가령 플랫폼(`platform`)별로 집단별로 시각화해보자. 먼저 플랫폼 빈도분포표를 확인해보아야 한다.

In [None]:
df['platform'].value_counts()

#web은 너무 빈도가 적으므로 아예 삭제하는 것이 어떨까?
noweb = df.loc[df['platform'] != 'web']

In [None]:
weekday_order = ['Mon','Tue','Wed','Thu','Fri','Sat','Sun']

fig, ax = plt.subplots()

#box-and-whiskers plot
sns.boxplot(data=noweb,
            x='weekday',
            y='kwhTotal',
            ax=ax,
            showfliers=False,          #outliers
            order=weekday_order,
            hue='platform')            #플랫폼별로 색조 다르게

> **연습문제 4-1**. 위 자료에서 두 변수 `platform`과 `chargeTimeHrs`의 연관성을 적절히 시각화하시오.
>
> ---
> 힌트: 이상치에 주의할 것!

In [None]:
#no web
noweb = df.loc[df['platform'] != 'web']
noweb['facilityType'].value_counts()

fig, ax = plt.subplots()

#box-and-whiskers plot
sns.boxplot(data=noweb,
            x='facilityType',
            y='chargeTimeHrs',
            ax=ax,
            #showfliers=False,          #아무리봐도 괴상한 이상치
            )

## 9. 컷의 조절

> 하나의 도화지에 여러 컷의 그림을 넣을 수 있다. 이것은 꽤 중요한 기법이므로 여러 차례 연습을 해야 한다. 먼저 `medical_cost.csv` 자료를 불러온 뒤, 지역(`region`)의 빈도분포표를 살펴보자.

In [None]:
df = pd.read_csv('medical_cost.csv')
df
df['region'].value_counts()

> matplotlib의 `subplots()`을 단순히 `fig`, `ax` 에 집어넣지 말고, 좀 더 구체적으로 지정한다. 2x2 그림을 그리고 페이지 크기도 설정한다.

In [None]:
#fig, ax = plt.subplots()        #fig는 페이지, ax는 컷
fig, ax = plt.subplots(2, 2, figsize=(12, 12))

> 우리는 총 4개의 컷을 그려넣어야 하므로 `ax[0][0]`에서 `ax[1][1]`까지 차례로 집어넣어 그린다. 또한 각 `ax[i][j].set_title()` 매서드로 컷의 제목도 넣자!

In [None]:
#fig, ax = plt.subplots()        #fig는 페이지, ax는 컷
fig, ax = plt.subplots(2, 2, figsize=(12, 12))

#좌상단
sns.regplot(x='bmi',
            y='charges',
            data=df.loc[df['region'] == "northwest"],
            ax=ax[1][0])                    #어디에 그려넣을지 여기서 설정
ax[0][0].set_title('Northwest')

#우상단
sns.regplot(x='bmi',
            y='charges',
            data=df.loc[df['region'] == "northeast"],
            ax=ax[1][1])
ax[0][1].set_title('Northeast')

#좌하단
sns.regplot(x='bmi',
            y='charges',
            data=df.loc[df['region'] == "southwest"],
            ax=ax[0][0])
ax[1][0].set_title('Southwest')

#우하단
sns.regplot(x='bmi',
            y='charges',
            data=df.loc[df['region'] == "southeast"],
            ax=ax[0][1])
ax[1][1].set_title('Southeast')

> 이렇게 그리면 매 <b>축(axis)</b>마다 그림을 그려야 한다는 번거로움은 있다. 그리고 $x$축과 $y$축이 그림마다 다르다는 단점도 있다(나중에 배우겠지만 사실 이 문제들은 그다지 심각한 문제가 아니다).
>
> 한편 어떤 사람들은 명령어 하나로 간단히 그리길 원한다. 만약 산점도와 적합선의 경우라면 seaborn의 `lmplot()`이 사용될 수 있다.

In [None]:
sns.lmplot(data=df,
           x='bmi',
           y='charges',
           col='region',      #region별로 컬럼을 나눔
           col_wrap=2)        #컬럼은 2개씩 그리고 한줄 내림

> `hue` 패러미터를 사용하여 자료의 성격(가령 `smoker`)에 따라 다른 두 그림을 하나의 그래프 안에 넣을 수 있다. 이것은 자료의 이질성을 시각화할 때 당연히 중요하게 활용된다!

In [None]:
sns.lmplot(data=df,
           x='bmi',
           y='charges',
           hue='smoker')

> **연습문제 5-1**. $x$축을 `bmi`, $y$축을 `charges`로 하는 산점도와 적합선을 그리되, 각각의 성별(`sex`)로 나누어 두 개의 그래프를 상하로 그리시오.

In [None]:
sns.lmplot(data=df,
           x='bmi',
           y='charges',
           col='sex', col_wrap=1)

## 6. 인터렉티브 시계열 도표

> plotly 라이브러리는 <b>인터렉티브 그래프(interactive graph)</b>를 만들 때 현업에서도 활용될 정도로 아주 편리하고 강력하다. 화면 저장은 물론이고 통계량도 직접 확인할 수 있다. 범례를 클릭하면 그래프를 삭제할 수도 있다.
>
> 왜 seaborn을 배웠는데 plotly를 또 공부해야 할까? 각각 장점이 다르기 때문이다. 우선 seaborn은 matplotlib 위에 구축되어 있어 학습 연속성이 좋다. 그리고 (회귀선, 신뢰구간, 분포 비교 등) 통계적 시각화에 특화되어 있어 사회과학 연구에 적합한 편이다. 한편 plotly는 <b>웹 대시보드(web dashboard)</b>, 3D 구현 등 특수 분야에서 보다 강력하다.
>
> seaborn과는 다소 사용법이 다르기 때문에, 처음으로 되돌아가 시계열 도표부터 다시 만들어보자.

In [None]:
import plotly.express as px
import pandas as pd

#아시아 3개국
df = pd.read_csv('global_internet_users.csv')
countries = ['South Korea', 'China', 'India']
subdf = df.loc[df['Entity'].isin(countries)]

#시계열 도표
fig = px.line(data_frame=subdf,
              x='Year',
              y='Internet Users(%)',
              width=640, height=480,
              color='Entity')         #Entity별로 색조를 다르게
fig.show()

> 선 모양을 바꿀 때는 `line_dash` 패러미터를 사용한다.

In [None]:
fig = px.line(data_frame=subdf,
              x='Year',
              y='Internet Users(%)',
              width=640, height=480,
              line_dash='Entity',         #Entity로 선을 다르게
              color='Entity')             #Entity별로 색조도 다르게
fig.show()

> 각각의 관측치에 따라 심볼(symbol)을 다르게 할 수도 있다.

In [None]:
fig = px.line(data_frame=subdf,
              x='Year',
              y='Internet Users(%)',
              width=640, height=480,
              line_dash='Entity',         #Entity별로 선을 다르게
              color='Entity',             #Entity별로 색을 다르게
              symbol='Entity')            #Entity별로 심볼을 다르게
fig.show()

> 물론 여러분은 생성형AI의 도움을 얻어 훨씬 더 보기 좋게 꾸밀 수 있다.

In [None]:
import plotly.express as px
import plotly.graph_objects as go
import pandas as pd

# 아시아 3개국
df = pd.read_csv('global_internet_users.csv')
countries = ['South Korea', 'China', 'India']
subdf = df.loc[df['Entity'].isin(countries)]

# 시계열 도표 - 개선된 버전
fig = px.line(data_frame=subdf,
              x='Year',
              y='Internet Users(%)',
              color='Entity',
              width=700, height=450,
              color_discrete_map={
                  'South Korea': '#1f77b4',  # 진한 파랑
                  'China': '#d62728',         # 빨강
                  'India': '#ff7f0e'          # 오렌지
              })

# 레이아웃 개선
fig.update_layout(
    xaxis_title='',
    yaxis_title='Internet Users (%)',
    margin=dict(
        l=5,   # left
        r=5,   # right
        t=6,   # top
        b=4    # bottom
    ),
    legend=dict(
        title='',
        orientation='h',
        yanchor='bottom',
        y=1.02,
        xanchor='right',
        x=1
    ),
    hovermode='x unified',
    plot_bgcolor='white',
    font=dict(family='Arial', size=12)
)

# 선 스타일 및 그리드 개선
fig.update_traces(
    line=dict(width=2.5),
    mode='lines+markers',
    marker=dict(size=5)
)

fig.update_xaxes(
    showgrid=True,
    gridwidth=0.5,
    gridcolor='lightgray',
    tickmode='linear',
    tick0=subdf['Year'].min(),
    dtick=5  # 5년 간격
)

fig.update_yaxes(
    showgrid=True,
    gridwidth=0.5,
    gridcolor='lightgray',
    zeroline=True,
    zerolinewidth=1,
    zerolinecolor='gray',
    ticksuffix='%'
)

fig.show()

> **연습문제 6-1**. 한국(`South Korea`), 중국(`China`), 인도(`India`)의 휴대폰 등록대수를 시계열로 시각화하시오.

In [None]:
import plotly.express as px
import pandas as pd

#아시아 3개국
df = pd.read_csv('global_internet_users.csv')
countries = ['South Korea', 'China', 'India']
subdf = df.loc[df['Entity'].isin(countries)]

#시계열 도표
fig = px.line(data_frame=subdf,
              x='Year',
              y='Cellular Subscription',
              width=640, height=480,
              color='Entity')         #Entity별로 색조를 다르게
fig.show()

## 7. 인터렉티브 산점도

> 산점도 역시 seaborn 뿐 아니라 plotly에서 구현할 수 있다. 앞서 사용했던 `tips` 자료를 다시 한 번 사용하여 이를 구현해보자.

In [None]:
df = sns.load_dataset('tips')

fig = px.scatter(data_frame=df,
                 x='total_bill',
                 y='tip',
                 width=640, height=480)
fig.show()

> `color` 패러미터를 사용하면 관심있는 변수(가령 `time`)에 따라 다른 색조로 산점도를 그릴 수 있다.

In [None]:
fig = px.scatter(data_frame=df,
                 x='total_bill',
                 y='tip',
                 width=640, height=480,
                 color='time')            #time에 따라 색조를 다르게
fig.show()

> 필요하다면 <b>컬러 스킴(color scheme)</b>이 따로 있으므로 가져다 쓸 수 있다. 잠시 시간을 내어 살펴보자.
>
> ---
> https://plotly.com/python/discrete-color

In [None]:
#color scheme
color = px.colors.qualitative.D3

fig = px.scatter(data_frame=df,
                 x='total_bill',
                 y='tip',
                 width=640, height=480,
                 color='time', color_discrete_sequence=color)
fig.show()

> 산점도의 심볼 모양이나 크기도 조절할 수 있다.

In [None]:
#color scheme
color = px.colors.qualitative.D3

fig = px.scatter(data_frame=df,
                 x='total_bill',
                 y='tip',
                 width=640, height=480,
                 symbol='time', symbol_sequence=['star', 'cross'], size='size',    #심볼
                 color='time', color_discrete_sequence=color)
fig.show()

> 산점도에는 물론 적합선이 필수적이다! 그런데 seaborn과는 달리 plotly에서는 `trendline`이라는 패러미터로 간단히 산점도 위에 적합선을 추가할 수 있다. 적합선 위에 커서를 맞추면 회귀식(regression equation)도 보여준다.

In [None]:
fig = px.scatter(data_frame=df,
                 x='total_bill',
                 y='tip',
                 width=640, height=480,
                 trendline='ols')           #ordinary least squares
fig.show()

> 만일 `trendline` 패러미터와 `color` 패러미터를 동시에 사용한다면 어떻게 될까?

In [None]:
fig = px.scatter(data_frame=df,
                 x='total_bill',
                 y='tip',
                 width=640, height=480,
                 color='smoker',            #흡연 여부로 색조 구분
                 trendline='ols')
fig.show()

> **연습문제 7-1**. `medical_cost.csv`에서 `bmi`와 `charges`의 연관성을 적절히 시각화하시오. 흡연자 여부에 따라 집단별로 구분하여 나타내시오.

In [None]:
df = pd.read_csv('medical_cost.csv')
df

fig = px.scatter(data_frame=df,
                 x='bmi',
                 y='charges',
                 width=640, height=480,
                 color='smoker',
                 trendline='ols')
fig.show()

## 8. 인터렉티브 히스토그램

> 히스토그램도 plotly로 구현할 수 있다. 이 경우에는 `histogram()`을 사용한다.

In [None]:
df = sns.load_dataset('tips')

fig = px.histogram(data_frame=df,
                   x='total_bill',
                   nbins=20,
                   width=640, height=480)
fig.show()

> 막대의 색을 바꾸거나 막대 간 간격을 적절히 떼어놓을 수 있다. 구체적인 문법은 검색과 ChatGPT의 도움에 의존해도 괜찮다. 개념을 이해하는데 주력하자. 가령 왜 discrete인지 이해해야 한다.

In [None]:
fig = px.histogram(data_frame=df,
                   x='total_bill',
                   nbins=20,
                   width=640, height=480,
                   color_discrete_sequence=['deeppink'])      #막대 색깔
fig.update_layout(bargap=0.2)                                 #막대간 간격
fig.show()

> 그룹별로 히스토그램을 나누어 그릴 수도 있다. 여러 히스토그램을 하나의 그래프 안에 합치는 방법이 몇 가지 있는데, `barmode` 패러미터 안에서 바꿀 수 있다. 이 패러미터에 대해 `relative`, `overlay` 그리고 `group`를 각각 테스트해보자.

In [None]:
#color scheme
color = px.colors.qualitative.D3

fig = px.histogram(data_frame=df,
                   x='total_bill',
                   nbins=20,
                   width=640, height=480,
                   color='time',                              #time에 따라 막대를 나눔
                   color_discrete_sequence=color,             #막대 색깔
                   barmode='relative',          #'relative', 'overlay' 또는 'group'
                   )
fig.update_layout(bargap=0.05)                                #막대간 간격
fig.show()

> **연습문제 8-1**. `tips` 자료에서 총 지불액 중 팁의 비율을 시각화하시오.

In [None]:
df = sns.load_dataset('tips')

df['tip_ratio']=df['tip']/df['total_bill']

fig = px.histogram(data_frame=df,
                   x='tip_ratio',
                   width=640, height=480)
#fig.update_layout(bargap=0.05)
fig.show()

## 9. 인터렉티브 상자-수염 도표

> plotly에서 상자-수염 도표는 `px.box()`로 그릴 수 있다. 이때에도 이상치(outliers) 문제가 다시 한 번 부상할 수 밖에 없다. `points` 패러미터로 조정가능하지만 조금 복잡하다. 이상치 표현은 네 가지로 설정이 가능하며 하나하나 살펴보아야 한다.
>
>---
>https://plotly.com/python/box-plots

In [None]:
df = pd.read_csv('EV_charge.csv')
noweb = df.loc[df['platform'] != 'web']

# Plotly boxplot
fig = px.box(data_frame=noweb,
             x='weekday',
             y='kwhTotal',
             points='outliers',            #이상치('outliers', 'suspectedoutliers', 'all', or False)
             width=640, height=480)
fig.show()

> 아까와 마찬가지로 $x$축 순서가 틀렸다. 그런데 그 수정 방법이 약간 특이하다.

In [None]:
weekday_order = {'weekday': ['Mon','Tue','Wed','Thu','Fri','Sat','Sun']}   #딕트

# Plotly boxplot
fig = px.box(data_frame=noweb,
             x='weekday',
             y='kwhTotal',
             points='suspectedoutliers',      #이상치('outliers', 'suspectedoutliers', 'all', or False)
             category_orders=weekday_order,
             width=640, height=480)
fig.show()

> 마지막으로 그룹별 상자-수염 도표를 그려야 한다. 이때도 크게 다르지 않다. `color` 패러미터로 간단히 그룹을 설정할 수 있기 때문이다.

In [None]:
weekday_order = {'weekday': ['Mon','Tue','Wed','Thu','Fri','Sat','Sun']}   #딕트

# Plotly boxplot
fig = px.box(data_frame=noweb,
             x='weekday',
             y='kwhTotal',
             points='outliers',                #이상치('outliers', 'suspectedoutliers', 'all', or False)
             category_orders=weekday_order,
             color='platform',                  #플랫폼 별로 색조를 다르게
             width=1280, height=480)
fig.show()

> 이제 이상치를 처리하는 방법에 대해 생각해보자. 자료 자체를 전처리하여 이상치를 포함한 관측치를 미리 제거한 다음, 그림을 그리는 방식으로 진행한다. plotly의 성격상 이런 부분은 조금 불편하고 까다롭다(아래 코드는 별로 파이썬답지 않지만 가독성은 높음을 참고하자).

In [None]:
df = pd.read_csv('EV_charge.csv')
noweb = df.loc[df['platform'] != 'web']

#1. 이상치 사전 제거
q3 = noweb.groupby(['weekday','platform'])['kwhTotal'].quantile(.75)
q3
q1 = noweb.groupby(['weekday','platform'])['kwhTotal'].quantile(.25)
q1
iqr = pd.merge(q3, q1, left_index = True, right_index = True)
iqr
iqr['iqr'] = iqr['kwhTotal_x'] - iqr['kwhTotal_y']     #IQR = Q3 - Q1
iqr['lower'] = iqr['kwhTotal_y'] - 1.5 * iqr['iqr']    #lower = Q1 - 1.5 * IQR
iqr['upper'] = iqr['kwhTotal_x'] + 1.5 * iqr['iqr']    #upper = Q3 + 1.5 * IQR
iqr

df2 = pd.merge(noweb, iqr, left_on = ['weekday','platform'],
                           right_on = ['weekday','platform'])
df2

cond = (df2['kwhTotal'] >= df2['lower']) & (df2['kwhTotal'] <= df2['upper'])
cond

df3 = df2.loc[cond]
df3


#2. 그림 그리기
weekday_order = {'weekday': ['Mon','Tue','Wed','Thu','Fri','Sat','Sun']}   #딕트
fig = px.box(data_frame=df3,
             x='weekday',
             y='kwhTotal',
             points=False,                #이상치('outliers', 'suspectedoutliers', 'all', or False)
             category_orders=weekday_order,
             color='platform',                  #플랫폼 별로 색조를 다르게
             width=1280, height=480)
fig.show()

> **연습문제 9-1**. 위 자료에서 두 변수 `platform`과 `chargeTimeHrs`의 연관성을 적절히 시각화하시오.
>
> ---
> 힌트: 이상치에 주의할 것!

In [None]:
df = pd.read_csv('EV_charge.csv')
noweb = df.loc[df['platform'] != 'web']

#1. 이상치 사전 제거
q3 = noweb.groupby('facilityType')['chargeTimeHrs'].quantile(.75)
q3
q1 = noweb.groupby('facilityType')['chargeTimeHrs'].quantile(.25)
q1
iqr = pd.merge(q3, q1, left_index = True, right_index = True)
iqr
iqr['iqr'] = iqr['chargeTimeHrs_x'] - iqr['chargeTimeHrs_y']     #IQR = Q3 - Q1
iqr['lower'] = iqr['chargeTimeHrs_y'] - 1.5 * iqr['iqr']    #lower = Q1 - 1.5 * IQR
iqr['upper'] = iqr['chargeTimeHrs_x'] + 1.5 * iqr['iqr']    #upper = Q3 + 1.5 * IQR
iqr

df2 = pd.merge(noweb, iqr, left_on = 'facilityType', right_on = 'facilityType')
df2

cond = (df2['chargeTimeHrs'] >= df2['lower']) & (df2['chargeTimeHrs'] <= df2['upper'])
cond

df3 = df2.loc[cond]
df3

#2. 그림 그리기
weekday_order = {'weekday': ['Mon','Tue','Wed','Thu','Fri','Sat','Sun']}   #딕트
fig = px.box(data_frame=df3,
             x='facilityType',
             y='chargeTimeHrs',
             points=False,
             category_orders=weekday_order,
             width=1280, height=480)
fig.show()

## 10. 인터렉티브 컷의 조절

> plotly를 사용할 때도 하나의 도화지에 여러 컷의 그림을 넣을 수 있다. 산점도와 적합선을 그릴 때는 `scatter()`를 사용했다. 그리고 `facet_col` 패러미터를 이용하여 그룹별로 <b>서브플롯(subplot)</b>에 나누어 그릴 수 있다.


In [None]:
fig = px.scatter(data_frame=df,
                 x='bmi',
                 y='charges',
                 facet_col='region', facet_col_wrap=2,       #region별로 컬럼을 나누기
                 width=800, height=500,
                 trendline='ols')             #적합선
fig.show()

> 구태여 다시 반복할 필요는 없겠지만, 시계열 도표, 상자-수염 도표, 히스토그램 등도 유사하게 만들어 볼 수 있다. 가령 지역(`region`)별로 체질량지수(`bmi`) 히스토그램을 여러 개 그려보자.

In [None]:
fig = px.histogram(data_frame=df,
                   x='bmi',
                   nbins=20,
                   width=640, height=480,
                   facet_col='region', facet_col_wrap=2,       #region별로 컬럼을 나누기
                   color_discrete_sequence=['gray'])      #막대 색깔
fig.update_layout(bargap=0.2)                                 #막대간 간격
fig.show()

> **연습문제 10-1**. `sex`와 `charges`의 연관성을 살펴볼 수 있는 시각화를 수행하되, 그 관계가 `smoker` 여부에 따라 어떻게 달라지는지 나타내시오.

In [None]:
fig = px.box(data_frame=df,
             x='sex',
             y='charges',
             points='suspectedoutliers',
             category_orders=weekday_order,
             facet_col='smoker',
             width=1280, height=480)
fig.show()