In [1]:
import plotly.express as px
import plotly.graph_objects as go
import pandas as pd
import numpy as np

In [2]:
# 기본 그래프 01. 선 그래프(Line Plot)
# 연속적인 데이터 변화를 시각화하는 데 가장 적합한 그래프.
# 시계열 데이터나 순서가 있는 데이터의 트렌드를 파악할 때 주로 사용함.

In [3]:
# px.line() 메소드를 사용하여 선 그래프 생성 가능.

# px.line() 메소드의 parameter들.
# parameter 01. data_frame
# 선 그래프 생성에 사용할 데이터프레임.

# parameter 02. x
# x축의 column name

# parameter 03. y
# y축의 column name

# parameter 04. color
# 색상 별로 구별할 그룹을 지정.

# parameter 05. title
# 그래프의 제목

# parameter 06. markers
# 마커 표시 여부

# parameter 07. line_dash
# 선 스타일 구분

In [4]:
# 기본 선 그래프 생성하기.
dates = pd.date_range('2024-01-01', periods=30, freq='D')       # 시작일을 지정하고, 그 시작일부터 일정 양 만큼 날짜를 뽑아내고, 주기를 조정. 여기서는 day로 설정.)
values = np.cumsum(np.random.randn(30)) + 100                   # -1 ~ 1 사이의 난수를 뽑아내서 그 누적합을 구하고, 그 누적합의 값에다 100을 더함.

time_series = pd.DataFrame({
    '날짜': dates,
    '주가': values
})

fig = px.line(time_series, x='날짜', y='주가', title='일별 주가 변동', markers=True)

fig.show()

# np.random(randn()): 평균 0, 표준편차 1의 가우시안 표준정규분포 난수를 생성.

In [5]:
# 기본 선 그래프 생성하기.
dates = pd.date_range('2024-01-01', periods=365, freq='D')
values = np.cumsum(np.random.randn(365)) + 100

time_series = pd.DataFrame({
    '날짜': dates,
    '주가': values
})

fig = px.line(time_series, x='날짜', y='주가', title='일별 주가 변동', markers=True)

fig.show()

In [6]:
# 다중 선 그래프 생성하기.
companies = ['삼성전자', 'LG전자', 'SK하이닉스']
stock_data = []
dates = pd.date_range('2024-01-01', periods=30, freq='D')

for company in companies:
    for i, date in enumerate(dates):
        price = 100 + np.cumsum(np.random.randn(1))[0] * (i + 1) / 10       # 닐짜별 난수 1개를 뽑고, 누적합은 어차피 1개라 의미가 없고, 근데도 왜 [0]을 사용해서 첫 번째 원소를 사용한다고 적어놓은지 잘 모르겠음.
        stock_data.append({'날짜': date, '회사': company, '주가': price})     # 내부 for문이 한 번씩 돌 때 마다 리스트에 딕셔너리 형태로 날짜 & 회사명 & 주가를 추가함.

df_stocks = pd.DataFrame(stock_data)

print(df_stocks)

fig = px.line(df_stocks, x='날짜', y='주가',
              color='회사',
              title = '회사별 주가 비교',
              line_dash='회사')         # 회사 별로 선 스타일을 다르게 설정.

fig.show()

           날짜      회사          주가
0  2024-01-01    삼성전자   99.859430
1  2024-01-02    삼성전자  100.128802
2  2024-01-03    삼성전자  100.189903
3  2024-01-04    삼성전자  100.372354
4  2024-01-05    삼성전자  100.615797
..        ...     ...         ...
85 2024-01-26  SK하이닉스   95.483642
86 2024-01-27  SK하이닉스  101.162060
87 2024-01-28  SK하이닉스  103.638006
88 2024-01-29  SK하이닉스   96.973058
89 2024-01-30  SK하이닉스  106.826954

[90 rows x 3 columns]


In [7]:
import numpy as np
import pandas as pd
import plotly.express as px

# 예시: dates가 아직 없다면 이런 식으로 만들 수 있습니다.
# dates = pd.date_range("2026-01-01", periods=60, freq="D")

companies = ['삼성전자', 'LG전자', 'SK하이닉스']

# 재현성(항상 같은 결과)을 원하면 seed 고정
rng = np.random.default_rng(42)

start_price = 100.0
mu = 0.0005      # 하루 평균 로그수익률(대략 +0.05%)
sigma = 0.02     # 하루 변동성(대략 2%)

rows = []
n = len(dates)

for company in companies:
    # 1) 일별 로그수익률 생성 (길이 n)
    log_returns = rng.normal(loc=mu, scale=sigma, size=n)

    # 2) 누적 로그수익률 -> 가격 (기하랜덤워크)
    prices = start_price * np.exp(np.cumsum(log_returns))

    # 3) long-form(길쭉한) 형태로 적재
    rows.extend(
        {"날짜": d, "회사": company, "주가": float(p)}
        for d, p in zip(dates, prices)
    )

df_stocks = pd.DataFrame(rows)

# 선 스타일을 회사별로 고정하고 싶다면 line_dash_map을 쓰는 게 깔끔합니다.
fig = px.line(
    df_stocks, x="날짜", y="주가", color="회사",
    title="회사별 누적 랜덤워크 주가 비교",
    line_dash="회사",                                                           # 'line_dash'를 사용해 회사별 자동으로 선을 구분하도록 설정.
    line_dash_map={"삼성전자": "solid", "LG전자": "dash", "SK하이닉스": "dot"},     # 'line_dash_map'을 사용해 직접 회사 별 선의 모양을 구분해서 설정할 수 있음.
)
fig.show()

# 이 코드는 seed 값을 42로 고정시켜서, 실행해도 계속 같은 모양의 그래프가 생성됨.

In [8]:
# 기본 그래프 02. 산점도 (Scatter Plot)
# 두 연속 변수 간 관계를 시각화하는 데 사용함.
# 상관관계 및 분포 패턴을 파악하기에 용이.

In [9]:
# 'px.scatter()'로 산점도 생성 가능.

# parameter 01. data_frame
# 그래프 생성에 사용할 데이터프레임

# parameter 02. x
# x축의 column name

# parameter 03. y
# y축의 column name

# parameter 04. color
# 색상으로 구분할 그룹을 설정

# parameter 05. size
# bubble의 크기 설정

# parameter 06. hover_name
# hover를 사용 시 표시할 이름
# hover: 사용자가 포인트에 마우스 커서를 갖다댔을 때 나오는 정보
# hover는 기본으로 활성화 되어 있음. 따라서 'hover_name'은 선택사항.

# parameter 07. title
# 그래프의 제목

# parameter 08. size_max
# marker의 최대 크기

In [10]:
# 기본 산점도 그래프 생성하기.
height_weight = {
    '키': [160, 165, 170, 175, 180, 162, 168, 172, 178, 185],
    '몸무게': [55, 60, 65, 70, 75, 58, 63, 68, 73, 80],
    '성별': ['여성', '여성', '여성', '남성', '남성', '여성', '여성', '남성', '남성', '남성']
}

df_body = pd.DataFrame(height_weight)

fig = px.scatter(df_body, x='키', y='몸무게', title='키와 몸무게의 관계')

fig.show()

# size parameter를 직접 설정하지 않으니까, 포인트의 크기가 많이 작음.
# 색상 구분도 하지 않아서, 남성과 여별 구분이 어려움.

In [11]:
# 다중 산점도 그래프 생성하기.
# 성별로 구분하기.
height_weight = {
    '키': [160, 165, 170, 175, 180, 162, 168, 172, 178, 185],
    '몸무게': [55, 60, 65, 70, 75, 58, 63, 68, 73, 80],
    '성별': ['여성', '여성', '여성', '남성', '남성', '여성', '여성', '남성', '남성', '남성']
}

df_body = pd.DataFrame(height_weight)

fig = px.scatter(df_body, x='키', y='몸무게',
                 color='성별',
                 title='성별에 따른 키와 몸무게의 관계',
                 size_max=15)

# 회귀선 추가하기.
fig.update_layout(
    xaxis_title='키 (cm)',
    yaxis_title='몸무게 (kg)'
)

fig.show()

# 남성은 빨간색, 여성은 파란색으로 색이 구분됨.
# 그러나 아직 bubble의 크기는 많이 작음.
# 그래도 범례가 있어서, 성별로서의 구분하기가 좀 더 쉬워짐.

In [12]:
# bubble의 크기도 설정한 다중 산점도 그래프 생성하기.
countries = {
    '국가': ['한국', '일본', '중국', '미국', '독일'],
    'GDP': [1800, 4200, 14000, 21000, 3800],
    '인구': [51, 126, 1400, 330, 83],
    '대륙': ['아시아', '아시아', '아시아', '북미', '유럽']
}

df_countries = pd.DataFrame(countries)

fig = px.scatter(df_countries, x='GDP', y='인구',
                 size='GDP', color='대륙',
                 hover_name='국가',
                 title='국가별 GDP와 인구 간 관계',
                 size_max=60)

fig.update_layout(
    xaxis_title='GDP (억 달러)',
    yaxis_title='인구 (백만명)'
)

fig.show()

# bubble의 크기는 GDP의 값과 비례함. GDP 값이 작으면 bubble도 작고, GDP 값이 크면 bubble도 큼.
# 아시아 대륙에 속한 3개의 나라의 색상이 동일.
# 'hover_name'을 '국가'로 설정하여, bubble에 마우스 커서를 가져다 대면 나오는 hover의 맨 위에 국가명이 적혀있음.
# x축과 y축의 이름을 설정할 땐 'fig.update_layout(xaxis_title, yaxis_title)'을 사용하면 됨.

In [13]:
# 기본 그래프 03. 막대 그래프 (Bar chart)
# 범주형 데이터의 값을 비교하는 데 사용됨.
# 각 범주별 수량이나 비율을 명확하게 보여줌.

In [14]:
# 'px.bar()'을 사용해서 막대 그래프 생성.

# parameter 01. data_frame
# 막대 그래프 생성에 사용할 데이터프레임

# parameter 02. x
# x축의 column name

# parameter 03. y
# y축의 column name

# parameter 04. color
# 색상으로 구분할 그룹 지정

# parameter 05. title
# 그래프의 제목

# parameter 06. orientation
# 막대의 방향
# v: 세로, h: 가로

# parameter 07. barmode
# 막대의 배치 방식
# 'group'이 기본값.
# 'stack'은 누적 막대.

# parameter 08. color_continuous_scale
# 연속 색상 스케일.

In [15]:
# 기본 막대 그래프 생성하기.
subjects = {
    '과목': ['수학', '영어', '국어', '과학', '사회'],
    '점수': [85, 92, 78, 88, 82]
}

df_scores = pd.DataFrame(subjects)

fig = px.bar(df_scores, x='과목', y='점수',
             title='과목별 점수',
             color='점수',
             color_continuous_scale='Blues')

fig.show()

# 'color_continous_scale'을 'Blues'로 설정하면 파란색 계열로 연속된 데이터의 색상을 표시. heatmap 느낌처럼.

In [16]:
# 기본 세로 막대 그래프 생성하기.
# 'color_continuous_scale'을 'Viridis'로 설정해서 결과를 보기.
subjects = {
    '과목': ['수학', '영어', '국어', '과학', '사회'],
    '점수': [85, 92, 78, 88, 82]
}

df_scores = pd.DataFrame(subjects)

fig = px.bar(df_scores, x='과목', y='점수',
             title='과목별 점수',
             color='점수',
             color_continuous_scale='Viridis')

fig.show()

# 'color_continous_scale'을 'Viridis'로 설정하니, 정해진 기준 범위 내에서 연속된 데이터의 색상이 정해짐.
# 보라색이 제일 낮은 값, 노란색이 제일 높은 값으로 정해져 있음.
# Wikidocs의 'Plotly Tutorial - 파이썬 시각화의 끝판왕 마스터하기'에 여러가지 colormap들이 나와있으니, 필요할 때 참고하기.

In [17]:
# 기본 가로 막대 그래프 생성하기.
subjects = {
    '과목': ['수학', '영어', '국어', '과학', '사회'],
    '점수': [85, 92, 78, 88, 82]
}

df_scores = pd.DataFrame(subjects)

fig = px.bar(df_scores, x='점수', y='과목',
             title='과목별 점수 (가로형)',
             orientation='h',
             color='점수',
             color_continuous_scale='Blues')

fig.show()

# 이 데이터로만 보자면, 가로형보다는 세로형이 더 가독성이 좋음.
# orientation parameter 생략 시, 기본 세로형으로 막대가 뻗음.
# 'orientation'에는 약어를 사용. 'h', 'v'

In [18]:
# 기본 가로 막대 그래프 생성하기.
subjects = {
    '과목': ['수학', '영어', '국어', '과학', '사회'],
    '점수': [85, 92, 78, 88, 82]
}

df_scores = pd.DataFrame(subjects)

fig = px.bar(df_scores, x='점수', y='과목',
             title='과목별 점수 (가로형)',
             orientation='h',
             color='점수',
             color_continuous_scale='Viridis')

fig.show()

# 이 데이터로만 보자면, 가로형보다는 세로형이 더 가독성이 좋음.
# orientation parameter 생략 시, 기본 세로형으로 막대가 뻗음.
# 'orientation'에는 약어를 사용. 'h', 'v'

In [19]:
# 세로형 그룹 막대 그래프 생성하기.
class_scores = {
    '과목': ['수학', '영어', '국어', '과학'] * 3,
    '점수': [85, 92, 78, 88, 82, 88, 75, 90, 80, 85, 82, 86],
    '학급': ['1반'] * 4 + ['2반'] * 4 + ['3반'] * 4
}

df_class = pd.DataFrame(class_scores)

fig = px.bar(df_class, x='과목', y='점수',
             color='학급',
             title='학급별 과목 점수 비교',
             barmode='group')

fig.update_layout(
    xaxis_title='과목',
    yaxis_title='점수'
)

fig.show()

# 과목에 따른 학급별 점수를 비교함.
# 반이 3개 있으니, '과목'의 개수에 * 3을 함. 그래야 한 과목 당 1반, 2반, 3반의 3개의 막대가 생성되기 때문.
# 점수도 곱하기를 하진 않았지만, 12개의 값을 만듦.
# 학급은 과목이 4개이니 각 반에 4를 곱함.

In [20]:
# 세로형 그룹 막대 그래프 생성하기.
class_scores = {
    '과목': ['수학', '영어', '국어', '과학'] * 3,
    '점수': [85, 92, 78, 88, 82, 88, 75, 90, 80, 85, 82, 86],
    '학급': ['1반'] * 4 + ['2반'] * 4 + ['3반'] * 4
}

df_class = pd.DataFrame(class_scores)

fig = px.bar(df_class, x='과목', y='점수',
             color='학급',
             title='학급별 과목 점수 비교',
             barmode='stack')

fig.update_layout(
    xaxis_title='과목',
    yaxis_title='점수'
)

fig.show()

# barmode parameter의 값을 'stack'으로 해서 그래프를 만들어봤더니,
# 보기가 좀 불편해짐.

In [21]:
# 'barmode="stack"'은 언제 사용하는 것이 좋을 지 궁금해졌음.
# 그래서 ChatGPT에게 세 가지의 예제를 만들어달라고 했음.
# 01. 과목별 총점의 크기 비교
# 02. 전체 대비 각 학급이 몇 %를 차지하는지. ==> 구성비(기여도/mix)를 원할 때
# 03. 시간축에서 총합과 구성이 같이 중요한 경우 (시간과 리소스가 누적되는 KPI인 경우)

In [22]:
# 01.총점 기준 정렬 + 총점 라벨
# 과목별로 전체가 얼마나 큰 지를 보는 것이 주 목적일 때.
class_scores = {
    '과목': ['수학', '영어', '국어', '과학'] * 3,
    '점수': [85, 92, 78, 88, 82, 88, 75, 90, 80, 85, 82, 86],
    '학급': ['1반'] * 4 + ['2반'] * 4 + ['3반'] * 4
}

df = pd.DataFrame(class_scores)

# 과목별 총점 계산 및 총점을 기준으로 내림차순 정렬하기.
totals = df.groupby('과목', as_index=False)['점수'].sum().rename(columns={'점수': '총점'})
order = totals.sort_values('총점', ascending=False)['과목'].tolist()

# stacked를 만들기 위해 wide 형태로 pivot 하기.
wide = df.pivot_table(index='과목', columns='학급', values='점수', aggfunc='sum').reindex(order)

# Figure 구성하기. (go.Bar 사용. graph_objects 사용.)
fig = go.Figure()
for cls in wide.columns:
    fig.add_trace( 
        go.Bar(
            x=wide.index,
            y=wide[cls],
            name=cls,
            hovertemplate="과목=%{x}<br>학급=" + cls + "<br>점수=%{y}<extra></extra>"
        )
    )

# 총점 label(텍스트) 추가하기.
# Scatter이 아닌 annotation으로 처리하기.
for subj, total in zip(totals.set_index('과목').loc[order].index,
                       totals.set_index('과목').loc[order]['총점'].values):
    fig.add_annotation(
        x=subj,
        y=total,
        text=f"총점 {int(total)}",
        showarrow=False,
        yshift=10
    )

fig.update_layout(
    title="(Case 1) 과목별 총점 비교 (학급 누적 + 총점 라벨)",
    xaxis_title="과목",
    yaxis_title="점수 (학급의 합)",
    barmode="stack",
    legend_title="학급"
)

fig.show()

# 1. 주 전달 메세지: 과목별로 총점이 얼마나 큰지.
# 2. 부 전달 메세지: 그 총점이 어떤 학급의 조합으로 만들어졌는지.

# totals
# '과목'을 groupby 하여 과목별로 데이터를 나누고, 집계를 적용함.
# 이는 전형적인 'split-apply-combine' 패턴을 사용.
# 'as_index=False'는 그룹 키(과목)가 기본적으로 index로 가는 것을 방지하기 위함.
# 과목을 index로 사용하지 않고, column으로 유지하겠다는 뜻.
# 그래야 뒤의 'rename', 'sort_values', 'tolist()' 사용이 원활해짐.
# ['점수'].sum() ==> 각 과목 그룹에 속한 점수들을 합산함.
# 'rename(columns={'점수': '총점'})' ==> 집계 결과 컬럼명을 '총점'으로 바꿔 의미를 드러나게 함.
# 특정 컬럼만 선택적으로 이름을 변경하는 코드.

# order
# 총점을 기준으로 과목의 순서를 정렬.
# 총점이 큰 과목을 순서대로 정렬하고, 리스트로 변환. (.tolist)

# wide
# stacked bar를 만들기 위한 pivot table 생성.
# 행 - 과목 / 열 - 학급 / 값 - 점수 형태의 matrix 생성.
# 학급별로 'go.Bar의 trace'를 추가할 때 'y=wide[cls]'처럼 한 줄로 꺼내쓰기 쉽게 만듦.
# pivot_table: index/columns/values/aggfunc로 결과를 만드는 함수.

# .reindex(order)
# pivot table의 결과를 'order' 순서로 재배치.
# reindex는 새 index에 맞춰 데이터프레임 정렬 및 정합할 때 쓰는 표준 method.

# fig.add_annotation ~
# .add_annotation ==> 차트 위의 임의의 위치에 텍스트 작성 가능.
# showarrow ==> 화살표 여부 결정.
# yshift=10 ==> 막대 꼭대기에서 조금 위로 띄워 겹침을 줄임.

In [23]:
# Case 02. 전체 대비 각 학급이 몇 %의 비율을 차지하는가?
class_scores = {
    '과목': ['수학', '영어', '국어', '과학'] * 3,
    '점수': [85, 92, 78, 88, 82, 88, 75, 90, 80, 85, 82, 86],
    '학급': ['1반'] * 4 + ['2반'] * 4 + ['3반'] * 4
}

df = pd.DataFrame(class_scores)

# wide 형태 (절댓값)
wide_abs = df.pivot_table(index='과목', columns='학급', values='점수', aggfunc='sum')

# 100%의 stacked를 위한 비율 계산하기. (%)
row_sum = wide_abs.sum(axis=1)
wide_pct = wide_abs.div(row_sum, axis=0) * 100

fig = go.Figure()

for cls in wide_pct.columns:
    # hover에서 절댓값도 같이 보여주기 위해 customdata를 사용.
    custom_abs = wide_abs[cls].values
    fig.add_trace(
        go.Bar(
            x=wide_pct.index,
            y=wide_pct[cls],
            name=cls,
            customdata=custom_abs,
            hovertemplate=(
                "과목=%{x}<br>"
                f"학급={cls}<br>"
                "비중=%{y:.1f}%<br>"
                "점수(절댓값)=%{customdata}<extra></extra>"
            )
        )
    )

fig.update_layout(
    title="(Case 2) 과목별 학급 구성비 (100% Stacked)",
    xaxis_title="과목",
    yaxis_title="비중(%)",
    barmode="stack",
    legend_title="학급"
)

fig.update_yaxes(range=[0, 100])
fig.show()

# 전달하려는 주 메세지: 과목별로 학급 점수가 차지하는 비중이 어떻게 다른지

# "wide_abs.sum(axis=1)"
# 행 기준(axis=1)으로 열을 더한다는 의미. ==> 과목별 총점을 구함.

# "wide_abs.div(row_sum, axis=0)"
# 각 행을 해당 행의 총점으로 나눠 비율을 만듦.
# 결과적으로 과목별로 1반, 2반, 3반의 %가 생성됨.

# "for cls in wide_pct.columns: ~ "
# 'customdata' ==> trace마다 추가로 들고 다닐 데이터를 넣는 용도.
# 'hovertemplate' 안에서 '%{customdata}'로 꺼내 쓸 수 있어서, y축은 %(비율)이지만 hover에 절댓값도 같이 표시 가능.
# 'hovertemplate' ==> plotly의 공식 customize 수단.
# 'customdata'를 'hover'에 사용하는 방식도 plotly에서 자주 쓰인다고 함.

# "fig.update_yaxes(range=[0, 100])"
# 무조건 100%의 높이를 보여주도록 함.
# 자동 스케일로 인해 100이 위쪽 끝에서 살짝 잘리거나 여백이 이상해지는 것을 예방하기 위한 목적.

In [24]:
# Case 03. 시간과 리소스가 누적되는 KPI
# 월별 비용(인건비, 서버, 마케팅)
# 시간 축에서 총합과 구성이 같이 중요한 경우
df = pd.DataFrame({
    "월": ["2025-09", "2025-10", "2025-11", "2025-12", "2026-01"] * 3,
    "항목": ["인건비", "서버", "마케팅"] * 5,
    "비용": [
        520, 110, 90,
        540, 130, 95,
        560, 160, 105,
        590, 210, 120,
        610, 260, 150
    ]
})

wide = df.pivot_table(index="월", columns="항목", values="비용", aggfunc="sum")

fig = go.Figure()

for item in wide.columns:
    fig.add_trace(
        go.Bar(
            x=wide.index,
            y=wide[item],
            name=item,
            hovertemplate="월=%{x}<br>항목=" + item + "<br>비용=%{y}만원<extra></extra>"
        )
    )

# 월 총합 라벨(선택 사항)
# 전달하고 싶은 주 목적이 '총 비용'인 경우 유용함.
monthly_total = wide.sum(axis=1)
for m, total in zip(wide.index, monthly_total.values):
    fig.add_annotation(
        x=m,
        y=total,
        text=f"총 {int(total)}",
        showarrow=False,
        yshift=10
    )

fig.update_layout(
    title="(Case 03) 월별 비용 누적 (총합 + 구성) KPI",
    xaxis_title="월",
    yaxis_title="비용 (만원)",
    barmode="stack",
    legend_title="비용 항목"
)

fig.show()

# 전달하려는 주 메세지: 월별 총 비용이 어떻게 변했는가?
# 전달하려는 부 메세지: 그 비용을 구성하는 항목(인건비, 서버, 마케팅) 비중이 어떻게 바뀌는가?

# "for item in wide.columns: ~ "
# 항목(인건비, 서버, 마케팅)마다 막대 trace를 하나씩 추가함.
# 같은 월(x축)에서 위로 누적함.

# "monthly_total = wide.sum(axis=1)"
# 월별 총합(행의 합)을 구함.

# "fig.add_annotation(x=m, y=total, text=f"총 {int(total)}, showarrow=False, yshift=10)"
# 막대 꼭대기 위에 총합을 텍스트로 작성.

In [25]:
# 기본 그래프 04. 히스토그램 (Histogram)
# 연속 데이터의 분포를 시각화하는 데 사용.
# 데이터의 빈도 및 분포 패턴을 파악하기 용이.

In [26]:
# 'px.histogram()' 형식으로 사용.

# parameter 01. data_frame
# 그래프를 생성하기 위해 사용할 데이터프레임.

# parameter 02. x
# x축의 이름

# parameter 03. y
# y축의 이름

# parameter 04. color
# 색상으로 구분할 그룹

# parameter 05. title
# 그래프의 제목

# parameter 06. nbins
# 구간의 수

# parameter 07. marginal
# 추가 통계 차트

# parameter 08. opacity
# 투명도

# parameter 09. barmode
# 막대 배치 방식

In [27]:
# 기본 히스토그램 생성하기.
np.random.seed(42)

scores = np.random.normal(75, 15, 1000)     # 평균: 75, 표준편차: 15, 최댓값이 1000이라는 의미인가?
scores = np.clip(scores, 0, 100)            # 0 ~ 100 사이로 범위를 제한.

df_hist = pd.DataFrame({'점수': scores})

fig = px.histogram(df_hist, x='점수',
                   title='시험 점수 분포',
                   nbins=20,              # 20개의 구간으로 나눔.
                   marginal='rug')        # 개별 데이터의 포인트를 표시.

fig.update_layout(
    xaxis_title="점수",
    yaxis_title="빈도"
)

# x축 값의 범위를 강제로 20개로 나오게 하도록 하는 구문.
# fig.update_traces(xbins=dict(start=0, end=100, size=5))

fig.show()

# nbins에 대한 오해
# 'nbins=20'이라고 되어 있어서 나는 처음에 '막대=구간'이라고 생각해서 20개의 막대가 나올 줄 알았음.
# 근데 막대가 16개가 생성되었음.
# 그래서 왜 그런지 GPT한테 물어보니까, nbins의 의미는 최대 20개의 내에서 구간을 제일 예쁘게 나누라는 의미.
# 그래서 무조건 nbins에 입력한 개수만큼 구간이 나눠지는 것이 아닌, 내부의 autobin 알고리즘이 보기 좋은 bin의 값을 구하면서
# nbins의 값보다 더 작은 구간이 형성될 수 있음.

# histogram에서의 'bin'이란?
# x축 값의 범위를 일정 폭으로 나눈 "연속 구간(interval)"을 의미함.

In [28]:
# 그룹별 히스토그램 생성하기.
# 성별에 따른 키의 분포 비교
height_data = []
np.random.seed(42)

# 남성의 키 데이터
male_heights = np.random.normal(175, 6, 500)            # 평균: 175, 표준편차: 6
for height in male_heights:
    height_data.append({'키': height, '성별': '남성'})

# 여성 키 데이터
female_heights = np.random.normal(162, 5, 500)          # 평균: 162, 표준편차: 5
for height in female_heights:
    height_data.append({'키': height, '성별': '여성'})

df_heights = pd.DataFrame(height_data)

fig = px.histogram(df_heights, x='키',
                   color='성별',
                   title='성별에 따른 키 분포 비교',
                   marginal='box',      # boxplot을 추가하는 parameter.
                   opacity=0.7,         # 투명도는 '0.7'로 설정.
                   barmode='overlay')

fig.update_layout(
    xaxis_title="키 (cm)",
    yaxis_title="빈도"
)

fig.show()

# boxplot을 추가했더니, 막대 위에 별도로 생성됨.
# 그래서 사분위 값도 알 수 있게됨.
# histogram에서 키가 겹치는 부분은 색도 달라짐.
# 성별에 따른 키 분포가 어떻게 되는지 판단하기 좋음.

In [29]:
# 기본적인 그래프 05. 캔들스틱 차트(Candlestick Chart)
# 주식이나 암호화폐 등의 금융 데이터를 시각화하는 데 특화된 차트.
# 시가, 고가, 저가, 종가(OHLC|Open, High, Low, Close)를 하나의 캔들로 표현함.

In [30]:
# 'go.Candlestick()' 구문을 사용.

# parameter 01. x
# x축에 사용할 데이터 (보통 날짜)

# parameter 02. open
# 시가 데이터

# parameter 03. high
# 고가 데이터

# parameter 04. low
# 저가 데이터

# parameter 05. close
# 종가 데이터

# parameter 06. name
# trace의 이름

In [31]:
# 기본적인 캔들스틱 차트 생성하기.
from datetime import datetime, timedelta

# 주가 데이터 생성하기.
dates = [datetime.now() - timedelta(days=x) for x in range(30, 0, -1)]
np.random.seed(42)

ohlc_data = []
price = 100

for date in dates:
    open_price = price
    high_price = open_price + np.random.uniform(0, 5)
    low_price = open_price - np.random.uniform(0, 5)
    close_price = open_price + np.random.uniform(-3, 3)

    ohlc_data.append({
        '날짜': date,
        '시가': open_price,
        '고가': high_price,
        '저가': low_price,
        '종가': close_price
    })

    price = close_price

df_ohlc = pd.DataFrame(ohlc_data)

# 캔들스틱 차트 생성하기.
fig = go.Figure(data=go.Candlestick(
    x=df_ohlc['날짜'],
    open=df_ohlc['시가'],
    high=df_ohlc['고가'],
    low=df_ohlc['저가'],
    close=df_ohlc['종가'],
    name='주가'
))

fig.update_layout(
    title="일별 주가 캔들스틱 차트",
    xaxis_title="날짜",
    yaxis_title="가격",
    xaxis_rangeslider_visible=False     # 하단 범위의 슬라이더 제거.
)

fig.show()

# 박스플롯과 비슷하지만, 초 모양처럼 생겨서 이름이 캔들스틱 차트네.
# 내가 따로 설정하지 않았는데 알아서 '상승 - 초록', '하락 - 빨강'으로 색상 분류를 해놓음.
# open과 close의 차이가 클수록 네모의 위아래 너비가 길어짐.

# np.random.uniform()
# NumPy에서 제공하는 균등분포 함수.
# () 안에 '최솟값, 최댓값, 데이터 개수'를 인자로 입력함.
# 위의 코드에서는 개수가 생략됨.

In [32]:
# 거래량을 표시하여 캔들스틱 차트 생성하기.
# 거래량 데이터 추가하기.
df_ohlc['거래량'] = np.random.randint(1000, 10000, len(df_ohlc))        # 1,000부터 10,000까지 df_ohlc의 길이만큼 난수 정수를 생성함.

# subplot 생성하기.
from plotly.subplots import make_subplots       # plotly.subplot에서 make_subplots를 import 하여 subplot 생성 가능.

fig = make_subplots(
    rows=2, cols=1,
    shared_xaxes=True,
    vertical_spacing=0.03,
    subplot_titles=('주가', '거래량'),
    row_width=[0.2, 0.7]
)

# 캔들스틱 차트 생성하기. 위 블록의 ohlc 데이터 그대로.
fig.add_trace(
    go.Candlestick(
        x=df_ohlc['날짜'],
        open=df_ohlc['시가'],
        high=df_ohlc['고가'],
        low=df_ohlc['저가'],
        close=df_ohlc['종가'],
        name="주가"
    ),
    row=1, col=1
)

# 거래량 막대 차트 생성하기.
fig.add_trace(
    go.Bar(
        x=df_ohlc['날짜'],
        y=df_ohlc['거래량'],
        name='거래량',
        marker_color='rgba(158,202,225,0.8)'
    ),
    row=2, col=1
)

fig.update_layout(
    title="주가와 거래량",
    xaxis_rangeslider_visible=False
)

# 각 날짜별로 아래에는 거래량을 나타내는 막대그래프가, 위에는 ohlc를 나타내는 캔들스틱 차트가 생성됨.
# 이렇게 되면 각 일별 시가 & 고가 & 저가 & 종가 및 거래량을 한 번에 확인할 수 있음.

In [33]:
# 기본 그래프 06. 지도 시각화 (Choropleth map)
# 지리적 데이터를 색상으로 표현해 지역별 차이를 한눈에 파악 가능.

In [34]:
# 'px.choropleth()' 구문을 사용.

# parameter 01. data_frame
# 그래프를 생성하는데 사용할 데이터프레임.

# parameter 02. locations
# 위치 코드 column
# ex) 국가코드

# parameter 03. color
# 색상 기준 컬럼

# parameter 04. hover_name
# 호버를 사용할 때 표시할 이름

# parameter 05. title
# 그래프의 제목

# parameter 06. color_continuous_scale
# 연속 색상 스케일

# parameter 07. labels
# 라벨 딕셔너리

In [35]:
# 'px.scatter_geo()' 구문

# parameter 01. data_frame
# 그래프 생성에 사용할 데이터프레임.

# parameter 02. lat
# 위도 column

# parameter 03. lon
# 경도 column

# parameter 04. size
# marker의 크기.

# parameter 05. color
# 색상으로 구분할 그룹

# parameter 06. hover_name
# hover 사용 시 표시할 이름

# parameter 07. title
# 그래프의 제목

# parameter 08. projection
# 지도 투영법

In [39]:
# 'px.choropleth()' vs 'px.scatter_geo()'

# 우선 둘 다 외곽선 지도에 사용하는 'Geo 계열'임.
# 외곽선 지도 계열이란, 행정구역이나 국가의 경계선 같은 outline 기반의 지도를 의미함.
# 'choropleth' ==> 영역(polygon)을 색으로 채움.
# 'scatter_geo' ==> 점(marker) 또는 선(경로)를 찍음.
# 둘 다 'fig.update_geos()' 안에서 세부 설정을 작업함.

# 'choropleth'
# 구역을 색으로 칠하는 지도
# 지역(국가, 주, 시군구, 행정구역 등) 단위 지표를 시각화할 때 사용.
# 각 행정구역(polygon)과 데이터 값을 key로 join하여 색을 칠함.

# 데이터 join 방식 01. 내장 지리ID(국가 ISO 코드, 국가명)로 그리기.
# locations에 국가 식별자를 넣고, locationmode로 해석 방식을 맞춤.
# 데이터 join 방식 02. GedJSON polygon을 직접 넣어서 그리기. (실무에서 많이 사용)
# 'geojson=...' ==> Polygon FeatureCollection
# 'locations=...' ==> 내 데이터의 지역 키 컬럼
# 'featureidkey=...' ==> GeoJSON feature 안에서 어떤 필드를 join key로 쓸지 경로를 지정.
# 보통은 'id', 실무에서는 'properties.<키>'를 많이 사용.
# locations 값과 featureidkey 값이 가리키는 값이 매칭되지 않으면 에러 발생 또는 빈 지도 생성.

# parameter 01. data_frame
# 사용할 데이터프레임

# parameter 02. locations
# 색을 칠할 지역의 key

# parameter 03. geojson (선택사항)
# polygon 경계 데이터

# parameter 04. featureidkey
# GeoJSON join key의 경로

# parameter 05. color
# 색상을 칠할 값 (연속형이면 colorbar가 생성됨.)

# parameter 06. range_color, color_continuous_scale
# 색상 범위 / 스케일 (왜도가 심할 때 중요함)

# parameter 07. scope, projection
# 지도 범위 및 투영도

In [40]:
# 'px.scatter_geo()'
# 지도 위에 점 또는 선(경로)을 찍는 지도

# 각 행이 관측치가 1개이고, 그 관측치가 특정 좌표 또는 지역에 놓일 때 사용.
# ex) 병원의 위치(점), 지점별 매출(점의 크기), 항공 노선(선), 이동 경로(선) 등

# 좌표를 주는 방식 01. 'lat' / 'lon'으로 정확한 좌표 사용. (추천)
# 가장 확실하고 예측이 가능함.
# 좌표를 주는 방식 02. locations로 찍기 (국가명, 국가 ID 등)
# locations를 주고, locationmode로 해석함.
# 내부적으로 해당 지리 ID에 대응하는 위치에 찍힘. (사용 케이스에 따라 중심점에 놓이는 방식)

# parameter 01. 'lat, lon' 또는 'locations'

# parameter 02. color
# 색상으로 그룹과 연속값을 표현.

# parameter 03. size
# bubble의 크기

# parameter 04. hover_name, hover_data, text
# 마우스오버/라벨

In [42]:
# 'px.chrorpleth'를 사용한 기본 지역 지도 생성하기.
# (예) 한국 시도별 인구 데이터
korea_population = {
    '시도': ['서울', '부산', '대구', '인천', '광주', '대전', '울산', '경기', '강원'],
    '인구': [9720, 3413, 2438, 2947, 1441, 1475, 1136, 13427, 1536],
    '코드': ['KR-11', 'KR-26', 'KR-27', 'KR-28', 'KR-29', 'KR-30', 'KR-31', 'KR-41', 'KR-42']
}

df_population = pd.DataFrame(korea_population)

# 세계 지도 예시 (국가별 데이터)
world_data = {
    '국가': ['USA', 'CHN', 'JPN', 'DEU', 'GBR', 'FRA', 'ITA', 'BRA', 'CAN', 'RUS'],
    'GDP': [21427, 14342, 5082, 3846, 2827, 2716, 2001, 1869, 1736, 1483],
    '국가코드': ['USA', 'CHN', 'JPN', 'DEU', 'GBR', 'FRA', 'ITA', 'BRA', 'CAN', 'RUS']
}

df_world = pd.DataFrame(world_data)

fig = px.choropleth(
    df_world,
    locations='국가코드',
    color='GDP',
    hover_name='국가',
    title='국가별 GDP 분포',
    color_continuous_scale='Blues',
    labels={'GDP': 'GDP (조 달러)'}
)

fig.update_layout(
    geo=dict(
        showframe=False,
        showcoastlines=True,
        projection_type='equirectangular'
    )
)

fig.show()

In [43]:
# 'px.scatter_geo()'를 사용한 지역 지도 생성하기.
# 도시별 인구와 위치 구하기.
cities = {
    '도시': ['서울', '부산', '대구', '인천', '광주'],
    '위도': [37.5665, 35.1796, 35.8714, 37.4563, 35.1595],
    '경도': [126.9780, 129.0756, 128.6014, 126.7052, 126.8526],
    '인구': [972, 341, 244, 295, 144]
}

df_cities = pd.DataFrame(cities)

fig = px.scatter_geo(
    df_cities,
    lat='위도',
    lon='경도',
    size='인구',
    color='인구',
    hover_name='도시',
    title='한국 주요 도시의 인구 분포',
    projection='natural earth'
)

fig.update_geos(
    resolution=50,
    showland=True,
    landcolor='lightgray'
)

fig.show()