<a href="https://colab.research.google.com/github/mwoonkim/big_data_lecture2025/blob/main/pandas_chart_visualization_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [6]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [7]:
np.random.seed(123456)

In [None]:
plt.figure()    # 그림 객체 생성 - 여러개 그림을 그리거나, 속성을 직접 지정할 때 사용

In [None]:
ts = pd.Series(np.random.randn(1000), index=pd.date_range("1/1/2000", periods=1000))
ts = ts.cumsum()
ts.plot()

In [None]:
df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index, columns=list("ABCD"))  # 라벨이 있는 경우
df = df.cumsum()
df.plot()

In [None]:
df3 = pd.DataFrame(np.random.randn(1000, 2), columns=["B", "C"]).cumsum()
df3["A"] = pd.Series(list(range(len(df))))
df3.plot(x="A", y="B")   # x, y를 지정

In [None]:
df.iloc[5].plot(kind="bar")   # 막대그래프

In [None]:
df2 = pd.DataFrame(np.random.rand(10, 4), columns=["a", "b", "c", "d"])
df2.plot.bar()    # Multiple Bar plot

In [None]:
df2.plot.bar(stacked=True)  # Stack Bar Plot

In [None]:
df2.plot.barh(stacked=True)   # 수평 Stack Bar Plot

In [None]:
df4 = pd.DataFrame(
       {
           "a": np.random.randn(1000) + 1,
           "b": np.random.randn(1000),
           "c": np.random.randn(1000) - 1,
       },
       columns=["a", "b", "c"],
   )
df4.plot.hist(alpha=0.5)   # Histogram

In [None]:
df4.plot.hist(stacked=True, bins=20)   # stacked

In [None]:
df4["a"].plot.hist(orientation="horizontal", cumulative=True)    # 수평 방향, 누적 구분없이

In [None]:
df["A"].diff().hist()    # df.hist를 사용하여서도 그릴 수 있음

In [None]:
df.diff().hist(color="k", alpha=0.5, bins=50)   # 여러 개의 그래프를 한꺼번에

In [None]:
data = pd.Series(np.random.randn(1000))
data.hist(by=np.random.randint(0, 4, 1000), figsize=(6, 4))   # by를 사용하여 그룹을 선택

In [None]:
data = pd.DataFrame(
       {
           "a": np.random.choice(["x", "y", "z"], 1000),
           "b": np.random.choice(["e", "f", "g"], 1000),
           "c": np.random.randn(1000),
           "d": np.random.randn(1000) - 1,
       },
   )
data.plot.hist(by=["a", "b"], figsize=(10, 5))    # df.plot.hist에서도 by를 사용할 수 있음

In [None]:
df = pd.DataFrame(np.random.rand(10, 5), columns=["A", "B", "C", "D", "E"])
df.plot.box()    # Box plot

In [None]:
color = {
       "boxes": "DarkGreen",
       "whiskers": "DarkOrange",
       "medians": "DarkBlue",
       "caps": "Gray",
   }
df.plot.box(color=color, sym="r+")    # 색상 지정

In [None]:
df.plot.box(vert=False, positions=[1, 4, 5, 6, 8])   # 수평방향, 위치 지정

In [None]:
df = pd.DataFrame(np.random.rand(10, 5))
bp = df.boxplot()   # df.boxplot으로도 그릴 수 있음

In [None]:
df = pd.DataFrame(np.random.rand(10, 2), columns=["Col1", "Col2"])
df["X"] = pd.Series(["A", "A", "A", "A", "A", "B", "B", "B", "B", "B"])
bp = df.boxplot(by="X")    # 그룹을 나누어서 플롯

In [None]:
df = pd.DataFrame(np.random.rand(10, 3), columns=["Col1", "Col2", "Col3"])
df["X"] = pd.Series(["A", "A", "A", "A", "A", "B", "B", "B", "B", "B"])
df["Y"] = pd.Series(["A", "B", "A", "B", "A", "B", "A", "B", "A", "B"])
bp = df.boxplot(column=["Col1", "Col2"], by=["X", "Y"])    # 그룹을 여러 개로 지정

In [None]:
bp = df.plot.box(column=["Col1", "Col2"], by="X")   # df.plot.box를 사용하여 그릴 경우

In [None]:
df_box = pd.DataFrame(np.random.randn(50, 2))
df_box["g"] = np.random.choice(["A", "B"], size=50)
df_box.loc[df_box["g"] == "B", 1] += 3
bp = df_box.boxplot(by="g")    # by를 사용하면 해당 시리즈 이름(예, A, B)으로 표시됨

In [None]:
bp = df_box.groupby("g").boxplot()   # 시리즈 이름을 사용하지 않을 경우

In [None]:
df = pd.DataFrame(np.random.rand(10, 4), columns=["a", "b", "c", "d"])
df.plot.area()    # Area plot

In [None]:
df.plot.area(stacked=False)    # Stack되지 않은 Area Plot

In [None]:
df = pd.DataFrame(np.random.rand(50, 4), columns=["a", "b", "c", "d"])
df["species"] = pd.Categorical(
       ["setosa"] * 20 + ["versicolor"] * 20 + ["virginica"] * 10
   )
df.plot.scatter(x="a", y="b")   # Scatter plot

In [None]:
ax = df.plot.scatter(x="a", y="b", color="DarkBlue", label="Group 1")
df.plot.scatter(x="c", y="d", color="DarkGreen", label="Group 2", ax=ax)   # x, y 축을 지정하고, 색깔로 그룹을 구분

In [None]:
df.plot.scatter(x="a", y="b", c="c", s=50)   # c를 사용

In [None]:
df.plot.scatter(x="a", y="b", c="species", cmap="viridis", s=50)   # c를 지정하고 색깔을 map으로 표현

In [None]:
df.plot.scatter(x="a", y="b", s=df["c"] * 200)   # bubble chart

In [None]:
df = pd.DataFrame(np.random.randn(1000, 2), columns=["a", "b"])
df["b"] = df["b"] + np.arange(1000)
df.plot.hexbin(x="a", y="b", gridsize=25)   # Hexagonal bin (hexbin) plot

In [None]:
df = pd.DataFrame(np.random.randn(1000, 2), columns=["a", "b"])
df["b"] = df["b"] + np.arange(1000)
df["z"] = np.random.uniform(0, 3, 1000)
df.plot.hexbin(x="a", y="b", C="z", reduce_C_function=np.max, gridsize=25)  # gridsize로 x축 방향의 hexbin 숫자 한정 (default=100)

In [None]:
series = pd.Series(3 * np.random.rand(4), index=["a", "b", "c", "d"], name="series")
series.plot.pie(figsize=(6, 6))   # Pie plot

In [None]:
df = pd.DataFrame(
       3 * np.random.rand(4, 2), index=["a", "b", "c", "d"], columns=["x", "y"]
   )
df.plot.pie(subplots=True, figsize=(8, 4))   # 그룹별로 subplot

In [None]:
series.plot.pie(
       labels=["AA", "BB", "CC", "DD"],
       colors=["r", "g", "b", "c"],
       autopct="%.2f",
       fontsize=20,
       figsize=(6, 6),
   )
# label을 사용할 경우

**pd.plotting을 사용한 다양한 그래프**

In [None]:
from pandas.plotting import scatter_matrix

df = pd.DataFrame(np.random.randn(1000, 4), columns=["a", "b", "c", "d"])
scatter_matrix(df, alpha=0.2, figsize=(6, 6), diagonal="kde")   # 여러 개의 플롯을 한꺼번에

In [None]:
ser = pd.Series(np.random.randn(1000))
ser.plot.kde()   # plot.kde를 사용한 density plot (Kernel Density Estimation)

In [None]:
from pandas.plotting import andrews_curves

data = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/iris.csv")   # iris.csv 데이터셋 이용
andrews_curves(data, "Name")                     # Andrews Curve (숫자가 많은 다변량 그래프를 푸리에 급수를 통해 계수를 부여하는 기법)

In [None]:
from pandas.plotting import parallel_coordinates

data = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/iris.csv")
parallel_coordinates(data, "Name")    # Anerews curve 대신 Parallel Coordinates 방법 사용

In [None]:
from pandas.plotting import lag_plot

spacing = np.linspace(-99 * np.pi, 99 * np.pi, num=1000)
data = pd.Series(0.1 * np.random.rand(1000) + 0.9 * np.sin(spacing))
lag_plot(data)    # lag plot (랜덤 데이터셋이나 시간자료 여부를 확인할 수 있는 플롯)

In [None]:
from pandas.plotting import autocorrelation_plot

spacing = np.linspace(-9 * np.pi, 9 * np.pi, num=1000)
data = pd.Series(0.7 * np.random.rand(1000) + 0.3 * np.sin(spacing))
autocorrelation_plot(data)   # Autocorrelation plot (자기상관성을 확인할 수 있는 플롯, 시간자료의 랜덤여부 체크)

In [None]:
from pandas.plotting import bootstrap_plot

data = pd.Series(np.random.rand(1000))
bootstrap_plot(data, size=50, samples=500, color="grey")   # bootstrap (통계자료의 불확실성 평가)

In [None]:
from pandas.plotting import radviz

data = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/iris.csv")
radviz(data, "Name")    # RadViz (다변량 데이터를 시각화하여 분류)

**Plot의 포맷을 다양하게 지정**