#### Data Visualization for EDA<br>(EDA를 위한 데이터 시각화)  

- Visualization is essential for data analysis<br>(데이터 분석을 위해 시각화는 필수입니다)
- Major visualization libraries: matplotlib, seaborn, plotly<br>(주요 시각화 라이브러리: matplotlib, seaborn, plotly)
- matplotlib: A traditional and old library. Seaborn was introduced to compensate for its limitations. The interface is complex.<br>(matplotlib: 오래된 전통적인 라이브러리이며 한계를 보완하기 위해 seaborn이 등장했습니다. 인터페이스가 복잡합니다)

#### plotly: Web-based graphs suited for modern IT environments. Provides interactive features (zoom, pan), clean design, and supports various charts.<br>(plotly: 최신 IT 환경에 적합한 웹 기반 그래프를 제공합니다. 확대/축소 등 인터랙티브 기능과 모던한 디자인, 다양한 차트를 지원합니다)
- Plotly: Simple and efficient interactive visualization<br>(Plotly: 간단하고 효율적인 인터랙티브 시각화)
- Quickly generate visualizations with minimal code<br>(몇 줄의 코드로 빠르게 시각화 생성 가능)
- Works well with Pandas DataFrame<br>(Pandas DataFrame과 자연스럽게 연동)
- Concise and intuitive syntax<br>(코드가 짧고 직관적임)
- Great for exploratory data analysis (EDA)<br>(탐색적 데이터 분석(EDA)에 적합)
- Automatically handles axes, legends, colors<br>(축, 범례, 색상 등을 자동 처리)
- Limited for detailed layout customization<br>(세부적인 레이아웃 수정에는 한계가 있음)
- !pip install plotly to install<br>(설치는 !pip install plotly 명령어로)
- Example syntax:<br>
    - 'fig = px.line(df, x="x_col", y="y_col", title="Title")<br>
(예시 구문: fig = px.line(df, x="x축", y="y축", title="그래프 제목"))
    - 'fig.update_layout(): Modify entire layout<br>
(fig.update_layout(): 전체 레이아웃 수정)
    - 'fig.update_xaxes(): Modify x-axis properties<br>
(fig.update_xaxes(): x축 속성 수정)
    - 'fig.update_yaxes(): Modify y-axis properties<br>
(fig.update_yaxes(): y축 속성 수정)
    - 'fig.show(): Display the graph<br>
(fig.show(): 그래프 출력)

#### 'Graph Objects: Low-level API for advanced customization (Graph Objects: 고급 커스터마이징을 위한 저수준 API)
- Directly control data and layout<br>(데이터와 레이아웃을 직접 구성)
- Detailed control over all visual elements<br>(모든 시각적 요소를 세밀하게 제어 가능)
- Build complex custom graphs<br>(복잡한 맞춤형 그래프 제작 가능)
- Allows manual configuration of axes, labels, animations<br>(축, 레이블, 애니메이션 등을 직접 설정 가능)
- Downside: more complex code, higher learning curve<br>(단점: 코드가 길고 복잡하며 진입 장벽이 높음)

#### Scatter Plot: Visualize the relationship between two variables using dots, with optional color by category. Mainly used to explore correlations. (산점도: 두 변수 간의 관계를 점으로 나타내며, 범주에 따라 색상을 지정할 수도 있음. 주로 변수 간 상관관계를 시각화할 때 사용됨)
- Relationship analysis<br>(관계 분석)
- Identifying patterns and trends<br>(패턴 및 경향성 파악)
- Detecting outliers<br>(이상치 탐지)
- Exploratory data analysis (EDA)<br>(탐색적 데이터 분석)

#### 산점도 Scatter Plot : 두 변수의 관계를 점으로 표시하고 추가로 범주에 따라 색상 지정. 주로 두 변수 간의 관계를 시각적으로 파악하기위해 그림.
- 관계 분석
- 패턴 및 경향성 파악
- 이상치 탐지
- 탐색적 데이터분석

In [None]:
# 산점도 생성: px.scatter를 사용하여 두 변수 간의 관계를 시각화
# Create a scatter plot: visualize relationship between two variables using px.scatter

import plotly.express as px  # Plotly의 간단한 시각화 인터페이스 모듈 불러오기
# Import the Plotly Express module for quick and easy plotting

import pandas as pd  # 데이터프레임 생성을 위한 pandas 모듈 불러오기
# Import pandas for creating and managing DataFrames

import numpy as np  # 난수 생성을 위한 numpy 모듈 불러오기
# Import numpy for generating random data

# 예시 데이터프레임 생성
# Create a sample DataFrame
df = pd.DataFrame({
    "x field" : np.random.rand(100),  # x축 값: 0~1 사이 난수 100개
    # x-axis values: 100 random numbers between 0 and 1

    "y field" : np.random.rand(100),  # y축 값: 0~1 사이 난수 100개
    # y-axis values: 100 random numbers between 0 and 1

    "Color by column" : np.random.choice(["A", "B", "C"], 100)  # A, B, C 중 랜덤 선택 100개
    # Randomly select one of "A", "B", or "C" for each row
})

# 산점도 그리기: 색상은 'Color by column' 값을 기준으로 지정
# Draw scatter plot: color is determined by the 'Color by column' field
fig = px.scatter(df, x="x field", y="y field", color="Color by column", title="Scatter Example")

# 시각화 결과 출력
# Show the visualization result
fig.show()

In [None]:
fig.update_layout(
    title = {
        "text" : "Update scatter example",  # 그래프 제목 설정
        # Set the graph title

        "font" : {"size":24, "color":"darkblue"},  # 제목 글꼴 크기와 색상 지정
        # Define the font size and color for the title

        "x":0.5  # 제목을 그래프의 중앙에 배치 (0: 왼쪽, 1: 오른쪽)
        # Position the title at the center of the graph (0: left, 1: right)
    }
)

In [None]:
fig.update_layout(
    legend = dict(
        title="Edit color by column",  # 범례 제목 설정
        # Set the legend title

        x=1.02,  # 범례의 x 좌표 위치 (그래프 오른쪽 바깥으로 약간 이동)
        # X position of the legend (slightly outside to the right of the graph)

        y=1,  # 범례의 y 좌표 위치 (위쪽 정렬)
        # Y position of the legend (top alignment)

        xanchor="left",  # x 좌표 기준점을 왼쪽으로 설정
        # Set the anchor point for x to the left

        yanchor="top",  # y 좌표 기준점을 위쪽으로 설정
        # Set the anchor point for y to the top

        bordercolor="darkblue",  # 범례 테두리 색상 설정
        # Set border color of the legend

        borderwidth=1  # 범례 테두리 두께 설정
        # Set border width of the legend
    )
)
fig.show()


In [None]:
fig.update_xaxes(
    title_text="Edit x field",  # x축 제목 설정
    # Set title for x-axis

    title_font=dict(size=25, color="purple"),  # x축 제목의 글꼴 크기와 색상 설정
    # Set font size and color for x-axis title

    tickangle=10,  # x축 눈금 라벨의 기울기 각도 (10도로 설정)
    # Set angle for x-axis tick labels (10 degrees)

    dtick=1  # 눈금 간격을 1로 설정
    # Set tick interval to 1
)
fig.show()

In [None]:
fig.update_yaxes(
    title_text="Edit y field",  # y축 제목 설정
    # Set title for y-axis

    title_font=dict(size=25, color="purple"),  # y축 제목의 글꼴 크기와 색상 설정
    # Set font size and color for y-axis title

    tickangle=10,  # y축 눈금 라벨의 기울기 각도 (10도로 설정)
    # Set angle for y-axis tick labels (10 degrees)

    dtick=1  # 눈금 간격을 1로 설정
    # Set tick interval to 1
)
fig.show()

#### Line Graph: A graph that shows changes in values over time or sequence using lines (선 그래프: 시간이나 순서에 따른 값의 변화를 선으로 나타내는 그래프)

In [None]:
# 선 그래프 : px.line() 함수를 이용하여 x축과 y축에 해당하는 데이터를 선으로 시각화
# Line chart: Visualize data as a line using px.line() with specified x and y axes

import plotly.express as px
import pandas as pd
import numpy as np

df = pd.DataFrame({
    "x field":np.arange(50),         # x축 데이터로 0부터 49까지 정수 생성
    "y field":np.random.rand(50)     # y축 데이터로 0~1 사이의 난수 50개 생성
})

fig = px.line(df, x="x field", y="y field", title="Line example")  # 선 그래프 생성
fig.show()  # 그래프 출력

#### Bar chart: Visualizes categorical data using the height of bars to compare values. (막대 그래프: 범주형 데이터를 막대의 높이로 비교하여 시각화합니다.)

In [None]:
# 막대 그래프 생성: 범주형 데이터와 수치형 데이터를 바탕으로 막대를 그림
# Create a bar chart using categorical data on the x-axis and numerical values on the y-axis
import plotly.express as px
import pandas as pd

# 예제 데이터프레임 생성
# Create sample DataFrame
df = pd.DataFrame({
    "range": ["A", "B", "C", "D"],  # 범주형 데이터 (카테고리)
    # Categorical data (category labels)
    "value" : [40, 23, 45, 68]      # 값 데이터 (막대 높이)
    # Numerical data (bar height)
})

# 막대 그래프 생성: x축은 범주, y축은 값
# Create bar chart: x-axis = category, y-axis = value
fig = px.bar(df, x="range", y="value", title="Bar example")
fig.show()

#### Histogram: Visualizes the distribution of continuous data using bars for each interval. (히스토그램: 연속형 데이터의 분포를 구간별 막대 그래프로 나타냅니다.)

In [None]:
# 히스토그램 시각화: px.histogram() 함수를 사용하여 연속형 데이터의 분포를 구간별로 표현
# Histogram visualization: Use px.histogram() to visualize the distribution of continuous data by intervals

import plotly.express as px
import pandas as pd
import numpy as np

# 데이터프레임 생성: "Data" 컬럼에 0과 1 사이의 난수 500개 생성
# Create DataFrame: Generate 500 random numbers between 0 and 1 in the "Data" column
df = pd.DataFrame({
    "Data": np.random.rand(500)
})

# 히스토그램 생성: "Data" 컬럼을 x축으로 하여 50개의 구간으로 시각화
# Create histogram: Visualize the "Data" column on the x-axis with 50 bins
flg = px.histogram(df, x="Data", nbins=50, title="Histogram example")

# 히스토그램 출력
# Show histogram
flg.show()

#### 상자 그림 Box Plot : 여러 열의 데이터 분포, 중앙값, 시분위수 및 이상치를 하눈에 비교할 수 있음 (Box Plot: Allows comparison of the distributions, medians, quartiles, and outliers of multiple columns at a glance.)
![image.png](attachment:image.png)

In [None]:
# 박스플롯 : box > fig = px.box(df, y=["비교할열"])
# Box plot: box > fig = px.box(df, y=["column to compare"])

import plotly.express as px
import pandas as pd
import numpy as np

# 0~1 사이의 임의 숫자 100개를 2차원 배열로 생성하고 DataFrame으로 변환
# Generate 100 random numbers between 0 and 1 in 2 dimensions and convert to a DataFrame
df = pd.DataFrame(
    np.random.rand(100,2),
    columns=["compare 1", "compare2"]
)

# 두 열의 데이터 분포를 비교하기 위한 박스플롯 생성
# Create a box plot to compare the distribution of two columns
fig = px.box(df, y=["compare 1", "compare2"], title="Box plot example")
fig.show()

#### For quick data checks, use Plotly Express; for detailed visualizations, use Plotly Graph Objects (데이터 분석 시 가볍게 데이터 확인 시에는 Plotly Express, 디테일하게 시각화할 시에는 Plotly Graph Objects를 사용하는 것이 좋음)
- Use import plotly.graph_objects as go<br>(import plotly.graph_objects as go를 사용)
- Create a graph object using go.Figure() and display it<br>(go.Figure()로 그래프 객체를 만들고 이를 화면에 보여주는 방식으로 실행)
- Add graph traces with: fig.add_trace(go.GraphType(x=data_x, y=data_y))<br>(그래프 추가: fig.add_trace(go.그래프타입(x=데이터x, y=데이터y)))
- Trace types include go.Scatter(), go.Bar(), go.Histogram(), go.Box()<br>(Trace 객체는 go.Scatter(), go.Bar(), go.Histogram(), go.Box() 등 사용 가능)
- Set layout with fig.update_layout(title="Graph Title")<br>(fig.update_layout(title="그래프제목")으로 레이아웃 설정(제목, 축, 범례 등))
- Display the graph using fig.show()<br>(fig.show()로 그래프 출력)

In [None]:
import plotly.graph_objects as go  # Plotly 그래프 오브젝트 불러오기 (Import plotly graph objects)

fig = go.Figure()  # 빈 그래프 객체 생성 (Create an empty figure object)

fig.add_trace(     # 그래프에 선(Scatter) 추가 (Add a line (Scatter) to the figure)
    go.Scatter(
        x=[1,2,3],  # x축 데이터 (X-axis data)
        y=[1,2,3]   # y축 데이터 (Y-axis data)
    )
)

fig.show()  # 그래프 출력 (Display the graph)

#### Scatter Plot: Represents the relationship between two variables as points. You can configure details such as color, marker shape, size, and opacity. (산점도: 두 변수의 관계를 점으로 나타냅니다. 색상, 마커 형태, 크기, 투명도 등을 세부적으로 설정할 수 있습니다.)

In [None]:
# 라이브러리 불러오기
# Import required libraries
import plotly.graph_objects as go
import numpy as np

# x, y 데이터 생성
# Generate x and y data
x_data = np.random.rand(100)
y_data = np.random.rand(100)

# Figure 객체 생성
# Create a Figure object
fig = go.Figure()

# 산점도 trace 추가
# Add a scatter plot trace
fig.add_trace(
    go.Scatter(
        x=x_data,  # x축 데이터
        y=y_data,  # y축 데이터
        mode="markers",  # 점만 표시 (선 없음)
        marker=dict(
            size=8,        # 마커 크기
            color="blue",  # 마커 색상
            opacity=0.7    # 마커 투명도
        ),
        name="Scatter Data",     # 범례에 표시될 이름
        showlegend=True          # 범례 항상 표시
    )
)

# 레이아웃 설정: 제목 및 축 이름
# Update layout: Set title and axis labels
fig.update_layout(
    title="Scatter Example",     # 그래프 제목
    xaxis_title="x Line",        # x축 제목
    yaxis_title="y Line"         # y축 제목
)

# 그래프 출력
# Show the figure
fig.show()

#### Line Chart: Shows the change of values over an ordered sequence using connected lines. (선 그래프: 순서에 따른 값의 변화를 선으로 연결하여 보여줌)

In [None]:
import plotly.graph_objects as go  # 라이브러리 불러오기 / Import the Plotly Graph Objects library
import numpy as np               # numpy 라이브러리 불러오기 / Import the numpy library

x_data = np.arange(50)           # x_data: 0부터 49까지의 정수 배열 생성 / Create an array of integers from 0 to 49
y_data = np.random.rand(50)      # y_data: 0과 1 사이의 50개의 난수 생성 / Generate 50 random numbers between 0 and 1

fig = go.Figure()                # 빈 Figure 객체 생성 / Create an empty Figure object

fig.add_trace(                  # 그래프에 trace 추가 / Add a trace to the graph
    go.Scatter(
        x=x_data,              # x축 데이터 지정 / Specify the x-axis data
        y=y_data,              # y축 데이터 지정 / Specify the y-axis data
        mode="lines+markers",  # 선과 마커(점) 모두 표시 / Display both lines and markers
        name="Scatter Graph Data"  # 범례에 표시할 이름 설정 / Set the name for the legend
    )
)

fig.update_layout(              # 전체 레이아웃 업데이트 / Update the overall layout
    title="Scatter Graph Example",  # 그래프 제목 설정 / Set the graph title
    xaxis_title="time",             # x축 제목 설정 / Set the x-axis title
    yaxis_title="value"             # y축 제목 설정 / Set the y-axis title
)

fig.show()                     # 그래프 출력 / Display the graph

#### Bar Chart: Displays categorical data using bar heights (막대 그래프: 범주형 데이터를 막대의 높이로 표시함)

In [None]:
import plotly.graph_objects as go

# 막대 그래프에 사용할 데이터 정의
# Define data for the bar chart
categories = ["A", "B", "C", "D"]
values = [23, 17, 35, 29]

# 빈 그래프 객체 생성
# Create an empty figure object
fig = go.Figure()

# 막대 그래프 추가
# Add a bar chart trace
fig.add_trace(
    go.Bar(
        x=categories,            # x축: 범주형 데이터
        y=values,                # y축: 값
        name="Bar Graph Example",# 범례에 표시될 이름
        showlegend=True          # 범례를 표시할지 여부
    )
)

# 그래프 전체 레이아웃 설정
# Set the layout of the figure
fig.update_layout(
    title="Bar Graph Example",    # 그래프 제목
    xaxis_title="Category",       # x축 제목
    yaxis_title="Value"           # y축 제목
)

# 그래프 출력
# Display the figure
fig.show()

#### Histogram: Displays the distribution of continuous data using bars divided by intervals. (히스토그램: 연속형 데이터의 분포를 구간별 막대를 통해 나타냄)

In [None]:
import plotly.graph_objects as go
import numpy as np

# Generate 500 random data points for the histogram (히스토그램을 위한 랜덤 데이터 500개 생성)
data = np.random.rand(500)

# Create an empty Figure object (빈 Figure 객체 생성)
fig = go.Figure()

# Add histogram trace (히스토그램 트레이스 추가)
fig.add_trace(
    go.Histogram(
        x=data,             # x-axis data values (x축 데이터 값)
        nbinsx=50,          # Number of bins (막대 개수)
        name="Histogram Data"  # Legend name (범례 이름)
    )
)

# Set layout: title, axis labels, etc. (레이아웃 설정: 제목, 축 이름 등)
fig.update_layout(
    title="Histogram Example",      # Graph title (그래프 제목)
    xaxis_title = "Data",           # x-axis label (x축 이름)
    yaxis_title = "Frequency"       # y-axis label (y축 이름)
)

# Show the graph (그래프 출력)
fig.show()

#### Box Plot: Enables comparison of data distribution, median, quartiles, and outliers across multiple columns. (박스플롯: 여러 열의 데이터 분포, 중앙값, 사분위수 및 이상치를 한눈에 비교할 수 있음)

In [None]:
import plotly.graph_objects as go  # Import the plotly.graph_objects library (plotly.graph_objects 라이브러리 불러오기)
import numpy as np  # Import the numpy library for numerical operations (수치 계산을 위한 numpy 라이브러리 불러오기)

# Generate random data for box plot (박스플롯을 위한 임의의 데이터 생성)
data_1 = np.random.rand(100)  # Generate 100 random numbers between 0 and 1 (0과 1 사이의 임의 숫자 100개 생성)
data_2 = np.random.rand(100)  # Generate another 100 random numbers (또 다른 100개의 임의 숫자 생성)

# Create an empty figure (빈 그래프 객체 생성)
fig = go.Figure()

# Add first box plot trace (첫 번째 박스플롯 추가)
fig.add_trace(
    go.Box(
        y=data_1,  # Assign data_1 to the y-axis (y축에 data_1 데이터 사용)
        name="data_1 Data"  # Legend label for the first box (범례에 표시될 이름)
    )
)

# Add second box plot trace (두 번째 박스플롯 추가)
fig.add_trace(
    go.Box(
        y=data_2,  # Assign data_2 to the y-axis (y축에 data_2 데이터 사용)
        name="data_2 Data"  # Legend label for the second box (범례에 표시될 이름)
    )
)

# Update layout settings (레이아웃 설정)
fig.update_layout(
    title="Box Graph Example",  # Set chart title (그래프 제목 설정)
    yaxis_title = "Value"  # Set y-axis title (y축 제목 설정)
)

# Display the figure (그래프 출력)
fig.show()

#### Plotly Graph Objects Detailed Configuration (Plotly Graph Objects 세부설정 변경)
- update_layout() : Update overall layout such as title, legend, and margins<br>(update_layout() : 전체 레이아웃(제목, 범례, 여백 등)을 설정)
- update_xaxes() : Configure x-axis properties<br>(update_xaxes() : x축 속성을 설정)
- update_yaxes() : Configure y-axis properties<br>(update_yaxes() : y축 속성을 설정)
- The function names are the same as in Plotly Express and work similarly<br>(Plotly Express와 동일한 함수명을 사용하며, 동일하게 작동함)
- mode : Defines how data points are displayed — 'markers', 'lines', or 'lines+markers'<br>(mode : 데이터 포인트의 표시 방식을 지정 — 'markers', 'lines', 'lines+markers')
- name : Sets the name of the data series, used in the legend and grouping<br>(name : 데이터 시리즈의 이름을 지정하며, 범례와 그룹 레이블에 사용됨)
- title.text : Sets the chart title text<br>(title.text : 그래프의 제목 텍스트 설정)
- title.font : Specifies the font style of the title text<br>(title.font : 제목 텍스트의 폰트 스타일 설정)
- title.x : Aligns the title horizontally by setting the x-position (e.g., 0.5 for center)<br>(title.x : 제목의 x축 위치를 설정하여 제목의 정렬을 조정함, 예: 0.5는 중앙 정렬)

In [None]:
# Change title (제목 변경)
import plotly.graph_objects as go  # Import plotly for visualization (시각화를 위한 plotly 라이브러리 불러오기)
import numpy as np  # Import numpy for generating random data (무작위 데이터 생성을 위한 numpy 불러오기)

x_data = np.random.rand(100)  # Generate 100 random x values (x축에 사용할 무작위 값 100개 생성)
y_data = np.random.rand(100)  # Generate 100 random y values (y축에 사용할 무작위 값 100개 생성)

fig = go.Figure()  # Create a figure object (그래프 객체 생성)

# Add scatter plot trace (산점도 데이터 추가)
fig.add_trace(
    go.Scatter(
        x=x_data,  # Set x-axis data (x축 데이터 설정)
        y=y_data,  # Set y-axis data (y축 데이터 설정)
        mode="markers",  # Use marker-only style (점만 표시)
        name="Scatter"  # Legend label (범례 라벨)
    )
)

# Update layout to change title (레이아웃 설정을 통해 제목 변경)
fig.update_layout(
    title={  # Title settings (제목 설정)
        "text": "New Edit Scatter",  # Title text (제목 텍스트)
        "font": {
            "size": 24,  # Title font size (제목 폰트 크기)
            "color": "darkblue"  # Title font color (제목 색상)
        },
        "x": 0.5  # Center alignment (중앙 정렬)
    }
)

fig.show()  # Display the plot (그래프 출력)


#### Legend Settings(범례지정)
- `legend.title` : Title for the legend<br>(범례의 제목을 지정하는 속성)
- `legend.x` : X coordinate of the legend (0 to 1)<br>(범례의 x좌표 위치 지정, 0에서 1 사이 값 사용)
- `legend.y` : Y coordinate of the legend (0 to 1)<br>(범례의 y좌표 위치 지정, 0에서 1 사이 값 사용)
- `legend.xanchor` : Anchor point on the x-axis for alignment (`left`, `center`, `right`)<br>(범례의 x축 정렬 기준 설정, 주요 옵션: `left`, `center`, `right`)
- `legend.yanchor` : Anchor point on the y-axis for alignment (`top`, `middle`, `bottom`)<br>(범례의 y축 정렬 기준 설정, 주요 옵션: `top`, `middle`, `bottom`)
- `legend.bordercolor` : Color of the legend's border<br>(범례의 테두리 색상 지정, 예: `"black"`)
- `legend.borderwidth` : Width of the legend border<br>(범례 테두리의 두께 설정, 예: `1`)


In [None]:
import plotly.graph_objects as go
import numpy as np

# Create random x and y data (x, y 값 무작위 생성)
x_data = np.random.rand(100)  # (x축 데이터 생성)
y_data = np.random.rand(100)  # (y축 데이터 생성)

# Create random categories (범주 데이터 생성)
categories = np.random.choice(["A", "B", "C"], 100)  # (카테고리를 A, B, C 중 무작위로 선택)

# Create a figure object (그래프 객체 생성)
fig = go.Figure()

# Add a scatter plot for each category (카테고리별 산점도 추가)
for v in ["A", "B", "C"]:
    fig.add_trace(
        go.Scatter(
            x=x_data[categories == v],  # x값 필터링 (해당 카테고리만)
            y=y_data[categories == v],  # y값 필터링
            mode="markers",             # 점 모양으로 표시 (마커 모드)
            name=f"Category {v}"        # 범례 이름 설정 (자동 구분)
        )
    )

# Update layout with customized legend (범례 스타일 지정)
fig.update_layout(
    title="Category Example",  # 그래프 제목 (Title of the graph)
    legend=dict(
        title="Category Title",  # 범례 제목 (Legend title)
        x=1.02,                  # 범례의 x좌표 (Legend X position)
        y=1,                     # 범례의 y좌표 (Legend Y position)
        xanchor="left",          # 범례 x 정렬 기준 (X alignment)
        yanchor="top",           # 범례 y 정렬 기준 (Y alignment)
        bordercolor="black",     # 범례 테두리 색상 (Border color)
        borderwidth=1            # 범례 테두리 두께 (Border width)
    )
)

# Show the plot (그래프 표시)
fig.show()

#### X-axis configuration using fig.update_xaxes() allows you to customize the appearance and behavior of the X-axis, including title, font, tick spacing, and angle.<br>(fig.update_xaxes() 메서드를 사용하면 X축의 제목, 글꼴, 눈금 간격, 각도 등 다양한 설정을 사용자 정의할 수 있습니다.)

In [None]:
import plotly.graph_objects as go  # Import Plotly Graph Objects (Plotly 그래프 객체 모듈 불러오기)
import numpy as np  # Import NumPy (NumPy 모듈 불러오기)

x_data = np.arange(50)  # Create x-axis data from 0 to 49 (x축 데이터 0부터 49까지 생성)
y_data = np.random.rand(50)  # Generate 50 random y-axis values (50개의 무작위 y값 생성)

fig = go.Figure()  # Create a new Figure object (새로운 Figure 객체 생성)

# Add a line graph trace (선 그래프 추가)
fig.add_trace(
    go.Scatter(
        x=x_data,  # x-axis data (x축 데이터)
        y=y_data,  # y-axis data (y축 데이터)
        mode="lines",  # Display as lines (선으로 표시)
        name="Line Graph"  # Legend label (범례 라벨)
    )
)

# Set the layout title (그래프 제목 설정)
fig.update_layout(title="Setting X Example")

# Update X-axis settings (X축 설정 변경)
fig.update_xaxes(
    title_text="time(second)",  # Title for the x-axis (X축 제목)
    title_font=dict(size=18,    # Font size for the title (제목 폰트 크기)
                    color="purple"),  # Font color (제목 폰트 색상)
    tickangle=45,  # Rotate tick labels 45 degrees (눈금 라벨 각도 45도 회전)
    dtick=5        # Set tick interval to 5 units (눈금 간격을 5로 설정)
)

fig.show()  # Display the figure (그래프 출력)

#### Y-Axis 설정 변경 (Y-Axis Settings Adjustment) (※ fig.update_yaxes() 메서드를 사용해 y축의 제목, 글꼴, 눈금 간격, 회전 각도 등 시각적 요소를 조절할 수 있습니다.)

In [None]:
import plotly.graph_objects as go  # Plotly 그래프 객체 불러오기
import numpy as np  # NumPy 모듈 불러오기

x_data = np.arange(50)  # x축 데이터 생성 (0부터 49까지)
y_data = np.random.rand(50) * 100  # y축 데이터 생성 (0~100 사이 난수)

fig = go.Figure()  # 새로운 Figure 객체 생성

# 선 그래프 추가 (Add a line graph)
fig.add_trace(
    go.Scatter(
        x=x_data,  # x축 값
        y=y_data,  # y축 값
        mode="lines",  # 선으로 표시
        name="Line Data"  # 범례 이름
    )
)

# 레이아웃 타이틀 설정 (Set layout title)
fig.update_layout(title="Y-Axis Setting Example")

# y축 설정 업데이트 (Update y-axis settings)
fig.update_yaxes(
    title_text="Value (score)",  # y축 제목 (y-axis title)
    title_font=dict(size=18, color="darkgreen"),  # 제목 글꼴 크기 및 색상 (font size and color)
    tickangle=0,  # 눈금 라벨 각도 (Tick label rotation angle)
    dtick=10  # 눈금 간격 설정 (Tick interval set to 10)
)

fig.show()  # 그래프 출력

#### X, Y 축 세팅 (X, Y Axis Settings) (X축과 Y축의 제목, 글꼴 스타일, 눈금 간격 등을 설정할 수 있습니다.)

In [None]:
import plotly.graph_objects as go  # Import the graph objects module from Plotly (Plotly의 그래프 객체 모듈 불러오기)
import numpy as np  # Import the NumPy library (NumPy 라이브러리 불러오기)

x_data = np.arange(50)  # Create an array of integers from 0 to 49 (0부터 49까지 정수 배열 생성)
y_data = np.random.rand(50)  # Generate 50 random float values between 0 and 1 (0~1 사이의 무작위 실수 50개 생성)

fig = go.Figure()  # Initialize an empty Figure object (빈 Figure 객체 생성)

# Add a line trace to the figure (선 그래프 추가)
fig.add_trace(
    go.Scatter(
        x=x_data,  # Set x-axis values (x축 데이터 설정)
        y=y_data,  # Set y-axis values (y축 데이터 설정)
        mode="lines",  # Display as lines only (선만 표시)
        name="Line Graph"  # Legend name (범례 이름 설정)
    )
)

# Set the main title of the chart (그래프 제목 설정)
fig.update_layout(title="Setting X,Y Example")

# Configure the X-axis (X축 설정)
fig.update_xaxes(
    title_text="time(second)",  # Set title of x-axis (x축 제목)
    title_font=dict(size=18, color="purple"),  # Set font size and color of x-axis title (x축 제목 폰트 크기와 색상)
    tickangle=45,  # Rotate x-axis tick labels by 45 degrees (x축 눈금 라벨을 45도 회전)
    dtick=5  # Set the spacing between ticks to 5 units (눈금 간격을 5 단위로 설정)
)

# Configure the Y-axis (Y축 설정)
fig.update_yaxes(
    title_text="Value",  # Set title of y-axis (y축 제목)
    title_font=dict(size=18, color="Green"),  # Set font size and color of y-axis title (y축 제목 폰트 크기와 색상)
    tickfont=dict(size=12),  # Set tick label font size (눈금 텍스트 크기 설정)
    dtick=5  # Set the spacing between ticks to 5 units (눈금 간격을 5 단위로 설정)
)

fig.show()  # Display the figure (그래프 출력)

#### Line graph example (라인그래프 예)

In [None]:
import numpy as np
import plotly.graph_objects as go
import pandas as pd  # 📝 pandas를 누락하신 것 같아 추가했습니다. (Added pandas import)

# Create DataFrame (데이터프레임 생성)
df = pd.DataFrame({
    "A": np.random.rand(50)  # Column A with 50 random values (A 컬럼에 50개의 난수 생성)
})

fig = go.Figure()  # Create a blank figure (빈 그래프 객체 생성)

# Add Scatter trace: x is index, y is values in column "A" (Scatter 트레이스 추가: x는 인덱스, y는 A 컬럼 값)
fig.add_trace(
    go.Scatter(
        x=df.index,            # X-axis: DataFrame index (X축: 데이터프레임 인덱스)
        y=df["A"],             # Y-axis: values of column "A" (Y축: A 컬럼의 값)
        mode="lines+markers",  # Display both lines and markers (선과 마커(점)를 함께 표시)
        name="A Data",         # Legend name (범례 표시 이름)
        showlegend=True        # Show legend (범례 표시)
    )
)

# Update layout: set title and axis labels (레이아웃 업데이트: 제목 및 축 레이블 설정)
fig.update_layout(
    title={
        "text": "Graph with go.Scatter",  # Graph title (그래프 제목)
        "font": {"size": 15}              # Title font size (제목 글꼴 크기)
    },
    xaxis={"title": "index"},  # X-axis label (x축 제목)
    yaxis={"title": "A"},      # Y-axis label (y축 제목)
    showlegend=True            # Show legend (범례 표시)
)

fig.show()  # Display the figure (그래프 출력)

#### Compound Line Graph(복합라인 그래프)
- top left: Display text at the top-left of the data point<br>(데이터 포인트의 상단 왼쪽에 텍스트 표시)
- top center: Display text at the top-center of the data point<br>(데이터 포인트의 상단 중앙에 텍스트 표시)
- top right: Display text at the top-right of the data point<br>(데이터 포인트의 상단 오른쪽에 텍스트 표시)
- middle left: Display text at the middle-left of the data point<br>(데이터 포인트의 중간 왼쪽에 텍스트 표시)
- middle right: Display text at the middle-right of the data point<br>(데이터 포인트의 중간 오른쪽에 텍스트 표시)
- bottom left: Display text at the bottom-left of the data point<br>(데이터 포인트의 하단 왼쪽에 텍스트 표시)
- bottom center: Display text at the bottom-center of the data point<br>(데이터 포인트의 하단 중앙에 텍스트 표시)
- bottom right: Display text at the bottom-right of the data point<br>(데이터 포인트의 하단 오른쪽에 텍스트 표시)

In [None]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go

# Create a DataFrame with two random columns "A" and "B"
# (무작위 숫자 2개의 열 "A", "B"로 구성된 데이터프레임 생성)
df = pd.DataFrame({
    "A":np.random.rand(50),
    "B":np.random.rand(50)
})

# Create an empty figure object
# (빈 그래프 객체 생성)
fig = go.Figure()

# Add first line trace for column A
# (첫 번째 선형 트레이스를 A열에 대해 추가)
fig.add_trace(
    go.Scatter(
        x=df.index,          # x-axis values (인덱스를 x축으로 사용)
        y=df["A"],           # y-axis values from column A (A열 값을 y축으로 사용)
        mode="lines",        # Only lines are shown (선만 표시)
        name="A"             # Legend label (범례 이름)
    )
)

# Add second line trace for column B with markers and text
# (두 번째 선형 트레이스 추가: 선 + 마커 + 텍스트 포함)
fig.add_trace(
    go.Scatter(
        x=df.index,                  # x-axis values (인덱스를 x축으로 사용)
        y=df["B"],                   # y-axis values from column B (B열 값을 y축으로 사용)
        mode="lines+markers+text",  # Show lines, markers, and text (선, 마커, 텍스트 표시)
        name="B",                    # Legend label (범례 이름)
        text=df.index,              # Display index value as text on each point (각 점에 인덱스 값을 텍스트로 표시)
        textposition="top center"   # Text positioned at top center of marker (마커 위쪽 중앙에 텍스트 위치)
    )
)

# Display the figure
# (그래프 출력)
fig.show()

#### Bar Chart Example (바 그래프 예)
- textposition: Option to specify the position of text on bars<br>(textposition: 막대에 텍스트를 표시할 위치를 지정하는 옵션)
- auto: Plotly automatically selects the optimal position and displays the text<br>
(auto: Plotly가 최적의 위치를 자동으로 선택하여 텍스트를 표시함)
- inside: Displays the text inside the bar<br>(inside: 텍스트를 막대 내부에 표시함)
- outside: Displays the text outside the bar<br>(outside: 텍스트를 막대 외부에 표시함)

In [None]:
import numpy as np
import pandas as pd
import plotly.graph_objects as go  # plotly.graph_objects 모듈 불러오기

# Create a DataFrame with 10 rows and 2 columns of random values
# 난수로 이루어진 10행 2열의 DataFrame 생성
df = pd.DataFrame(np.random.rand(10, 2), columns=["A", "B"])

# Initialize a figure object
# 그래프 객체 초기화
fig = go.Figure()

# Add first bar trace for column A
# 첫 번째 막대그래프 추가 (A 컬럼 데이터 사용)
fig.add_trace(
    go.Bar(
        x=df.index,              # X축: DataFrame의 인덱스
        y=df["A"],               # Y축: A 컬럼의 값
        name="A",                # 범례 이름: A
        text=df["A"],            # 각 막대 위에 표시될 텍스트
        textposition="auto"      # 텍스트 위치: Plotly가 자동 결정
    )
)

# Add second bar trace for column B
# 두 번째 막대그래프 추가 (B 컬럼 데이터 사용)
fig.add_trace(
    go.Bar(
        x=df.index,              # X축: DataFrame의 인덱스
        y=df["B"],               # Y축: B 컬럼의 값
        name="B",                # 범례 이름: B
        text=df["B"],            # 각 막대 위에 표시될 텍스트
        textposition="auto"      # 텍스트 위치: Plotly가 자동 결정
    )
)

# Display the figure
# 그래프 출력
fig.show()

#### Graph Detail Adjustment Example(그래프 세부 조정 예시)
- texttemplate: Specifies the format of the text displayed on the graph. For example, "%{y:.2f}" formats the y-axis value to two decimal places.<br>(texttemplate: 그래프에 표시되는 텍스트의 형식을 지정합니다. 예를 들어, "%{y:.2f}"는 y축 값을 소수점 둘째 자리까지 포맷하여 보여줍니다.)

In [None]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go

# Create a DataFrame with 2 columns and 10 rows, random values between 10 and 50
# (2열 10행의 데이터프레임 생성, 값은 10~50 사이의 난수)
df = pd.DataFrame({
    "A": np.random.randint(10, 50, size=10),
    "B": np.random.randint(10, 50, size=10)
})

fig = go.Figure()

# Add bar graph for column A
# (A 컬럼에 대한 막대 그래프 추가)
fig.add_trace(
    go.Bar(
        x=df.index,                    # x-axis: DataFrame index (x축: 데이터프레임 인덱스)
        y=df["A"],                     # y-axis: values from column A (y축: A 컬럼 값)
        text=df["A"],                  # Display value on bar (막대 위에 값 표시)
        textposition="auto",          # Let Plotly choose best text position (자동 위치 조정)
        texttemplate="%{y:.2f}"       # Format y value to 2 decimal places (y값을 소수점 둘째 자리까지 표시)
    )
)

# Add bar graph for column B
# (B 컬럼에 대한 막대 그래프 추가)
fig.add_trace(
    go.Bar(
        x=df.index,
        y=df["B"],
        text=df["B"],
        textposition="auto",
        texttemplate="%{y:.2f}"
    )
)

# Update layout settings for the graph
# (그래프의 레이아웃 설정)
fig.update_layout(
    {
        "title": {
            "text": "Graph with <b>go.Bar<b>",  # Graph title (그래프 제목)
            "x": 0.5,                            # Title position: center (제목 중앙 정렬)
            "y": 0.9,
            "font": {
                "size": 20                      # Title font size (제목 글자 크기)
            }
        },
        "showlegend": True,                     # Show legend (범례 표시)
        "xaxis": {
            "title": "random number",           # X-axis title (x축 제목)
            "showticklabels": True,             # Show x-axis labels (x축 눈금 라벨 표시)
            "dtick": 1                          # Tick interval of 1 (눈금 간격 1)
        },
        "yaxis": {
            "title": "A"                        # Y-axis title (y축 제목)
        },
        "autosize": False,                      # Disable auto-sizing (자동 크기 조정 비활성화)
        "width": 800,                           # Set graph width (그래프 너비 설정)
        "height": 340                           # Set graph height (그래프 높이 설정)
    }
)

fig.show()

#### EDA and Visualization Techniques Based on Data Types (EDA와 데이터 타입에 따른 시각화 기법)
#### Estimating Central Tendency and Dispersion for Data Analysis (데이터 분석을 위한 위치 추정과 범위 추정)
- The third step in exploratory data analysis (EDA): a basic exploration for feature analysis.<br>(탐색적 데이터 분석의 세 번째 단계: feature 분석을 위한 기본 탐색)
- Central Tendency: Summarizing a feature by finding a representative value from a large dataset.<br>(위치 추정: 방대한 데이터에서 대표값을 찾아 해당 feature의 요약 정보 도출)
- Usually, the mean is used, but it may not be suitable in the presence of outliers.<br>(보통 평균을 사용하지만, 이상치가 있을 경우 적합하지 않을 수 있음)
- Dispersion: Describes the spread or variability of the data.<br>(변이 추정: 데이터의 분포를 통해 해당 feature의 분산도 요약)

#### Central Tendency (위치 추정)
#### Mean (평균): The average of all values. (모든 값을 합하여 개수로 나눈 값)
#### Median (중앙값)
- The middle value when data is sorted.<br>(데이터를 정렬한 후 중간에 위치한 값)
- Median is preferred in EDA over mean due to its robustness against outliers.<br>(EDA에서는 평균보다 중간값이 이상치에 영향을 덜 받아 더 선호됨)
#### Trimmed Mean (절사평균): Remove extreme values from both ends and compute the mean of the remaining values. (데이터 양끝의 일정 개수 값을 제거하고 남은 값으로 평균을 계산)
#### Variance and Standard Deviation (변이 추정: 분산과 표준편차)

- Variance (분산): Average of squared differences from the mean.<br>(평균으로부터 각 데이터의 차이를 제곱한 값의 평균)
$$
\sigma^2 = \dfrac{\sum_{i = 1}^{N} (x_i - \mu)^2}{N}$$
- $ \sigma^2 $ : population variance (모분산)
- $ \mu $ : mean (평균)
- $ N $ : number of data points (데이터 수)
- $ x_i $ : i-th data point (i번째 데이터)
- Standard Deviation (표준편차): The square root of variance — provides a more interpretable scale of dispersion.<br>(분산에 루트를 씌운 값으로, 원래 데이터 단위로 분산을 표현)
- $ \sigma $ : population standard deviation (모표준편차)

In [None]:
import pandas as pd

# Create a DataFrame with two columns, A and B
# A 열과 B 열을 가진 데이터프레임 생성
df = pd.DataFrame({
    "A": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],     # Column A with values from 1 to 10 (1부터 10까지의 값)
    "B": [1, 2, 3, 4, 5, 6, 7, 8, 9, 100]     # Column B with a large outlier at the end (마지막에 이상치 100 포함)
})

df  # Display the DataFrame (데이터프레임 출력)

In [None]:
#provides a summary of statistics for each numerical column in the DataFrame.
#df.describe()는 데이터프레임의 각 숫자형 컬럼에 대한 통계 요약 정보를 제공합니다
df.describe()

#### Numerical Data (수치형 데이터)
- Continuous Data(연속형 데이터): Data that can take any value within a given range, including integers and floating-point numbers.
(정수와 소수를 포함해 특정 범위 내 어떤 값이든 가질 수 있는 데이터)
- Discrete Data(이산형 데이터):Data that can take only specific separate values, usually integers like counts.(횟수처럼 정수만 가질 수 있는 데이터)이든 가질 수 있는 데이터
#### Categorical Data (범주형 데이터)
- Nominal Data(명목형 데이터): Categorical data with named values, such as labels or types. These are used for classification, and the possible values are called levels. (카테고리, 타입과 같은 이름이 있는 데이터로 분류에 사용되며, 가능한 값들을 수준(level)이라 함)
- Binary Data(이진 데이터): A subtype of nominal data with only two levels like True/False or 0/1. (True/False, 0/1처럼 두 가지 값만 가지는 명목형 데이터)
- Ordinal Data(순서형 데이터): Categorical data with a defined order between values.(값들 사이에 순서가 있는 데이터)
- Example: Very Dissatisfied(1) – Dissatisfied(2) – Neutral(3) – Satisfied(4) – Very Satisfied(5) (예: 매우불만(1) – 불만(2) – 보통(3) – 만족(4) – 매우만족(5))
#### Five Number Summary (다섯 수치 요약)
- Minimum, Q1, Median (Q2), Q3, Maximum (최소값, 제1사분위수, 중간값, 제3사분위수, 최대값)
- Quartile(사분위수): Boundary values dividing the dataset into four equal parts based on value ranking. (데이터를 크기순으로 나눠 4등분할 때의 경계값)
- Used in EDA(EDA에서의 활용):
    - 'Q1: 25% percentile(25% 위치에 해당하는 값)
    - 'Q2: 50% percentile (Median)(50%, 즉 중간값)
    - 'Q3: 75% percentile(75% 위치에 해당하는 값)
    - 'Q4: 100% percentile (Maximum)(최대값)

In [None]:
import numpy as np
import pandas as pd

# Create a DataFrame with two columns A and B
# (열 A와 B를 가진 데이터프레임 생성)
df = pd.DataFrame({
    "A": [1, 2, 3, 4, 5, 6],    # Column A with regular values (일반적인 값들로 구성된 A 열)
    "B": [1, 2, 3, 4, 5, 100]   # Column B with an outlier (이상치가 포함된 B 열)
})

df  # Display the DataFrame (데이터프레임 출력)

In [None]:
#provides a summary of statistics for each numerical column in the DataFrame.
#df.describe()는 데이터프레임의 각 숫자형 컬럼에 대한 통계 요약 정보를 제공합니다
df.describe()

In [None]:
# Understand graph types based on analysis type: 5-number summary and outlier detection using box plot
# (분석 유형에 따른 그래프 종류 이해: 다섯 수치 요약과 이상치(특이값) 확인 - 박스 플롯 사용)

import plotly.express as px  # Import plotly express library (plotly express 라이브러리 불러오기)

# Create box plot for columns A and B
# (A, B 열에 대한 박스 플롯 생성)
fig = px.box(df, y=["A", "B"], title="Using Plotly Box Plot Graph")
# title: set the graph title (그래프 제목 설정)

fig.show()  # Display the graph (그래프 출력)

# You can identify outliers in the data
# (데이터에서 이상치가 있는 것을 확인 가능)

In [None]:
# Understand Graph Types Based on Analysis Purpose: 5-number summary and outlier detection using plotly.graph_objects.box
# (분석 목적에 따른 그래프 유형 이해: 다섯 수치 요약과 이상치(특이값) 확인 → plotly.graph_objects.boxplot 사용)

import plotly.graph_objects as go  # Import the Plotly Graph Objects library (Plotly Graph Objects 라이브러리 불러오기)

fig = go.Figure()  # Create a new figure object (새로운 Figure 객체 생성)

# Add box plot for column "A"
# ("A" 열에 대한 박스플롯 추가)
fig.add_trace(
    go.Box(y=df["A"], name="A")
)

# Add box plot for column "B"
# ("B" 열에 대한 박스플롯 추가)
fig.add_trace(
    go.Box(y=df["B"], name="B")
)

fig.show()  # Display the plot (그래프 표시)

# You can visually identify outliers in the box plot
# (박스플롯을 통해 이상치가 있는 것을 시각적으로 확인 가능)

#### Understanding Graph Types Based on Analysis Type: Visualization for Numerical Data Distribution(분석 타입에 따른 그래프 종류 이해 : 수치형 데이터 분포를 확인하기 위한 시각화)
- Frequency Table: A table that divides numerical data into intervals and shows the number of data points in each interval.<br>(도수분포표: 수치형 데이터를 구간으로 나눠서 각 구간에 속하는 데이터의 개수를 나타내는 표)
- Histogram Graph: A visual representation of a frequency table using bars to show the distribution of numerical data.<br>(히스토그램 그래프: 도수 분포표를 시각적으로 표현한 그래프)


In [None]:
import numpy as np
import pandas as pd

# Create a DataFrame with 10,000 rows and 1 column filled with random float values between 0 and 1
# (0과 1 사이의 난수(float)로 구성된 10,000행 1열짜리 데이터프레임 생성)
df = pd.DataFrame(np.random.rand(10000, 1), columns=["A"])

# Display the DataFrame
# (데이터프레임 출력)
df

In [None]:
# Understand Graph Types by Analysis Type: Confirm 5-number summary and outliers using plotly.express.histogram
# (분석 타입에 따른 그래프 종류 이해: 다섯 수치요약과 이상치(특이값) 확인 > plotly.express.histogram 사용)

import plotly.express as px

# Create a histogram to show the distribution of column "A" with 50 bins
# ("A" 열의 분포를 50개의 구간(bin)으로 나눠서 시각화하는 히스토그램 생성)
fig = px.histogram(
    df,
    x="A",               # Column to be displayed on the x-axis (x축에 표시할 열)
    nbins=50,            # Number of bins (x-axis intervals) (x축 구간(bin) 수)
    title="Using Plotly Histogram Graph"  # Graph title (그래프 제목)
)

# Display the figure
# (그래프 출력)
fig.show()

In [None]:
# Understand Graph Types by Analysis Type: Confirm 5-number summary and outliers using plotly.graph_objects.Histogram
# (분석 타입에 따른 그래프 종류 이해: 다섯 수치요약과 이상치(특이값) 확인 > plotly.graph_objects.histogram 사용)

import plotly.graph_objects as go

# Create an empty figure
# (빈 그래프 객체 생성)
fig = go.Figure()

# Add a histogram trace for column "A" with 50 bins
# ("A" 열의 히스토그램 트레이스를 추가하고, 50개의 구간(bin)으로 나눔)
fig.add_trace(
    go.Histogram(
        x=df["A"],          # Data to be displayed on x-axis (x축에 표시할 데이터)
        nbinsx=50,          # Number of bins (x축 구간(bin) 수)
        name="Histogram"    # Legend name (범례 이름)
    )
)

# Display the figure
# (그래프 출력)
fig.show()

#### Summary of Categorical Data(범주형 데이터 요약)
- Classify data by levels(수준별로 데이터 분류)
- Count the number of occurrences for each level(수준별로 데이터 갯수 세기)
    - '**Absolute frequency**: actual count(절대빈도: 실제 개수)
    - '**Relative frequency**: proportion of each level(상대빈도: 각 수준의 비율)
- Visualize the result(시각화)

#### Understanding Graph Types by Analysis Type: Common Graphs Used for Categorical Data Analysis<br>  
(분석 타입에 따른 그래프 종류 이해: 범주형 데이터 분석을 위해 주로 사용되는 그래프)
- **Bar Chart**: shows absolute frequency(막대그래프: 절대빈도 표현)
- **Pie Chart**: shows relative frequency(파이그래프: 상대빈도 표현)

In [None]:
# Count number of entries per level (수준별로 데이터 개수 세기)

# size: Returns total size including NaN (size : NaN 포함 전체 크기 반환)
# count(): Returns number of non-NaN entries (count() : NaN 제외 데이터 개수 반환)
# unique(): Returns unique values (unique() : 유일한 값 반환)
# value_counts(): Returns count of each value (excluding NaN)
# (value_counts() : NaN 제외한 각 값의 개수 반환)

import pandas as pd

# Sample categorical dataset (범주형 샘플 데이터 생성)
data = {
    "year" : ["2017", "2017", "2019", "2020", "2021", "2021"],
    "grade" : ["C", "C", "B", "A", "B", "E"]
}

# Create DataFrame (데이터프레임 생성)
df = pd.DataFrame(data)

# Display DataFrame (데이터프레임 출력)
df

In [None]:
#Returns the total number of elements in the "year" column, including any missing values (NaN).
#"year" 열의 전체 원소 개수를 반환하며, 결측값(NaN)도 포함됩니다.
df["year"].size

In [None]:
#Returns the count of each unique value in the "year" column, excluding missing values (NaN). The result is sorted by count in descending order by default.
#"year" 열에서 각 고유 값의 개수를 반환합니다. 결측값(NaN)은 제외되며, 기본적으로 빈도수 내림차순으로 정렬됩니다.
df["year"].value_counts()

In [None]:
#Returns the total number of elements in the "grade" column, including any missing values (NaN).
#"grade" 열의 전체 원소 개수를 반환하며, 결측값(NaN)도 포함됩니다.
df["grade"].size

In [None]:
#Returns the count of each unique value in the "grade" column, excluding missing values (NaN). The result is sorted by count in descending order by default.
#"grade" 열에서 각 고유 값의 개수를 반환합니다. 결측값(NaN)은 제외되며, 기본적으로 빈도수 내림차순으로 정렬됩니다.
df["grade"].value_counts()

In [None]:
#Groups the df DataFrame by the "grade" column and counts the number of occurrences for each grade. The .count() function counts non-null values in each group for every column. As a result, it will show how many rows (per "grade") exist for each column ("year" in this case).
#df 데이터프레임을 "grade" 컬럼을 기준으로 그룹화한 뒤, 각 그룹(등급)에 속한 행의 개수를 계산합니다..count() 함수는 각 그룹 내의 결측치가 아닌 값의 개수를 세며, 이 예제에서는 "year" 컬럼의 값 개수를 나타냅니다.
df1 = df.groupby("grade").count()
df1

In [None]:
# Import the Plotly Express library for data visualization (데이터 시각화를 위한 Plotly Express 라이브러리 불러오기)
import plotly.express as px

# Create a bar chart using Plotly Express (Plotly Express를 사용하여 막대 그래프 생성)
fig1 = px.bar(
    x=df1.index,             # Set x-axis values as the index of df1 (grades) (x축 값을 df1의 인덱스(등급)로 설정)
    y=df1["year"],           # Set y-axis values as the count of 'year' for each grade (y축 값을 각 등급의 'year' 개수로 설정)
    title="Grade Count",     # Set the chart title (그래프 제목 설정)
    labels={                 # Customize axis labels (축 레이블 설정)
        "x": "Grade",        # Label for x-axis (x축 레이블: Grade)
        "y": "Count"         # Label for y-axis (y축 레이블: Count)
    },
    text=df1["year"]         # Display count value on each bar (각 막대 위에 'year' 개수 값 표시)
)

# Show the generated figure (생성된 그래프를 화면에 표시)
fig1.show()

In [None]:
df2 = df.groupby("year").count()  # Group by the 'year' column and count entries for each year (excluding NaN)
                                 # ('year' 컬럼을 기준으로 그룹화하여 각 연도별 데이터 개수 계산 - 결측치는 제외됨)

df2  # Display the resulting DataFrame
     # (결과 데이터프레임 출력)

In [None]:
# Import the Plotly Express library for data visualization (데이터 시각화를 위한 Plotly Express 라이브러리 불러오기)
import plotly.express as px

# Create a bar chart for absolute frequency by 'year' (year 별 절대빈도를 위한 막대 그래프 생성)
fig2 = px.bar(
    x=df2.index,              # Set x-axis values as the index of df2 (years) (x축 값으로 df2 인덱스(year) 설정)
    y=df2["grade"],           # Set y-axis values as the count of 'grade' for each year (y축 값으로 각 year에 해당하는 grade 개수 설정)
    title="Grade Count",      # Set chart title (그래프 제목 설정)
    labels={                  # Customize axis labels (축 레이블 설정)
        "x": "year",          # Label for x-axis (x축 레이블: year)
        "y": "Count"          # Label for y-axis (y축 레이블: Count)
    },
    text=df2["grade"]         # Display the count value on top of each bar (막대 위에 grade 개수 값 표시)
)

# Display the chart (그래프를 화면에 출력)
fig2.show()

In [None]:
# Import the Plotly Express library for data visualization (데이터 시각화를 위한 Plotly Express 라이브러리 불러오기)
import plotly.express as px

# Create a pie chart to show the relative frequency by grade (등급별 상대빈도를 표시하는 파이 그래프 생성)
fig3 = px.pie(
    values=df1["year"],            # Set values as the count of 'year' for each grade (각 등급의 year 개수를 비율 값으로 설정)
    names=df1.index,               # Set names (labels) as the grade (라벨로 사용할 값은 등급)
    title="Grade Distribution"     # Set chart title (그래프 제목 설정)
)

# Display the pie chart (파이 그래프를 화면에 출력)
fig3.show()

In [None]:
# Import the Plotly Express library for data visualization (데이터 시각화를 위한 Plotly Express 라이브러리 불러오기)
import plotly.express as px

# Create a pie chart to show the relative frequency by year (연도별 상대빈도를 표시하는 파이 그래프 생성)
fig4 = px.pie(
    values=df2["grade"],         # Set values as the count of 'grade' per year (각 연도의 grade 개수를 비율 값으로 설정)
    names=df2.index,             # Set names (labels) as the year (라벨로 사용할 값은 연도)
    title="Year Distribution"    # Set chart title (그래프 제목 설정)
)

# Display the pie chart (파이 그래프를 화면에 출력)
fig4.show()

#### Table Data and Time Series Data (테이블 데이터와 시계열 데이터)
- Table Data: Data organized in rows and columns, similar to Excel.<br>(테이블 데이터: 엑셀처럼 행과 열로 구성된 데이터)
- Feature: Refers to a column in the table.<br>(Feature: 테이블에서 열을 의미함)
- Record: Refers to a row in the table.<br>(Record: 테이블에서 행을 의미함)
- Index: A value used to identify the position of the data.<br>(Index: 데이터의 위치를 식별하기 위한 값)
- Time Series Data: Data arranged at regular time intervals, dependent on time.<br>(시계열 데이터: 일정한 시간 간격으로 배치된 시간 의존형 데이터)

#### Preparation for Time Series Data Visualization (시계열 데이터 시각화를 위한 사전 준비)

- pd.date_range(start="2024-01-01", end="2024-12-31"): Generate a range of dates.<br>(2024년 1월 1일부터 12월 31일까지의 날짜 범위 생성)
- freq="2ME": Every 2 months at the month-end.<br>(2개월 단위의 월말 날짜 생성)
- freq="D": Daily frequency.<br>(1일 단위 날짜 생성)
- periods=5: Evenly divide the period into 5 dates.<br>(start와 end 사이를 균등하게 5개의 날짜로 분할)

#### Commonly Used Charts for Time Series Analysis(시계열 분석 시 주로 사용하는 그래프 종류)
- Line Chart<br>(라인 그래프)
- Bar Chart<br>(막대 그래프)

In [None]:
#Generates a list of dates from January 1, 2024 to December 31, 2024 with a default daily frequency.
#2024년 1월 1일부터 2024년 12월 31일까지 날짜를 하루 단위로 생성합니다.
pd.date_range(
    start="2024-01-01",     # Start date of the range (시작 날짜)
    end="2024-12-31"        # End date of the range (끝 날짜)
)

In [None]:
#Generates a list of dates from January 1 to December 31, 2024, selecting the last day of every 2nd month.
#2024년 1월 1일부터 2024년 12월 31일까지 범위에서, 2개월마다 월말 날짜를 생성합니다.
pd.date_range(
    start="2024-01-01",     # Start date of the range (시작 날짜)
    end="2024-12-31",       # End date of the range (끝 날짜)
    freq="2ME"              # Frequency: every 2 months, end of month (빈도: 2개월마다 월말 날짜)
)

In [None]:
#Generates 5 equally spaced dates between January 1 and December 31, 2024.
#2024년 1월 1일부터 2024년 12월 31일까지 사이에서 균등 간격으로 5개의 날짜를 생성합니다.
pd.date_range(
    start="2024-01-01",     # Start date of the range (시작 날짜)
    end="2024-12-31",       # End date of the range (끝 날짜)
    periods=5               # Number of equally spaced dates to generate (균등 간격의 날짜 5개 생성)
)

#### Pandas DataFrame 작성 방법(Creating a Pandas DataFrame)
- pd.DataFrame(data=리스트, columns=컬럼명, index=인덱스데이터})

In [None]:
date_index = pd.date_range(start="2024-01-01", end="2024-01-31", freq="2D")
df = pd.DataFrame(
    data=range(len(date_index)),
    columns=["count"],
    index=date_index
)
df

In [None]:
import plotly.express as px

fig_line = px.line(
    df,
    x=df.index,
    y="count",
    title="Time Series Line"
)

fig_line.update_xaxes(title="Date")
fig_line.update_yaxes(title="Count")

fig_line.show()

In [None]:
import plotly.express as px

fig_line = px.line(
    df,
    x=df.index,
    y="count",
    title="Time Series Line"
)

fig_line.update_xaxes(title="Date")
fig_line.update_yaxes(title="Count")

fig_line.update_xaxes(
    tickmode="linear",
    dtick="D2",
    tickangle=45
)

fig_line.show()

In [None]:
import plotly.express as px

fig_bar = px.bar(
    df,
    x=df.index,
    y="count",
    title="Time Series Bar"
)

fig_bar.update_xaxes(
    tickmode="array",
    tickvals=df.index,
    ticktext=[date.strftime("%y-%m-%d") for date in df.index],
    tickangle=45
)

fig_bar.update_xaxes(title="Date")
fig_bar.update_yaxes(title="Count")

fig_bar.show()


In [None]:
import plotly.graph_objects as go

fig_go_bar = go.Figure()

fig_go_bar.add_trace(
    go.Bar(
        x=df.index,
        y=df["count"],
        name="Count"
    )
)

fig_go_bar.update_xaxes(
    tickmode="linear",
    dtick=86400000,
    tickangle=45
)

fig_go_bar.update_layout(
    title="Time Series Bar",
    xaxis_title="Date",
    yaxis_title="Count"
)

fig_go_bar.show()

#### 상관관계를 확인하ㅣ위해 주로 사용되는 그래프 타입
- feature 간의 상관관계분석
- +1에 가까우면 양의 선형 상관관계(1에 가까울수록 선에 가까운 데이터가 많고, 한 변수가 증가하면 다른 변수값도 증가). 0에 가까우면 상관관계가 없음. -1에 가까우면 음의 선형 상관관계를 가짐(-1에 가까울 수록 선에 가까운 데잍가 많고 한 변수값이 증가하면 다른 변수값은 감소)
- 주요 그래프 타입 > heatmap 그래프, 산점도(Scatter) 그래프
#### 히트맵 그래프 : https://plotly.com/python/heatmaps/
- text_auto : 각 셀 안에 해당하는 값을 자동으로 텍스트로 표시 > True 모든 셀에 값이 자동 표시 / False 셀에 값 표시 안함
- aspect : 히트맵 가로세로 비율을 조정 > auto 또는 숫자로 고정 비율 직접 지정
- title : 그래프의 제목 설정 > 문자열 원하는 제목을 입력하면 해당 제목이 그래프 상단에 표시
#### 산점도 그래프 : https://plotly.com/python/line-and-scatter/
- 그래프가 우상향한다면 두 feature 간 관계가 있다고 볼 수 있음

In [65]:
import pandas as pd
doc = pd.read_csv("D:/myAnalyze/PANDASPLOTLY_FUNCODING_FULLDATA_20240601/00_Material(Uploaded)/COVID-19-master/csse_covid_19_data/csse_covid_19_daily_reports/04-10-2020.csv", encoding="utf-8-sig")

In [None]:
doc.head()

In [None]:
doc.corr(numeric_only=True)

In [None]:
import plotly.express as px

doc_data = doc.corr(numeric_only=True)

fig_px = px.imshow(
    doc_data,
    text_auto=True,
    aspect="auto",
    title="Heatmap (Plotly Express)"
)

fig_px.show()

In [None]:
import plotly.graph_objects as go

doc_data = doc.corr(numeric_only=True)

fig = go.Figure()

fig.add_trace(
    go.Heatmap(
        z=doc_data.values,
        x=doc_data.columns,
        y=doc_data.index,
        colorscale="Viridis",
        colorbar=dict(title="Color Value"),
        text=doc_data.values,
        texttemplate="%{z:.2f}",
        hovertemplate="X:%{x}<br>Y: %{y}<br>Value: %{z:.2f}<extra>Custom Info</extra>"
    )
)

fig.update_layout(title="Heatmap (Plotly Graph Objects)")

fig.show()

In [None]:
import plotly.graph_objects as go

doc_data = doc.corr(numeric_only=True)

fig = go.Figure()

fig.add_trace(
    go.Heatmap(
        z=doc_data.values,
        x=doc_data.columns,
        y=doc_data.index,
        colorscale="Viridis",
        colorbar=dict(title="Color Value"),
        zmin=-1,
        zmax=1,
        text=doc_data.values,
        texttemplate="%{z:.2f}",
        hovertemplate="X:%{x}<br>Y: %{y}<br>Value: %{z:.2f}<extra>Custom Info</extra>"
    )
)

fig.update_layout(title="Heatmap (Plotly Graph Objects)")

fig.show()

In [None]:
import plotly.graph_objects as go

doc_data = doc.corr(numeric_only=True)

fig = go.Figure()

fig.add_trace(
    go.Heatmap(
        z=doc_data.values,
        x=doc_data.columns,
        y=doc_data.index,
        colorscale="Viridis",
        colorbar=dict(
            title="Color Value",
            thickness=40,
            tickvals=[-1,0,1],
            ticktext=["음의상관","상관관계 없음","양의상관"]),
        zmin=-1,
        zmax=1,
        text=doc_data.values,
        texttemplate="%{z:.2f}",
        hovertemplate="X:%{x}<br>Y: %{y}<br>Value: %{z:.2f}<extra>Custom Info</extra>"
    )
)

fig.update_layout(title="Heatmap (Plotly Graph Objects)")

fig.show()

In [None]:
import plotly.graph_objects as go

doc_data = doc.corr(numeric_only=True)

fig = go.Figure()

fig.add_trace(
    go.Heatmap(
        z=doc_data.values,
        x=doc_data.columns,
        y=doc_data.index,
        colorscale="Viridis",
        colorbar=dict(
            thickness=40,
            tickvals=[-1,0,1],
            ticktext=["음의상관","상관관계 없음","양의상관"],
            len=1
        ),
        zmin=-1,
        zmax=1,
        text=doc_data.values,
        texttemplate="%{z:.2f}",
        hovertemplate="X:%{x}<br>Y: %{y}<br>Value: %{z:.2f}<extra>Custom Info</extra>"
    )
)

fig.update_layout(title="Heatmap (Plotly Graph Objects)")

fig.show()

In [85]:
#산점도 그래프
import pandas as pd
doc = pd.read_csv("D:/myAnalyze/PANDASPLOTLY_FUNCODING_FULLDATA_20240601/00_Material(Uploaded)/COVID-19-master/csse_covid_19_data/csse_covid_19_daily_reports/04-10-2020.csv", encoding="utf-8-sig")

In [None]:
doc.head()

In [None]:
import plotly.io as pio
pio.templates

In [None]:
import plotly.express as px

fig_px = px.scatter(
    doc,
    x="Confirmed",
    y="Active",
    title="Scatter Plot"
)

fig_px.update_layout(template="seaborn")

fig_px.show()

In [None]:
import plotly.express as px

fig_px = px.scatter(
    doc,
    x="Confirmed",
    y="Active",
    title="Scatter Plot"
)

fig_px.update_layout(template="plotly_dark")

fig_px.show()

In [None]:
import plotly.graph_objects as go

fig = go.Figure()

fig.add_trace(
    go.Scatter(
        x=doc["Confirmed"],
        y=doc["Active"],
        mode="markers"
    )
)

fig.show()

## 결론
#### 탐색적 데이터 분석(데이터 이해와 시각화 기법 추가)
- 데이터 출처와 주제 대해 이해
- 데이터 크기 확인
- 데이터 구성요소, 즉, feature 속성간의 특징 확인
- 수치형 데이터 > EDA 5 수치 + 평균 확인
- 범주형 데이터 > 각 수준별 갯수 파악 (절대빈도 - bar 그래프, 상대빈도 - 파이 그래프)
- 시계열 데이터 > line 또는 bar 그래프
- Feature 간 상관관계 분석이 필요할 경우 heatmap 또는 scater 그리기