- 시각화
    - 데이터 시각화는 데이터를 보다 쉽게 이해하고 분석할 수 있도록 시각적으로 표현하는 과정, 데이터의 패턴, 트렌드, 관계를 파악할 수 있으며, 통찰력을 도출하는 데 매우 유용
    - 데이터 시각화는 데이터를 직관적으로 이해하고, 이를 바탕으로 인사이트를 도출하는 핵심 과정, 파이썬의 다양한 라이브러리를 활용해 데이터를 시각적으로 표현함으로써 데이터를 탐색하고 전달할 수 있는 능력을 키우는 것이 목표

- 시각화 라이브러리
    - 파이썬에서는 다양한 시각화 라이브러리가 제공, 각각의 특성과 주요 기능은 아래와 같음

| 라이브러리 | 주요 특징 |
|--|--|
| Matplotlib | 기초적인 그래프 작성에 적합, 커스터마이징 가능 |
| Seaborn | 통계적 데이터 시각화를 위한 고급 그래프 제공 |
| Plotly | 대화형 시각화를 지원, HTMP로 내보내기 가능 |
| Altair | 선언형 문법을 사용하여 간결하게 시각화 가능 |

- Matplotlib
    - Matplotlib은 파이썬의 대표적인 시각화 라이브러리, 세밀한 그래프 제작이 가능, 가장 기초적인 시각화 도구로 시작해 다양한 고급 그래프까지 생성할 수 있어 많은 사용자들이 데이터를 시각화 하는 첫 단계에서 활용
    - 주요특징
        - 유연성: 모든 그래프의 세부 요소(축, 제목, 레이블, 색상 등)를 커스터마이징 가능
        - 다양한 그래프 지원: 선 그래프, 막대 그래프, 산점도, 히스토그램, 박스 그래프 등 기본적인 그래프 제작 가능
        - 기반 도구: Seaborn, Pandas Plot 등 많은 다른 라이브러리가 Matplotlib을 기반으로 만들어진 시각화 라이브러리로, 보다 세련된 시각화 결과를 간단한 코드로 구현 가능

    - 활용사례
        - 기본 시각화: 데이터를 시각화하는 첫걸음으로 사용
        - 프레젠테이션 그래프 제작: 그래프의 세부 요소를 조정하여 발표 자료용으로 활용
        - 대규모 데이터 처리: 다양한 데이터셋을 비교하고 세밀하게 조정
    
    - 주의사항
        - 파이썬의 Matplotlib는 기본적으로 영문 글꼴을 사용, 한글을 표시하려면 한글 글꼴을 설정해야 함, 한글 글꼴 나눔 고딕을 사용하여 한글 표시 가능

In [None]:
import matplotlib.font_manager as fm
import os

font_dir = "/usr/share/fonts/truetype/nanum"

for root, dirs, files in os.walk(font_dir):
    for file in files:
        if file.endswith(".ttf"):
            full_path = os.path.join(root, file)
            fm.fontManager.addfont(full_path)

# 다시 로드된 폰트 확인
[x.name for x in fm.fontManager.ttflist if "Nanum" in x.name]

In [None]:
# 한글 글꼴 적용
import matplotlib.pylab as plt
from matplotlib import rc
import warnings

# 경고창 제거
warnings.filterwarnings("ignore")

# 한글 글꼴 설정
rc("font", family="NanumGothic")

# 데이터 준비
x = [1, 2, 3, 4, 5]
y = [10, 20, 30, 40, 50]

# 그래프 그리기
plt.plot(x, y, label="한글 데이터", color="blue", marker="o")
plt.title("한글표시와 경고 제거 테스트")         # 그래프 제목
plt.xlabel("X축 이름")                          # x축 레이블
plt.ylabel("Y축 이름")                          # y축 레이블
plt.legend()                                    # 범례 표시
plt.grid(True)                                  # 격자 표시
plt.show()

- import matplotlib.pyplot as plt
    - Matplotlib의 핵심 모듈인 Pyplot을 plt라는 이름으로 가져옴, Pyplot은 그래프를 그리기 위한 다양한 함수를 제공
- from matplotlib import rc
    - Matplotlib의 rc 함수를 가져옴, rc는 Matplotlib의 설정을 변경하는 데 사용, 여기서는 한글 글꼴 설정
- import warnings
    - 경과 메시지를 제어하거나 무시할 수 있도록 지원하는 파이썬 기본 모듈
- warnings.filterwarning("ignore")
    - 프로그램 실행 중 나타나는 경고 메시지를 무시, 시각화 관련 설정에서 경고 메시지가 자주 발생하는데, 이는 코드 실행에는 폎향을 주지 않는 경우가 많아 해당 구문으로 무시
- rc
    - Matplotlib의 런타임 설정을 변경하는 함수
- "font"
    - 글꼴 설정과 관련된 항목
- "family"
    - 사용할 글꼴의 이름을 지정
- "NanumGothic" 
    - 한글 표시를 위해 사용(설치 필요)
- x, y
    - x: x축 데이터로 사용할 값들의 리스트(1 ~ 5)
    - y: y축 데이터로 사용할 값들의 리스트(10 ~ 50)
    - x와 y는 1:1 대응 관계로 (x[i], y[i]) 형식으로 그래프에 점이 그려짐
- plt.plot(x, y)
    - 선 그래프를 그리는 함수, x와 y 값들을 연결하는 선을 그림
- label="한글 데이터"
    - 그래프에 대한 설명을 제공, 이 레이블은 범례에 표시
- color="blue"
    - 그래프 선의 색상을 파란색으로 지정
- marker="o"
    - 데이터 점을 원(circle) 모양으로 표시, 각 (x, y) 지점에 원 모양 마커가 그려짐
- plt.title("한글표시와 경고 제거 테스트")
    - 그래프의 제목을 설정, 제목에 한글 사용 가능
- plt.xlabel("x축 이름")
    - x축의 이름(레이블)을 설정
- plt.ylabel("y축 이름")
    - y축의 이름(레이블)을 설정
- plt.legend()
    - label로 설정한 내용을 그래프 옆에 범례로 표시, 여기서는 "한글 데이터"라는 범례가 추가
- plt.grid(True)
    - 그래프에 격자를 추가, 격자는 데이터를 읽기 쉽게 하고, 축 값과 정렬을 도와줌
- plt.show()
    - 지금까지 설정한 그래프를 화면에 출력, 모든 시각화 작업은 이 명령어로 그래프를 최종적으로 표시

- Seaborn
    - Seaborn은 Matplotlib의 상위 레이어로, 더 간단하고 직관적인 방식으로 시각화를 제공, 특히 데이터프레임과의 호환성이 뛰어나 데이터 분석 과정에서 널리 사용, 상위 레이어란, 기존 라이브러리(Matplotlib)를 더 쉽게 사용하고, 반복적으로 사용하는 작업을 간편화하기 위해 만들어진 라이브러리를 의미, Seaborn은 Matplotlib을 내부적으로 사용하며, 코드가 간당하고 스타일이 세련된 그래프를 쉽게 생성 가능
        - Matplotlib과의 비교
            - Matplotlib은 기초부터 세밀하게 조정가능한 강력한 도구, Seaborn은 Matplotlib의 기능을 간단하고 직관적으로 사용할 수 있도록 설계된 상위 라이브러리
            - Seaborn은 Matplotlib을 내부적으로 사용하므로, 두 라이브러리를 함께 활용하면 더욱 유용
        - 주요 특징
            - 간결한 코드: 데이터프레임 기반으로 간단한 코드로 고급 시각화 가능
            - 통계적 시작화: 히트맵, 상관관계 매트릭스, 카테고리별 데이터 비교 등 통계적 데이터 시각화에 강점
            - 스타일 조정: 기본 제공되는 그래프 스타일이 세련되고 깔끔하여 별도의 커스터마이징 없이 바로 사용 가능
        - 활용 사례
            - 데이터 탐색: 데이터프레임을 활용한 분포 확인, 상관관계 분석
            - 고급 그래프: 카테고리별 데이터 분포, 관계형 그래프 제작
            - 상관관계 분석: 변수 간의 관계를 시각적으로 파악

In [None]:
import seaborn as sns
import pandas as pd

# 샘플 데이터프레임 생성
data = pd.DataFrame({
    "Category": ["A", "B", "C", "D"],
    "Values": [5, 7, 3, 8]
})

# 막대 그래프
sns.barplot(x="Category", y="Values", data=data)
plt.title("Bar Plot Example")
plt.show()

- import seaborn as sns
    - Seaborn은 파이썬의 고급 시각화 라이브러리로, 통계적 데이터를 시각화 하는데 적합, 여기서는 Seaborn을 sns라는 별칭 지정
- import pandas as pd
    - Pandas는 데이터프레임 형태로 데이터를 조작하고 분석할 수 있는 라이브러리
    - 데이터를 표 형태로 다룰수 있도록 지원하며, Seaborn과 함께 사용
- pd.DataFrame은 표 형식으로 데이터를 저장, 데이터느 열(Column)과 행(Row)으로 구성, Excel 표와 유사한 구조
- 데이터 구성
    - "Category": 각 막대의 이름을 지정하는 열, 여기서는 "A", "B", "C", "D"로 구성
    - "Values": 각 카테고리에 해당하는 값으로, 막대 그래프의 높이를 결정, 값은 5, 7, 3, 8
    - "sns.barplot": Seaborn의 barplot 함수는 카테고리 데이터를 기반으로 막대 그래프를 생성
- 매개변수 설명
    - x="Category": x축에 표시될 데이터의 열을 지정, 여기서는 "Category" 열이 x축에 표시, 값은 "A", "B", "C", "D"
    - y="Values": y축에 표시될 데이터 열을 지정, 여기서는 "Values" 열이 Y축 값으로 사용, 값은 5, 7, 3, 8 로 나타남
- data=data: 시각화에 사용할 데이터프레임을 지정, 위에서 생성한 data를 사용
- 결과
    - 각 카테고리("A", "B", "C", "D")에 대해 값(5, 7, 3, 8)이 Y축 높이로 설정된 막대 그래프가 생성
- plt.title("Bar Plot Example")
    - 그래프 상단에 표시된 제목을 설정, 제목은 시각화를 설명하는데 유용, 여기서는 "Bar Plot Example" 로 지정
- plt.show()
    - 그래프를 화면에 출력, 이 명령어를 실행하지 않으면 그래프가 화면에 표시되지 않음

- Plotly
    - Plotly는 대화형 시각화를 지원하는 고급 라이브러리로 웹 애플리케이션에서도 활용 가능
    - 정적 그래프를 넘어 동적이고 직관적인 시각화를 구현할 수 있는 도구
    - 주요특징
        - 대화형 그래프: 줌인, 줌아웃, 항목 강조 등과 같은 상호작용 기능 지원
        - 웹 통합: 생성한 그래프를 HTML로 내보낼 수 있어 웹 기반 프로젝트에 활용 가능
        - 3D 사각화: 3D 산점도, 지형도, 표면 플롯 등 고급 시각화 가능
    - 활용사례
        - 데이터 대화형 탐색: 사용자가 직접 데이터를 탐색하여 패턴을 발견할 수 있도록 지원
        - 웹 애플리케이션: 웹 프로젝트에서 데이터 시각화 모듈로 활용
        - 고급 분석: 3D 플롯을 통해 데이터의 구조와 관계를 다차원적으로 분석

In [2]:
import plotly.express as px

# 샘플 데이터
data = px.data.gapminder()

# 대화형 산점도
fig = px.scatter(
    data,
    x="gdpPercap",
    y="lifeExp",
    size="pop",
    color="continent",
    log_x=True,
    title="Interrective Scatter Plot"
)

# 그래프 크기 조정
fig.update_layout(width=800, height=500)
fig.show()

- x="gdpPercap"
    - x축에 사용할 열을 지정, 여기서는 gdpPercap(1인당 GDP)을 x축에 설정하여 국가별 경제력 표시
- y="lifeExp"
    - y측에 사용할 열을 지정, 여기서는 lifeExp(기대수명)를 y축에 설정, 국가별 평균 기대수명을 나타냄
- size="pop"
    - 점(버블)의 크기를 나타낼 열을 지정, 여기서는 pop(인구)를 사용하여 각 국가의 점 크기를 인구에 비례하도록 설정