<a href="https://github.com/jfjoung/AI_For_Chemistry/blob/main/Week_1_Plotting_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 🎯 **학습 목표:**
- Python에서 **데이터 시각화(Plotting)** 의 기본 개념을 이해한다.
- `matplotlib` 및 `seaborn`을 사용하여 데이터를 **시각적으로 표현**하는 방법을 익힌다.
- 다양한 **그래프(히스토그램, 산점도, 선 그래프 등)** 를 생성하고 분석할 수 있다.
- 데이터를 효과적으로 **커뮤니케이션**하기 위해 적절한 스타일과 레이블을 적용하는 방법을 학습한다.


# 📌 Python Essentials - Plotting Data  

## 📌 필수 라이브러리 설치 (Install Dependencies)  

우선, **필요한 라이브러리**가 설치되어 있는지 확인해야 합니다.  

---

### ✅ **Python 모듈 설치 방법**  
Python 패키지는 일반적으로 **패키지 관리자**를 통해 설치됩니다.  
- **`pip`** → Python의 기본 패키지 관리자  
- **`conda`** → Anaconda 환경에서 사용되는 패키지 관리자  

---

### ✅ **어떤 명령어를 실행해야 할까?**  
특정 패키지를 설치하려면 **공식 문서**에서 확인하는 것이 가장 정확합니다.  
1️⃣ Google에서 패키지명을 검색 (`matplotlib` 검색 예시)  
2️⃣ 공식 웹사이트(예: [Matplotlib 공식 문서](https://matplotlib.org/stable/index.html)) 방문  
3️⃣ **설치 방법**을 확인하고 해당 명령어 실행  

예를 들어, `matplotlib`을 설치하려면 아래 명령어를 실행하면 됩니다.  
```python
!pip install matplotlib
```

이 명령어는 Shell 명령어이므로, 실행할 때 앞에 `!`를 붙여야 합니다.

In [None]:
!pip install matplotlib

마찬가지로 `seaborn`을 설치하려면,  
1️⃣ **Google에서 `seaborn`을 검색**  
2️⃣ [Seaborn 공식 문서](https://seaborn.pydata.org) 방문  
3️⃣ **설치 방법 확인** 후 아래 명령어 실행  

```python
!pip install seaborn
```
이 명령어도 Shell 명령어이므로, 실행할 때 앞에 `!`를 붙여야 합니다.

In [None]:
!pip install seaborn

## matplotlib과 seaborn  

`matplotlib`과 `seaborn`은 Python에서 가장 널리 사용되는 **데이터 시각화 라이브러리**입니다.  

---

### ✅ **matplotlib**  
- **저수준(Low-level) 시각화 라이브러리**로 다양한 그래프를 생성할 수 있습니다.  
- **선 그래프(Line plot)**, **산점도(Scatter plot)**, **막대 그래프(Bar plot)**, **히스토그램(Histogram)** 등 다양한 시각화 기능을 제공합니다.  
- 커스터마이징 옵션이 많아 **유연한 시각화 가능**, 하지만 다른 라이브러리에 비해 코드가 더 복잡할 수 있습니다.  

---

### ✅ **matplotlib을 사용한 간단한 선 그래프(Line Plot) 예제**  


In [None]:
import matplotlib.pyplot as plt  # matplotlib의 pyplot 모듈을 불러옴 (그래프 그리기)

# x와 y 데이터 정의
x = [1, 2, 3, 4, 5]  # x축 값
y = [2, 4, 6, 8, 10]  # y축 값

# 선 그래프(Line Plot) 그리기
plt.plot(x, y)  # x와 y 데이터를 이용하여 선 그래프를 그림

# x축, y축, 그래프 제목 설정
plt.xlabel("X Axis")  # x축 라벨 설정
plt.ylabel("Y Axis")  # y축 라벨 설정
plt.title("Line Plot")  # 그래프 제목 설정

# 그래프 표시
plt.show()


## ✅ **seaborn**  

`seaborn`은 **matplotlib을 기반으로 만들어진 고수준(High-level) 시각화 라이브러리**입니다.  
- `matplotlib`보다 **더 직관적인 코드**로 **스타일이 깔끔한 통계적 그래프**를 쉽게 그릴 수 있습니다.  
- **바이올린 플롯(Violin plot)**, **박스 플롯(Box plot)**, **히트맵(Heatmap)** 등 **통계적 시각화**에 특화된 함수들을 제공합니다.  
- `seaborn`을 사용하면 **데이터 분석 과정에서 시각적 통찰을 더 쉽게 얻을 수 있습니다.**  

---

### ✅ **seaborn을 사용한 간단한 산점도(Scatter Plot) 예제**  


In [None]:
import seaborn as sns  # seaborn 라이브러리 불러오기 (더 쉬운 데이터 시각화)
# import matplotlib.pyplot as plt  # seaborn은 내부적으로 matplotlib을 사용하므로 함께 불러와야 하지만 앞에서 이미 불렀음.

# x와 y 데이터 정의
x = [1, 2, 3, 4, 5]  # x축 값
y = [2, 4, 6, 8, 10]  # y축 값

# 산점도(Scatter Plot) 그리기
sns.scatterplot(x=x, y=y)  # seaborn의 scatterplot() 함수로 산점도 생성

# x축, y축, 그래프 제목 설정
plt.xlabel("X Axis")  # x축 라벨 설정
plt.ylabel("Y Axis")  # y축 라벨 설정
plt.title("Scatter Plot")  # 그래프 제목 설정

# 그래프 표시
plt.show()


이것들은 단순한 예제일 뿐이지만, 더 복잡하고 다양한 시각화 예제를 확인하려면  
[`seaborn` 갤러리](https://seaborn.pydata.org/examples/index.html)를 참고하세요.  
여기에는 **고급 통계 그래프 및 스타일링 예제**가 포함되어 있어 영감을 얻을 수 있습니다. 🚀  


## 📌 ESOL 데이터 시각화 (Plotting the ESOL Data)  

이제 **Delaney 데이터셋(ESOL 데이터)** 을 다시 불러와 시각화해 보겠습니다.  
데이터는 **로컬 파일이 아니라 URL에서 직접 불러올 수도 있습니다.**  


In [None]:
import pandas as pd  # pandas 라이브러리 불러오기 (데이터 분석 및 조작)

# ESOL 데이터셋을 URL에서 직접 읽어와 DataFrame 생성
df = pd.read_csv("https://raw.githubusercontent.com/schwallergroup/ai4chem_course/main/notebooks/01%20-%20Basics/data/delaney-processed.csv")

# 데이터프레임의 각 열에 대한 요약 통계 출력 (평균, 표준편차, 최소/최대값 등)
df.describe()


Pandas는 **DataFrame을 직접 이용하여 그래프를 그릴 수 있는 기능**을 제공합니다.  
따로 `matplotlib`을 설정하지 않아도, `pandas`의 `.plot()` 메서드를 사용하면 간단한 시각화를 쉽게 수행할 수 있습니다.  


In [None]:
# 'measured log solubility in mols per litre' vs 'Molecular Weight' 산점도(Scatter Plot) 그리기

df.plot(
    x='Molecular Weight',  # x축: 분자량 (Molecular Weight)
    y='measured log solubility in mols per litre',  # y축: 용해도 (log solubility)
    kind='scatter'  # 그래프 종류를 산점도(Scatter Plot)로 설정
)


In [None]:
# 회귀선이 포함된 산점도(Scatter Plot with Regression Line) 그리기

sns.regplot(
    x='Molecular Weight',  # x축: 분자량 (Molecular Weight)
    y='measured log solubility in mols per litre',  # y축: 용해도 (log solubility)
    data=df  # 사용 데이터: df (ESOL 데이터셋)
)


In [None]:
# 히스토그램이 포함된 조인트 플롯(Joint Plot with Histograms) 생성

sns.jointplot(
    x='Number of Rings',  # x축: 고리 개수 (Number of Rings)
    y='Number of H-Bond Donors',  # y축: 수소 결합 기부자 개수 (Number of H-Bond Donors)
    data=df  # 사용 데이터: df (ESOL 데이터셋)
)


In [None]:
# 박스 플롯(Box Plot)으로 'Polar Surface Area'의 분포 시각화

sns.boxplot(
    x='Polar Surface Area',  # x축: 극성 표면적 (Polar Surface Area)
    data=df  # 사용 데이터: df (ESOL 데이터셋)
)


In [None]:
# 바이올린 플롯(Violin Plot)으로 'Number of Rotatable Bonds'의 분포 시각화

sns.violinplot(
    x='Number of Rotatable Bonds',  # x축: 회전 가능한 결합 개수 (Number of Rotatable Bonds)
    data=df  # 사용 데이터: df (ESOL 데이터셋)
)

# 그래프 표시
plt.show()


In [None]:
# 여러 열 간의 관계를 시각화하는 페어 플롯(Pair Plot) 생성

sns.pairplot(
    df[['Number of H-Bond Donors', 'Molecular Weight', 'measured log solubility in mols per litre']]
    # 시각화할 컬럼 선택:
    # - Number of H-Bond Donors (수소 결합 기부자 개수)
    # - Molecular Weight (분자량)
    # - measured log solubility in mols per litre (용해도)
)

# 그래프 표시
plt.show()
