<a href="https://colab.research.google.com/github/jfjoung/AI_For_Chemistry/blob/main/notebooks/week1/Week_1_Pandas_Basics.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


## 🎯 **학습 목표:**
- Pandas의 기본 개념과 데이터 프레임(DataFrame)의 구조를 이해한다.
- Pandas를 사용하여 데이터를 로드하고, 탐색하며, 조작하는 방법을 익힌다.
- 데이터 필터링, 정렬, 그룹화 등의 기본 연산을 수행할 수 있다.
- 간단한 실습을 통해 Pandas를 활용한 데이터 분석 기초를 다진다.


## 📌 Python Essentials - Files and Pandas
이제 기본 기능을 익혔다면, **파일을 읽고 쓰는 방법**과  
**Pandas, Matplotlib 등의 일반적인 패키지 활용법**을 살펴보겠습니다.  

---

### 📌 **파일 읽기 및 쓰기 (Reading and Writing Files)**
파일을 읽고 쓰는 기능은 프로그래밍에서 매우 중요합니다.  
예를 들어, 다음과 같은 분자 리스트가 있다고 가정해 보겠습니다.

```python
molecules = ['Amigdalin', 'Fenfuram', 'Estradiol', '2-Methylbutanol']
```
이 리스트를 텍스트 파일로 저장하여, 각 분자 이름을 한 줄씩 기록하려면 어떻게 해야 할까요?
이를 위해 다음 코드를 실행할 수 있습니다.

In [None]:
# 분자 이름이 포함된 리스트 생성
molecules = ['Amigdalin', 'Fenfuram', 'Estradiol', '2-Methylbutanol']

# 'molecules.txt'라는 파일을 쓰기 모드('w')로 열기
# with 문을 사용하면 파일을 자동으로 닫아줌
with open('molecules.txt', 'w') as file:
    # 리스트의 각 요소를 줄바꿈(\n)으로 연결하여 파일에 저장
    file.write('\n'.join(molecules))


💡 설명:

 - `open('molecules.txt', 'w')` → `'molecules.txt'` 파일을 쓰기 모드(`'w'`) 로 엽니다.
 - `'w'` 모드는 파일이 존재하면 내용을 덮어쓰고, 존재하지 않으면 새로 생성합니다.
 - `with open(...) as file`: → `with` 문을 사용하면 파일을 자동으로 닫아주므로, `file.close()`를 호출할 필요가 없습니다.
 - `'\n'.join(molecules)` → `molecules` 리스트의 요소를 줄바꿈 문자(`\n`) 를 사용하여 하나의 문자열로 변환합니다.
 - `file.write(...)` → 변환된 문자열을 파일에 기록합니다.
이렇게 하면 각 분자 이름이 한 줄씩 저장된 텍스트 파일이 생성됩니다!

In [None]:
print('\n'.join(molecules))

Amigdalin
Fenfuram
Estradiol
2-Methylbutanol


이전에 생성한 `molecules.txt` 파일을 다시 읽어와 **리스트 형태로 복원**하려면 어떻게 해야 할까요?  
파일을 읽는 방법은 파일을 쓰는 방법과 유사합니다.

In [None]:
with open('molecules.txt', 'r') as file:
    molecules = [molecule for molecule in file.readlines()]
print(molecules)

['Amigdalin\n', 'Fenfuram\n', 'Estradiol\n', '2-Methylbutanol']


- `'molecules.txt'` → 읽고자 하는 파일의 이름입니다.
- `'r'` 모드 → 파일을 읽기 모드로 엽니다.
- `open()` 함수 → 파일 객체를 반환하며, 이를 통해 파일을 읽을 수 있습니다.
- `.readlines()` → 파일 내용을 **한 줄씩 읽어 리스트로 반환**합니다.

💡 **문제점: `\n` 개행 문자 포함**  
- `.readlines()`를 사용하면 각 줄 끝에 **개행 문자(`\n`)** 가 포함됩니다.  
- 이를 제거하기 위해 **`.strip()`** 메서드를 적용합니다.  


In [None]:
with open('molecules.txt', 'r') as file:
    molecules = [molecule.strip() for molecule in file.readlines()]
print(molecules)

['Amigdalin', 'Fenfuram', 'Estradiol', '2-Methylbutanol']


## 📌 Pandas  

[Pandas](https://pandas.pydata.org/)는 Python에서 **데이터 분석 및 조작**을 위한 인기 있는 라이브러리입니다.  
엑셀과 유사한 **테이블 형태의 데이터(DataFrame)** 를 저장하고 조작할 수 있도록 도와줍니다.  

---

### 📌 **Pandas를 활용한 파일 읽기 및 쓰기**  
다음은 `pandas`를 사용하여 CSV 및 Excel 파일을 읽고 쓰는 기본적인 방법입니다.  

```python
import pandas as pd  # pandas 라이브러리 불러오기

# CSV 파일 읽기
df = pd.read_csv('file.csv')
print(df)

# Excel 파일 읽기
df = pd.read_excel('file.xlsx')
print(df)

# CSV 파일 저장 (인덱스 제외)
df.to_csv('file.csv', index=False)

# Excel 파일 저장 (인덱스 제외)
df.to_excel('file.xlsx', index=False)


## ESOL 데이터셋  
이제 분자가 포함된 데이터셋을 다운로드해 보겠습니다.  
우리는 **Delaney의 Estimated SOLubility (ESOL) 데이터셋**을 사용할 것입니다.  
이 데이터셋은 **DeepChem에서 전처리된 CSV 파일** 형식으로 제공됩니다.  

---

### **ESOL 데이터셋이란?**  
- **Delaney 데이터셋**은 **작은 유기 분자의 물에 대한 용해도(Solubility)**을 포함하는 컬렉션입니다.  
- 분자의 **실험적 용해도 값**이 기록된 데이터로,  
  머신러닝 모델의 성능을 평가하는 **벤치마크 데이터셋**으로 자주 사용됩니다.  
- 총 **1,084개의 분자**가 포함되어 있으며, 다음과 같은 다양한 **분자 특성**을 포함합니다.  
  - **Solubility (용해도 값)**  
  - **Molecular Weight (분자량)**  
  - **Number of Atoms (원자의 개수)**  
  - **Types of Bonds (결합의 종류)**  

`.csv` 형식의 데이터를 다운로드하여 사용할 것입니다.


In [None]:
!wget "https://raw.githubusercontent.com/schwallergroup/ai4chem_course/main/notebooks/01%20-%20Basics/data/delaney-processed.csv"

--2025-02-10 05:55:21--  https://raw.githubusercontent.com/schwallergroup/ai4chem_course/main/notebooks/01%20-%20Basics/data/delaney-processed.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.108.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 96698 (94K) [text/plain]
Saving to: ‘delaney-processed.csv.1’


2025-02-10 05:55:21 (1.01 MB/s) - ‘delaney-processed.csv.1’ saved [96698/96698]



💡 **설명**  
- **`!wget`** → Jupyter Notebook 및 Google Colab에서 **터미널 명령어**를 실행할 때 사용됩니다.  
- **`!` (느낌표)** → Python 코드가 아닌 **Shell 명령어**를 실행할 때 사용됩니다.  
- **`wget`** → 웹에서 파일을 다운로드하는 명령어입니다.  
- **`"URL"`** → 다운로드할 파일의 위치입니다.  


Jupyter Notebook에서 터미널 명령어를 실행하는 또 다른 예시는 Python 버전 확인입니다.

In [None]:
!python --version

Python 3.11.11


💡 **추가 설명**  
- 이 기능은 **Jupyter Notebook 내에서 직접 Shell 명령어를 실행**할 때 유용합니다.  
- 별도로 터미널이나 명령 프롬프트(Command Prompt)로 전환할 필요 없이 **노트북 내에서 즉시 실행**할 수 있습니다.  
- 단, **`!` (느낌표) 명령어는 Jupyter Notebook에서만 동작**하며, 일반 Python 스크립트에서는 사용할 수 없습니다.  


### 📌 Shell 명령어 실습  
이제 몇 가지 **유용한 Shell 명령어**를 연습해 보겠습니다.  

---

💡 **유용한 Shell 명령어**  
- **`ls`** → 현재 폴더 내 파일 목록 확인  
- **`head file`** → 파일의 **첫 번째 몇 줄** 출력  
- **`mv file target_location`** → 파일을 지정된 위치로 이동  
- **`mkdir folder_name`** → 새 폴더 생성  

---

### ✅ **실습: Shell 명령어 사용하기**  
아래 명령어를 실행하여 `delaney-processed.csv` 파일을 조작해 보세요.  

```python
# 1️⃣ 현재 폴더 내 파일 목록 확인
!ls  

# 2️⃣ 새로운 폴더 'data' 생성
!mkdir data  

# 3️⃣ 'delaney-processed.csv' 파일이 있는지 확인
!ls  

# 4️⃣ 'delaney-processed.csv' 파일을 'data' 폴더로 이동
!mv delaney-processed.csv data/  

# 5️⃣ 이동한 파일이 'data' 폴더 안에 있는지 확인
!ls data  


In [None]:
# 여기에 코드를 작성하세요. Shell 명령어를 사용할 때는 반드시 `!`를 앞에 붙여야 합니다.




**파일을 성공적으로 `data` 폴더로 이동했다면**, 다음 명령어를 사용하여 파일의 **첫 몇 줄**을 확인할 수 있습니다.  


In [None]:
!head data/delaney-processed.csv

###  Pandas로 ESOL 데이터셋 다루기  

앞서 확인한 `.csv` 파일은 **콤마(`,`)로 구분된 값(Comma-Separated Values)** 형식입니다.  
이제 Pandas를 사용하여 데이터를 **불러오고(DataFrame 생성)**, **처음 몇 개의 행을 출력**해 보겠습니다.  

---

✅ **해야 할 것:**  
1️⃣ `read_csv` 함수를 사용하여 파일을 **DataFrame(`df`)** 으로 읽어오기  
2️⃣ `df.head()` 를 사용하여 **데이터의 첫 5개 행 출력**  


In [None]:
# 아직 pandas를 불러오지 않았다면, 먼저 pandas 모듈을 가져옵니다.



# ESOL 데이터셋을 DataFrame으로 읽어옵니다.



# DataFrame의 처음 5개 행을 확인합니다.


In [None]:
# Google Colab에서 DataFrame을 인터랙티브하게 표시하려면 다음 명령어를 실행하세요.
%load_ext google.colab.data_table

# DataFrame 출력
df


### 특정 열(Column) 다루기  

이제 **DataFrame에서 특정 열을 선택하고 조작하는 방법**을 살펴보겠습니다.  

**특정 열을 선택하는 방법**  
- `df["컬럼명"]` → 원하는 열을 가져올 수 있습니다.  
- 예를 들어, **용해도(Solubility) 값이 저장된 열**을 선택하려면 다음과 같이 작성합니다.  
  ```python
  df["measured log solubility in mols per litre"]
```

**열(Column) 연산 수행하기**  

- 특정 열에 대해 다양한 연산을 수행할 수 있습니다.  
- 예를 들어, **평균값(mean)을 계산하려면** `.mean()` 메서드를 사용합니다.  

💡 **실습: 평균 용해도 구하기**  
아래 코드 셀에서 **평균 용해도를 계산**하고, 결과를 `mean_solubility` 변수에 저장하세요!


In [None]:
# "measured log solubility in mols per litre" 열에 접근하기


# 해당 열의 평균값 계산하여 변수에 저장


###  Pandas를 활용한 ESOL 데이터셋 조작  

아래 예제에서는 **Pandas를 사용하여 데이터셋을 다루는 방법**을 살펴봅니다.  

✅ **포함된 기능:**  
- **조건을 기반으로 행 선택** (`boolean indexing`)  
- **새로운 열 추가 및 값 설정**  
- **데이터 그룹화 (`groupby`) 및 통계 계산**  
- **DataFrame 정렬 (`sort_values`)**  

---

💡 **설명:**  

- **`df[df["measured log solubility in mols per litre"] > mean_solubility]`**  
  → **용해도 값이 평균보다 큰 행을 선택**하여 새로운 DataFrame 생성  

- **`df["Solubility Class"] = "Low"`**  
  → DataFrame에 **새로운 열(`Solubility Class`)을 추가**하고 기본값을 `"Low"`로 설정  

- **`df.loc[df["measured log solubility in mols per litre"] > mean_solubility, "Solubility Class"] = "High"`**  
  → **조건을 만족하는 행에 `"High"` 값을 할당** (평균보다 용해도가 높은 경우)  

- **`grouped = df.groupby("Solubility Class")`**  
  → `"Solubility Class"` 열을 기준으로 **데이터 그룹화**  

- **`grouped.mean()`**  
  → 각 그룹에 대한 **평균값 계산**  

- **`df.sort_values("measured log solubility in mols per litre", ascending=False, inplace=True)`**  
  → `"measured log solubility in mols per litre"` 값을 기준으로 **내림차순 정렬**  

---

✅ **이제 Pandas를 활용하여 ESOL 데이터셋을 자유롭게 다룰 수 있습니다!**


### 📌 추가적인 Pandas 기능  

Pandas는 데이터 조작과 분석을 위한 강력한 기능을 제공합니다.  
더 많은 기능은 **[공식 문서](https://pandas.pydata.org/docs/getting_started/intro_tutorials/index.html)** 에서 확인할 수 있습니다.  

💡 **Tip:**  
- 대부분의 Pandas 관련 질문은 이미 **[StackOverflow](https://stackoverflow.com/)** 에 답변이 있을 가능성이 높습니다.  
- **[ChatGPT](https://chat.openai.com)** 를 개인 튜터처럼 활용하여 실시간 도움을 받을 수도 있습니다.  

---

✅ **데이터프레임 합치기 (Merging & Concatenation)**  

- **두 개의 DataFrame을 공통 열을 기준으로 병합 (Merging)**  

  ```python
  df1 = df[["Compound ID", "measured log solubility in mols per litre"]]
  df2 = df[["Compound ID", "SMILES"]]
  merged = pd.merge(df1, df2, on="Compound ID")
  print(merged.head())
 ```

✅ **위쪽 10개 행과 아래쪽 10개 행을 결합 (Concatenation)**  

- Pandas를 사용하면 여러 개의 DataFrame을 쉽게 결합할 수 있습니다.  
  ```python
  df3 = df[["Compound ID", "measured log solubility in mols per litre"]].head(10)
  df4 = df[["Compound ID", "SMILES"]].tail(10)
  concatenated = pd.concat([df3, df4])
  print(concatenated)
```

✅ **결측값 처리 (Handling Missing Values)**  

- ESOL 데이터셋에는 결측값이 없지만, Pandas를 사용하면 손쉽게 결측값을 처리할 수 있습니다.  

  ```python
  df["Compound ID"].fillna("", inplace=True)
  print(df.head())
  ```

이제 Pandas의 강력한 데이터 조작 기능을 활용하여 더욱 효율적으로 데이터를 분석할 수 있습니다!