# Week5. 라이브러리의 활용
> 본 차시에서는 **라이브러리(Library)** 의 개념과 필요성을 이해하고,
데이터 분석에서 핵심적으로 활용되는 **Pandas 및 Matplotlib 등의 라이브러리**의 기본 활용법을 학습합니다.
>
> 이전 차시에서는 Python의 기본 문법과 데이터 타입, 제어문 등 프로그래밍의 기초 내용을 학습하였습니다.
이번 시간에는 이러한 기초를 바탕으로 실제 데이터를 처리하고 분석하기 위해 필요한 도구적 사고를 확장하고자 합니다.
이를 위해 라이브러리의 역할과 등장 배경, 활용 필요성을 중심으로 학습을 진행합니다.

# 📖 라이브러리(Library)란 무엇일까?
> 라이브러리는 특정 작업을 수행하기 위해 필요한 함수(Function), 클래스(Class), 모듈(Module), 패키지(Package) 등을 체계적으로 구성한 도구 모음입니다.

설명하기에 앞서 아래 영상을 시청해봅시다.

In [15]:
#@title 영상자료 | 전과자 - 개발자 빡치게 하는 법
from IPython.display import YouTubeVideo, display

video = YouTubeVideo("vYuER_3og_M", width=300, height=500)
display(video)
### 출처 : Youtube | ootb Studio

## 라이브러리 등장 배경

### 과거
	•	초기 프로그래밍 환경에서는 간단한 기능 하나를 구현하기 위해서도 모든 코드를 직접 작성하였음.
	•	코드의 길이가 길고 구조가 복잡하여 가독성이 떨어졌음.
	•	동일한 기능을 여러 프로그램에서 반복적으로 구현해야 했음.
	•	오류 발생률이 높고, 수정 및 유지보수가 어려웠음.
	•	개발자는 핵심 로직보다 구현 과정에 많은 시간을 소모하였음.


### 현재
	•	반복적으로 사용되는 기능이 모듈화(modularization) 되어 라이브러리 형태로 제공됨.
	•	개발자는 필요한 기능을 import 구문으로 호출하여 즉시 사용할 수 있음.
	•	코드의 효율성과 안정성이 향상되고, 유지보수가 용이해짐.
	•	검증된 코드의 재사용을 통해 오류를 최소화하고 개발 속도를 높일 수 있음.
	•	분석과 문제 해결 등 핵심 로직에 집중할 수 있는 환경이 조성됨.

### ⚠️ 라이브러리 등장 전후 예시 - 표준편차 구하기(참고만!)

#### 과거

```python
arr = [10, 12, 23, 23, 16, 23, 21, 16]

n = 0
mean = 0.0
M2 = 0.0

for x in data:
    n += 1
    delta = x - mean
    mean += delta / n
    M2 += delta * (x - mean)

if n < 2:
    sample_std = 0.0
    population_std = 0.0
else:
    population_variance = M2 / n
    sample_variance = M2 / (n - 1)
    population_std = population_variance ** 0.5
    sample_std = sample_variance ** 0.5
    
print(sample_std) # 표본 표준편차
print(population_std) # 모집단 표준편차
```
</br>

#### 현재
```python
arr = [10, 12, 23, 23, 16, 23, 21, 16]

import numpy as np

print(np.std(arr, ddof=1)) # ddof=1 : 표본 대상
print(np.std(arr, ddof=0)) # ddof=0 : 모집단 대상
```


# 라이브러리 사용 방법

개요도

---


## 1️⃣ 라이브러리 설치
- 일반적으로 기본적인 라이브러리는 이미 개발 환경(Colab, Jupyter 등)에 설치된 상태 예)Pandas, numpy 등
- 라이브러리가 없거나 버전을 수정할 경우에는 다음과 같은 방법으로 설치할 수 있음.
```python
pip install [`라이브러리 명`] # Local에서 -> Window는 프롬프트, Mac은 터미널 등
conda install [`라이브러리 명`] # conda 환경(기존 환경과 독립적인 환경,즉 가상환경에서 작업할 때 사용)
```
- 라이브러리 버전을 선택할 수도 있습니다. (일반 환경에서는 권장하지 않음!)
```python
conda install pandas==2.2.2
```
- 일괄로 여러 라이브러리를 설치할 수도 있습니다.
```python
pip install [`라이브러리1`] [`라이브러리2`] [`라이브러리3`]
```

### 주의⚠️
- Colab이나 Jupyter Notebook같은 개발환경에서 스크립트로 설치할 경우에는 **맨 앞에 '!'를 붙임**.
```python
!pip install [`라이브러리 명`]
!conda install [`라이브러리 명`]
```
- 각 라이브러리마다 설치 시 호출명이 다르기 때문에 필요한 라이브러리는 개발처 홈페이지나 Github를 확인해야함, 혹은 Chatgpt를 활용하는 방법도 있음. (라이브러리 명으로 설치가 안될 수 있음)
  - Pandas : https://pandas.pydata.org/docs/getting_started/install.html
  - Numpy : https://numpy.org/install/

- 위 방법 이외에도 배포 방법에 따라 라이브러리 설치할 수 있는 방법은 다양함.

```python
# == GitHub 레포지토리에서 직접 설치(예시) ==
pip install "git+https://github.com/USER/REPO.git@v0.1.0"
# == 배포 파일(whl/zip) URL로 직접 설치(예시) ==
pip install https://example.com/path/to/yourpkg-0.1.0.zip
```


### 예제 1. 라이브러리를 설치해봅시다.

In [None]:
# 판다스 설치하기
!pip install pandas

In [None]:
# 예제 라이브러리(edu_sucess_demo) 설치하기
!pip install "git+https://github.com/sbinhigher/tourism_data_lecture.git@main#subdirectory=Week5/edu_success_demo"

---
## 2️⃣ 라이브러리 불러오기
-	일반적으로 설치가 완료된 라이브러리는 **import 문**을 통해 코드 내에서 불러와 사용합니다.
-	Python에서는 특정 모듈 전체 또는 일부만 선택적으로 불러올 수 있습니다.
- 라이브러리 명이 긴 경우에는 **약어(Alias)를 지정**하여 간결하게 사용할 수 있습니다.
- **from 문**을 통해서 일부 모듈만 선택적으로 불러올 수도 있습니다.

```python
import [`라이브러리 명`]                # 라이브러리 불러오기
import [`라이브러리 명`] as [`약어`]     # 약어(alias) 지정
from [`라이브러리 명`] import [`모듈`]   # 선택적으로 불러오기
```
- 여러 라이브러리를 동시에 불러올 수도 있습니다.
```python
import numpy as np, pandas as pd, matplotlib.pyplot as plt
```
- Python에서 불러온 라이브러리는 코드 어디서든 사용 가능합니다. </br>
(단, 임포트는 항상 스크립트의 상단부에 두는 것이 가독성과 관리에 좋습니다.)

### 주의⚠️
- 라이브러리는 **최초 1회**만 불러오면, 이후에는 다시 불러올 필요는 없습니다. </br>
단, 세션이 종료되거나 메모리가 out되면 다시 불러와야 합니다.
- 라이브러리의 약어(alias)는 관용적으로 정해진 이름을 따르는 것이 좋습니다.
  - pandas → pd
  - numpy → np
  - matplotlib.pyplot → plt
  - seaborn → sns
- 특정 버전에서만 제공되는 기능을 확인하려면 버전 정보를 함께 확인할 수 있습니다.
```python
import pandas as pd
print(pd.__version__)
```



### 예제 2. 라이브러리를 불러와봅시다.

In [None]:
# 빈칸에 들어갈 구문을 작성해봅시다.
____ pandas __ pd
____ numpy __ np
____ matplotlib.pyplot __ plt

print(pd.__version__)
print(np.__version__)
print(plt.__version__)

---
## 3️⃣ 라이브러리 사용하기
- 설치 및 불러오기가 완료되면 이제 실제로 라이브러리를 **활용**할 수 있습니다.  
- 각 라이브러리에는 다양한 기능이 있지만, **기초 단계에서는 ‘데이터 불러오기 → 처리 → 확인’** 흐름을 이해하는 것이 중요합니다.

### ⚠️ 주의
- 코드 실행 시 오류가 발생하면 **설치 및 import 상태**를 먼저 점검합니다.  
- Colab, Jupyter 환경에서는 셀 단위로 실행하므로, **import문은 반드시 코드 맨 위에 위치**시키는 것이 좋습니다.  
- 데이터 파일이 인식되지 않는 경우, **작업 경로(`os.getcwd()`)와 파일명**을 다시 확인해야 합니다.

### 📎 참고 자료
- Pandas 공식 문서: https://pandas.pydata.org/docs/
- NumPy 공식 문서: https://numpy.org/doc/
- Matplotlib 공식 문서: https://matplotlib.org/stable/gallery/index.html


### ⭐️ Pandas — 데이터 다루기
```python
import pandas as pd

# 1) CSV 파일 불러오기
df = pd.read_csv("jeju_tour.csv")

# 2) 데이터 구조 확인
print(df.head())      # 상위 5행 미리보기 -> ()안 숫자 선언하면 그만큼 보임
print(df.tail())      # 하위 5행 미리보기
print(df.info())      # 컬럼 정보 및 결측치 확인

# 3) 기본 통계 확인
print(df.describe())  # 평균, 표준편차 등 요약 통계

# 4) 특정 열 접근 및 계산
print(df["방문자수"].mean())  # 평균 방문자 수 계산
```
📘 **활용 포인트**  
- `read_csv()`, `head()`, `info()`, `describe()` 는 데이터 분석의 기본 진입 함수입니다.  
- Pandas의 **DataFrame 구조**는 이후 분석, 시각화, 모델링의 기반이 됩니다.

#### ❓데이터프레임
> 다음 시간에 더 자세하게 다루겠지만, pandas는 저희가 일반적으로 엑셀이나 표의 형태로 된 데이터, 즉 데이터프레임이라는 객체를 다룰 때 활용되는 라이브러리 입니다.
>
> 지난 시간에 배웠던 딕셔너리(dict)의 특성을 생각해봅시다.

```python
person = {"name": "Alice", "age": 25, "city": "Seoul"}
```

해당 딕셔너리를 데이터프레임 한 행으로 만들면, 데이터를 조회‧수정하기가 더 쉬워집니다. **가장 간단한 방법은 리스트로 감싸 한 행짜리 레코드 목록으로 전달하는 것입니다.**

```python
pd.DataFrame([person]) # 한 행(레코드)짜리 리스트로 감싼다.
```

해당 코드를 출력하면 다음과 같이 나옵니다.

||name|age|city|
|----|----|----|----|
|0|Alice|25|Seoul|

즉, 리스트의 각 딕셔너리 1개 = 데이터프레임의 1행으로 해석됩니다.
여러 명의 정보를 담고 싶다면 딕셔너리들의 리스트로 구성하면 됩니다.

```python
people = [
    {"name": "Alice", "age": 25, "city": "Seoul"},
    {"name": "Bob",   "age": 30, "city": "Busan"}
]
```

이를 데이터프레임으로 변환하고, 출력하면 다음과 같습니다.

||name|age|city|
|----|----|----|----|
|0|Alice|25|Seoul|
|1|Bob|30|Busan|

즉, **“딕셔너리의 키 → DataFrame의 컬럼명”, “딕셔너리의 값 → 스칼라(한 행) 또는 리스트(여러 행)”** 로 이해하면 쉽습니다.


#### 📖 pd.DataFrame.describe()를 통해서 얻을 수 있는 값

- 수치형 데이터
| 항목 | 의미 |
|------|------|
| **count** | 결측이 아닌 값의 개수 |
| **mean** | 평균 |
| **std** | 표준편차 |
| **min** | 최솟값 |
| **25%** | 1사분위수 (Q1) |
| **50%** | 중앙값 (Q2) |
| **75%** | 3사분위수 (Q3) |
| **max** | 최댓값 |

- 문자열 / 범주형 (object, string, category) / 불리언 (boolean)
| 항목 | 의미 |
|------|------|
| **count** | 결측이 아닌 값의 개수 |
| **unique** | 고유값의 개수 |
| **top** | 최빈값(가장 자주 등장한 값) |
| **freq** | 최빈값의 등장 횟수 |

- 날짜/시간형 (datetime64, timedelta64)
| 항목 | 의미 |
|------|------|
| **count** | 결측이 아닌 값의 개수 |
| **unique** | 고유한 날짜/시간의 개수 |
| **top** | 최빈 날짜/시간 |
| **freq** | 최빈 날짜/시간의 등장 횟수 |
| **first** | 첫 값 |
| **last** | 마지막 값 |


### 🧾 예시 코드

```python
# 기본 요약
df.describe()

# 수치형만
df.describe(include=[np.number])

# 범주형만
df.describe(include=['object', 'category'])

# 분위수 커스터마이즈 (예: 10%, 50%, 90%)
df.describe(percentiles=[.1, .5, .9])

# Series 하나만 요약
df['방문자수'].describe()
```

### ⭐️ NumPy — 수치 연산 다루기
```python
import numpy as np

# 1) 배열 생성
arr = [10, 20, 30, 40, 50]

# 2) 기본 연산
print(np.mean(arr))  # 평균
print(np.std(arr))   # 표준편차

# 3) 다차원 배열
mat = np.array([[1, 2, 3],
                [4, 5, 6]])
print(mat.shape)   # (2, 3)
print(mat.sum(axis=0))  # 열 단위 합
```
📘 **활용 포인트**  
- NumPy는 반복문 없이 빠르게 수학적 연산을 수행할 수 있습니다.  
- Pandas의 내부 계산도 대부분 NumPy를 기반으로 합니다.

#### 📖 numpy 함수 모음

| 지표 | NumPy 한 줄 |
|---|---|
| 평균(mean) | `np.mean(a)` |
| 표준편차(std, 표본) | `np.std(a, ddof=1)` |
| 표준편차(std, 모집단) | `np.std(a, ddof=0)` |
| 분산(variance, 표본) | `np.var(a, ddof=1)` |
| 분산(variance, 모집단) | `np.var(a, ddof=0)` |
| 최솟값(min) | `np.min(a)` |
| 최댓값(max) | `np.max(a)` |
| 범위(range) | `np.max(a) - np.min(a)` |
| 중위수(median) | `np.median(a)` |
| 분위수(percentile) | `np.percentile(a, q)`  *(예: q=25,50,75)* |
| 사분위수범위(IQR) | `np.percentile(a,75) - np.percentile(a,25)` |
| 합(sum) | `np.sum(a)` |

### ❓ 작업 디렉토리란?
> 파이썬이 **현재 파일을 읽거나 저장할 때 기준으로 삼는 폴더 경로**를 의미합니다.

- 즉, read_csv() 나 to_csv() 같은 함수를 사용할 때
“파일이 어디에 있는가?” 또는 “파일이 어디에 저장되는가?”를 결정하는 기준 위치입니다.

- 디렉토리 경로는 '/'를 구분자로 연결되며, 기본적인 구조는 이렇습니다.</br>
'폴더1'안에 '폴더1-1'과 '폴더1-2'가 있고, 각 폴더에 '파일1.csv'과 '파일2.csv'가 각각 들어있다면, 각 파일의 경로는 다음과 같이 표현할 수 있습니다.

```python
폴더1/폴더1-1/파일1.csv # 파일1.csv
폴더1/폴더1-2/파일2.csv # 파일2.csv
```
- 작업 디렉토리는 운영체제에서 기본적으로 사용하는 기능을 파이썬에 사용할 수 있게 도와주는 os 라이브러리를 활용해서 사용할 수 있습니다.

```python
import os

os.getcwd() # 현재 작업 디렉토리
os.chdir(`경로`) # 해당 경로를 작업 디렉토리로 변경
os.mkdir(`경로/폴더 이름` 혹은 `폴더 이름`) # 해당 경로에 폴더 생성
os.listdir(`경로`) # 해당 경로의 파일 목록
```

- **현재 작업 디렉토리는 '.'**로 표현할 수 있습니다.</br>
예를 들어, 현재 작업 디렉토리에 있는 파일1.csv의 경로는 다음과 같이 표현할 수 있습니다.
```python
./파일1.csv
```

### 주의⚠️
- 파일명을 선언할 경우, 영어나 숫자, 혹은 '-','_'만 사용하여 선언하는 것을 추천합니다. </br>
그 이유는 **개발 환경에 따라 한글로 된 파일을 읽지 못하는 경우나 따로 경로를 설정할 때 ' '(공백)같은 특수기호가 작성에 어려움을 줄 수 있습니다.**
- 로컬(Jupyter notebook, VScode 등)과 클라우드(Colab)의 디렉토리 구조가 다르기 때문에 로컬에서 작업한 코드를 클라우드에 적용할 때, 파일 경로를 확인하고 수정해야합니다.

| 환경 | 기본 작업 디렉토리 | 예시 파일 경로 | 비고 |
|------|--------------------|----------------|------|
| 💻 **로컬 (Jupyter, VSCode)** | 보통 사용자 폴더 내 프로젝트 경로 | Window : C:/Users/user/Desktop/jeju_tour.csv<br>Macbook : ~/jeju_tour.csv 또는 /Users/user/Desktop/jeju_tour.csv | `.` 은 현재 폴더를 의미 |
| ☁️ **Colab (클라우드)** | /content | /content/jeju_tour.csv | Colab의 임시 저장 공간 |


- Colab 환경에서는 **Google Drive와 연동**하여 그 안에 있는 파일을 분석에 활용할 수 있습니다.

- 1. 왼쪽에 탭 중에서 '파일' 탭을 클릭합니다.
<img src="https://i.ibb.co/hJ214f1F/001.png" width="400">

- 2. 누르면 다음과 같은 파일창이 나옵니다. 파일 탭 4개의 탭 중에서 '드라이브 마운트' 탭을 누릅니다.

<img src="https://i.ibb.co/B2dZd09m/002.png" width="700">

- 3. 누르게 되면 연결 확인 창이 나오거나, 해당 코드가 나옵니다. </br>
연결 확인 창이 나오면 'Google Drive에 연결'을 누르고, 코드가 나오면 실행한 후 연결하면 됩니다.
<img src="https://i.ibb.co/wNS3Rg0F/003.png" width="700"> </br>
<img src="https://i.ibb.co/PzFpXbjP/2025-10-24-7-21-25.png" width="700">

- 4. 연결이 되면, '파일' 탭에 'drive' 폴더가 생깁니다.

<img src="https://i.ibb.co/v69nmb9T/004.png" width="700">

이 폴더는 각자 Google 계정의 Google Drive의 디렉토리고, 해당 디렉토리에 저장된 파일을 불러와서 분석에 활용할 수 있습니다.



### 예제 3. 앞에서 배운 라이브러리를 사용해봅시다.

In [3]:
#@title 예제 3.1. google drive 연동

# 해당 코드를 실행하거나 위에서 안내한 매뉴얼대로 연결하세요.
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
#@title 예제 3.2. 작업 경로를 확인, 작업 디렉토리 변경, 폴더 생성을 해봅시다.

import os

# 현재 작업 디렉토리를 출력해보세요.
print(os._____())

In [None]:
# 현재 경로를 '/content/drive/MyDrive'로 변경해봅시다.
path = '/content/drive/MyDrive'
os._____(path)

In [None]:
# 변경한 작업 디렉토리에 'tourism_data' 폴더를 생성해봅시다.
mk_path = './tourism_data'
os._____(mk_path)

In [None]:
# 다음 예제를 수행하기에 앞서, 변경한 작업 디렉토리에 'jeju_data.csv' 파일을 업로드하기 위한 아래 코드를 실행해주세요.
!wget -O './tourism_data/jeju_data.csv' https://raw.githubusercontent.com/sbinhigher/tourism_data_lecture/main/Week5/jeju_data.csv

In [None]:
#@title 예제 3.3. pandas 라이브러리를 사용해봅시다.

import pandas as pd

# jeju_data.csv가 어디에 있었는지 기억해보고, data_path에 경로를 선언해봅시다.
data_path = '경로/파일명.확장자'

# csv 파일을 불러와봅시다.
df = pd.______(data_path)

df

In [None]:
# df가 너무 길어서 일부만 출력해봅시다.

## 상위 5개만 출력해봅시다.
print(df.____())

## 하위 5개만 출력해봅시다.
print(df.____())

In [None]:
# df에 어떤 컬럼(열)로 이루어져있을까요?

## df의 컬럼 정보와 결측 정보를 확인해봅시다.
df.____()

In [None]:
# df의 데이터는 어떤 식으로 이루어져있을까요?

## df의 기본 기술통계를 확인해봅시다.
df.____()

In [None]:
#@title 예제 3.4. numpy 라이브러리를 사용해봅시다.

import numpy as np

## df에서 '방문자수' 컬럼의 데이터를 변수로 선언해봅시다.
visit_cnt = df______

In [None]:
## 선언한 변수를 통해서 각 통계값을 구해봅시다.

## 평균
print("평균 :", np.____(visit_cnt))

## 최솟값
print("최솟값 :", np.____(visit_cnt))

## 최댓값
print("최댓값 :", np.____(visit_cnt))

## 중위수
print("중위수 :", np.____(visit_cnt))