### 특강. 데이터 분석 모듈 소개

데이터 분석 모듈은 데이터를 효율적으로 처리하기 위해 개발되었습니다. 그중 널리 사용되는 것은 **넘파이**와 **판다스**입니다. 넘파이는 고성능 행렬 연산에 특화되어 있고, **판다스는 표 형식 데이터를 다루기 쉽게 해줍니다.**

> 데이터 분석 모듈 판다스

특히 **판다스(Pandas)**는 데이터 정리, 탐색, 변환 작업을 간단하고 직관적으로 처리할 수 있어 데이터 분석 입문에 매우 유용합니다. 이제 판다스를 직접 사용해 그 강력함을 경험해 보겠습니다.

**🚨 주의 사항**

지금부터 판다스 라이브러리를 실습에 활용할 것입니다. 만약 여러분이 구글 코랩이 아닌 환경에서 실습하는 경우, **먼저 판다스 라이브러리를 사용하려면 설치해야 합니다.** 코랩 이용자가 아닌 경우 설치를 위해 다음 코드를 실행하거나, **8장 모듈**을 학습한 후 실습하는 것을 권장합니다.

```python
# 판다스 라이브러리 설치 (구글 코랩은 이미 판다스가 설치되어 있음)
!pip install pandas
```
**구글 코랩에서 실습하는 경우, 별도의 설치 없이 그대로 실습을 진행할 수 있습니다.**

> 판다스로 엑셀 파일의 데이터 불러오기

판다스는 표 형태의 데이터를 다루는 라이브러리이므로, 엑셀 데이터를 손쉽게 가져와 판다스의 데이터 프레임 클래스로 활용할 수 있습니다. 불러온 엑셀 데이터는 변수에 저장하여 보다 편리하게 코딩할 수 있습니다.


실습에 사용할 엑셀 파일은 다음 URL에서 다운로드할 수 있습니다.

```
엑셀 파일 URL 링크 (아래 주소를 드래그하여 주소창에 붙여 넣으면 엑셀 파일이 즉시 다운로드됩니다.)

https://github.com/panda-kim/excel/blob/main/module.xlsx?raw=true

```

In [1]:
# 참고 3. 엑셀 파일을 데이터 프레임으로 불러와 변수 df로 할당
import pandas as pd
pd.options.display.max_rows = 6  # 6행까지만 출력
url = 'https://github.com/panda-kim/excel/blob/main/module.xlsx?raw=true'
df = pd.read_excel(url, parse_dates=['일시'])
df

Unnamed: 0,일시,판매 금액
0,2022-06-01 00:01:21,1800
1,2022-06-01 00:01:42,1300
2,2022-06-01 00:03:31,1400
...,...,...
14997,2022-06-06 23:58:56,1900
14998,2022-06-06 23:59:00,1600
14999,2022-06-06 23:59:29,1100


엑셀의 시트를 표 형태의 데이터를 다루는 **데이터 프레임** 클래스로 불러와 변수 `df`에 할당했습니다. 이제 엑셀 데이터를 손쉽게 코딩에 활용할 수 있습니다.

> 판다스의 강력한 메서드 체험하기

판다스의 `resample` 함수를 사용하면 표 데이터를 지정된 주기로 손쉽게 집계할 수 있습니다. **[참고 4]**의 코드는 변수 df에서 판매 금액의 합을 3분 단위로 집계하는 예제입니다. 굉장히 간결한 코드로 해당 기능을 구현합니다.

In [2]:
# 참고 4. 변수 df에서 판매 금액의 합을 3분 단위로 집계
df.resample('3 min', on='일시').sum()

Unnamed: 0_level_0,판매 금액
일시,Unnamed: 1_level_1
2022-06-01 00:00:00,3100
2022-06-01 00:03:00,5700
2022-06-01 00:06:00,6900
...,...
2022-06-06 23:51:00,6000
2022-06-06 23:54:00,3900
2022-06-06 23:57:00,6200


여러분이 이 작업을 엑셀에서 수행한다고 생각해보세요. 상당히 번거로운 과정이 될 것입니다. 이처럼 판다스의 함수들은 복잡한 작업을 간결하게 처리할 수 있도록 강력한 기능을 제공합니다.

다만, 판다스의 강력한 함수들은 **판다스의 클래스(자료형)**에서만 동작합니다. 따라서 데이터 분석에서는 주로 판다스와 같은 모듈에서 제공하는 자료형을 사용하게 됩니다. 기본 파이썬 자료형도 간간히 활용되지만, 이는 보조적인 역할을 하며, 복잡한 기능을 구현할 때는 데이터 분석 모듈의 자료형을 사용합니다.

따라서 기본적인 파이썬 자료형은 기초만 익히면 충분하며, 여러분은 데이터 분석 모듈의 자료형을 중심으로 다루게 될 것입니다.

**😀 파이썬의 엑셀, 판다스 라이브러리 출판 안내**

**서울대** 이성주 교수님과 **카이스트** 차유진 교수님이 추천한 데이터 분석 책 **『파이썬의 엑셀, 판다스 라이브러리』**가 출판되었습니다. 이 책은 입문자를 위해 데이터 분석 과정에서 가장 중요한 판다스 라이브러리를 쉽게 풀어쓴 **입문서**이며, 동시에 여러분의 데이터 처리 역량을 강화하는 데 큰 도움이 되는 **기본서**입니다.

<img src=https://i.postimg.cc/MKg8TW75/01.jpg, width=600>

🎈 [파이썬의 엑셀, 판다스 라이브러리 목차 확인](https://kimpanda.tistory.com/274)

🎈 [교보문고 구매 페이지](https://product.kyobobook.co.kr/detail/S000214350781)