# Chapter01 데이터 분석 개요

## 01-1 데이터 분석이란

### 데이터 분석과 데이터 과학

- 데이터 분석: 유용한 정보를 발견하고 결론을 유추하거나 의사 결정을 돕기 위해 데이터를 조사, 정제, 변환, 모델링하는 과정
- 현대 사회에서 데이터 분석은 비즈니스 결정을 과학적으로 내리기 위한 도구
- 데이터 과학: 데이터 과학은 통계학 데이터 분석, 머신러닝, 데이터마이닝을 아우르는 용어
- 데이터 분석과 데이터 과학이 가장 크게 다른 점은 두 분야가 만들어 내는 결과물
    - 데이터 분석: 올바른 의사 결정을 돕기 위한 insight 제공
    - 데이터 과학: 문제 해결을 위한 최선의 solution 생성
- 통계적 관점에서는 기술통계, 탐색적 데이터 분석, 가설검정으로 나뉨

### 데이터 분석가

- 데이터 수집, 데이터 처리, 데이터 정제, 데이터 분석, 모델링까지 포함
- 사용 파이썬 라이브러리: NumPy, pandas, matplotlib, SciPy, scikit-learn
- 데이터 마이닝: 데이터에서 패턴 혹은 지식을 추출하는 작업

## 01-2 구글 코랩과 주피터 노트북

- 셀: 코랩에서 실행할 수 있는 최소 단위

## 01-3 이 도서가 얼마나 인기가 좋을까?

### 데이터 다운로드 및 파이썬에서 csv파일 출력

- 도서 데이터 찾기: 공공 데이터 포털, 도서관 정보나루
- 한줄이 하나의 레코드, 레ㄷ코드는 콤마로 구분된 여러 필드로 구성

In [5]:
!pip install gdown

Collecting gdown
  Downloading gdown-5.1.0-py3-none-any.whl.metadata (5.7 kB)
Downloading gdown-5.1.0-py3-none-any.whl (17 kB)
Installing collected packages: gdown
Successfully installed gdown-5.1.0


In [6]:
import gdown
gdown.download('https://bit.ly/3eecMKZ', '남산도서관 장서 대출목록 (2021년 04월).csv', quiet=False)

Downloading...
From: https://bit.ly/3eecMKZ
To: /Users/chae/Chaerim/data-analysis-study/남산도서관 장서 대출목록 (2021년 04월).csv
100%|██████████████████████████████████████| 58.1M/58.1M [00:35<00:00, 1.66MB/s]


'남산도서관 장서 대출목록 (2021년 04월).csv'

In [7]:
# 파일 인코딩 형식 확인하기
import chardet
with open('남산도서관 장서 대출목록 (2021년 04월).csv', mode='rb') as f:
    d = f.readline()
print(chardet.detect(d))

{'encoding': 'EUC-KR', 'confidence': 0.99, 'language': 'Korean'}


In [8]:
# UTF-8이 아니라 오류 발생 인코딩 매개변수 지정
with open('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR') as f:
    print(f.readline())
    print(f.readline())

번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,

"1","인공지능과 흙","김동훈 지음","민음사","2021","9788937444319","","","","","1","0","2021-03-19",



- 사실 csv파일은 pandas와 같은 도구로 읽는 것이 조금 더 편리
- 하지만 오랜 시간이 걸리거나 아예 열수 없을 때는 파이썬의 open() function과 readline() method로 파일의 내용 빠르게 확인

### 데이터 프레임 다루기: 판다스

- pandas는 csv파일을 읽어 데이터프레임이라는 표 형식 데이터로 저장
- 표형식 데이터: row, column으로 구성
- pandas에는 데이터프레임 말고 시리즈도 존재
    - 시리즈는 1차원 배열 (열마다 다른 데이터 타입 사용 불가)

In [9]:
import pandas as pd
df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR')

  df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR')


In [10]:
# 경고 해결 -> 많은 메모리를 사용하지 않으려면 dtype 매개변수로 데이터 타입 지정
df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR', low_memory=False)

In [11]:
df.head() # 첫번째 열은 데이터프레임의 index

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0,2021-03-19,
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0,2021-03-19,
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0,2021-03-19,


In [12]:
# 데이터를 csv파일로 저장
df.to_csv('ns_202104.csv')

In [13]:
with open('ns_202104.csv') as f:
    for i in range(3):
        print(f.readline())

,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13

0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,

1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,



In [14]:
# index가 있는 것을 알려주려면 indexl_col 매개변수를 사용하자. 
ns_df = pd.read_csv('ns_202104.csv', index_col=0, low_memory=False)
ns_df.head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0,2021-03-19,
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0,2021-03-19,
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0,2021-03-19,


In [15]:
# index 빼고 csv로 저장하기
df.to_csv('ns_202104.csv', index=False)