#### 데이터 수집
- 분석을 위해 필요한 데이터를 내부 또는 외부로 부터 수집
- 수집 방법 : 파일 다운로드, Open-API, 웹크롤링

- 파일 기반 데이터 수집
    - 파일 데이터 수집 방법 : 일반적으로 다운로드 방식을 통해 수집함
    - 데이터 제공 기관 : 공공기관, 국책기관, 기업 등 (기업의 경우 유료가 많음)
    - 파일 포멧에 따라 읽어들이기는 함수가 다름 : 사용 라이브러리는 판다스(pandas), 이외 등등
    - csv, txt : read_csv(), to_csv() 함수 사용(저장은 어떤 포맷이든 가능)
    - xlsx : read_excel(), to_excel() 함수 사용(저장은 어떤 포맷이든 가능)
    - json : read_json(), to_json() 함수 사용(저장은 어떤 포맷이든 가능)
    - geojson : json 라이브러리의 load() 함수 사용하여 읽어들임

#### 파일 읽어 들이기

In [1]:
### 데이터 처리
import pandas as pd

### 시각화 처리
# - 파이썬에서 사용되는 기본 시각화 라이브러리
import matplotlib.pyplot as plt

# - 히트맵 라이브러리
import seaborn as sns

# - 한글처리
plt.rc("font", family="NanumGothic")

# 마이너스 기호 깨짐 처리
plt.rcParams["axes.unicode_minus"] = False 

In [2]:
### bicycle.csv 파일 읽어 들이기
# 변수명 df1

file_path1 = "./data/bicycle.csv"
df1 = pd.read_csv(file_path1, encoding="euc-kr")

df1.head(1)

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0


#### 파일로 저장하기

In [None]:
### 저장 파일명 : bycycle.xlsx
# - 저장폴더 : data_save

save_path = "./data_save/bycycle.xlsx"
df1.to_excel(save_path, index=False)

In [5]:
### 저장 파일명 : bycycle.csv
# - 저장폴더 : data_save

save_path = "./data_save/bycycle.csv"
df1.to_csv(save_path, index=False)

In [7]:
### 저장 파일명 : bycycle.json
# - 저장폴더 : data_save

save_path = "./data_save/bycycle.json"
df1.to_json(save_path, index=False)
pd.read_json(save_path)

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0
2,SPB-21097,2019-11-04 8:46,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-04 8:57,3,중랑센터,7.0,10.0,
3,SPB-22292,2019-11-05 8:34,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-05 8:45,3,중랑센터,,10.0,1380.0
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0
...,...,...,...,...,...,...,...,...,...,...,...
415,SPB-12116,2019-11-15 4:22,112,극동방송국 앞,5.0,2019-11-15 4:33,101,(구)합정동 주민센터,1.0,11.0,2200.0
416,SPB-17768,2019-11-15 9:31,103,망원역 2번출구 앞,14.0,2019-11-15 9:37,101,(구)합정동 주민센터,,5.0,
417,SPB-18841,2019-11-15 20:40,113,홍대입구역 2번출구 앞,24.0,2019-11-15 20:53,101,(구)합정동 주민센터,1.0,12.0,2280.0
418,SPB-24467,2019-11-15 21:55,152,마포구민체육센터 앞,18.0,2019-11-15 22:05,101,(구)합정동 주민센터,1.0,10.0,1180.0


In [8]:
### read.json 파일 읽어들이기
# 변수명 df2

file_path2 = "./data/read.json"
df2 = pd.read_json(file_path2)
df2

Unnamed: 0,1.FirstName,2.LastName,3.Age,4.University,5.Courses
0,Gildong,Hong,20,Gachon University,"{'Classes': ['Probability', 'Generalized Linea..."
1,Gildong,Hong,20,Gachon University,"{'Classes': ['Data Structure', 'Programming', ..."


In [11]:
### 5. Courses 컬럼의 0번째 값 추출

df2_dict = df2["5.Courses"][0]
type(df2_dict)

df2_dict

{'Classes': ['Probability',
  'Generalized Linear Model',
  'Categorical Data Analysis'],
 'Major': 'Statistics'}

In [19]:
### 위 df2_dict 변수의 데이터를 이용해서 아래와 같이 출력
# Classes : Probability
# Classes : Generalized Linear Model
# Classes : Categorical Data Analysis
# Major : Statistics


for key in df2_dict.keys():
    if type(df2_dict[key]) == list:
        for idx in range (len(df2_dict[key])):
            print(f" {key} : {df2_dict[key][idx]}  ")
    else:
        print(f" {key}: {df2_dict[key]}")



 Classes : Probability  
 Classes : Generalized Linear Model  
 Classes : Categorical Data Analysis  
 Major: Statistics
