## Data Frame
- 데이터(Data)가 틀(Frame)에 맞게 저장된 형태
- ex) 스프레드시트, 엑셀, 테이블 등 분야마다 다른 호칭: 데이터 분석의 관점에서는 Data Frame
- python의 list와 dictionary로 data frame을 표현 가능
 - list: 데이터가 순서(index)대로 저장되어 있는 것
 - dictionary: {key:value} 쌍으로 저장된 것
- pandas: python에서 data frame을 만드는 도구

In [1]:
sample_list = []

# list 안에 dictionary 자료를 추가
sample_list.append({'date':'2022-01-01', 'day':'sat'})
sample_list.append({'date':'2022-01-02', 'day':'sun'})
sample_list.append({'date':'2022-01-03', 'day':'mon'})

sample_list

# pandas를 사용하여 dict & list 형태의 데이터를 데이터프레임으로 저장 가능

[{'date': '2022-01-01', 'day': 'sat'},
 {'date': '2022-01-02', 'day': 'sun'},
 {'date': '2022-01-03', 'day': 'mon'}]

In [2]:
import pandas as pd

df = pd.DataFrame(sample_list)
df

# df는 정형 데이터에 해당
# column: date, day
# row: 0, 1, 2

Unnamed: 0,date,day
0,2022-01-01,sat
1,2022-01-02,sun
2,2022-01-03,mon


In [3]:
# 데이터프레임 csv 파일로 저장
df.to_csv('sample.csv')

# csv는 값이 쉼표로 구분된 형태의 파일

# ,date,day
# 0,2022-01-01,sat
# 1,2022-01-02,sun
# 2,2022-01-03,mon

# Permission Error(권한 오류)가 발생한다면?
# 파일 작업 중에 pandas에서 해당 파일 이름으로 저장한 경우,
# 원본 파일을 덮어쓰는 셈이 되어 권한 오류 발생

In [4]:
# 저장 경로 변경

path = 'C:/김시원/2022'

df.to_csv(path + '/' + 'sample.csv', index=False) # index=False: 행 인덱스 drop

# 경로 표시는 \(역슬래시)로 해주는 것이 일반적
# python에서는 \가 이스케이프 문자로 사용되므로 /(슬래시)를 대신 사용

In [5]:
# csv 파일 불러오기
df = pd.read_csv('C:/김시원/2022/sample.csv')
df

Unnamed: 0,date,day
0,2022-01-01,sat
1,2022-01-02,sun
2,2022-01-03,mon


In [6]:
# sunrise-sunset 데이터 활용

import requests

def by_date(date):
    url = f'https://api.sunrise-sunset.org/json?lat=36.7201600&lng=-4.4203400&date={date}'
    return requests.get(url).json()

by_date('2023-01-01')

{'results': {'sunrise': '7:28:40 AM',
  'sunset': '5:13:35 PM',
  'solar_noon': '12:21:08 PM',
  'day_length': '09:44:55',
  'civil_twilight_begin': '7:01:25 AM',
  'civil_twilight_end': '5:40:50 PM',
  'nautical_twilight_begin': '6:29:06 AM',
  'nautical_twilight_end': '6:13:09 PM',
  'astronomical_twilight_begin': '5:57:39 AM',
  'astronomical_twilight_end': '6:44:36 PM'},
 'status': 'OK'}

In [7]:
# 데이터 분석에 불필요한 status 키 제외
# results 키의 value 값만 추출하여 가져오도록 함수 재정의

def by_date(date):
    url = f'https://api.sunrise-sunset.org/json?lat=36.7201600&lng=-4.4203400&date={date}'
    return requests.get(url).json()['results']

by_date('2023-01-01')

{'sunrise': '7:28:40 AM',
 'sunset': '5:13:35 PM',
 'solar_noon': '12:21:08 PM',
 'day_length': '09:44:55',
 'civil_twilight_begin': '7:01:25 AM',
 'civil_twilight_end': '5:40:50 PM',
 'nautical_twilight_begin': '6:29:06 AM',
 'nautical_twilight_end': '6:13:09 PM',
 'astronomical_twilight_begin': '5:57:39 AM',
 'astronomical_twilight_end': '6:44:36 PM'}

In [8]:
sample_list = []

sample_list.append(by_date('2023-01-01'))
sample_list.append(by_date('2023-01-02'))
sample_list.append(by_date('2023-01-03'))

In [9]:
pd.DataFrame(sample_list)

Unnamed: 0,sunrise,sunset,solar_noon,day_length,civil_twilight_begin,civil_twilight_end,nautical_twilight_begin,nautical_twilight_end,astronomical_twilight_begin,astronomical_twilight_end
0,7:28:40 AM,5:13:35 PM,12:21:08 PM,09:44:55,7:01:25 AM,5:40:50 PM,6:29:06 AM,6:13:09 PM,5:57:39 AM,6:44:36 PM
1,7:28:49 AM,5:14:22 PM,12:21:36 PM,09:45:33,7:01:36 AM,5:41:36 PM,6:29:18 AM,6:13:53 PM,5:57:53 AM,6:45:19 PM
2,7:28:56 AM,5:15:11 PM,12:22:04 PM,09:46:15,7:01:45 AM,5:42:22 PM,6:29:29 AM,6:14:38 PM,5:58:05 AM,6:46:03 PM


## 시간을 다루는 도구 time
- time을 사용하여 의도적으로 코드 실행을 늦추고 데이터 수집 시간을 늘려 상대 서버의 자원을 적게 사용
- 속도는 좋은 프로그램의 요건 중 하나이지만, 웹 크롤링에서는 반드시 빠른 코드가 좋은 코드는 아님
- 한 번에 너무 많은 양의 데이터를 요청하면 상대 서버에서 공격으로 인식할 수 있어 치명적인 문제 발생 가능
- 따라서 웹 크롤링 시 time 매우 중요(* 반드시 사용)

In [10]:
import time

for i in range(5):
    print(i)
    time.sleep(2) # print 사이에 2초 간격 삽입

0
1
2
3
4


In [13]:
# 예제) 2023년 1월 한 달(2023-01-01 ~ 2023-01-31) 동안의 sunrise/sunset 데이터를 sample_dates.csv 파일에 저장

In [14]:
# pandas의 date_range() -> 날짜 범위를 지정 입력하여 return
for date in pd.date_range('2023-01-01', '2023-01-31'):
    print(date)

2023-01-01 00:00:00
2023-01-02 00:00:00
2023-01-03 00:00:00
2023-01-04 00:00:00
2023-01-05 00:00:00
2023-01-06 00:00:00
2023-01-07 00:00:00
2023-01-08 00:00:00
2023-01-09 00:00:00
2023-01-10 00:00:00
2023-01-11 00:00:00
2023-01-12 00:00:00
2023-01-13 00:00:00
2023-01-14 00:00:00
2023-01-15 00:00:00
2023-01-16 00:00:00
2023-01-17 00:00:00
2023-01-18 00:00:00
2023-01-19 00:00:00
2023-01-20 00:00:00
2023-01-21 00:00:00
2023-01-22 00:00:00
2023-01-23 00:00:00
2023-01-24 00:00:00
2023-01-25 00:00:00
2023-01-26 00:00:00
2023-01-27 00:00:00
2023-01-28 00:00:00
2023-01-29 00:00:00
2023-01-30 00:00:00
2023-01-31 00:00:00


In [15]:
# 예제 풀이

import requests
import time
import pandas as pd

sample_list = []

for date in pd.date_range('2023-01-01', '2023-01-31'):
    date_str = str(date)[:10] # 시간 제외 연, 월, 일 정보만 추출
    sample_list.append(by_date(date_str)) # by_date 함수 적용
    time.sleep(2)

pd.DataFrame(sample_list).to_csv('sample_dates.csv', index=False)


In [17]:
sample_dates = pd.read_csv('sample_dates.csv')
sample_dates.head()

# 문제에서 요구한 데이터를 모두 수집했지만, 어떤 날의 sunrise/sunset 정보인지 알려주는 날짜 정보 누락
# 항상 데이터 이용자의 입장에서 문제를 고민하고, 필요한 정보가 있다면 추가해주는 것이 중요
# 데이터 사이언티스트에게는 시키는 대로만 하는 수동적인 자세가 아닌 능동적인 고민이 필요

Unnamed: 0,sunrise,sunset,solar_noon,day_length,civil_twilight_begin,civil_twilight_end,nautical_twilight_begin,nautical_twilight_end,astronomical_twilight_begin,astronomical_twilight_end
0,7:28:40 AM,5:13:35 PM,12:21:08 PM,09:44:55,7:01:25 AM,5:40:50 PM,6:29:06 AM,6:13:09 PM,5:57:39 AM,6:44:36 PM
1,7:28:49 AM,5:14:22 PM,12:21:36 PM,09:45:33,7:01:36 AM,5:41:36 PM,6:29:18 AM,6:13:53 PM,5:57:53 AM,6:45:19 PM
2,7:28:56 AM,5:15:11 PM,12:22:04 PM,09:46:15,7:01:45 AM,5:42:22 PM,6:29:29 AM,6:14:38 PM,5:58:05 AM,6:46:03 PM
3,7:29:02 AM,5:16:00 PM,12:22:31 PM,09:46:58,7:01:52 AM,5:43:10 PM,6:29:38 AM,6:15:24 PM,5:58:15 AM,6:46:47 PM
4,7:29:05 AM,5:16:51 PM,12:22:58 PM,09:47:46,7:01:57 AM,5:43:59 PM,6:29:45 AM,6:16:11 PM,5:58:23 AM,6:47:33 PM


In [18]:
# 날짜 정보도 추가해주도록 by_date 함수 수정

def by_date(date):
    url = f'https://api.sunrise-sunset.org/json?lat=36.7201600&lng=-4.4203400&date={date}'
    sun_data = requests.get(url).json()['results']
    sun_data['date'] = date # by_date()의 인자로 받은 date 변수를 sun_data에 추가
    return sun_data


# 날짜 정보가 추가된 데이터를 sample_dates.csv 파일에 다시 저장

sample_list = []

for date in pd.date_range('2023-01-01', '2023-01-31'):
    date_str = str(date)[:10]
    sample_list.append(by_date(date_str))
    time.sleep(2)

pd.DataFrame(sample_list).to_csv('sample_dates.csv', index=False)

In [23]:
sample_dates = pd.read_csv('sample_dates.csv')
sample_dates.set_index('date', inplace=True) # date 정보를 데이터프레임의 인덱스로 설정
sample_dates.head()

Unnamed: 0_level_0,sunrise,sunset,solar_noon,day_length,civil_twilight_begin,civil_twilight_end,nautical_twilight_begin,nautical_twilight_end,astronomical_twilight_begin,astronomical_twilight_end
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2023-01-01,7:28:40 AM,5:13:35 PM,12:21:08 PM,09:44:55,7:01:25 AM,5:40:50 PM,6:29:06 AM,6:13:09 PM,5:57:39 AM,6:44:36 PM
2023-01-02,7:28:49 AM,5:14:22 PM,12:21:36 PM,09:45:33,7:01:36 AM,5:41:36 PM,6:29:18 AM,6:13:53 PM,5:57:53 AM,6:45:19 PM
2023-01-03,7:28:56 AM,5:15:11 PM,12:22:04 PM,09:46:15,7:01:45 AM,5:42:22 PM,6:29:29 AM,6:14:38 PM,5:58:05 AM,6:46:03 PM
2023-01-04,7:29:02 AM,5:16:00 PM,12:22:31 PM,09:46:58,7:01:52 AM,5:43:10 PM,6:29:38 AM,6:15:24 PM,5:58:15 AM,6:46:47 PM
2023-01-05,7:29:05 AM,5:16:51 PM,12:22:58 PM,09:47:46,7:01:57 AM,5:43:59 PM,6:29:45 AM,6:16:11 PM,5:58:23 AM,6:47:33 PM
