# 리스트 표현식
* 리스트 안에 for 반복문과 if else 조건문을 한번에 적어서 리스트를 만드는 방법
* 여러 줄의 코드를 1줄로 줄일 수 있다.
* for문과 if else문을 사용해서 처리할 때보다 속도가 더 빠르다.
* [ 실행할 명령 **for** 변수 **in** list, tuple ]

In [1]:
[i for i in range(1,11)]

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

## 리스트 표현식과 일반 반복문 속도 차이

In [2]:
import time
start = time.time()
a = []
for i in range(1,200000000):
    a.append(i+5)
    
print(a[:10])
print('코드 실행 시간 : ', time.time() - start)

[6, 7, 8, 9, 10, 11, 12, 13, 14, 15]
코드 실행 시간 :  30.82440948486328


In [3]:
start2 = time.time()
b = [i+5 for i in range(1,200000000)]
    
print(b[:10])
print('코드 실행 시간 : ', time.time() - start2)

[6, 7, 8, 9, 10, 11, 12, 13, 14, 15]
코드 실행 시간 :  16.742089986801147


#### %%time
* 시간 확인 가능

In [5]:
import numpy as np
start3 = time.time()

c= np.arange(1,200000000)
c += 5
print(c[:10])
print('코드 실행 시간 : ', time.time() - start3)

[ 6  7  8  9 10 11 12 13 14 15]
코드 실행 시간 :  0.52107834815979


* 1에서 10까지의 숫자 중 짝수만 더해서 리스트 만들기

In [1]:
[i for i in range(1,11) if i%2==0]

[2, 4, 6, 8, 10]

## 다중 반복문을 사용한 리스트 표현식

In [5]:
gugudan = [ f'{i}*{j}={i*j}' for i in range(2,10) for j in range(1,10) ]
print(gugudan)

['2*1=2', '2*2=4', '2*3=6', '2*4=8', '2*5=10', '2*6=12', '2*7=14', '2*8=16', '2*9=18', '3*1=3', '3*2=6', '3*3=9', '3*4=12', '3*5=15', '3*6=18', '3*7=21', '3*8=24', '3*9=27', '4*1=4', '4*2=8', '4*3=12', '4*4=16', '4*5=20', '4*6=24', '4*7=28', '4*8=32', '4*9=36', '5*1=5', '5*2=10', '5*3=15', '5*4=20', '5*5=25', '5*6=30', '5*7=35', '5*8=40', '5*9=45', '6*1=6', '6*2=12', '6*3=18', '6*4=24', '6*5=30', '6*6=36', '6*7=42', '6*8=48', '6*9=54', '7*1=7', '7*2=14', '7*3=21', '7*4=28', '7*5=35', '7*6=42', '7*7=49', '7*8=56', '7*9=63', '8*1=8', '8*2=16', '8*3=24', '8*4=32', '8*5=40', '8*6=48', '8*7=56', '8*8=64', '8*9=72', '9*1=9', '9*2=18', '9*3=27', '9*4=36', '9*5=45', '9*6=54', '9*7=63', '9*8=72', '9*9=81']


# 파일 open(), with open()
## 1) 파일에 문자열을 쓰거나 읽을 때는 open 함수 사용
* 파일 저장
* 변수명 = open("파일이름", 모드(w:쓰기, r:읽기))
* 변수명.write("저장할 내용")
* 변수명.close
* 마지막에 **close()를 안하면 계속 열려있음**

In [6]:
file = open('test.txt', 'w')
file.write('파일 만들기 연습')
file.close()

* 파일 열기
* 변수1 = open('파일이름', '파일모드(r)')
* 변수2 = 변수1.read()
* 변수1.clsoe()

In [7]:
file1 = open('test.txt', 'r')
my_file = file1.read()
file1.close()
print(my_file)

파일 만들기 연습


## 2) with open
* close()를 하지 않아도 자동으로 close() 처리를 해줌

In [8]:
with open('test2.txt','w') as file3:
    file3.write('with open을 사용하면 파일을 자동으로 닫아주어 편리하다.')

In [9]:
with open('test2.txt','r') as file4:
    data = file4.read()

In [10]:
print(data)

with open을 사용하면 파일을 자동으로 닫아주어 편리하다.


## encoding에 따른 읽기 오류
* 운영체제(windows, linux, macOS), 한글/영어 윈도우에 따라서 인코딩되는 포맷이 달라짐
* 인코딩에 따른 오류가 발생 가능
* Web표준은 UTF-8이므로 인코딩은 UTF-8로 하는 것이 좋다.
* windows의 경우 인코딩이 cp949이므로 주의

In [11]:
with open('test_utf-8.txt','w', encoding='utf-8') as file5:
    file5.write('이것은 with open으로 만들 utf-8 인코딩 파일입니다.')

In [13]:
with open('test_utf-8.txt','r', encoding='utf-8') as file6:
    data2 = file6.read()
print(data2)

이것은 with open으로 만들 utf-8 인코딩 파일입니다.


# json 파일 읽어와서 내용 정리하기

In [1]:
with open('./data/서울특별시_관광지입장정보_2011_2016.json','r', encoding='utf-8') as file7:
    trip_info = file7.read()

In [15]:
print(trip_info)

[
    {
        "ForNum": 44722,
        "NatNum": 75991,
        "addrCd": 1111,
        "gungu": "종로구",
        "resNm": "창덕궁",
        "rnum": 1,
        "sido": "서울특별시",
        "yyyymm": "201112"
    },
    {
        "ForNum": 0,
        "NatNum": 11017,
        "addrCd": 1111,
        "gungu": "종로구",
        "resNm": "운현궁",
        "rnum": 2,
        "sido": "서울특별시",
        "yyyymm": "201112"
    },
    {
        "ForNum": 132399,
        "NatNum": 237330,
        "addrCd": 1111,
        "gungu": "종로구",
        "resNm": "경복궁",
        "rnum": 3,
        "sido": "서울특별시",
        "yyyymm": "201112"
    },
    {
        "ForNum": 3133,
        "NatNum": 21267,
        "addrCd": 1111,
        "gungu": "종로구",
        "resNm": "창경궁",
        "rnum": 4,
        "sido": "서울특별시",
        "yyyymm": "201112"
    },
    {
        "ForNum": 18226,
        "NatNum": 24223,
        "addrCd": 1111,
        "gungu": "종로구",
        "resNm": "종묘",
        "rnum": 5,
        "sido": "서울특별시",
      

In [16]:
print(type(trip_info))

<class 'str'>


## json 모듈
* json.loads(함수/변수)
* 문자열을 json/dict로 변환

In [2]:
import json
trip_info_data = json.loads(trip_info)
print(type(trip_info_data))
print(trip_info_data)

<class 'list'>
[{'ForNum': 44722, 'NatNum': 75991, 'addrCd': 1111, 'gungu': '종로구', 'resNm': '창덕궁', 'rnum': 1, 'sido': '서울특별시', 'yyyymm': '201112'}, {'ForNum': 0, 'NatNum': 11017, 'addrCd': 1111, 'gungu': '종로구', 'resNm': '운현궁', 'rnum': 2, 'sido': '서울특별시', 'yyyymm': '201112'}, {'ForNum': 132399, 'NatNum': 237330, 'addrCd': 1111, 'gungu': '종로구', 'resNm': '경복궁', 'rnum': 3, 'sido': '서울특별시', 'yyyymm': '201112'}, {'ForNum': 3133, 'NatNum': 21267, 'addrCd': 1111, 'gungu': '종로구', 'resNm': '창경궁', 'rnum': 4, 'sido': '서울특별시', 'yyyymm': '201112'}, {'ForNum': 18226, 'NatNum': 24223, 'addrCd': 1111, 'gungu': '종로구', 'resNm': '종묘', 'rnum': 5, 'sido': '서울특별시', 'yyyymm': '201112'}, {'ForNum': 0, 'NatNum': 233828, 'addrCd': 1117, 'gungu': '용산구', 'resNm': '국립중앙박물관', 'rnum': 6, 'sido': '서울특별시', 'yyyymm': '201112'}, {'ForNum': 0, 'NatNum': 93554, 'addrCd': 1111, 'gungu': '종로구', 'resNm': '서울역사박물관', 'rnum': 7, 'sido': '서울특별시', 'yyyymm': '201112'}, {'ForNum': 13935, 'NatNum': 52140, 'addrCd': 1114, 'gungu': '중구

* 1) 변수에 json.loads()로 문자열로 읽어온 파일을 json 형식으로 변환하기
* 2) 구조 파악하기 리스트, 딕셔너리 구조
* 3) 리스트 안에 67개의 딕셔너리 세트가 저장되어 있음
* 4) 각 딕셔너리에는 ['ForNum','NatNum', ..., 'yyyymm'] 키로 관광지 입장객 정보가 저장되어 있음
* 5) 67개의 딕셔너리에서 하나의 key 당 67개의 value를 리스트 형태로 저장
* 6) pandas를 이용해서 dataframe으로 변환

### value를 리스트로 만든 후 dict 함수로 딕셔너리로 만들어 데이터프레임

In [10]:
year = []
sido = []
place = []
foreigners = []
total = []

for item in trip_info_data:
    foreigners.append(item['ForNum'])
    year.append(item['yyyymm'])
    sido.append(item['sido'])
    place.append(item['resNm'])
    total.append(item['NatNum'])

print(place)

['창덕궁', '운현궁', '경복궁', '창경궁', '종묘', '국립중앙박물관', '서울역사박물관', '덕수궁', '서울시립미술관 본관', '태릉 ·  강릉 · 조선왕릉전시관', '서대문형무소역사관', '서대문자연사박물관', '트릭아이미술관', '헌릉ㆍ인릉', '선릉·정릉', '롯데월드', '창덕궁', '운현궁', '경복궁', '창경궁', '종묘', '국립중앙박물관', '서울역사박물관', '덕수궁', '서울시립미술관 본관', '태릉 ·  강릉 · 조선왕릉전시관', '서대문형무소역사관', '서대문자연사박물관', '트릭아이미술관', '헌릉ㆍ인릉', '롯데월드', '창덕궁', '경복궁', '창경궁', '종묘', '국립중앙박물관', '덕수궁', '태릉 ·  강릉 · 조선왕릉전시관', '서대문형무소역사관', '서대문자연사박물관', '트릭아이미술관', '헌릉ㆍ인릉', '선릉·정릉', '창덕궁', '경복궁', '창경궁', '종묘', '국립중앙박물관', '덕수궁', '태릉 ·  강릉 · 조선왕릉전시관', '서대문형무소역사관', '서대문자연사박물관', '트릭아이미술관', '헌릉ㆍ인릉', '선릉·정릉', '창덕궁', '경복궁', '창경궁', '종묘', '국립중앙박물관', '덕수궁', '태릉 ·  강릉 · 조선왕릉전시관', '서대문형무소역사관', '서대문자연사박물관', '트릭아이미술관', '헌릉ㆍ인릉', '선릉·정릉']


In [11]:
tour_info = dict(년월=year,시도=sido,장소=place,외국인=foreigners,전체방문=total)
print(tour_info)

{'년월': ['201112', '201112', '201112', '201112', '201112', '201112', '201112', '201112', '201112', '201112', '201112', '201112', '201112', '201112', '201112', '201112', '201212', '201212', '201212', '201212', '201212', '201212', '201212', '201212', '201212', '201212', '201212', '201212', '201212', '201212', '201212', '201312', '201312', '201312', '201312', '201312', '201312', '201312', '201312', '201312', '201312', '201312', '201312', '201412', '201412', '201412', '201412', '201412', '201412', '201412', '201412', '201412', '201412', '201412', '201412', '201512', '201512', '201512', '201512', '201512', '201512', '201512', '201512', '201512', '201512', '201512', '201512'], '시도': ['서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시', '서울특별시',

In [12]:
import pandas as pd
df = pd.DataFrame(tour_info)
df

Unnamed: 0,년월,시도,장소,외국인,전체방문
0,201112,서울특별시,창덕궁,44722,75991
1,201112,서울특별시,운현궁,0,11017
2,201112,서울특별시,경복궁,132399,237330
3,201112,서울특별시,창경궁,3133,21267
4,201112,서울특별시,종묘,18226,24223
...,...,...,...,...,...
62,201512,서울특별시,서대문형무소역사관,5588,44232
63,201512,서울특별시,서대문자연사박물관,0,22587
64,201512,서울특별시,트릭아이미술관,29520,8822
65,201512,서울특별시,헌릉ㆍ인릉,3,1647


### 딕셔너리를 바로 만들어서 데이터프레임으로 변환
* key, value를 직접 할당해서 딕셔너리 만들기

In [6]:
result = {}

for key in trip_info_data[0]:
    value_list = []
    for val in trip_info_data:
        value_list.append(val[key])
    print(key, value_list)
    result[key] = value_list

ForNum [44722, 0, 132399, 3133, 18226, 0, 0, 13935, 0, 10, 0, 0, 5214, 333, 4704, 52484, 27814, 546, 105370, 1451, 8817, 13033, 1138, 11151, 0, 15, 6625, 0, 24492, 62, 66868, 25550, 101942, 1986, 6048, 9083, 13282, 6, 6732, 0, 43129, 16, 1445, 29928, 129946, 1693, 3891, 7195, 14723, 12, 6263, 0, 42443, 5, 823, 33342, 170379, 1783, 3406, 13127, 15197, 16, 5588, 0, 29520, 3, 492]
NatNum [75991, 11017, 237330, 21267, 24223, 233828, 93554, 52140, 61115, 1885, 32412, 19308, 6956, 1823, 16634, 642290, 28061, 5978, 133012, 15722, 8068, 227077, 78179, 44855, 213467, 1252, 14090, 18881, 9167, 860, 670056, 38553, 145544, 20035, 13896, 286992, 99301, 706, 14607, 23245, 11886, 1248, 11890, 41561, 190501, 19473, 5951, 258781, 44272, 486, 27205, 24527, 7478, 1036, 8869, 59738, 148961, 27172, 14936, 281457, 68749, 2221, 44232, 22587, 8822, 1647, 14454]
addrCd [1111, 1111, 1111, 1111, 1111, 1117, 1111, 1114, 1114, 1135, 1141, 1141, 1144, 1165, 1168, 1171, 1111, 1111, 1111, 1111, 1111, 1117, 1111, 1114

In [7]:
print(result)

{'ForNum': [44722, 0, 132399, 3133, 18226, 0, 0, 13935, 0, 10, 0, 0, 5214, 333, 4704, 52484, 27814, 546, 105370, 1451, 8817, 13033, 1138, 11151, 0, 15, 6625, 0, 24492, 62, 66868, 25550, 101942, 1986, 6048, 9083, 13282, 6, 6732, 0, 43129, 16, 1445, 29928, 129946, 1693, 3891, 7195, 14723, 12, 6263, 0, 42443, 5, 823, 33342, 170379, 1783, 3406, 13127, 15197, 16, 5588, 0, 29520, 3, 492], 'NatNum': [75991, 11017, 237330, 21267, 24223, 233828, 93554, 52140, 61115, 1885, 32412, 19308, 6956, 1823, 16634, 642290, 28061, 5978, 133012, 15722, 8068, 227077, 78179, 44855, 213467, 1252, 14090, 18881, 9167, 860, 670056, 38553, 145544, 20035, 13896, 286992, 99301, 706, 14607, 23245, 11886, 1248, 11890, 41561, 190501, 19473, 5951, 258781, 44272, 486, 27205, 24527, 7478, 1036, 8869, 59738, 148961, 27172, 14936, 281457, 68749, 2221, 44232, 22587, 8822, 1647, 14454], 'addrCd': [1111, 1111, 1111, 1111, 1111, 1117, 1111, 1114, 1114, 1135, 1141, 1141, 1144, 1165, 1168, 1171, 1111, 1111, 1111, 1111, 1111, 1117

In [13]:
result_df = pd.DataFrame(result)
result_df

Unnamed: 0,ForNum,NatNum,addrCd,gungu,resNm,rnum,sido,yyyymm
0,44722,75991,1111,종로구,창덕궁,1,서울특별시,201112
1,0,11017,1111,종로구,운현궁,2,서울특별시,201112
2,132399,237330,1111,종로구,경복궁,3,서울특별시,201112
3,3133,21267,1111,종로구,창경궁,4,서울특별시,201112
4,18226,24223,1111,종로구,종묘,5,서울특별시,201112
...,...,...,...,...,...,...,...,...
62,5588,44232,1141,서대문구,서대문형무소역사관,8,서울특별시,201512
63,0,22587,1141,서대문구,서대문자연사박물관,9,서울특별시,201512
64,29520,8822,1144,마포구,트릭아이미술관,10,서울특별시,201512
65,3,1647,1165,서초구,헌릉ㆍ인릉,11,서울특별시,201512


### setdefault 함수 이용해 만들기
* dictionary명.setdefault('키','값')

In [20]:
dic_result = {}

for dicts in trip_info_data:
    for key, value in dicts.items():
        dic_result.setdefault(key,[]).append(value)

print(dic_result)

{'ForNum': [44722, 0, 132399, 3133, 18226, 0, 0, 13935, 0, 10, 0, 0, 5214, 333, 4704, 52484, 27814, 546, 105370, 1451, 8817, 13033, 1138, 11151, 0, 15, 6625, 0, 24492, 62, 66868, 25550, 101942, 1986, 6048, 9083, 13282, 6, 6732, 0, 43129, 16, 1445, 29928, 129946, 1693, 3891, 7195, 14723, 12, 6263, 0, 42443, 5, 823, 33342, 170379, 1783, 3406, 13127, 15197, 16, 5588, 0, 29520, 3, 492], 'NatNum': [75991, 11017, 237330, 21267, 24223, 233828, 93554, 52140, 61115, 1885, 32412, 19308, 6956, 1823, 16634, 642290, 28061, 5978, 133012, 15722, 8068, 227077, 78179, 44855, 213467, 1252, 14090, 18881, 9167, 860, 670056, 38553, 145544, 20035, 13896, 286992, 99301, 706, 14607, 23245, 11886, 1248, 11890, 41561, 190501, 19473, 5951, 258781, 44272, 486, 27205, 24527, 7478, 1036, 8869, 59738, 148961, 27172, 14936, 281457, 68749, 2221, 44232, 22587, 8822, 1647, 14454], 'addrCd': [1111, 1111, 1111, 1111, 1111, 1117, 1111, 1114, 1114, 1135, 1141, 1141, 1144, 1165, 1168, 1171, 1111, 1111, 1111, 1111, 1111, 1117

In [22]:
dic_result_df = pd.DataFrame(dic_result)
dic_result_df

Unnamed: 0,ForNum,NatNum,addrCd,gungu,resNm,rnum,sido,yyyymm
0,44722,75991,1111,종로구,창덕궁,1,서울특별시,201112
1,0,11017,1111,종로구,운현궁,2,서울특별시,201112
2,132399,237330,1111,종로구,경복궁,3,서울특별시,201112
3,3133,21267,1111,종로구,창경궁,4,서울특별시,201112
4,18226,24223,1111,종로구,종묘,5,서울특별시,201112
...,...,...,...,...,...,...,...,...
62,5588,44232,1141,서대문구,서대문형무소역사관,8,서울특별시,201512
63,0,22587,1141,서대문구,서대문자연사박물관,9,서울특별시,201512
64,29520,8822,1144,마포구,트릭아이미술관,10,서울특별시,201512
65,3,1647,1165,서초구,헌릉ㆍ인릉,11,서울특별시,201512
