### 9-1 로깅 모듈 사용하기
>* 파이썬에서 로그를 관리해주는 모듈 중 logging이 있음

In [8]:
import logging

logging.info("I'm ParkJeongTae")
logging.warning("warning")


INFO:root:I'm ParkJeongTae


### 9-2 로그 5단계 모두 출력하기
>* 5단계 debug (가장 심각하지 않음)
>* 4단계 info
>* 3단계 warning
>* 2단계 error
>* 1단계 critical (가장 심각)
>* logging 모듈은 기본적으로 1~3단계 까지만 출력이 됨.

In [9]:
import logging

logging.debug('debug')
logging.info("info")
logging.warning("warning")
logging.error("error")
logging.critical("critical")

DEBUG:root:debug
INFO:root:info
ERROR:root:error
CRITICAL:root:critical


### 9-3 로그 단계 레벨 설정
>* basicConfig() 함수를 이용하여 로그 기본 설정을 바꿀 수 있음
>* 5단계인 debug를 설정하였기 때문에 전부 다 찍힘.

In [10]:
import logging

logging.basicConfig(level = logging.DEBUG) 

logging.debug('debug')
logging.info("info")
logging.warning("warning")
logging.error("error")
logging.critical("critical")

DEBUG:root:debug
INFO:root:info
ERROR:root:error
CRITICAL:root:critical


### 9-4 로그 파일 남기기
>* 제대로 된 로그를 찍기 위해서는 콘솔창이 아니라 파일로 남겨야 함. 
>* 파일로 남기기 위해 파일명을 설정해 주어야 하는데 이때도 basicConfig() 함수를 이용

In [11]:
import logging

logging.basicConfig(filename='ch.9.4.log', level=logging.DEBUG)

logging.debug("debug")        # 5 단계
logging.info("info")          # 4 단계
logging.warning("warning")    # 3 단계
logging.error("error")        # 2 단계
logging.critical("critical")  # 1 단계


DEBUG:root:debug
INFO:root:info
ERROR:root:error
CRITICAL:root:critical


### 9-5 2개의 파일에 로그 남겨보기

In [5]:
import logging

logging.basicConfig(filename='ch.9.4,log' ,level = logging.DEBUG)

logging.debug('debug')
logging.info("info")
logging.warning("warning")
logging.error("error")
logging.critical("critical")

logging.basicConfig(filename='ch.9.5,log' ,level = logging.warning)

logging.debug('debug1')
logging.info("info1")
logging.warning("warning1")
logging.error("error1")
logging.critical("critical1")

ERROR:root:error
CRITICAL:root:critical
ERROR:root:error1
CRITICAL:root:critical1


### 9-6 다른 파일로 분리해서 로그 기록
>* 다른 파일 또는 다른 곳으로 로그를 출력라고 싶다면 핸들러를 이용하면 됨
>* 2개 이상의 파일에 로그를 출력, 파일과 콘솔 모두 로그를 출력할 땐 각각의 핸들러를 생성하여 등록해야 함. 
>* 로깅에서 핸들러란 로길한 정보를 어느 위치에 출력시킬지 등록해 주는 것
>* 예를 들어 debug단계는 debug.log 파일에 출력하고, error 단계는 error.log 단계에 출력 할 수도 있도록 등록을 함. 
>* 또한 파일 뿐만 아니라 콘솔 창도 등록이 가능
>* 파일 핸들러를 만들어 준 후 로거에 등록을 해줌
>* 파일 핸들러를 만들어 줄때 각각의 파일에 로그 단계를 설정
>* info와 dug는 ch.9.6_debug.log 파일에만 저장됨
>* 파일 핸들러를 생성할 때 파일마다 로그 단계를 설정해 주었기 때문에 해당 설정을 해준 단계까지만 저장됨.
>* 마지막으로 저장된 시간, 로그 단계를 같이 저장하는 것이 좋음

In [13]:
import logging

# 로거 생성
logger = logging.getLogger('test_log1')
logger.setLevel(logging.DEBUG)

# 파일 핸들러 생성
fileHandler = logging.FileHandler('ch.9.6_debug.log')
fileHandler.setLevel(logging.DEBUG)

fileHandler1 = logging.FileHandler('ch.9.6_warning.log')
fileHandler1.setLevel(logging.WARNING)

# 핸들러 등록
logger.addHandler(fileHandler)
logger.addHandler(fileHandler1)

logger.debug("debug")        # 5 단계
logger.info("info")          # 4 단계
logger.warning("warning")    # 3 단계
logger.error("error")        # 2 단계
logger.critical("critical")  # 1 단계


DEBUG:test_log1:debug
INFO:test_log1:info
ERROR:test_log1:error
CRITICAL:test_log1:critical


### 9-7 멋진 로그 남기기
>* 파일 핸들러를 만들때 각각의 파일에 저장되는 데이터 포맷을 정할 수 있음
>* 파일 핸들러 뿐만 아니라 콘솔에도 찍을 수 있음. 콘솔에 찍을 수 있도록 핸들러를 만들어 준 뒤 등록을 하면 됨

In [14]:
import logging

# 로거 생성
logger = logging.getLogger('test_log1')
logger.setLevel(logging.DEBUG)

# 로그 포멧팅 설정
formatter = logging.Formatter("%(asctime)s - %(name)s - %(levelname)s - %(message)s")

# 파일 핸들러 생성
fileHandler = logging.FileHandler('ch.9.7_debug.log')
fileHandler.setLevel(logging.DEBUG)
fileHandler.setFormatter(formatter)

fileHandler1 = logging.FileHandler('ch.9.7_warning.log')
fileHandler1.setLevel(logging.WARNING)

# 핸들러 등록
logger.addHandler(fileHandler)
logger.addHandler(fileHandler1)

logger.debug("debug")        # 5 단계
logger.info("info")          # 4 단계
logger.warning("warning")    # 3 단계
logger.error("error")        # 2 단계
logger.critical("critical")  # 1 단계


DEBUG:test_log1:debug
INFO:test_log1:info
ERROR:test_log1:error
CRITICAL:test_log1:critical


### 9-8 파일, 스트림 동시 출력
>* 터미널과 파일에 각각 정상적으로 로그가 찍힘
>* 로거를 활용하면 로그 파일의 크기가 일정량 되면 새로운 파일을 생성할 수 있음

In [15]:
import logging

# 로거 생성
logger = logging.getLogger('test_log1')
logger.setLevel(logging.DEBUG)

# 로그 포멧팅 설정
formatter = logging.Formatter("%(asctime)s - %(name)s - %(levelname)s - %(message)s")

# 파일 핸들러 생성
fileHandler = logging.FileHandler('ch.9.8_debug.log')
fileHandler.setLevel(logging.DEBUG)
fileHandler.setFormatter(formatter)

fileHandler1 = logging.FileHandler('ch.9.8_warning.log')
fileHandler1.setLevel(logging.WARNING)

# 스트림(터미널 출력) 핸들러 생성
streamHandler = logging.StreamHandler()
streamHandler.setLevel(logging.ERROR)
streamHandler.setFormatter(formatter)

# 핸들러 등록
logger.addHandler(fileHandler)
logger.addHandler(fileHandler1)
logger.addHandler(streamHandler)

logger.debug("debug")        # 5 단계
logger.info("info")          # 4 단계
logger.warning("warning")    # 3 단계
logger.error("error")        # 2 단계
logger.critical("critical")  # 1 단계


DEBUG:test_log1:debug
INFO:test_log1:info
2020-02-22 02:02:04,294 - test_log1 - ERROR - error
ERROR:test_log1:error
2020-02-22 02:02:04,298 - test_log1 - CRITICAL - critical
CRITICAL:test_log1:critical


### 9-9 파일 분할
>* 파일마다 용량을 제한하기 위해 import logging.handlers 해야함. 
>* logging을 이용하면 로그 레벨에 따라 파일 분할이 가능하며, 각 파일당 저장되는 로그의 용량을 제한할 수 있음
>* 또한 로그를 만들 떄 다양한 포메팅에 맟춰 만들 수 있음

In [16]:
import logging
import logging.handlers

# 로거 생성
logger = logging.getLogger('test_log1')
logger.setLevel(logging.DEBUG)

# 로그 포멧팅 설정
formatter = logging.Formatter("%(asctime)s - %(name)s - %(levelname)s - %(message)s")

# 파일 용량 설정
file_max_bytes = 10 * 1024 # 수치를 바꿔가면서 실행해보세요.(10 * 1024 =1 0Mb)

# 파일 핸들러 생성
fileHandler = logging.handlers.RotatingFileHandler(filename='ch.9.9.log', maxBytes=file_max_bytes, backupCount=10)
fileHandler.setLevel(logging.ERROR)
fileHandler.setFormatter(formatter)

# 핸들러 등록
logger.addHandler(fileHandler)

logger.debug("debug")        # 5 단계
logger.info("info")          # 4 단계
logger.warning("warning")    # 3 단계
logger.error("error")        # 2 단계
logger.critical("critical")  # 1 단계


DEBUG:test_log1:debug
INFO:test_log1:info
2020-02-22 02:04:18,276 - test_log1 - ERROR - error
ERROR:test_log1:error
2020-02-22 02:04:18,282 - test_log1 - CRITICAL - critical
CRITICAL:test_log1:critical


### 9-16 파일 생성
>* open() 함수로 파일을 사용할 때 세가지 모드가 존재
>>* w : 파일을 쓸때
>>* a : 파일을 이어쓸 때
>>* r : 파일을 읽을 때
>* 해당 파일을 다 사용했다면 close() 함수를 이용하여 파일을 닫아야함. 

In [21]:
file = open('ch.9.txt','w')
file.close()

### 9-17 r 모드로 파일 열기
>* r 모드에서는 파일이 없으므로 에러 발생
>* a와 w 모드로 파일을 연다면 파일이 없기 때문에 파일을 생성함

In [23]:
file = open('ch.9.no.txt', 'r')
file.close()

FileNotFoundError: [Errno 2] No such file or directory: 'ch.9.no.txt'

### 9-18 w 모드로 파일 데이터 쓰기
>* write() 함수로 데이터를 쓸 수 있음
>* w 모드를 계속 실행해도 파일에는 계속 같은 데이터만 저장
>* w 모드로 파일을 연다면 해당 파일을 다 비움, 만약 데이터를 지속해서 쌓고 싶다면 w 모드가 아니라 a모드로 열어야 함. 

In [25]:
file = open('ch.9.18.txt','w')

for i in range(0,5):
    file.write(str(i)+'\n')
    
file.close()

### 9-19 a모드로 파일 데이터 쓰기
>* a모드는 실행한 횟수 만큼 저장 되어있음.

In [26]:
file = open('ch.9.n.txt','a')

for i in range(0,5):
    file.write(str(i)+'\n')
    
file.close()

### 9-20 r모드로 파일 열어 데이터 읽기
>* r모드로 파일을 열면 readlines() 함수를 이용하여 파일에서 줄단위로 리스트를 만들어 줌

In [27]:
file = open('ch.9.n.txt','r')

lines = file.readlines()

print(lines, type(lines))

for line in lines:
    print(line)
    
file.close()

['0\n', '1\n', '2\n', '3\n', '4\n'] <class 'list'>
0

1

2

3

4



### 9-21 with 키워드 사용
>* open()과 close() 같이 쓰기 번거로움 이를 해결한게 with키워드
>* with 구문이 끝나면 close()가 자동으로 호출

In [28]:
with open('ch.9.221.txt','w') as f:
    f.write('1\n')
    f.write('2\n')
    f.write('3\n')

### 9-22 csv 저장
>* 파일을 저장할 때 콤마(,)를 사용해서 csv파일로 저장할 수 있음
>* join() 함수를 이용하여 리스트로 만들 컬럼을 콤마(,)를 넣어 문자열 형태로 만들어 준 뒤 저장. 
>* 그리고 데이터 부분을 반복문을 돌려 저장

In [29]:
columns = ['이름','나이','주소']

names = ['철구', '맹구', '짱구', '유리']
ages = ['20','21','20','22']
address = ['경기도','강원도','경상도','전라도']

with open('ch.9.22.csv','a') as f:
    column = ','.join(columns) + '\n'
    f.write(column)
    
    for i in range(0,len(names)):
        row = ('%s, %s, %s\n')%(names[i], ages[i], address[i])
        f.write(row)

### 9-23 open 이용하여 이미지 파일 저장1)
>* open과 requests를 사용하면 이미지를 다운 받을 수 있음
>* xb는 바이너리 형태로 쓴다는 의미

In [30]:
import requests as rq

url = 'https://avatars2.githubusercontent.com/u/12229295?v=4&s=60'

res = rq.get(url)

with open('t.png','wb') as f:
    f.write(res.content)

### 9-24 open 이용하여 이미지 파일 저장 2)
>* 함수를 만들어 모듈화
>* open()을 이용하면 수치데이터뿐만 아니라 이미지데이터도 수집할 수 있음

In [31]:
import requests as rq

def image_download(url, file_name):
    image_request_result = rq.get(url)
    image = image_request_result.content
    
    with open(file_name, 'wb') as destination:
        destination.write(image)
        
url = 'https://avatars2.githubusercontent.com/u/12229295?v=4&s=60'

image_download(url, 't.png')

### 9-25 pandas 로 csv 파일 읽기
>* pandas로 데이터를 읽으면 각 줄마다 번호(인덱스)를 부여

In [33]:
import pandas as pd
df=pd.read_csv('test.csv')
print(df)

    이름    나이   주소
0  철구1  20.0  경기도
1  맹구2  21.0  강원도
2  짱구3  20.0  경상도
3  유리4  12.0  전라도
4  철구5  30.0  경기도
5  맹구6  31.0  강원도
6  짱구7  40.0  경상도
7  유리8  30.0  전라도
8  홍길동   NaN  충청도
9  박정태  25.0  경기도


### 9-26 앞, 뒤 데이터 잘라 사용하기
>* head()함수는 상위 데이터 5개
>* tail()함수는 하위 데이터 5개

In [34]:
import pandas as pd

df = pd.read_csv('test.csv')

print('상위 데이터만 출력')
print(df.head())

print('하위 데이터만 출력')
print(df.tail())

상위 데이터만 출력
    이름    나이   주소
0  철구1  20.0  경기도
1  맹구2  21.0  강원도
2  짱구3  20.0  경상도
3  유리4  12.0  전라도
4  철구5  30.0  경기도
하위 데이터만 출력
    이름    나이   주소
5  맹구6  31.0  강원도
6  짱구7  40.0  경상도
7  유리8  30.0  전라도
8  홍길동   NaN  충청도
9  박정태  25.0  경기도


### 9-27 슬라이싱 하기

In [35]:
import pandas as pd
df = pd.read_csv('test.csv')

print(df[1:3])

    이름    나이   주소
1  맹구2  21.0  강원도
2  짱구3  20.0  경상도


### 9-30 인덱싱 시도 1)
>* 5라인의 컬럼이 없기 때문에 에러 발생

In [38]:
import pandas as pd

df = pd.read_csv('test.csv')

print(df[5])

KeyError: 5

### 9-31 인덱싱 시도 2)
>* pandas에서 인덱싱은 컬럼을 분리하여 뽑는 역할

In [39]:
import pandas as pd

df = pd.read_csv('test.csv')

print(df['나이'])
print(df['이름'])

0    20.0
1    21.0
2    20.0
3    12.0
4    30.0
5    31.0
6    40.0
7    30.0
8     NaN
9    25.0
Name: 나이, dtype: float64
0    철구1
1    맹구2
2    짱구3
3    유리4
4    철구5
5    맹구6
6    짱구7
7    유리8
8    홍길동
9    박정태
Name: 이름, dtype: object


### 9-32 데이터 재조합
>* 인덱싱하여 특정 컬럼만 뽑은 뒤p pandas의 concat() 함수를 이용하여 다시 데이터를 만들 수 있음
>* concat() 함수는 두번째 인자를 axis로 0과 1이 들어갈 수 있는데 1일 경우 컬럼 단위로 합치고, 0일 경우 로우로 합침
>* 만약에 뽑은 데이터가 같은 컬럼이라면 axis를 0으로 하여 로우를 늘리고, 다른 컬럼이라면 axis를 1로 하여 컬럼을 늘리면 됨

In [44]:
import pandas as pd

df = pd.read_csv('test.csv')

name = df['나이']
age = df['이름']

print('axis가 1일 때')
p1 = pd.concat([name, age], axis=1)
print(p1)

print('\naxis가 0일 때')
p2 = pd.concat([name, age], axis=0)
print(p2)

axis가 1일 때
     나이   이름
0  20.0  철구1
1  21.0  맹구2
2  20.0  짱구3
3  12.0  유리4
4  30.0  철구5
5  31.0  맹구6
6  40.0  짱구7
7  30.0  유리8
8   NaN  홍길동
9  25.0  박정태

axis가 0일 때
0     20
1     21
2     20
3     12
4     30
5     31
6     40
7     30
8    NaN
9     25
0    철구1
1    맹구2
2    짱구3
3    유리4
4    철구5
5    맹구6
6    짱구7
7    유리8
8    홍길동
9    박정태
dtype: object


### 9-34 필터링 1)
>* 값을 필터하여 뽑아내는 것이 가능

In [45]:
import pandas as pd

df = pd.read_csv('test.csv')

print(df['나이']>30)

0    False
1    False
2    False
3    False
4    False
5     True
6     True
7    False
8    False
9    False
Name: 나이, dtype: bool


### 9-35 필터링 2)
>* 값을 필터하여 뽑아내는 것이 가능
>* 만약 30 이상인 컬럼만 뻡고 싶을 때는 아래와 같이 코드 작성

In [52]:
import pandas as pd

df = pd.read_csv('test.csv')

print(df[df['나이']>30])

    이름    나이   주소
5  맹구6  31.0  강원도
6  짱구7  40.0  경상도


### 9-35 비어있는 값 필터링 1)
>* notnull()함수는 값이 비어있는지 검사

In [46]:
import pandas as pd

df = pd.read_csv('test.csv')

print(df['나이'].notnull())
print(df[df['나이'].notnull()])

0     True
1     True
2     True
3     True
4     True
5     True
6     True
7     True
8    False
9     True
Name: 나이, dtype: bool
    이름    나이   주소
0  철구1  20.0  경기도
1  맹구2  21.0  강원도
2  짱구3  20.0  경상도
3  유리4  12.0  전라도
4  철구5  30.0  경기도
5  맹구6  31.0  강원도
6  짱구7  40.0  경상도
7  유리8  30.0  전라도
9  박정태  25.0  경기도


### 9-36 비어있는 값 필터링 2)
>* notnull()함수를 사용하지 않고 단순히 ==' ' 형태로 검사하면 에러가 발생

In [47]:
import pandas as pd

df = pd.read_csv('test.csv')

print(df['나이']=='')

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
8    False
9    False
Name: 나이, dtype: bool


  res_values = method(rvalues)


### 9-37 필터링 시 주의할 점
>* 숫자로 이루어진 컬럼
>* 만약에 df[나이]=='1' 을 사용하게 되면 에러가 발생
>* 문자열로 이루어진 이름 컬럼에서 숫자로 검사를 할 경우에는 에러가 발생 안함
>* 고로 숫자 이루어진 컬럼은 신경써서 처리해주세용

In [48]:
import pandas as pd

df = pd.read_csv('test.csv')

print(df['나이']==1)
print(df['이름']==1)

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
8    False
9    False
Name: 나이, dtype: bool
0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
8    False
9    False
Name: 이름, dtype: bool


### 9-38 DataFrame 만들기
>* DataFrame은 딕셔너리와 리스트의 형태로 이루어져 있음
>* 컬럼은 딕셔너리 키, 로우는 키에 저장되는 리스트

In [50]:
from pandas import DataFrame

raw_data = {'이름':['철구1', '맹구2', '짱구3', '유리4','철구5', '맹구6', '짱구7','유리8',],
           '나이':[20,21,20,12,30,31,40,30],
           '주소':['경기도','강원도','경상도','전라도','경기도','강원도','경상도','전라도'],
           }

data = DataFrame(raw_data)
print(data)

    이름  나이   주소
0  철구1  20  경기도
1  맹구2  21  강원도
2  짱구3  20  경상도
3  유리4  12  전라도
4  철구5  30  경기도
5  맹구6  31  강원도
6  짱구7  40  경상도
7  유리8  30  전라도


### 9-39 index, columns 지정

In [51]:
from pandas import DataFrame

data = {'이름':['철구1', '맹구2', '짱구3', '유리4','철구5', '맹구6', '짱구7','유리8',],
           '나이':[20,21,20,12,30,31,40,30],
           '주소':['경기도','강원도','경상도','전라도','경기도','강원도','경상도','전라도'],
           }

data = DataFrame(data, columns = ['나이','주소'], index = data['주소'])
print(data)

     나이   주소
경기도  20  경기도
강원도  21  강원도
경상도  20  경상도
전라도  12  전라도
경기도  30  경기도
강원도  31  강원도
경상도  40  경상도
전라도  30  전라도


In [60]:
### 9-40 인덱스 접근, 컬럼 접근
>* 인덱스를 이용하여 접근하는게 저 빠름

SyntaxError: invalid syntax (<ipython-input-60-f7ad44085440>, line 2)

In [57]:
from pandas import DataFrame
import time

def test(i):
    print(("%d 번째 테스트")%(i))

    names = ['철구1', '맹구2', '짱구3', '유리4', '철구5', '맹구6', '짱구7', '유리8',]
    ages = [20, 21, 20, 12, 30, 31, 40, 30,]
    addresses = ['경기도', '강원도', '경상도', '전라도', '경기도', '강원도', '경상도', '전라도', ]

    data = {
        '이름': [],
        '나이': [],
        '주소': [],
    }

    data_length = 1000

    for i in range(0, data_length):
        data['이름'].extend(names)
        data['나이'].extend(ages)
        data['주소'].extend(addresses)

    data = DataFrame(data, columns=['나이', '주소', '이름'], index=data['주소'])

    print(data.head(3))

    start1 = time.time()
    new_add1 = data.loc['경기도']
    end1 = time.time() - start1

    start2 = time.time()
    new_add2 = data[data['주소'] == '경기도']
    end2 = time.time() - start2

    print('인덱스 검사 : %f'%(end1))
    print('컬럼 검사 : %f'%(end2))

    return {
        'index': end1,
        'column': end2
    }

index_sum = 0
column_sum = 0
count = 3

for i in range(count):
    d = test(i)
    column_sum += d['column']
    index_sum += d['index']


print('\n----- 검사결과 -----')
print('인덱스 검사 평균 : %s'%(index_sum/count))
print('컬럼 검사 평균 : %s'%(column_sum/count))


0 번째 테스트
     나이   주소   이름
경기도  20  경기도  철구1
강원도  21  강원도  맹구2
경상도  20  경상도  짱구3
인덱스 검사 : 0.001995
컬럼 검사 : 0.002993
1 번째 테스트
     나이   주소   이름
경기도  20  경기도  철구1
강원도  21  강원도  맹구2
경상도  20  경상도  짱구3
인덱스 검사 : 0.001995
컬럼 검사 : 0.000996
2 번째 테스트
     나이   주소   이름
경기도  20  경기도  철구1
강원도  21  강원도  맹구2
경상도  20  경상도  짱구3
인덱스 검사 : 0.001040
컬럼 검사 : 0.001951

----- 검사결과 -----
인덱스 검사 평균 : 0.0016765594482421875
컬럼 검사 평균 : 0.001979986826578776


### 9-41 데이터 저장
>* to_csv() 함수를 호출하면 DataFrame을 csv로 저장

In [59]:
from pandas import DataFrame

data = {'이름':['철구1', '맹구2', '짱구3', '유리4','철구5', '맹구6', '짱구7','유리8',],
           '나이':[20,21,20,12,30,31,40,30],
           '주소':['경기도','강원도','경상도','전라도','경기도','강원도','경상도','전라도'],
           }

df = DataFrame(data, columns=['나이','주소','이름'])

df.to_csv('9.41.csv')