# 1. pickle 모듈 정리


* 파이썬 객체를 저장하고 불러올수 있게 만들어 주는 모듈
    * 리스트, 딕셔너리, 클래스, 함수 등등


* binary형태로 저장해줘서 용량 압축이됨
    * binary형태로 저장한는 다른 방법도 있지만 pickle모듈이 가장 유용함

data를 pickle을 이용해 저장

In [None]:
import pickle

data = {
    'a': [1, 2.0, 3, 4+6j],
    'b': ("character string", b"byte string"),
    'c': {None, True, False}
}

# save
with open('data.pickle', 'wb') as f:
    pickle.dump(data, f, pickle.HIGHEST_PROTOCOL) # highest_protocol : 객체 저장시 메모리가 부족할 경우 해결해준다

# load
with open('data.pickle', 'rb') as f:
    data_res = pickle.load(f)

In [None]:
data_res

{'a': [1, 2.0, 3, (4+6j)],
 'b': ('character string', b'byte string'),
 'c': {False, None, True}}

gzip 이용

* 파일을 압축할때 사용하는 모듈

In [None]:
import pickle
import gzip

data = {
    'a': [1, 4+6j],
    'b': ("character string", b"byte string"),
    'c': {None, True, False}
}

# save and compress.
with gzip.open('testPickleFile.pickle', 'wb') as f:
    pickle.dump(data, f)

# load and uncompress.
with gzip.open('testPickleFile.pickle','rb') as f:
    data_res = pickle.load(f)

In [None]:
data_res

{'a': [1, (4+6j)],
 'b': ('character string', b'byte string'),
 'c': {False, None, True}}

# 2. 시간 측정 함수

1. time모듈

In [None]:
import time # time 라이브러리 import
start = time.time() # 시작

time.sleep(1) # time.sleep : 1초간 대기하는 함수

end = time.time()

print(f"{end-start:.4f} sec") # 종료와 함께 수행시간 출력

1.0014 sec


2. datetime모듈을 활용하여 좀더 자세한 시간 측정

In [None]:
import time
import datetime # datetime 라이브러리 import

start = time.time() # 시작
time.sleep(1)
sec = time.time()-start # 종료 - 시작 (걸린 시간)

times = str(datetime.timedelta(seconds=sec)) # 걸린시간 보기좋게 바꾸기
short = times.split(".")[0] # 초 단위 까지만
print(f"{times} sec")
print(f"{short} sec")

0:00:01.001486 sec
0:00:01 sec


# 예외 처리

try-except문

```
try:  
    ...   
except [발생오류 [as오류변수]]:  
    ...  
```

In [None]:
try:
    4/0
except ZeroDivisionError as e: #발생오류 오타시 오류발생 가능
    print(e)

division by zero


In [None]:
#여러 except도 가능

try:
    a = [1,2]
    print(a[3])
    4/0
except ZeroDivisionError as e:
    print(e)
except IndexError as e:
    print(e)

list index out of range


try-finally

* try문 수행 도중 예외 발생 여부에 상관없이 항상 실행됨

In [None]:
try:
    f = open('foo.txt', 'w')
    # 무언가를 수행한다.

    #(... 생략 ...)

finally:
    f.close()  # 중간에 오류가 발생하더라도 무조건 실행된다.


try-else문

```
try:
    ...
except [발생오류 [as 오류변수]]:
    ...
else:  # 오류가 없을 경우에만 수행
    ...
```

In [None]:
try:
    age=int(input('나이를 입력하세요: '))
except:
    print('입력이 정확하지 않습니다.')
else:
    if age <= 18:
        print('미성년자는 출입금지입니다.')
    else:
        print('환영합니다.')


나이를 입력하세요: 10
미성년자는 출입금지입니다.


오류 회피하기 : pass이용

In [None]:
try:
    f = open("나없는파일", 'r')
except FileNotFoundError:
    pass

traceback모듈을 이용해 어떤 오류인지 확인가능

In [None]:
import traceback

try:
    4/0
except:
    print(traceback.format_exc())

Traceback (most recent call last):
  File "<ipython-input-21-bb9c303fbce5>", line 4, in <cell line: 3>
    4/0
ZeroDivisionError: division by zero



# numpy 모듈 정리

In [2]:
import numpy as np

## 1. np.unique

* 배열내의 원소들중 고유한 값을 뽑아준다

|parameter|설명|값
|:-:|-|-|
|return_index|각 고유 원소가 처음등장한 index반환|default = False / True, False
|return_inverse|하단 참조|default = False / True, False
|return_counts|각 고유 원소들이 등장하는 횟수 반환|default = False / True, False

In [None]:
np.unique([1,2,2,3,4,5,5,3,3,2,2,1])

array([1, 2, 3, 4, 5])

In [None]:
np.unique([[1,2,4],
           [1,2,5]]) #axis를 지정해주지 않으면 1차원배열로 변환뒤 고유한값 반환

array([1, 2, 4, 5])

In [None]:
np.unique([[1,2,4,1],
           [1,2,5,1],
           [1,2,5,1]], axis = 0)

#axis를 지정해주면 axis별(블록 단위로) 고유값 반환
# [1,2,5,1]이 겹치므로 삭제

array([[1, 2, 4, 1],
       [1, 2, 5, 1]])

In [None]:
np.unique([[1,2,4,1],
           [1,2,5,1],
           [1,2,5,1]], axis = 1)
#위와 동일
#[1,1,1]이 겹치므로 삭제

array([[1, 2, 4],
       [1, 2, 5],
       [1, 2, 5]])

return_inverse

In [None]:
# 3, 4, 5, 8을 0, 1, 2, 3으로 취급했을 때, 원래 값들에 매칭되는 번호

np.unique([3, 5, 8, 8, 5, 5, 4], return_inverse = True)

(array([3, 4, 5, 8]), array([0, 2, 3, 3, 2, 2, 1]))

## np.nditer

* numpy객체 반복에 사용한다

In [None]:
arr = np.array([[1,2,3],
                [3,4,5]])

for row in range(0, arr.shape[0]):
    for col in range(0, arr.shape[1]):
        print(arr[row][col])

# 차원이 2차원일때는 괜찮지만 고차원일경우 for문으로 해결하기 어려워진다

1
2
3
3
4
5


In [None]:
arr = np.array([[1,2,3],
                [4,5,6]])

it = np.nditer(arr, flags = ['multi_index'], op_flags=['readwrite']) #op_flags는 왜 쓰는지 모르겠

while not it.finished:
    idx = it.multi_index
    print(arr[idx])
    it.iternext()

1
2
3
4
5
6


In [None]:
# 1차원일때

arr = np.arange(10)
it = np.nditer(arr, flags = ['c_index'])

while not it.finished:
    idx = it.index
    print(arr[idx])
    it.iternext()

0
1
2
3
4
5
6
7
8
9


In [6]:
np.argmax(np.arange(10) >= 7)

7

## np.partition, np.argpartition

In [4]:
import numpy as np

np.random.seed(3)
test_array = np.random.randint(0,20,10)

In [13]:
test_array

array([16, 16, 19,  9,  1,  1,  2, 15,  6,  9])

In [18]:
np.partition(test_array, 4)

# 리스트에 순서 상관없이 전체 리스트에서 작은숫자 4개를 왼쪽에 둔다

array([ 1,  1,  6,  2,  9, 16,  9, 15, 19, 16])

In [16]:
test_array[np.argpartition(test_array, 4)] 

# 위와 동일하지만 직접 배열을 변환하지는 않고 index를 뽑아준다

array([ 1,  1,  6,  2,  9, 16,  9, 15, 19, 16])

In [19]:
np.partition(test_array, -4)

# 위와 같은 매커니즘, 전체 리스트에서 가장 큰숫자 4개를 오른쪽에 놓는다

array([ 1,  1,  6,  2,  9,  9, 15, 16, 19, 16])

In [20]:
test_array[np.argpartition(test_array, 4)] 

# 위와 동일, 설명 생략

array([ 1,  1,  6,  2,  9, 16,  9, 15, 19, 16])

## random모듈

### np.random.rand

* np.random.rand(d0, d1, d2, ...)
* d : 차원
* 0~1사이의 균일분포

In [None]:
import numpy as np

np.random.rand(2, 1,2)

array([[[0.62476487, 0.36116332]],

       [[0.54006562, 0.34187394]]])

### np.random.choice

* np.random.choice(a, size, replace, p)

* a : 뽑을 대상, 그냥 정수로 주어질경우 0~a-1 중 추출
* size : 뽑을 갯수
* replace : 복원추출 여부
* p : 뽑을때 확률을 다르게 줄 수 있음, 기본은 균일확률

In [None]:
np.random.choice(100, 10)

array([59, 19, 50, 39, 81, 42, 82,  7, 63, 41])

### np.random.permutation

* np.random.permutation(x)  
* x : int or array_like,  
If x is an integer, randomly permute np.arange(x). If x is an array, make a copy and shuffle the elements randomly.

In [3]:
# integer case

x = np.random.permutation(10)
print(x)

[4 8 5 6 2 9 7 1 0 3]


In [4]:
# array case

x = np.random.permutation(np.array([1,2,3,4,5]))
print(x)

[2 4 1 5 3]


# 데이터 처리 정리

In [None]:
import pandas as pd

In [None]:
import seaborn as sns

In [None]:
sns.get_dataset_names()

['anagrams',
 'anscombe',
 'attention',
 'brain_networks',
 'car_crashes',
 'diamonds',
 'dots',
 'dowjones',
 'exercise',
 'flights',
 'fmri',
 'geyser',
 'glue',
 'healthexp',
 'iris',
 'mpg',
 'penguins',
 'planets',
 'seaice',
 'taxis',
 'tips',
 'titanic']

In [None]:
df = sns.load_dataset('penguins')

## 컬럼 삭제

* df.drop(['컬럼명1', '컬럼명2'], axis = 1, inplace = False)
* df.drop(['컬럼명1', '컬럼명2'], axis = 'columns', inplace = False)


In [None]:
df.head(3)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female


In [None]:
df.drop(['species'], axis = 1)

Unnamed: 0,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Torgersen,,,,,
4,Torgersen,36.7,19.3,193.0,3450.0,Female
...,...,...,...,...,...,...
339,Biscoe,,,,,
340,Biscoe,46.8,14.3,215.0,4850.0,Female
341,Biscoe,50.4,15.7,222.0,5750.0,Male
342,Biscoe,45.2,14.8,212.0,5200.0,Female


## 컬럼추가

* df['추가할 컬럼'] = data
* df.assign('컬럼명1' = data1, '컬럼명2' = data2)
* df.insert(위치 = 1, 컬럼명, data, allow_duplicates=False)
    * allow_duplicates : 추가하는 컬럼명과 기존의 컬럼명이 동일할때 True를 사용하면 오류없이 추가 가능

In [None]:
# 1

df['a'] = 1
df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,a
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,1
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,1
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,1
3,Adelie,Torgersen,,,,,,1
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,1


In [None]:
# 2

df.assign(b = 1, c = 1)
df.head(3)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,a
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,1
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,1
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,1


In [None]:
df.assign(b=1, c=2, inplace = True) #inplace를 사용 불가, 새로운 열 이름으로 할당해줘야함

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,a,b,c,inplace
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,1,1,2,True
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,1,1,2,True
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,1,1,2,True
3,Adelie,Torgersen,,,,,,1,1,2,True
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,1,1,2,True
...,...,...,...,...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,,1,1,2,True
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female,1,1,2,True
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male,1,1,2,True
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female,1,1,2,True


In [None]:
df1 = df.assign(b=1, c=2)

In [None]:
df1.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,a,b,c
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,1,1,2
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,1,1,2
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,1,1,2
3,Adelie,Torgersen,,,,,,1,1,2
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,1,1,2


In [None]:
# lambda 사용

df1.assign(d = lambda x : x['a'] + x['b']).head(3)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,a,b,c,d
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,1,1,2,2
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,1,1,2,2
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,1,1,2,2


In [None]:
# 3

df1.insert(loc = 0, column = 'e', value = 1)

In [None]:
df1 #inplace나, 새로운 변수로 할당할필요없이 바로 바꿔줌

Unnamed: 0,e,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,a,b,c
0,1,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,1,1,2
1,1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,1,1,2
2,1,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,1,1,2
3,1,Adelie,Torgersen,,,,,,1,1,2
4,1,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,1,1,2
...,...,...,...,...,...,...,...,...,...,...,...
339,1,Gentoo,Biscoe,,,,,,1,1,2
340,1,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female,1,1,2
341,1,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male,1,1,2
342,1,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female,1,1,2


## 컬럼명 변경

* `df.rename(columns = {'기존컬럼명1' : '바꿀컬럼명1',   '기존컬럼명2':'바꿀컬럼명2'}`

* 바뀐결과를 적용하려면 새로운 변수명으로 할당 필요

In [None]:
df2 = df1.rename(columns = {'a' : 'aa',
                            'b' : 'bb'})
df2

Unnamed: 0,e,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,aa,bb,c
0,1,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,1,1,2
1,1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,1,1,2
2,1,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,1,1,2
3,1,Adelie,Torgersen,,,,,,1,1,2
4,1,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,1,1,2
...,...,...,...,...,...,...,...,...,...,...,...
339,1,Gentoo,Biscoe,,,,,,1,1,2
340,1,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female,1,1,2
341,1,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male,1,1,2
342,1,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female,1,1,2


## 중복행 제거

* drop_duplicates

|parameter|설명|값|
|:-:|-|-|
|subset|중복값을 검사할 열, 기본적으로 모든 열을 검사|default = 'None'|
|keep|중복 제거를 할때 남길 행, first면 첫값을 남기고, last면 마지막 값을 남김|default = 'first', 'last'|
|inplace|원본 변경 여부|default = False|
|ingore_index|원래 index를 무시할지 여부, True일 경우 새로운 인덱스가 0~n으로 부여됨|default = False|

In [1]:
import pandas as pd

col = ['col1','col2','col3']
data = [['A','x','-'],['A','x','-'],['B','x','앞'],['B','y','-'],['B','y','뒤']]
df = pd.DataFrame(data=data, columns=col)
df

Unnamed: 0,col1,col2,col3
0,A,x,-
1,A,x,-
2,B,x,앞
3,B,y,-
4,B,y,뒤


In [None]:
df.drop_duplicates() #따로 인자를 주지않았기 때문에 모든 열에대해 값이 중복인 값을 제거

Unnamed: 0,col1,col2,col3
0,A,x,-
2,B,x,앞
3,B,y,-
4,B,y,뒤


In [None]:
df.drop_duplicates(subset = 'col1') #col1기준으로 중복인 값을 제거

Unnamed: 0,col1,col2,col3
0,A,x,-
2,B,x,앞


In [None]:
df.drop_duplicates(subset = ['col1', 'col2']) #col1, col2 기준으로 중복인 값을 제거

Unnamed: 0,col1,col2,col3
0,A,x,-
2,B,x,앞
3,B,y,-


## 변수 타입별 데이터 추출
2023-08-30

* select_dtypes()

In [1]:
import pandas as pd

df = pd.DataFrame({'object' : ['abc', 'defg', 'aaa'],
                   'bool' : [True, False, True],
                   'int' : [1234, 5678, 13]})

df

Unnamed: 0,object,bool,int
0,abc,True,1234
1,defg,False,5678
2,aaa,True,13


In [3]:
df.dtypes

object    object
bool        bool
int        int64
dtype: object

In [2]:
df.select_dtypes(include = 'object')

Unnamed: 0,object
0,abc
1,defg
2,aaa


In [4]:
df.select_dtypes(include = 'bool')

Unnamed: 0,bool
0,True
1,False
2,True


In [6]:
df.select_dtypes(exclude = 'object')

Unnamed: 0,bool,int
0,True,1234
1,False,5678
2,True,13


## 특정 문자열을 포함하는 데이터 추출
2023/09/04

* `df.str.contains()`
* `df.str.startswith()`
* `df.str.endswith()`

## pandas 날짜 처리 함수 정리
2023/10/26  
참고 : https://docs.python.org/ko/3/library/datetime.html#timedelta-objects

In [7]:
import pandas as pd
from datetime import datetime, timedelta
import random

In [10]:
# 날짜 생성

random.seed(2023)
start_date = datetime(2023,1,1)
date_series = [start_date + timedelta(days=x, hours=random.randint(0, 23), minutes=random.randint(0, 59), seconds=random.randint(0, 59)) for x in range(10)]
date_df = pd.DataFrame({'Date' : date_series})
date_df

Unnamed: 0,Date
0,2023-01-01 12:44:28
1,2023-01-02 12:20:39
2,2023-01-03 18:59:21
3,2023-01-04 20:06:50
4,2023-01-05 03:41:19
5,2023-01-06 22:34:45
6,2023-01-07 16:19:11
7,2023-01-08 07:58:59
8,2023-01-09 05:40:01
9,2023-01-10 06:23:04


In [11]:
date_df['Date_str'] = date_df['Date'].dt.date
date_df['Date_year'] = date_df['Date'].dt.year
date_df['Date_month'] = date_df['Date'].dt.month
date_df['Date_day'] = date_df['Date'].dt.day
date_df['Date_time'] = date_df['Date'].dt.time
date_df['Date_hour'] = date_df['Date'].dt.hour
date_df['Date_minute'] = date_df['Date'].dt.minute
date_df['Date_second'] = date_df['Date'].dt.second
date_df

Unnamed: 0,Date,Date_str,Date_year,Date_month,Date_day,Date_time,Date_hour,Date_minute,Date_second
0,2023-01-01 12:44:28,2023-01-01,2023,1,1,12:44:28,12,44,28
1,2023-01-02 12:20:39,2023-01-02,2023,1,2,12:20:39,12,20,39
2,2023-01-03 18:59:21,2023-01-03,2023,1,3,18:59:21,18,59,21
3,2023-01-04 20:06:50,2023-01-04,2023,1,4,20:06:50,20,6,50
4,2023-01-05 03:41:19,2023-01-05,2023,1,5,03:41:19,3,41,19
5,2023-01-06 22:34:45,2023-01-06,2023,1,6,22:34:45,22,34,45
6,2023-01-07 16:19:11,2023-01-07,2023,1,7,16:19:11,16,19,11
7,2023-01-08 07:58:59,2023-01-08,2023,1,8,07:58:59,7,58,59
8,2023-01-09 05:40:01,2023-01-09,2023,1,9,05:40:01,5,40,1
9,2023-01-10 06:23:04,2023-01-10,2023,1,10,06:23:04,6,23,4


In [12]:
# date type 확인
date_df.dtypes 

Date           datetime64[ns]
Date_str               object
Date_year               int32
Date_month              int32
Date_day                int32
Date_time              object
Date_hour               int32
Date_minute             int32
Date_second             int32
dtype: object

In [27]:
random.seed(2023)
start_date = datetime(2023,1,1)
date_series = [start_date + timedelta(days=random.randint(0, 365), hours=random.randint(0, 23), minutes=random.randint(0, 59), seconds=random.randint(0, 59)) for x in range(10)]
date_df2 = pd.DataFrame({'Date' : date_series})
date_df2

Unnamed: 0,Date
0,2023-07-16 22:28:54
1,2023-07-19 10:39:36
2,2023-06-22 20:06:50
3,2023-03-05 20:19:53
4,2023-12-23 17:45:33
5,2023-06-04 05:14:58
6,2023-04-01 20:01:13
7,2023-07-05 02:39:08
8,2023-12-27 01:12:09
9,2023-09-03 14:34:21


In [29]:
date_df2['Date_quarter'] = date_df2['Date'].dt.quarter
date_df2['Date_day_name'] = date_df2['Date'].dt.day_name()
date_df2['Date_weekday'] = date_df2['Date'].dt.weekday
date_df2['Date_dayofweek'] = date_df2['Date'].dt.dayofweek
date_df2['Date_dayofyear'] = date_df2['Date'].dt.dayofyear
date_df2['Date_day_in_month'] = date_df2['Date'].dt.days_in_month
date_df2

Unnamed: 0,Date,Date_quarter,Date_day_name,Date_weekday,Date_dayofweek,Date_dayofyear,Date_day_in_month
0,2023-07-16 22:28:54,3,Sunday,6,6,197,31
1,2023-07-19 10:39:36,3,Wednesday,2,2,200,31
2,2023-06-22 20:06:50,2,Thursday,3,3,173,30
3,2023-03-05 20:19:53,1,Sunday,6,6,64,31
4,2023-12-23 17:45:33,4,Saturday,5,5,357,31
5,2023-06-04 05:14:58,2,Sunday,6,6,155,30
6,2023-04-01 20:01:13,2,Saturday,5,5,91,30
7,2023-07-05 02:39:08,3,Wednesday,2,2,186,31
8,2023-12-27 01:12:09,4,Wednesday,2,2,361,31
9,2023-09-03 14:34:21,3,Sunday,6,6,246,30


In [33]:
random.seed(2023)
start_date = datetime(2023,1,1)
date_series = [start_date + timedelta(days=random.randint(0, 365), hours=random.randint(0, 23), minutes=random.randint(0, 59), seconds=random.randint(0, 59)) for x in range(10)]
date_df3 = pd.DataFrame({'Date' : date_series})
date_df3

Unnamed: 0,Date
0,2023-07-16 22:28:54
1,2023-07-19 10:39:36
2,2023-06-22 20:06:50
3,2023-03-05 20:19:53
4,2023-12-23 17:45:33
5,2023-06-04 05:14:58
6,2023-04-01 20:01:13
7,2023-07-05 02:39:08
8,2023-12-27 01:12:09
9,2023-09-03 14:34:21


In [34]:
date_df3['Date_is_leap_year'] = date_df3['Date'].dt.is_leap_year     # 윤년 여부
date_df3['Date_is_month_start'] = date_df3['Date'].dt.is_month_start   # 월 시작일 여부
date_df3['Date_is_is_month_end'] = date_df3['Date'].dt.is_month_end     # 월 마지막일 여부
date_df3['Date_is_quarter_start'] = date_df3['Date'].dt.is_quarter_start # 분기 시작일 여부
date_df3['Date_is_quarter_end'] = date_df3['Date'].dt.is_quarter_end   # 분기 마지막일 여부
date_df3['Date_is_year_start'] = date_df3['Date'].dt.is_year_start    # 연 시작일 여부
date_df3

Unnamed: 0,Date,Date_is_leap_year,Date_is_month_start,Date_is_is_month_end,Date_is_quarter_start,Date_is_quarter_end,Date_is_year_start
0,2023-07-16 22:28:54,False,False,False,False,False,False
1,2023-07-19 10:39:36,False,False,False,False,False,False
2,2023-06-22 20:06:50,False,False,False,False,False,False
3,2023-03-05 20:19:53,False,False,False,False,False,False
4,2023-12-23 17:45:33,False,False,False,False,False,False
5,2023-06-04 05:14:58,False,False,False,False,False,False
6,2023-04-01 20:01:13,False,True,False,True,False,False
7,2023-07-05 02:39:08,False,False,False,False,False,False
8,2023-12-27 01:12:09,False,False,False,False,False,False
9,2023-09-03 14:34:21,False,False,False,False,False,False


In [36]:
temp_date = '2023-10-26'
date_test = datetime.strptime(temp_date, '%Y-%m-%d')
print(date_test)
print(type(date_test))

date_test2 = date_test.strftime('%Y-%m-%d')
print(date_test2)
print(type(date_test2))

2023-10-26 00:00:00
<class 'datetime.datetime'>
2023-10-26
<class 'str'>


## map, apply, applymap 함수

2023-08-28

* map은 단일 series에 적용
    * ex) df['columns'].map(lambda x : x ** 2)

* apply는 데이터프레임에서 행 혹은 열단위로 적용

* applymap은 데이터프레임에서 개별 원소에 적용

### map

* key값을 활용한 Series간 mapping을 할때 많이 사용됨

In [2]:
import pandas as pd 

x = pd.Series({'one' : 1, 'two' : 2, 'three' :3})
y = pd.Series({1 : 'triangle', 2:'square', 3: 'circle'})

In [75]:
x.map(y)

one      triangle
two        square
three      circle
dtype: object

In [76]:
x.map(lambda x : x ** 2)

one      1
two      4
three    9
dtype: int64

In [12]:
y.map(x)

1   NaN
2   NaN
3   NaN
dtype: float64

In [13]:
y1 = pd.Series({1 : 'triangle' , 2 : 'square'})
x.map(y1)

one      triangle
two        square
three         NaN
dtype: object

### apply

In [18]:
x.apply(lambda x : x*2)

one      2
two      4
three    6
dtype: int64

In [19]:
# dataframe case

import numpy as np

df = pd.DataFrame(np.arange(12).reshape(4,3), columns = ['a','b','c'])
df

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [20]:
df.apply(lambda x : x.sum(), axis = 0)

a    18
b    22
c    26
dtype: int64

In [21]:
df.apply(lambda x : x.sum(), axis = 1)

0     3
1    12
2    21
3    30
dtype: int64

In [23]:
df['a+b'] = df.apply(lambda x : x.a + x.b, axis = 1)
df

Unnamed: 0,a,b,c,a+b
0,0,1,2,1
1,3,4,5,7
2,6,7,8,13
3,9,10,11,19


### applymap

* apply는 행이나 열로 접근하는데 applymap은 개별 데이터에 접근하는형식

In [3]:
df = pd.DataFrame({'급여' : [i + '원' for i in ['100', '200', '300']],
                  '상여' : [j + '원' for j in ['10','20','30']],
                  '특보' : ['1원', '2원', '3원']})
df

Unnamed: 0,급여,상여,특보
0,100원,10원,1원
1,200원,20원,2원
2,300원,30원,3원


In [4]:
df.apply(lambda x : x[:2], axis = 1)

# axis에 따라 행 or 열단위로 계산됨
# 지금은 특정열을 지정하지 않았기 때문에 axis = 1 기준으로 적용됨

Unnamed: 0,급여,상여
0,100원,10원
1,200원,20원
2,300원,30원


In [32]:
df.applymap(lambda x : x[:2])

# 각 원소(데이터)에 적용이 된다

Unnamed: 0,급여,상여,특보
0,10,10,1원
1,20,20,2원
2,30,30,3원


## 데이터 집계
2023-08-30


### groupby

* `groupby(by = None, axis = 0, as_index = True, ...)`  
    * by : group화 대상 
    * axis : 어떤 axis로 그룹화 할지
    * as_index : group화 대상을 index로 사용할지 여부
    * groupby().agg 형태로 많이 사용함




참고 : https://pandas.pydata.org/docs/reference/api/pandas.core.groupby.DataFrameGroupBy.agg.html

In [52]:
import pandas as pd

df = pd.DataFrame(
    {
        "A": [1, 1, 2, 2, 3, 3, 4, 5],
        "B": [1, 2, 3, 4, 4, 5, 6, 7],
        "C": [0.362838, 0.227877, 1.267767, -0.562860, 1.2, 3.3 , 2.1 , 4.5],
        "D": ['a','a','b','b','c','c','d','e']
    }
)

In [12]:
df

Unnamed: 0,A,B,C,D
0,1,1,0.362838,a
1,1,2,0.227877,a
2,2,3,1.267767,b
3,2,4,-0.56286,b


In [13]:
df.groupby('A') # groupby객체 생성

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x1238d3a10>

In [66]:
df.groupby('D').mean() # agg를 사용하지 않고 단순하게 쓸수 있음, groupby 대상 column이 index가 됨

Unnamed: 0_level_0,A,B,C
D,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1.0,1.5,0.295357
b,2.0,3.5,0.352454
c,3.0,4.5,2.25
d,4.0,6.0,2.1
e,5.0,7.0,4.5


In [65]:
df.groupby('D', as_index=False).mean() # as_index

Unnamed: 0,D,A,B,C
0,a,1.0,1.5,0.295357
1,b,2.0,3.5,0.352454
2,c,3.0,4.5,2.25
3,d,4.0,6.0,2.1
4,e,5.0,7.0,4.5


In [17]:
df.groupby('D').agg('min')

Unnamed: 0_level_0,A,B,C
D,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,1,0.227877
b,2,3,-0.56286


In [20]:
df.groupby('D').agg(['min', 'max']) # 대괄호를 빼먹으면 안됨 / df.groupby('D').agg('min', 'max') / 오류는 안생기는데 맨앞 함수만 인식하는거 같음

Unnamed: 0_level_0,A,A,B,B,C,C
Unnamed: 0_level_1,min,max,min,max,min,max
D,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
a,1,1,1,2,0.227877,0.362838
b,2,2,3,4,-0.56286,1.267767


In [21]:
df.groupby('D').B.agg(['min', 'max']) # 특정 열을 지정해서 집계할 수 있음

Unnamed: 0_level_0,min,max
D,Unnamed: 1_level_1,Unnamed: 2_level_1
a,1,2
b,3,4


In [24]:
df.groupby('D').agg(lambda x : sum(x) * 2) # lambda함수도 적용가능

Unnamed: 0_level_0,A,B,C
D,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,4,6,1.18143
b,8,14,1.409814


In [26]:
df.groupby('A').agg({'B' : ['min', 'max'],
                    'C' : 'sum'}) # 중괄호 넣어줘야함

Unnamed: 0_level_0,B,B,C
Unnamed: 0_level_1,min,max,sum
A,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,1,2,0.590715
2,3,4,0.704907


`pd.NamedAgg`이용 

In [75]:
df.groupby('D').agg(
    new1 = pd.NamedAgg(column='B', aggfunc='unique'),
    new2 = pd.NamedAgg(column='B', aggfunc=lambda x : x.max())
    )

Unnamed: 0_level_0,new1,new2
D,Unnamed: 1_level_1,Unnamed: 2_level_1
a,"[1, 2]",2
b,"[3, 4]",4
c,"[4, 5]",5
d,[6],6
e,[7],7


In [76]:
try:
    df.groupby('D').agg(
        a_min = pd.NamedAgg(column='B', aggfunc='unique'),
        b_uniq = pd.NamedAgg(column='B', aggfunc= lambda x : x.unique()) # x.unique를 쓰면 오류 발생 이유는 모르겠음
        )
except:
    print('Must produce aggregated value')

Must produce aggregated value


In [79]:
df.groupby('D').agg(
    a_min = pd.NamedAgg(column='B', aggfunc='unique'),
    b_uniq = pd.NamedAgg(column='B', aggfunc= lambda x : list(x.unique())) # x.unique list를 붙이면 되긴하는데...
    )


Unnamed: 0_level_0,a_min,b_uniq
D,Unnamed: 1_level_1,Unnamed: 2_level_1
a,"[1, 2]","[1, 2]"
b,"[3, 4]","[3, 4]"
c,"[4, 5]","[4, 5]"
d,[6],[6]
e,[7],[7]


In [80]:
df.groupby('D').agg(
    a_min = pd.NamedAgg(column='B', aggfunc='unique'),
    b_uniq = pd.NamedAgg(column='B', aggfunc= lambda x : len(x.unique()))
    )

Unnamed: 0_level_0,a_min,b_uniq
D,Unnamed: 1_level_1,Unnamed: 2_level_1
a,"[1, 2]",2
b,"[3, 4]",2
c,"[4, 5]",2
d,[6],1
e,[7],1


### value_count
2023-09-04

`Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)`


In [7]:
import pandas as pd
import numpy as np

s = pd.Series([3, 1, 2, 3, 4, np.nan])

In [8]:
s.value_counts()

3.0    2
1.0    1
2.0    1
4.0    1
dtype: int64

In [11]:
s.value_counts(normalize=True)

3.0    0.4
1.0    0.2
2.0    0.2
4.0    0.2
dtype: float64

In [12]:
s.value_counts(sort = True)

3.0    2
1.0    1
2.0    1
4.0    1
dtype: int64

In [13]:
s.value_counts(bins = 3)

# 연속형 데이터일때 유용하게 확인가능함

(0.996, 2.0]    2
(2.0, 3.0]      2
(3.0, 4.0]      1
dtype: int64

In [14]:
s.value_counts(dropna=False)

# Na값도 같이 집계해준다

3.0    2
1.0    1
2.0    1
4.0    1
NaN    1
dtype: int64

### True False 반전시키는 방법

* list

* np.array

* pd.series

In [10]:
# list case

a = [True, False, False, True]
[not x for x in a]

# -> 리스트 켐프리헨션 사용, not a는 안됨


[False, True, True, False]

In [14]:
# np.array case
import numpy as np

b = np.array(a)
print(np.logical_not(b))
print(b)

# -> 새로운 배열에 할당해줘야된다

[False  True  True False]
[ True False False  True]


In [15]:
# pd.series case

import pandas as pd

c = pd.Series(a)
~c

0    False
1     True
2     True
3    False
dtype: bool

In [13]:
b

array([ True, False, False,  True])

## 이중 리스트 제거 방법
2023-10-4

In [1]:
list_of_lists = [[1,2,3], [4,5,6]]

In [7]:
# itertool.chains
from itertools import chain

list(chain(*list_of_lists))

[1, 2, 3, 4, 5, 6]

In [8]:
# 리스트 컴프리헨션 이용

[item for sublist in list_of_lists for item in sublist]

[1, 2, 3, 4, 5, 6]

## 데이터프레임 피봇팅

In [9]:
import pandas as pd

# 샘플 데이터프레임 생성
data = {'Date': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02'],
        'Category': ['A', 'B', 'A', 'B'],
        'Value': [10, 20, 15, 25]}
df = pd.DataFrame(data)

# 피봇팅
pivot_df = df.pivot(index='Date', columns='Category', values='Value')

print(pivot_df)

Category     A   B
Date              
2023-01-01  10  20
2023-01-02  15  25


In [10]:
# 위에서 value값을 안주고 카운팅을 할 수 도 있다
# values에는 아무값이나 주면된다, index와 columns로 지정된 열 제외하고

pivot_df = df.pivot_table(index='Date', columns='Category', values='Value', aggfunc = 'count')
pivot_df

Category,A,B
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2023-01-01,1,1
2023-01-02,1,1


In [11]:
# index명 제거하는 방법

pivot_df.reset_index() # category가 계속 남는다

Category,Date,A,B
0,2023-01-01,1,1
1,2023-01-02,1,1


In [12]:
temp_df = pivot_df.reset_index()
temp_df.columns.name = '' # column name을 초기화하면 인덱스명을 제거할 수 있다
temp_df 

Unnamed: 0,Date,A,B
0,2023-01-01,1,1
1,2023-01-02,1,1


# 정렬

1. 데이터프레임 정렬  
    * df.sort_values()
2. 리스트 정렬
    * list.sort()
    * sorted(list)

## 데이터 프레임 정렬

|parameter|설명|값
|:-:|-|-|
|by|정렬할 기준 변수(필수)|default = None/column_name
|axis|index기준 : 0, column 기준 : 1|default = 0|
|ascending|오름차순, 내림차순 설정|default = True
|inplace|내부 적용 여부|default = False
|na_position|결측값 위치|default = 'last'/first

In [None]:
import numpy as np
import pandas as pd

df = pd.DataFrame({'sequence': [1, 3, 2],
                   'name': ['park', 'lee', 'choi'],
                   'age': [30, 20, 40],
                   'home' : ['seoul', np.nan, np.nan]})
df

Unnamed: 0,sequence,name,age,home
0,1,park,30,seoul
1,3,lee,20,
2,2,choi,40,


In [None]:
df.sort_values(by = 'sequence')

Unnamed: 0,sequence,name,age,home
0,1,park,30,seoul
2,2,choi,40,
1,3,lee,20,


In [None]:
df.sort_values(by = 'home', na_position = 'first')

Unnamed: 0,sequence,name,age,home
1,3,lee,20,
2,2,choi,40,
0,1,park,30,seoul


## 리스트 정렬

`sorted(iterable, reverse = False)`

In [4]:
a1 = [1,2,3,4,5,1,3,3,2,2,4,4]

In [None]:
a1.sort()

In [None]:
a1

[1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 5]

In [None]:
b1 = [1,2,2,2,5,9,1,2,3]

In [None]:
sorted(b1)

[1, 1, 2, 2, 2, 2, 3, 5, 9]

In [None]:
b1

[1, 2, 2, 2, 5, 9, 1, 2, 3]

# 함수 내부 구조 보기

* inspect모듈

In [None]:
import inspect

In [None]:
import numpy as np

In [None]:
code = inspect.getsource(np.mean)
print(code)

@array_function_dispatch(_mean_dispatcher)
def mean(a, axis=None, dtype=None, out=None, keepdims=np._NoValue, *,
         where=np._NoValue):
    """
    Compute the arithmetic mean along the specified axis.

    Returns the average of the array elements.  The average is taken over
    the flattened array by default, otherwise over the specified axis.
    `float64` intermediate and return values are used for integer inputs.

    Parameters
    ----------
    a : array_like
        Array containing numbers whose mean is desired. If `a` is not an
        array, a conversion is attempted.
    axis : None or int or tuple of ints, optional
        Axis or axes along which the means are computed. The default is to
        compute the mean of the flattened array.

        .. versionadded:: 1.7.0

        If this is a tuple of ints, a mean is performed over multiple axes,
        instead of a single axis or all the axes as before.
    dtype : data-type, optional
        Type to use in computin

# itertuples

* itertuples 메서드는 데이터의 인덱서, 열-값 정보를 map 오브젝트의 튜플 형태로 반환하는 메서드입니다
* name 인수를 통해 원하는 named tuple로 출력이 가능합니다
---

형태
* df.itertuples(index = True, name = 'pandas')
    * index를 출력할지 여부
    * 출력하게 될 named tuple의 이름을 지정 / None으로 하면 일밭 튜플로 출력되며 기본값은 Pandas이다

In [1]:
# 예시
import pandas as pd

data = {'col1' : [1,2],
        'col2' : [3,4]}
idx = ['row1', 'row2']
df = pd.DataFrame(data = data, index = idx)
print(df)

      col1  col2
row1     1     3
row2     2     4


In [2]:
df.itertuples() #map 형태

<map at 0x123879780>

In [3]:
print(list(df.itertuples()))

[Pandas(Index='row1', col1=1, col2=3), Pandas(Index='row2', col1=2, col2=4)]


In [4]:
print(list(df.itertuples(index = False)))

[Pandas(col1=1, col2=3), Pandas(col1=2, col2=4)]


In [5]:
print(list(df.itertuples(name = None)))

[('row1', 1, 3), ('row2', 2, 4)]


In [6]:
for i in df.itertuples():
    print(i)

Pandas(Index='row1', col1=1, col2=3)
Pandas(Index='row2', col1=2, col2=4)


In [8]:
# iter tuple을 이용

ex_dict = {}

for i in df.itertuples():
    ex_dict[i.col1] = i.col2

ex_dict

{1: 3, 2: 4}

# ipaddress 라이브러리
2023-08-29

* python에서 기본적으로 제공하는 표준 라이브러리

In [2]:
import ipaddress

## Ip_address 객체

* ip string을 ip address 객체로 반환
* 받은 ip가 정상적인지 확인하고 정상적인 ip일 경우 ip객체로 반환

In [3]:
ipaddress.ip_address('10.10.10.10')

IPv4Address('10.10.10.10')

In [37]:
try:
    print(ipaddress.ip_address('1000.1000.10.10'))
except:
    print('error')


error


### is_private, is_global

* ip 주소의 사설/공인 여부를 판단하여 결과를 반환합니다

In [38]:
ipaddress.ip_address('10.10.10.10').is_private

True

In [39]:
ipaddress.ip_address('14.14.14.14').is_private

False

In [40]:
ipaddress.ip_address('10.10.10.10').is_global

False

In [41]:
ipaddress.ip_address('14.14.14.14').is_global

True

## IP Network 객체

* 서브넷이라고도 한다

In [4]:
ipaddress.ip_network('10.10.10.10')

IPv4Network('10.10.10.10/32')

In [44]:
ipaddress.ip_network('10.10.10.0/24')


IPv4Network('10.10.10.0/24')

In [46]:
try: 
    ipaddress.ip_network('10.10.10.10/24')
except:
    print('error')
    
# ip subnet을 표기할때는 0으로 해야함 10.10.10.0/24가 올바른 표기 
# 이 형태는 C클래스 

error


In [50]:
ipaddress.ip_network('10.10.0.0/16')

# B클래스

IPv4Network('10.10.0.0/16')

In [51]:
ipaddress.ip_network('10.0.0.0/8')

# A클래스

IPv4Network('10.0.0.0/8')

### num_addresses, hosts()

* num_addresses : 네트워크의 사용 가능한 주소(호스트)의 수를 반환함
* hosts() : 사용 가능한 주소(호스트)를 리스트 형태로 모두 반환

In [53]:
ipaddress.ip_network('10.10.10.0/24').num_addresses

256

In [56]:
ipaddress.ip_network('10.10.10.0/27').num_addresses

# 8단위, 24, 16, 8 등이 아닌 숫자도 가능하다

32

In [58]:
ipaddress.ip_network('0.0.0.0/0').num_addresses

# 256^4

4294967296

In [9]:
list(ipaddress.ip_network('10.10.10.0/28').hosts())

<generator object _BaseNetwork.hosts at 0x1108e3970>

In [8]:
list(ipaddress.ip_network('10.10.10.0/26'))

#위와 동일한 결과. host를 왜 쓸까?

IPv4Network('10.10.10.0/26')

In [19]:
target_subnets = [ 
    "1.209.204.0/24",
    "121.130.46.0/24",
    "121.130.47.0/24",
    "121.168.9.0/24",
    "128.134.135.0/24",
    "128.134.225.0/24",
    "14.47.119.0/24",
    "14.47.120.0/24",
    "175.195.138.0/24",
    "203.231.48.0/23",
    "203.233.82.0/24",
    "210.120.25.0/24",
    "211.106.22.0/24",
    "211.195.190.0/24",
    "211.197.235.0/24",
    "218.146.32.0/24",
    "218.146.34.0/24",
    "61.42.105.0/24"
]

from itertools import chain

nested_list = [list(ipaddress.ip_network(ip)) for ip in target_subnets]
flat_list = list(chain(*nested_list))
print(flat_list) 


[IPv4Address('1.209.204.0'), IPv4Address('1.209.204.1'), IPv4Address('1.209.204.2'), IPv4Address('1.209.204.3'), IPv4Address('1.209.204.4'), IPv4Address('1.209.204.5'), IPv4Address('1.209.204.6'), IPv4Address('1.209.204.7'), IPv4Address('1.209.204.8'), IPv4Address('1.209.204.9'), IPv4Address('1.209.204.10'), IPv4Address('1.209.204.11'), IPv4Address('1.209.204.12'), IPv4Address('1.209.204.13'), IPv4Address('1.209.204.14'), IPv4Address('1.209.204.15'), IPv4Address('1.209.204.16'), IPv4Address('1.209.204.17'), IPv4Address('1.209.204.18'), IPv4Address('1.209.204.19'), IPv4Address('1.209.204.20'), IPv4Address('1.209.204.21'), IPv4Address('1.209.204.22'), IPv4Address('1.209.204.23'), IPv4Address('1.209.204.24'), IPv4Address('1.209.204.25'), IPv4Address('1.209.204.26'), IPv4Address('1.209.204.27'), IPv4Address('1.209.204.28'), IPv4Address('1.209.204.29'), IPv4Address('1.209.204.30'), IPv4Address('1.209.204.31'), IPv4Address('1.209.204.32'), IPv4Address('1.209.204.33'), IPv4Address('1.209.204.

### overlaps()

* 네트워크가 다른 네트워크에 포함되는지 여부를 판단함

In [2]:
net_1 = ipaddress.ip_network('10.10.10.128')
subnet_1 = ipaddress.ip_network('10.10.10.0/31')

net_1.overlaps(subnet_1)

False

In [3]:
net_2 = ipaddress.ip_network('10.10.10.1')
net_2.overlaps(subnet_1)

True

In [4]:
net_3 = ipaddress.ip_address('10.10.10.1')

try:
    net_3.overlaps(subnet_1)
except(AttributeError):
    print(''' 'IPv4Address' object has no attribute 'overlaps' ''')
    

# sub넷끼리의 포함 여부를 알 수 있다
# ip_address가 ip_network에 포함되는 지 확인하려면 단순히 in 을 사용하면됨

 'IPv4Address' object has no attribute 'overlaps' 


In [73]:
# 서브넷에 포함 여부를 확인할수도 있다

ipaddress.ip_address('10.10.10.10') in ipaddress.ip_network('10.10.10.0/24')

True

# 정규 표현식

출처 : https://wikidocs.net/21703

## 1. 정규 표현식 문법과 모듈 함수

파이썬에서는 정규 표현식 모듈 re을 지원하므로, 이를 이용하면 특정 규칙이 있는 텍스트 데이터를 빠르게 정제할 수 있습니다. 정규 표현식을 위해 사용되는 특수 문자와 모듈 함수에 대해서 표를 통해 정리해보겠습니다. 표만으로는 이해하기 어렵습니다. 표 아래의 실습과 표를 병행하여 이해하시는 것이 좋습니다.

### 1. 정규 표현식 문법

|특수문자|설명|
|:-:|:-|
|.|한 개의 임의의 문자를 나타냄|
|?|앞의 문자가 존재할 수도 있고, 존재 하지 않을 수도 있다 (문자가 0개 또는 1개)|
|*|앞의 문자가 무한개로 존재 할수도 있고, 존재 하지 않을 수도 있다 (문자가 0개 이상)|
|+|앞의 문자가 최소 한 개 이상 존재 
|^|뒤의 문자열로 문자열이 시작
|$|앞의 문자열로 문자열이 끝남
|{숫자}|숫자만큼 반복함
|{숫자1, 숫자2}|숫자1 이상 숫자2 이하만큼 반복
|{숫자,}|숫자 이상만큼 반복
|[]|대괄호 안의 문자들 중 한개의 문자와 매치함, 범위 지정도 가능
|[\^문자]|해당 문자를 제외한 문자를 매치
|\||A\|B와 같이 쓰이며 A 또는 B의 의미를 가짐
---
|문자 규칙|설명|
|:-:|:-|
|\\d|모든 숫자를 의미, [0-9]
|\\D|숫자를 제외한 모든 문자를 의미합니다, [^0-9]
|\\s|공백을 의미, [\t\b\r\f\v]
|\\S|공백을 제외한 문자를 의미, [^ \t\b\r\f\v]
|\\w|문자 또는 숫자를 의미 [a-zA-Z0-9]
|\\W|문자 또는 숫자가 아닌 문자 [^a-zA-Z0-9]

### 정규 표현식 모듈 함수

|모듈 함수|설명|
|:-:|:-|
|re.compile()|정규표현식을 컴파일하는 함수|
|re.search()|문자열 전체에 대해서 정규표현식과 매치되는지 검색|
|re.match()|문자열의 처음이 정규표현식과 매치되는지를 검색|
|re.split()|정규 표현식을 기준으로 문쟈열을 분리
|re.findall()|문자열에서 정규 표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴
|re.finditer()|문자열에서 정규 표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체를 리턴합니다.
|re.sub()|문자열에서 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체합니다.

## 2. 정규 표현식 실습

In [3]:
import re

. 기호

`.`은 한 개의 임의의 문자를 나타냅니다. 예를 들어서 정규 표현식이 a.c라고 합시다.   
a와 c 사이에는 어떤 1개의 문자라도 올 수 있습니다. akc, azc, avc, a5c, a!c와 같은 형태는 모두 a.c의 정규 표현식과 매치됩니다.



In [10]:
r = re.compile('a.c')
r.search('kkk') # 아무 결과도 출력되지 않음

In [11]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

`?` 기호

?는 ?앞의 문자가 존재할 수도 있고 존재하지 않을 수도 있는 경우를 나타냅니다. 예를 들어서 정규 표현식이 ab?c라고 합시다.   
이 경우 이 정규 표현식에서의 b는 있다고 취급할 수도 있고, 없다고 취급할 수도 있습니다. 즉, abc와 ac 모두 매치할 수 있습니다.

In [12]:
r = re.compile('ab?c')

# b가 존재 할수도 있고 안할수도 있음

In [14]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [15]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

`*` 기호

\*은 바로 앞의 문자가 0개 이상일 경우를 나타냅니다. 앞의 문자는 존재하지 않을 수도 있으며,  
또는 여러 개일 수도 있습니다. 정규 표현식이 ab*c라면 ac, abc, abbc, abbbc 등과 매치할 수 있으며 b의 개수는 무수히 많을 수 있습니다.

In [16]:
r = re.compile('ab*c')

In [17]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

In [18]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [19]:
r.search('abbbbbc')

<re.Match object; span=(0, 7), match='abbbbbc'>

`+` 기호

+는 *와 유사합니다. 다른 점은 앞의 문자가 최소 1개 이상이어야 합니다.  
정규 표현식이 ab+c라고 한다면 ac는 매치되지 않습니다. 하지만 abc, abbc, abbbc 등과 매치할 수 있으며 b의 개수는 무수히 많을 수 있습니다.

In [20]:
r = re.compile('ab+c')

In [21]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [22]:
r.search('ac') # *는 문자가 없어도 가능했지만 +는 문자가 1개이상 있어야함

`^`기호

^는 시작되는 문자열을 지정합니다. 정규표현식이 ^ab라면 문자열 ab로 시작되는 경우 매치합니다.

In [23]:
r = re.compile('^ab')

In [24]:
r.search('bbc')

In [25]:
r.search('abcasdfads')

<re.Match object; span=(0, 2), match='ab'>

`{숫자}` 기호

문자에 해당 기호를 붙이면, 해당 문자를 숫자만큼 반복한 것을 나타냅니다.  
예를 들어서 정규 표현식이 ab{2}c라면 a와 c 사이에 b가 존재하면서 b가 2개인 문자열에 대해서 매치합니다.

In [26]:
r = re.compile('ab{2}c')

In [27]:
r.search('ac')

In [28]:
r.search('abc')

In [29]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

`{숫자1, 숫자2}` 기호

문자에 해당 기호를 붙이면, 해당 문자를 숫자1 이상 숫자2 이하만큼 반복합니다.  
예를 들어서 정규 표현식이 ab{2,8}c라면 a와 c 사이에 b가 존재하면서 b는 2개 이상 8개 이하인 문자열에 대해서 매치합니다.

In [30]:
r = re.compile('ab{2,8}c')

In [32]:
r.search('abc')

In [33]:
r.search('abbc') # 2~8사이의 개수에 대해 매치

<re.Match object; span=(0, 4), match='abbc'>

`{숫자.}` 기호

문자에 해당 기호를 붙이면 해당 문자를 숫자 이상 만큼 반복합니다.  
예를 들어서 정규 표현식이 a{2,}bc라면 뒤에 bc가 붙으면서 a의 개수가 2개 이상인 경우인 문자열과 매치합니다.  
또한 만약 {0,}을 쓴다면 *와 동일한 의미가 되며, {1,}을 쓴다면 +와 동일한 의미가 됩니다.



In [34]:
r = re.compile('a{2,}bc')

In [35]:
r.search('abc')

In [36]:
r.search('aabc')

<re.Match object; span=(0, 4), match='aabc'>

In [37]:
r.search('aaaaabc') # 2이상 만큼 반복

<re.Match object; span=(0, 7), match='aaaaabc'>

`[]`기호

[ ]안에 문자들을 넣으면 그 문자들 중 한 개의 문자와 매치라는 의미를 가집니다.  
예를 들어서 정규 표현식이 [abc]라면, a 또는 b또는 c가 들어가있는 문자열과 매치됩니다. 범위를 지정하는 것도 가능합니다.  
[a-zA-Z]는 알파벳 전부를 의미하며, [0-9]는 숫자 전부를 의미합니다.

In [38]:
r = re.compile('[abc]')

In [39]:
r.search('a')

<re.Match object; span=(0, 1), match='a'>

In [40]:
r.search('aaaaaaa')

<re.Match object; span=(0, 1), match='a'>

In [41]:
r.search('bac')

<re.Match object; span=(0, 1), match='b'>

In [43]:
r.search('bddd')

<re.Match object; span=(0, 1), match='b'>

In [44]:
# 범위로 지정

r = re.compile('[a-z]')

In [45]:
r.search('AAA')

In [46]:
r.search('Aca')

<re.Match object; span=(1, 2), match='c'>

`[^문자]` 기호

[^문자]는 ^기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치하는 역할을 합니다.   
예를 들어서 [^abc]라는 정규 표현식이 있다면, a 또는 b 또는 c가 들어간 문자열을 제외한 모든 문자열을 매치합니다.

In [4]:
r = re.compile('[^abc]')

In [5]:
r.search('a')

In [51]:
r.search('ad')

<re.Match object; span=(1, 2), match='d'>

In [6]:
r.search('1')

<re.Match object; span=(0, 1), match='1'>

## 정규 표현식 모듈 함수 예제

### `re.match()` 와 `re.search()`의 차이

search()가 정규 표현식 전체에 대해서 문자열이 매치하는지를 본다면, match()는 문자열의 첫 부분부터 정규 표현식과 매치하는지를 확인합니다.  
문자열 중간에 찾을 패턴이 있더라도 match 함수는 문자열의 시작에서 패턴이 일치하지 않으면 찾지 않습니다.

In [17]:
r = re.compile('ab.')

In [18]:
r.match('kabbb')

In [19]:
r.search('kabba')

<re.Match object; span=(1, 4), match='abb'>

### `re.split()`

정규표현식 기준으로 문자열을 분리

In [20]:
text = '사과 매론 딸기 과일'
re.split(' ', text)

['사과', '매론', '딸기', '과일']

In [21]:
text = '''사과,
메론,
딸기,
과일'''
re.split('\n', text)

['사과,', '메론,', '딸기,', '과일']

In [25]:
text = '사과+딸기+메론+과일'
re.split('\+', text)

['사과', '딸기', '메론', '과일']

In [27]:
text = """이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""

re.findall("[0-9]+", text)

['010', '1234', '1234', '30']

`re.sub()`

sub() 함수는 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체할 수 있습니다.  
아래와 같은 정제 작업에 많이 사용되는데, 영어 문장에 각주 등과 같은 이유로 특수 문자가 섞여있는 경우에 특수 문자를 제거하고 싶다면 알파벳 외의 문자는 공백으로 처리하는 등의 용도로 쓸 수 있습니다

In [44]:
text = """Regular expression : A regular expression, regex or regexp[1] 
(sometimes called a rational expression)[2][3] is, in theoretical computer science and 
formal language theory, a sequence of characters that define a search pattern."""

preprocessed_text = re.sub('[^a-zA-Z\s]', '', text)
print(preprocessed_text)

Regular expression  A regular expression regex or regexp 
sometimes called a rational expression is in theoretical computer science and 
formal language theory a sequence of characters that define a search pattern


# `sklearn` 정리
2023-09-01

## `clone`
2023-09-01
* 머신러닝 모델을 복제하는데 사용되는 함수
* 원본 함수의 파라미터를 수정하지않고 복제본을 수정하여 새로운 모델을 생성할 수 있음
* 왜 쓰는지 모르겠음 그냥 새로 하나만들면 되는거 아닌가 햇갈리게

In [3]:
from sklearn.base import clone
from sklearn.ensemble import RandomForestClassifier

original_model = RandomForestClassifier()
cloned_model = clone(original_model)

cloned_model.n_estimators = 100
#cloned_model.fit(X, y) 모델 fitting은 X,y 데이터가 없으므로 생략