In [18]:
from typing import TextIO
from io import StringIO

In [32]:
# file_handler.py 로 이전

# # 헤더 건너뛰고 첫 데이터 추출
# def skip_header(reader: TextIO) -> str:
#     '''
#         reader 내 헤더를 건너뛰고 첫 번째 데이터를 반환한다.
#     '''
    
#     line = reader.readerline()
#     line = reader.readline()
#     while line.startswitch('#'):
#         line = reader.readline()
        
#     return line

# # 데이터를 읽어들여 출력하는 함수
# def process_file(reader: TextIO) -> None:
#     print(skip_header(reader).strip())

# def find_largest(line:str) -> int:
#     largest = -1
#     for value in line.split():
#         v = int(value[:-1])
#         if v > largest:
#             largest = v
#     return largest

import file_handler

def process_file(reader: TextIO)->int:
    line = file_handler.skip_header(reader).strip()
    largest = file_handler.find_largest(line)
    
    for line in reader:
        large = file_handler.find_largest(line)
        if large > largest:
            largest = large
    return largest


In [34]:
if __name__ == '__main__':
    with open('data.txt','r') as input_file:
        print(process_file(input_file))

6991


## 10.8 다수 행 레코드

In [36]:
from typing import TextIO
from io import StringIO

def read_molecule(reader: TextIO) -> list:
    line = reader.readline()
    if not line:
        return None
    
    parts = line.split()
    name = parts[1]
    
    molecule = [name]
    
    reading = True
    while reading:
        line = reader.readline()
        if line.startswith('END'):
            reading = False
        else:
            parts = line.split()
            molecule.append(parts[2:])
    return molecule
    
def read_all_molecules(reader: TextIO) -> list:
    result = []
    
    reading = True
    while reading:
        molecule = read_molecule(reader)
        if molecule:
            result.append(molecule)
        else:
            reading = False
    return result

In [43]:
if __name__ == '__main__':
    molecule_file = open('pdb.txt','r')
    molecules = read_all_molecules(molecule_file)
    molecule_file.close()
    print(molecules)

[['AMMONIA', ['N', '0.257', '-0.363', '0.000'], ['H', '0.257', '0.727', '0.000'], ['H', '0.771', '-0.727', '0.890'], ['H', '0.771', '-0.727', '-0.890']], ['METHANOL', ['C', '-0.748', '-0.015', '0.024'], ['O', '0.558', '0.420', '-0.278'], ['H', '-1.293', '-0.202', '-0.901'], ['H', '-1.263', '0.754', '0.600'], ['H', '-0.699', '-0.934', '0.609'], ['H', '0.716', '1.404', '0.137']]]


## 정규 표현식

아래와 같은 데이터에서 (저자, 년도) 정보를 추출하고자 할때
```
평생교육 실습 체험에 대한 내러티브 연구(김진숙,2012)     
직업적 전문성과 직무의 탐구(박지혜,2003)       
대학생의 평생교육(최희준,2008)      
```

In [53]:
import re

text = "평생교육 실습 체험에 대한 내러티브 연구(김진숙,2012)     직업적 전문성과 직무의 탐구(박지혜,2003)       대학생의 평생교육(최희준,2008)"

result = re.findall(r'\([A-Za-z가-힣]+,\d+\)', text)

print(result)

['(김진숙,2012)', '(박지혜,2003)', '(최희준,2008)']


일반적인 문자의 경우 대괄호 안에 범위를 표기하여 정규표현식을 이용할 수 있다.
\[A-Za-z가-힣\]       
\d 는 숫자. \D는 숫자가 아닌 것을 나타낸다.     
\s = white space. 이는 \[ \t\n\r\f\v\] 와 일치한다.   
줄바꿈 = 0A,   캐리지리턴 = 0D,   폼피드 = 0C,   탭 = 09,  수직 탭 = 0B        
\S white space가 아닌것. \[^\t\n\r\f\v\] 와 동일하다.        
\w = 문자 + 숫자. \[a-zA-z0-9\]        
\W = 문자 + 숫자를 제외한 것.     


\* : 앞의 표현식이 0회 이상 연속으로 반복되는 부분과 대응 {0,}          
\+ : 앞의 표현식이 1회 이상 연속으로 반복되는 부분과 대응 {1,}         
? : 앞의 표현식이 0 또는 1회 나오는 부분과 대응 {0,1}          
. : 개행문자를 제외한 모든 단일 문자
           
\(  ) : grouping      
\{n\} 또는 \{n,m\} : 반복        
          
예를들어 휴대전화 번호 양식을 취하고자 한다면 
```01[016-9]-\d{3,4}-\d{4}```

```re.match(pattern,string,flags)``` string시작부터 pattern과 일치하는 문자열 반환.

In [55]:
pattern = 'life'
string = 'life of human'
re.match(pattern,string).group()

'life'

위치 관계 없이 찾고자 할 때 ```re.search(pattern,string,flags=0)```

In [56]:
string = 'human life'
re.search(pattern,string).group()

'life'

패턴을 모두 찾아 리스트로 반환 하고자 할때 ```re.findall(pattern,string,flags=0)```

In [58]:
members = '''홍길동 : 700000-1000000,
아무개 : 800812-2134315'''
re.findall('\d{6}-\d{7}',members)

['700000-1000000', '800812-2134315']

```re.sub(pattern,repl,string,count=0,flags=0)``` 문자열 바꾸기.

In [61]:
sentence = "By learning to interpret dog body language and mimic the pack behaviors your dog craves, you can say 'I love you' to your dog in the following ways. \n\nWe all know that a loved dog equals a happy dog, and dog love equals pure love (just check out the video evidence!)"
print(sentence)
print("'---------------'")

re.sub('\n',' ',sentence)

By learning to interpret dog body language and mimic the pack behaviors your dog craves, you can say 'I love you' to your dog in the following ways. 

We all know that a loved dog equals a happy dog, and dog love equals pure love (just check out the video evidence!)
'---------------'


"By learning to interpret dog body language and mimic the pack behaviors your dog craves, you can say 'I love you' to your dog in the following ways.   We all know that a loved dog equals a happy dog, and dog love equals pure love (just check out the video evidence!)"

## Collection

### set

set는 list와 유사한 형태이지만, 순서가 없고 중복을 허가하지 않는다. (값을 넣어도 1개만 유지된다.) 중괄호('{}') 형태로 선언하여 이용 할 수 있다.    

```vowels = {'a','b','c'}```

In [40]:
{1,2,3,4,5,6,7} == {1,1,2,2,2,3,3,3,3,4,4,5,6,7} # 값이 여러개여도 중복을 허가하지 않아 같은 것으로 취급된다. 

True

In [42]:
vowels = {'a','b','c','d'}

print(type(vowels))
print(type({1,2,3}))

<class 'set'>
<class 'set'>


차후 나올 dictionary라는 데이터 타입으로 인해 중괄호 표기만으로 빈 set를 선언할 수 없다. 때문에 빈 set를 생성하기 위해서는 ```set()```를 이용한다.

In [62]:
set()

set()

해쉬(Hash) = Message Digest      
임의 크기의 데이터를 고정된 길이의 유일한 값으로 출력. 

좋은 해쉬 알고리즘이란
유일성, 일방향성(암호가능 복호불가), 충돌회피, 빠른속도
           
> authentication(인증) vs authorization(권한)         인증은 나는 누구이며 누구임을 증명하는 것을 인증이라고 한다. 권한은 누군가 무엇을 할때 그것을 수행하는데 허가가 있는지를 보는 것이다. 
 
해쉬 알고리즘은 일반적으로 수학적 복호가 불가능함. 때문에 원본을 알기 어려움

해쉬 크래킹이라고 해서 해쉬값을 추적하는 방법이 존재한는데 사전대입공격, 무작위대입공격, 레인보우테이블 등이 존재한다.          
해쉬 크래킹을 막는 방법은 입력값의 길이, 복잡도를 올려서 값을 추적하기 어렵게 한다. 또는 입력 제한을 걸어 n회 이상 실패시 잠금을 거는 방식을 취하면 된다. 또는 multi factor 인증을 통해 추가로 수행한다. 
salt라고 해서 시스템이 추가로 입력해주는 값을 통해 원본 값의 입력을 길게 하는 등 형태를 취하면 더 안전하게 이용할 수 있다.

### 튜플

( ) 로선언하여 이용하다. 리스트와 매우 유사한데, 수정이 불가능하다는 점이 다르다. 한가지 주의점이 있는데, 하나의 원소만을 가진 튜플을 생성할 때에는 뒤에 쉼표를 붙여주어야 정상적으로 동작한다는 점이다.

In [64]:
type((8,))

tuple

### 딕셔너리

맵이라고도 하는 이 데이터 타입은 키/값 쌍으로 이루어진 정렬되지 않은 가변 컬렉션이다. 

In [68]:
bird_to_observations = {'canada goose':3,'northern fulmar':1}
print(bird_to_observations)

{'canada goose': 3, 'northern fulmar': 1}


In [73]:
birds = {}

with open('birds.txt', 'r') as file:
    for line in file:
        bird = line.strip()

        if bird in birds:
            birds[bird] = birds[bird] + 1
        else:
            birds[bird] = 1


In [75]:
new_birds = {}
for bird,observations in birds.items():
    if observations in new_birds:
        new_birds[observations].append(bird)
    else:
        new_birds[observations] = [bird]
print(new_birds)

{3: ['aaa'], 4: ['bbb', 'ccc'], 2: ['xxx'], 1: ['ddd']}


## 알고리즘 디자인

In [91]:
from typing import List, Tuple
import time

# 찾고 삭제하고 찾기, 복사로 인해 공간적으로 보면 비효율적. 시간복잡도는 3n
def find_low_2_number(L:List[float]):
    l = L.copy()
    lowestIndex = l.index(min(L))
    lowest = l[lowestIndex]
    l.remove(lowest)
    return (lowest,min(l))

In [83]:
l = [1,2,3,4,5]
print(find_low_2_number(l))

(1, 2)


In [84]:
# 정렬이후 2개 반환, sort를 수행하므로 아무리 빨라도 nlogn (radix의 경우라면 kn까지 가능)
def find_low_2_number_sort(L:List[float]):
    L.sort()
    return (L[0],L[1])

In [86]:
l = [1,2,3,4,5]
print(find_low_2_number_sort(l))

(1, 2)


In [89]:
# 순회하며 값 찾기, n이기 때문에 가장 효율적이라고 볼 수 있음.
def find_low_2_number_search(L:List[float]): 
    lowest = 9999
    low = 9999
    for i in L:
        if i <= lowest :
            low = lowest
            lowest = i
        elif i <= low:
            low = i
    return (lowest,low)

In [90]:
l = [1,2,3,4,5]
print(find_low_2_number_search(l))

(1, 2)


In [92]:
def method_time_check(L:List[float]):
    t1 = time.perf_counter()
    print(find_low_2_number(L))
    t2 = time.perf_counter()
    print(t2-t1)
    
    t1 = time.perf_counter()
    print(find_low_2_number_sort(L))
    t2 = time.perf_counter()
    print(t2-t1)
    
    t1 = time.perf_counter()
    print(find_low_2_number_search(L))
    t2 = time.perf_counter()
    print(t2-t1)

In [95]:
import random

In [98]:

l = [1,2]
for i in range(1000000):
    l.append(random.randint(1,10000000))
method_time_check(l)

(1, 2)
0.04824001599990879
(1, 2)
0.2886776400009694
(1, 2)
0.13357333699968876
