---
# 📁 Hyun's Code collection (Built-In Modules) 
---
- Glob
- Re
- Os
- Json
- Pickle
- Collections
- Itertools
### <h3 align="right">🥇 Authored by <strong>Hyun</strong></h3>

# ✏️ **Built-In** Modules

## 🔎  What is **Glob**?

- Glob 모듈은 규칙에 따라 지정된 패턴과 일치하는 모든 경로명 및 파일들을 찾아준다.
- 파일들의 목록을 뽑을 때 유용한 모듈이다.

## 🔎  What is **Re**?

- 정규식 표현식(Regular Expression)을 지원하는 모듈이다.

## 🔎  What is **Os**?

- 운영체제와 상호작용을 하기 위한 함수 및 기능을 지원해주는 모듈이다.

## 🔎  What is **Json**?

- json(JavaScript Object Notation) 파일을 인코딩하거나 디코딩할 때 사용하는 모듈이다.
- 자바스크립트를 위한 것이고 객체 형식으로 자료를 표현하는 것.  
- 서로다른 언어간에 데이터를 주고받을 수 있도록 만들어진 텍스트기반 형식이다.  
- 프로그래밍 언어는 아니고, 단순히 데이터 포맷! 데이터를 표시하는 방법 !  
- 특정 언어에 종속되지 않고, 대부분의 프로그래밍 언어에서 JSON 포맷을 핸들링할 수 있는 라이브러리를 제공합니다.  
  

> Structure of Json
-  name - value 형식의 pair<br>
- {object}는 중괄호로 감싸고 있음. {로 시작해서 }로 끝남. 
- 각각의 이름은 ':'와 ',' 로 구분된 name/value형식을 따름
- name(string) : value<br>
- name은 string으로 되어 있고 : 이후에 value값을 둠 <br>
- value는 ""안에 string, number, true, false, null, object, array등이 올 수 있음 

## 🔎  What is **Pickle**?

- 일반 텍스트를 파일로 저장할 때는 pickle 형태로 저장하는 모듈이다.
- 파이썬에서만 사용가능하며 json과 다르게 바이너리 직렬화 형식으로 사람이 읽을 수 없는 형태로 저장한다.
- 안정성이 보장되지가 않는다.
- 하지만 리스트나 클래스같은 텍스트가 아닌 자료형은 일반적인 파일 입출력 방법으로는 데이터를 저장하거나 불러올 수 없다.
- 파이썬에서는 이와 같은 텍스트 이외의 자료형을 파일로 저장하기 위하여 pickle이라는 모듈을 제공한다.
- pickle로 데이터를 저장하거나 불러올때는 파일을 바이트형식으로 읽거나 써야한다. (wb, rb)

> [reference](https://wayhome25.github.io/cs/2017/04/04/cs-04/)

## 🔎  What is **Collections**?

- 데이터 처리를 위한 다양한 객체를 지원해주는 모듈이다.
- 유용한 모듈로는 Counter, Deque, Ordered Dictionary 등을 지원해준다.

## 🔎  What is **Itertools**?

- 효율적인 looping을 도와주는 모듈이다.
- itertools는 python에서 제공하는 자신만의 반복자를 만드는 유용한 모듈임!

# ✏️ Importing Libraries

In [None]:
# Built-in modules
from glob import glob
import re
import os
import json
from pandas.io.json import json_normalize
import pickle
import collections
import itertools

# ✏️  Methods and Examples


## 🔎 Glob

- **import glob** : import하기
- **glob .glob( ' . ' )**: 파일들 불러오기

### 📔 Examples

In [None]:
# Find fils recursively in directory and save in one file
import glob
first = True
for filename in sorted(glob.iglob(dir_ + '**/*.sql', recursive=True)):
    content = open(filename, 'r').read()
    if first:
        content_concat = content
        first = False
    else:
        content_concat = content_concat +'\n\n' + content 

save_dir = '/Users/Downloads/'
with open(save_dir + 'SQL concated.sql', 'w') as file:
    file.write(content_concat)

In [None]:
# directory 내에 있는 모든 directory를 뒤지며 .txt 파일 print하기
import os
for root, dirs, files in os.walk("/mydir"):
    for file in files:
        if file.endswith(".txt"):
             print(os.path.join(root, file))

In [None]:
# 디렉토리에 있는 파일들 전부 dictionary에 저장하기
file_list = sorted(glob('*.csv'))
dict_data = {}
num=0
for itr in file_list:
    num += 1
    dict_data[num] = pd.read_csv(itr, encoding="euc-kr")

In [None]:
# glob 예시
## 가장 마지막에 크롤링된 파일을 가져오는 방법
os.chdir("/Users/의안정보시스템 crawling/")
latest_file = glob.glob("*.json")[-1]

with open(latest_file, "r") as f:
    data = json.load(f)

In [None]:
## .glob 예시
# 모든 파일 긁어오기
>>> glob.glob('*.*')
['INSTALL.LOG', 'LICENSE.txt', 'NEWS.txt', 'py.ico', 'pyc.ico',
'pycon.ico', 'python.exe', 'pythonw.exe', 'readme.txt',
'UNWISE.EXE', 'w9xpopen.exe']

# 모든 txt 긁어오기
>>> glob.glob('*.txt')
['LICENSE.txt', 'NEWS.txt', 'readme.txt']

## 🔎 Re

<h2> 🎈 regex metacharacter </h2>

- **＼d**: 숫자와 매치, [0-9]와 같음
- **＼D**: 숫자 아닌 것과 매치, [^0-9]
- **＼s**: whitespace 문자와 매치
- **＼S**: whitespace 아닌 것과 매치
- **＼w**: 문자+숫자와 매치
- **＼W**: 문자+숫자가 아닌 문자와 매치
- **[ ]**: [ ] 사이의 문자들과 매치
- **＼b**: 단어의 경계. 공백, 탭, 컴마, 대시 등이 올 수 있음
- **＼B**: ＼b가 아닌 것.
- **＼**: 이스케이프용 문자. 정규식 상의 특별한 의미가 있는 기호들을 문자 그대로 사용할 때 쓴다. 
e.g ＼. ＼* ＼$ ＼

- **^**: 반대를 의미           예시) [^0-9]: 숫자가 아닌 문자만 매치
- **.**: 줄바꿈 문자인 \n을 제외한 모든 문자와 매치
- *: * 바로 앞에 있는 문자가 0부터 무한대로 반복될 수 있음
- **+**: * 바로 앞에 있는 문자 소 1번 이상 반복될 때 사용
- **{m, n}**: m부터 n까지 반복횟수를 매치할 수 있음
- **{m}**: 반복횟수가 반드시 m회
- **?**: {0, 1}을 의미, 있어도 되고 없어도 되고를 의미, *의 탐욕을 제한할 수 있다. 
- **^**: 문자열의 처음을 의미
- **$**: 문자열의 마지막을 의미
- **|**: or과 같은 의미
- **( )**: 그룹을 만들어주는 메타문자
- **(?=...)**: 긍정형 전방 탐색

<h2> 🎈 regex methods </h2>

- **re .compile ( ' 정규식 ' )**: 주어진 정규표현식을 컴파일한다.
- **re .compile ( ' 정규식 ' ) .match ( " 원하는 문구 " )**: 문자열의 처음부터 끝까지 정규식과 매치되는지 조사
  
  **group ( )**: 매치된 문자열 반환
  
  **start ( )**: 매치된 문자열의 시작 위치 반환
  
  **end ( )**: 매치된 문자열의 끝 위치 반환
  
  **span ( )**: 매치된 문자열의 (시작, 끝)을 튜플로 반환
  
  **sub( ' old str ' , ' new str ' , count = )**: 첫 번째 str는 바꿀 문자열, 두 번째 매개변수는 대상 문자열. 바꾸고 싶은 횟수를 count에 넣기
  
  **subn( , )**: sub와 유사하나 반환 결과를 tuple과 바꾼 횟수로 반환
- **re .compilt ( ' 정규식 ' ) .search ( " 원하는 문구 " )**: 문자열 전체를 검색하여 정규식과 매치되는지 조사 
- **re .compilt ( ' 정규식 ' ) .findall ( " 원하는 문구 " )**: 정규식과 매치되는 문자열을 리스트로 반환
- **re .compilt ( ' 정규식 ' ) .finditer ( " 원하는 문구 " )**: 정규식과 매치되는 문자열을 iterable로 반환
- **re .DOTALL**, **re.S**: \n 줄바꿈까지 매치하고 싶을 때
- **re.MULTILINE**, **re.M**: ^ 메타 문자를 문자열 각 라인의 처음으로 인식시킬 때 사용
- **re.VERBOSE**, **re.X**: 문자열에 사용된 whitespace는 컴파일할 때 제거
- **re.IGNORECASE**, **re.I**: 대, 소문자에 관계 없이 매치

### 📔 Examples

In [None]:
# regex examples
re.sub(r'\(]^)]*\)', '', sentence)    # 괄호로 닫힌 문자열 제거
re.sub('"', '', sentence)             # 쌍따옴표 "" 제거
re.sub(r"'s\b", "", sentence)         # 소유격 제거
re.sub("[^a-zA-Z]", "", sentence)     # 영어 외 문자 공백으로 변환
re.sub('[m]{2,}', 'mm', sentence)     # m이 3개 이상이면 2개로 변경

In [None]:
# 대전시공모전에서 썼던 예제
text = node['행정동'].iloc[0][0]
re.compile(' \w+동').findall(text)[0].strip()

In [None]:
# re 에시
df_test['Title']= df_test.Name.str.extract('([A-Za-z]+)\.')

In [None]:
# sub( , ), | 예시
p = re.compile('(blue|white|red)')
print(p.sub('colour', 'blue socks and red shoes', count=2))

colour socks and colour shoes


In [None]:
# 긍정형 전방 탐색 (?=...)
p = re.compile(".+(?=:)")
m = p.search("http://google.com")
print(m.group())

In [None]:
# compile 메소드
## 예제1 match()
p = re.compile('[a-z]+')
m = p.match("python")
print(m)

## 에졔2 search()
p = re.compile('[a-z]+')
m = p.search("python")
print(m)

p = re.compile('[a-z]+')
m = p.search("3 python")
print(m)

## 예제3 findall()
p = re.compile('[a-z]+')
m = p.findall("3 Life is 시발 too short python")
print(m)
['ife', 'is', 'too', 'short', 'python']

## 예제4 finditer
p = re.compile('[a-z]+')r
result = p.finditer("3 Life is 시발 too short python")
for r in result: print(r)
<re.Match object; span=(3, 6), match='ife'>
<re.Match object; span=(7, 9), match='is'>
<re.Match object; span=(13, 16), match='too'>
<re.Match object; span=(17, 22), match='short'>
<re.Match object; span=(23, 29), match='python'>

In [None]:
# re 
## 예제1
p = re.compile(r"(\w+)\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")
print(m.group(1))

## 예제2
p = re.compile(r"(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group("name"))
park

## 예제3 이메일 주소 매치하기
/^([a-z0-9_\.-]+)@([a-z0-9_\.-]+)\.([a-z\.]{2,6})$/

## 예제4
p = re.compile(r'\bclass\b')				# r = Raw string임을 알려주는 기호임
print(p.search('no class at all'))

<img src='https://blog.outsider.ne.kr/attach/1/550x458x1166620169.jpg.pagespeed.ic.v1tivqVmq1.webp' >

In [None]:
# 정규식 예시, 전화번호 매치하기
01[016789]\D?\d{3,4}\D?\d{4}
01[016789]    # 010, 011 등의 식별번호로 시작하며
    \D?\d{3,4}    # 숫자가 아닌 구분기호는ㅡ 있을 수도 없을 수도 있고 그 뒤에는 3자리에서 4자리 숫자이며
        \D?\d{4}    # 그 뒤에 구분기호가 있을 수도 없을 수도 있고 뒤에는 4자리 숫자가 온다.

In [None]:
# re.VERBOSE
charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)

In [None]:
s = '<html><head><title>TItle</title>'
print(len(s))
print(re.match('<.*?>', s).span())
print(re.match('<.*?>', s).group())

32
(0, 6)
<html>


In [None]:
# 정규식
## 예제1
s = '<html><head><title>TItle</title>'
print(len(s))
print(re.match('<.*?>', s).span())
print(re.match('<.*?>', s).group())

## 예제2
df_train['Title']= df_train.Name.str.extract('([A-Za-z]+)\.')
df_test['Title']= df_test.Name.str.extract('([A-Za-z]+)\.')

## 예제3
a.b    # 의미: a + 모든 문자 + b
[a-zA-Z]    # 의미: 알파벳 모두
[0-9]    # 의미: 숫자 모두
ca*t    # 의미: a가 0부터 무한대까지 반복되는 문자열 e.g ct, cat, caaaat
ca+t    # 의미: a가 1부터 무한대까지 반복되는 문자열 e.g cat, caaat
ca{2}t    # 의미: c, t 사이에 a가 반드시 2번 반복 e.g caat
ca{2,5}    # 의미: a는 2회에서 5회까지 반복 가능 e.g caat, caaaat, caaaaat
ab?c    # 의미: b가 있어도 되고 없어도 되고 e.g. abc, ac
^python    # 의미: 문자열의 처음은 python으로 시작해야 매칭
python$    # 의미: 문자열의 마지막이 python으로 끝나야 매칭
\bplay\b    # 의미: play의 양 끝에 단어 경계가 오는 경우메만 play에 매치. playground는 매치 ㄴㄴ

In [None]:
# re 예제
## 예제
p = re.compile('[a-z]+')

## .match
m = p.match("python")

## .search
m = p.search("python")
  
## .findall
m = p.findall("life is too short")

## .finditer
m = p.finditer("life is too short")

In [None]:
# match 메서드 예제
m = p.match("python")
m.group()
m.start()
m.end()
m.span()

In [None]:
# re.DOTALL
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

In [None]:
# re.MULTILINE
p = re.compile("^python\s\w+", re.MULTILINE)

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one', 'python two', 'python three']


## 🔎 Os

[More methods](https://devanix.tistory.com/298)
- **os .getcwd()**: 현재 작업중인 directory를 반환
- **os .chdir('/ / ' )**: 현재 작업중인 directory를 변경
- **os .listdir()**: 특정 경로에 존재하는 파일과 directory 목록을 구해주는 아가
- **os .path.abspath( )**: 특정 경로에 대해 절대 경로 얻기
- **os .path .dirname( )** : 경로 중에 디렉토리명만 얻기
- **os .path .isfile( )**: 경로 중 파일명만 얻기
- **os .path .split( )**: 경로 중 디렉토리명과 파일명 나눠서 얻기
- **os .path .join( )** : 경로를 병합하여 새 경로 생성
- **os .path .exists( )** : 파일 혹은 디렉토리 경로가 존재하는지 체크
- **os .path .isdir( )** : 디렉토리 경로가 존재하는지 체크
- **os .path .getsize( )** : 파일의 크기
- **os .path .basename( )** : 입력받은 경로의 기본 이름을 반환. abspath()와 반대되는 기능이다.

### 📔 Examples

In [None]:
# 하위 directory 검색하기
import os

def search(dirname):
    filenames = os.listdir(dirname)
    for filename in filenames:
        full_filename = os.path.join(dirname, filename)
        ext = os.path.splitext(full_filename)[-1]
        if ext == '.py': 
            print(full_filename)

search("c:/")

In [None]:
# directory 내 파일 검색하기
files = [file_name for file_name in os.listdir("./data") if file_name.endswith("xlsx")] 

# 거기에 속해있는 excel 파일 읽기
df_list = [pd.read_excel("data/"+df_filename) for df_filename in files]


## 🔎 Json

 - **json_normalize(data, error = , max_level = , meta= , record_path = )**: json 데이터를 풀어쓰는 방법. 보통 data, meta, meta_prefix를 사용!!!

### 📔 Examples

In [None]:
# Import jsonl file
with open('train.jsonl', 'r') as json_file:
    json_list = list(json_file)
    
list_result = []
for json_str in json_list:
    result = json.loads(json_str)
    list_result.append(result)

df_news = pd.DataFrame(list_result)

In [None]:
# Example 1
from numpyencoder import NumpyEncoder

with open(json_file, 'w') as file:
    json.dump(numpy_data, file, indent=4, sort_keys=True,
              separators=(', ', ': '), ensure_ascii=False,
              cls=NumpyEncoder)
    
# Example 2
with open("file name.json", "w") as json_file:
    json.dump(dict_result, json_file, 
             cls=NumpyEncoder)

In [None]:
# 한글 깨지는 문제 해결
with open("bills 180 ver2.1.json", "w", encoding='utf-8') as file_name:
    json.dump(data, file_name, indent='\t', ensure_ascii=False)

In [None]:
# json 예시1
{
  "member" : [
    {                        # object 1
      "id" : "jaewon94",
      "blog" : "naver",
      "from" : "korea",
      "major" : ["Statistics", "Industrial Engineering"]
    },
    {                        # object 2
      "id" : "gunwook1234",
      "blog" : "github",
      "from" : "korea",
      "major" : "Statistics"
    }
  ]
}  

### 📔 Json to DataFrame

In [None]:
price = {"S&P 500":
    {
    "2019-01-15" : 20555.29,
    "2019-01-01" : 20359.80,
    "2019-01-10" : 23533.48
    },
 "Nasdaq 100":
     {
    "2019-01-15" : 1534.29,
    "2019-01-11" : 1646.80,
    "2019-01-10" : 1543.48
     }
}

In [None]:
pd.DataFrame(price)

Unnamed: 0,S&P 500,Nasdaq 100
2019-01-15,20555.29,1534.29
2019-01-01,20359.8,
2019-01-10,23533.48,1543.48
2019-01-11,,1646.8


With height_data

In [None]:
height_data = {"results" : [
       {
          "elevation" : 243.3462677001953,
          "location" : {
             "lat" : 42.974049,
             "lng" : -81.205203
          },
          "resolution" : 19.08790397644043
       },
       {
         "elevation" : 244.1318664550781,
         "location" : {
             "lat" : 42.974298,
            "lng" : -81.19575500000001
          },
          "resolution" : 19.08790397644043
       }
    ]
   , "status" : "OK",
 }

In [None]:
pd.DataFrame(height_data['results'])

Unnamed: 0,elevation,location,resolution
0,243.346268,"{'lat': 42.974049, 'lng': -81.205203}",19.087904
1,244.131866,"{'lat': 42.974298, 'lng': -81.195755}",19.087904


In [None]:
json_normalize(height_data['results'])

  """Entry point for launching an IPython kernel.


Unnamed: 0,elevation,resolution,location.lat,location.lng
0,243.346268,19.087904,42.974049,-81.205203
1,244.131866,19.087904,42.974298,-81.195755


With mountain data

In [None]:
mountain = [{"name" : "봉서산",
          "elevation" : 243.3462677001953,
          "location" : {
             "lat" : 42.974049,
             "lng" : -81.205203},
          "resolution" : 19.08790397644043},
         {"name" : "북한산",
         "elevation" : 244.1318664550781,
         "location" : {
             "lat" : 42.974298,
            "lng" : -81.19575500000001},
          "resolution" : 19.08790397644043},
        {"name" : "봉서산",
         "elevation" : 234.1246364550781,
         "location" : {
             "lat" : 32.935544298,
            "lng" : -41.63500000001},
          "resolution" : 19.08790397644043}]

In [None]:
pd.DataFrame(mountain)

Unnamed: 0,name,elevation,location,resolution
0,봉서산,243.346268,"{'lat': 42.974049, 'lng': -81.205203}",19.087904
1,북한산,244.131866,"{'lat': 42.974298, 'lng': -81.195755}",19.087904
2,봉서산,234.124636,"{'lat': 32.935544298, 'lng': -41.63500000001}",19.087904


In [None]:
json_normalize(mountain)

  """Entry point for launching an IPython kernel.


Unnamed: 0,name,elevation,resolution,location.lat,location.lng
0,봉서산,243.346268,19.087904,42.974049,-81.205203
1,북한산,244.131866,19.087904,42.974298,-81.195755
2,봉서산,234.124636,19.087904,32.935544,-41.635


### 📔 Practice with another data

In [None]:
data = [ {'state': 'Florida',
          'shortname': 'FL',
          'info': {
               'governor': 'Rick Scott',
               '혀누':'졸귀탱'
          },
          'counties': [{'name': 'Dade', 'population': 12345},
                      {'name': 'Broward', 'population': 40000},
                      {'name': 'Palm Beach', 'population': 60000}]},
        
         {'state': 'Ohio',
          'shortname': 'OH',
          'info': {
               'governor': 'John Kasich',
               '혀누':'존멋탱'
          },
          'counties': [{'name': 'Summit', 'population': 1234},
                       {'name': 'Cuyahoga', 'population': 1337}]}]

In [None]:
# 예시를 보면서 설명을 하자면
json_normalize(data,  'counties',  ['state', 'shortname',['info', 'governor']])
'''
data만 입력하면 밑에처럼 key가 column name이 되고, value가 row에 들어간다.
'''

In [None]:
json_normalize(data)

  """Entry point for launching an IPython kernel.


Unnamed: 0,state,shortname,counties,info.governor,info.혀누
0,Florida,FL,"[{'name': 'Dade', 'population': 12345}, {'name...",Rick Scott,졸귀탱
1,Ohio,OH,"[{'name': 'Summit', 'population': 1234}, {'nam...",John Kasich,존멋탱


만약 데이터에서 원하는 key를 데이터프레임으로 만들고 싶으면 data 뒤에 key 이름을 적어주면 된다.

In [None]:
json_normalize(data, 'counties')

  """Entry point for launching an IPython kernel.


Unnamed: 0,name,population
0,Dade,12345
1,Broward,40000
2,Palm Beach,60000
3,Summit,1234
4,Cuyahoga,1337


원하는 key에 해당하는 다른 정보도 보고 싶으면 key 뒤에 [  ]속에 key 이름을 넣어주면 된다

In [None]:
json_normalize(data, 'counties', ['state','shortname'] )

  """Entry point for launching an IPython kernel.


Unnamed: 0,name,population,state,shortname
0,Dade,12345,Florida,FL
1,Broward,40000,Florida,FL
2,Palm Beach,60000,Florida,FL
3,Summit,1234,Ohio,OH
4,Cuyahoga,1337,Ohio,OH


key 속에 다른 key를 보고 싶으면 [ ] 속에 또 [ ]에 넣어주면 된다!

In [None]:
json_normalize(data,  'counties',  ['state', 'shortname', 'info'])

  """Entry point for launching an IPython kernel.


Unnamed: 0,name,population,state,shortname,info
0,Dade,12345,Florida,FL,"{'governor': 'Rick Scott', '혀누': '졸귀탱'}"
1,Broward,40000,Florida,FL,"{'governor': 'Rick Scott', '혀누': '졸귀탱'}"
2,Palm Beach,60000,Florida,FL,"{'governor': 'Rick Scott', '혀누': '졸귀탱'}"
3,Summit,1234,Ohio,OH,"{'governor': 'John Kasich', '혀누': '존멋탱'}"
4,Cuyahoga,1337,Ohio,OH,"{'governor': 'John Kasich', '혀누': '존멋탱'}"


In [None]:
json_normalize(data, 'counties', ['state', 'shortname',['info']])

  """Entry point for launching an IPython kernel.


Unnamed: 0,name,population,state,shortname,info
0,Dade,12345,Florida,FL,"{'governor': 'Rick Scott', '혀누': '졸귀탱'}"
1,Broward,40000,Florida,FL,"{'governor': 'Rick Scott', '혀누': '졸귀탱'}"
2,Palm Beach,60000,Florida,FL,"{'governor': 'Rick Scott', '혀누': '졸귀탱'}"
3,Summit,1234,Ohio,OH,"{'governor': 'John Kasich', '혀누': '존멋탱'}"
4,Cuyahoga,1337,Ohio,OH,"{'governor': 'John Kasich', '혀누': '존멋탱'}"


In [None]:
json_normalize(data, 'counties', ['state', 'shortname',['info', 'governor']])

  """Entry point for launching an IPython kernel.


Unnamed: 0,name,population,state,shortname,info.governor
0,Dade,12345,Florida,FL,Rick Scott
1,Broward,40000,Florida,FL,Rick Scott
2,Palm Beach,60000,Florida,FL,Rick Scott
3,Summit,1234,Ohio,OH,John Kasich
4,Cuyahoga,1337,Ohio,OH,John Kasich


### 📔 Save Data as Json format

In [None]:
# 우선 dict in list 형태로 json 파일 만들기
petreat_data = []
for num in range(pet.shape[0]):
    dict_temp = dict()
    dict_temp['id'] = num
    dict_temp['name'] = pet.iloc[num][0]
    dict_temp['BOW'] = pet.iloc[num][8]
    dict_temp['similarity'] = cosine_sim[num].tolist()   # np.array는 json 저장 불가하기 때문!
    petreat_data.append(dict_temp)

In [None]:
# 저장하기
with open("petreat.json", "w") as json_file:
    json.dump(petreat_data, json_file)

In [None]:
# 불러오기
with open("petreat.json", "r") as st_json:
    data = json.load(st_json)
    score_series = np.array(item['similarity'])   # 다시 np.array로 바꾸는 방법

### 📔 Crawl data as Json format 

In [None]:
### Json 파일 형식으로 크롤링 성공!
# 21대 국회의원 당선자들
import time
import numpy as np
import pandas as pd
import urllib.request
import json
from tqdm import tqdm
import time
from selenium import webdriver
from collections import OrderedDict
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains
pd.set_option("display.max_columns", 100)
pd.set_option("display.max_rows", 100)

class Crawler():
    def __init__(self):
        self.path = r"/Users/junghyunwoo/혀누에-의한-혀누를-위한-혀누의/일 관련/OXO politics/chromedriver"
        
    def crawl_whom(self):
        user_input = input("국회의원 or 비례대표?: ")
        final_members = []
        if user_input == "국회의원":
            driver = webdriver.Chrome(self.path)
            driver.get('http://info.nec.go.kr/main/showDocument.xhtml?electionId=0020200415&topMenuId=EP&secondMenuId=EPEI01') 
            for num in tqdm(list(range(2,19))):
                driver.find_element_by_xpath('//*[@id="electionId2"]').click()     # 국회의원 선거 클릭
                driver.find_element_by_xpath('//*[@id="cityCode"]').click() # drop box 열고
                time.sleep(0.5)
                driver.find_element_by_xpath('//*[@id="cityCode"]/option['+str(num)+']').click() # 서울시 클릭
                driver.find_element_by_xpath('//*[@id="spanSubmit"]/input').click() # 클릭 누르기
                members = driver.find_elements_by_css_selector('#table01 > tbody > tr')
                for i in list(range(1, len(members)+1)):
                    dict_member = dict()
                    dict_member['선거구'] = driver.find_elements_by_css_selector('#table01 > tbody > tr:nth-child('+str(i)+') > td.firstTd.alignL')[0].text
                    dict_member['정당'] = driver.find_elements_by_css_selector('#table01 > tbody > tr:nth-child('+str(i)+') > td:nth-child(2)')[0].text
                    dict_member['이름'] = driver.find_elements_by_css_selector('#table01 > tbody > tr:nth-child('+str(i)+') > td:nth-child(4)')[0].text.replace('\n', ' ')
                    dict_member['성별'] = driver.find_elements_by_css_selector('#table01 > tbody > tr:nth-child('+str(i)+') > td:nth-child(5)')[0].text
                    dict_member['생년월일'] = driver.find_elements_by_css_selector('#table01 > tbody > tr:nth-child('+str(i)+') > td:nth-child(6)')[0].text.split('\n')[0]
                    dict_member['주소'] = driver.find_elements_by_css_selector('#table01 > tbody > tr:nth-child('+str(i)+') > td:nth-child(7)')[0].text
                    dict_member['직업'] = driver.find_elements_by_css_selector('#table01 > tbody > tr:nth-child('+str(i)+') > td:nth-child(8)')[0].text
                    dict_member['학력'] = driver.find_elements_by_css_selector('#table01 > tbody > tr:nth-child('+str(i)+') > td:nth-child(9)')[0].text
                    dict_member['경력'] = driver.find_elements_by_css_selector('#table01 > tbody > tr:nth-child('+str(i)+') > td:nth-child(10)')[0].text.replace('\n', ', ')
                    dict_member['득표율'] = driver.find_elements_by_css_selector('#table01 > tbody > tr:nth-child('+str(i)+') > td:nth-child(11)')[0].text.split('\n')[1][1:-1]
                    final_members.append(dict_member)
                    
        elif user_input == "비례대표":
            driver = webdriver.Chrome(self.path)
            driver.get('http://info.nec.go.kr/main/showDocument.xhtml?electionId=0020200415&topMenuId=EP&secondMenuId=EPEI01') 
            driver.find_element_by_xpath('//*[@id="electionId7"]').click()
            driver.find_element_by_xpath('//*[@id="spanSubmit"]/input').click()
            members = driver.find_elements_by_css_selector('#table01 > tbody > tr')
            final_members = []
            for i in tqdm(list(range(1, len(members)+1))):
                dict_member = dict()
                dict_member['선거구'] = '비례대표'
                dict_member['정당'] = driver.find_elements_by_css_selector('#table01 > tbody > tr:nth-child('+str(i)+') > td:nth-child(1)')[0].text
                dict_member['이름'] = driver.find_elements_by_css_selector('#table01 > tbody > tr:nth-child('+str(i)+') > td:nth-child(4)')[0].text.replace('\n', ' ')
                dict_member['성별'] = driver.find_elements_by_css_selector('#table01 > tbody > tr:nth-child('+str(i)+') > td:nth-child(5)')[0].text
                dict_member['생년월일'] = driver.find_elements_by_css_selector('#table01 > tbody > tr:nth-child('+str(i)+') > td:nth-child(6)')[0].text.split('\n')[0]
                dict_member['주소'] = driver.find_elements_by_css_selector('#table01 > tbody > tr:nth-child('+str(i)+') > td:nth-child(7)')[0].text
                dict_member['직업'] = driver.find_elements_by_css_selector('#table01 > tbody > tr:nth-child('+str(i)+') > td:nth-child(8)')[0].text
                dict_member['학력'] = driver.find_elements_by_css_selector('#table01 > tbody > tr:nth-child('+str(i)+') > td:nth-child(9)')[0].text
                dict_member['경력'] = driver.find_elements_by_css_selector('#table01 > tbody > tr:nth-child('+str(i)+') > td:nth-child(10)')[0].text.replace('\n', ', ')
                dict_member['득표율'] = '비례대표'
                final_members.append(dict_member)
        return final_members

## 🔎 Pickle

- **pickle .dump ( data , file )**: 데이터 입력
- **pickle .load ( file )**: 데이터 로드. 로드를 해오려면 pickle.dump로 입력한 파일이어야 한다.

### 📔 Examples

In [None]:
## Pickle로 모델 저장하고 부르는 방법
import pandas
from sklearn import model_selection
from sklearn.linear_model import LogisticRegression
import pickle
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

dataframe = pandas.read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
test_size = 0.33
seed = 7
X_train, X_test, Y_train, Y_test = model_selection.train_test_split(X, Y, test_size=test_size, random_state=seed)

# Fit the model on training set
model = LogisticRegression()
model.fit(X_train, Y_train)

# save the model to disk
filename = 'finalized_model.sav'
pickle.dump(model, open(filename, 'wb'))
 
# some time later...
 
# load the model from disk
loaded_model = pickle.load(open(filename, 'rb'))
result = loaded_model.score(X_test, Y_test)
print(result)

In [None]:
# pickle.dump()
import pickle
list = ['a', 'b', 'c']
with open('list.txt', 'wb') as f:
    pickle.dump(list, f)

In [None]:
# 파일 전체 내용 로드
with open('abc2.bin', 'rb') as file:
    data_list = []
    while True:
        try:d
            data = pickle.load(file)
        except EOFError:
            break
        data_list.append(data)

In [None]:
# pickle.dump로 데이터 내보내기
import pickle
with open('noun.txt', 'wb') as f:
    pickle.dump(tokens_noun, f)
    
# pickle load로 txt 파일 불러오기
with open('noun.txt', 'rb') as f:
    tokens_noun = pickle.load(f)
    
tokens_noun

## 🔎 Collections

- **.elements ( )**: 입력된 값의 요소에 해당하는 값을 풀어서 반환
- **.update ( )**: Counter의 값을 갱신하는 것
- **.most_common ( 숫자 )**: 빈도수가 높은 상위 Top '숫자'를 반환
- **.subtract ( )**: 요소를 빼는 것.
- **+**, **-**: 덧셈과 뺄셈
- **&**: 교집합
- **|**: 합집합

### 📔 Examples

In [None]:
# .subtract()
c3 = collections.Counter('hello python')
c4 = collections.Counter('i love python')
c3.subtract(c4)
print(c3)

Counter({'h': 1, 'l': 1, 'e': 0, 'o': 0, 'p': 0, 'y': 0, 't': 0, 'n': 0, ' ': -1, 'i': -1, 'v': -1})


In [None]:
# most_common()
## 예제1
Counter(nouns).most_common(100)

## 예제2
c2 = collections.Counter('apple, orange, grape')
print(c2.most_common())
print(c2.most_common(3))

In [None]:
# elements()
c = collections.Counter("Hello Python")
print(list(c.elements()))
print(sorted(c.elements()))

['H', 'e', 'l', 'l', 'o', 'o', ' ', 'P', 'y', 't', 'h', 'n']
[' ', 'H', 'P', 'e', 'h', 'l', 'l', 'n', 'o', 'o', 't', 'y']


In [None]:
# collection의 입력값 예제
## 예제1
import collections
lst = ['aa', 'cc', 'dd', 'aa', 'bb', 'ee']
print(collections.Counter(lst))

## 예제2
print(collections.Counter({'가': 3, '나': 2, '다': 4}))


## 예제3
c = collections.Counter(a=2, b=3, c=2)
print(collections.Counter(c))
print(sorted(c.elements()))

## 예제4
container = collections.Counter()
container.update("aabcdeffgg")
print(container)

Counter({'aa': 2, 'cc': 1, 'dd': 1, 'bb': 1, 'ee': 1})


## 🔎 Itertools

- **itertools .combinations ( " 자료형 " , num )**: 몇 개(num)로 combination을 만들지 설정하고 자료형을 넣어주면 완성~

### 📔 Examples

In [None]:
# itertools.combinations
links = []
a = list(set(temp[index_s[1]+1:index_s[2]+1].chatter.tolist()))
links.append(list(itertools.combinations(a,2)))