### 정규표현식  
  웹, SNS에서 수집한 자료들은 대부분 가공되어 있지 않은 상태로 수집
  이런 이유로 필요한 문자열을 적절하게 자르고 교체하고 추출하는 작업을 진행
  이 때에 사용되는 것이 정규표현식

#### 메타문자    
  
  정규 표현식에서 일정한 의미를 가지고 있는 특수문자를 메타문자라고 한다.  

  
  **주요 메타문자**
  메타문자 | 정규표현식 | 의미
  :---:|:---:|:---:
  . | .x 또는 x. | 임의의 한 문자가 x앞에 또는 뒤에 오는 패턴지정
  ^ | ^x | x로 시작하는 문자열(접두어패턴을 지정)
  $ | x$ | x로 끝나는 문자열(접미어패턴을 지정)
  \* | x* | x가 0번 이상 반복
  \+ | x+ | x가 1번 이상 반복
  ? | x? | x가 0 또는 1개 존재
  \| | abc\|ABC | abc 또는 ABC 두 개 중 하나 선택(or)
  \[] | \[x] | x문자 한개 일치
  \[^] | \[^x] | x문자를 제외(부정)
  {n} | x{n} | x가 n번 연속 반복
  {n.} | x{n.} | x가 n번 이상 연속 반복
  {m,n} | x{m,n} | x가 m~n사이 연속 반복

  **메타문자로 사용되는 이스케이프 문자**
  메타문자 | 의미
  :---:|:---:
  \s | 공백문자(white space)
  \b | 문자와 공백 사이
  \d | 숫자[0-9]와 같습니다.
  \w | 단어\[0-9a-zA-Z_]와 같다. 영문자 + 숫자 + _
  \n | 줄바꿈 문자
  \t | 탭문자
  
  **이스케이프 문자를 대문자로 적으면 반대 의미로 해석*  
  ex) '\S'는 공백문자가 아닌 경우의 패턴을 의미함



#### 정규 표현식 모듈
  모듈명 : re모듈
  사용 : import re  
    
  **re모듈의 주요 내장함수**
  |함수(파라미터) | 기능 |
  |:---:|:---:|
  |compile(pattern, flags=0) | 패턴을 컴파일하여 Pattern 객체를 반환 |
  |excape(pattern) | 문자열에서 특수문자를 이스케이프 처리
  |findall(pattern, string, flags=0) | string에서 패턴과 일치하는 모든 문자열을 리스트로 반환|
  |finditer(pattern, string, flags=0) | string에서 패턴과 일치하는 모든 문자열을 반복자로 반환|
  |fullmatch(pattern, string, flags=0) | 패턴을 모든 string에 적용하여 Match객체를 반환, 일치하는 항목이 없으면 None반환|
  |match(pattern, string, flags=0) | string의 처음부터 패턴을 적용하여 Match객체를 반환, 일치하는 것이 없으면 None반환|
  |search(pattern, string, flags=0) | 문자열을 스캔하여 패턴과 일치하는지 확인하고 일치하는 객체를 리턴|
  |split(pattern, string, maxsplit=0, flags=0) | string을 대상으로 패턴과 일치하는 문자열을 분할하여 부분 문자열이 포함되는 리스트 반환|
  |sub(pattern, repl, string, count=0, flags=0) | string에서 패턴과 일치하는 문자열을 repl로 대체하여 문자열을 반환|
  |subn(pattern, repl, string, count=0, flags=0) | 문자열에서 패턴과 일치하는 문자열을 repl로 대체하여 (new_string, 숫자) 형식의 튜플로 반환|
  |template(pattern, flags=0) | 템플릿 패턴을 컴파일하여 pattern객체를 반환

In [None]:
## 문자열 찾기 예(findall)
import re               # 모듈 추가 1
from re import findall  # 모듈 추가 2

str1 = '12345 abc홍길동 ABC_555_6 이사도시'

# 숫자찾기
print(findall('1234',str1))        # '1234'라는 문자 찾기 -> ['1234']
print(findall('[0-9]',str1))       # 한글자 패턴 -> ['1', '2', '3', '4', '5', '5', '5', '6']
print(findall('[0-9]{3}',str1))    # 세자리 숫자([]{n} 연속된 n번 패턴) -> ['123', '555']
print(findall('[0-9]{3,}',str1))   # []{n,} 연속된 패턴이 n번 이상 -> ['12345', '555']
print(findall('[0-9]{3,4}',str1))  # []{m,n} 연속된 패턴이 m이상 n이하['1234', '555']
print(findall('\\d{3,}',str1))     # 이스케이프 문자 사용 -> ['12345', '555']

# 문자열 찾기
print(findall('[가-힣]{3,}',str1)) # 한글 패턴 검색 -> ['홍길동', '이사도시']
print(findall('[a-z]{3}',str1))    # 3글자 영문자 -> ['abc']
print(findall('[a-z|A-Z]{3}',str1))# 3글자 대소문자 영문자('|'를 이용) -> ['abc', 'ABC']

## 특정 위치의 문자열 찾기
str2 = 'test1abcABC 123mbc 45test'

# 접두어/접미어
print(findall('^test',str2))
print(findall('st$',str2))

# 종료 문자 찾기
print(findall('.bc',str2))

# 시작 문자 찾기
print(findall('t.',str2))

## 단어찾기(\\w)
str3 = 'test^홍길동 abc 대한*민국 123$tbc'

print(findall('\\w{3,}',str3))      # = [a-zA-Z0-9가-힣] -> ['test', '홍길동', 'abc', '123', 'tbc']

# 문자열 제외 : x+ (x가 1개이상 반복)
print(findall('[^^*$]+',str3))      # ^,*,$ 특수 문자 제외 : [^^*$]+ -> ['test', '홍길동 abc 대한', '민국 123', 'tbc']

In [6]:
## 문자열 검사 [match()]
# 문자열 패턴과 일치하는 문자열이 존재하면 객체를 반환, 일치되지 않는 경우에는 None
# 문자열 패턴과 일치 여부를 검사하는 경우
import re
from re import match

# 패턴과 일치하는 경우
jumin = '123456-3234567'
result = match('[0-9]{6}-[1-4][0-9]{6}',jumin)
print(result)
if result :
    print('주민번호 일치')
else : 
    print('잘못된 주민번호')

<re.Match object; span=(0, 14), match='123456-3234567'>
주민번호 일치


In [17]:
## 문자열 치환 : sub()
# 패턴과 일치하는 문자열을 지정한 문자열로 치환하여 새로운 문자열을 반환
# 자연어를 대상으로 불용어에 해당하는 문장 부호나 특수문자를 제거할 때 사용

from re import sub
str3 = 'test^홍길동 abc 대한*민국 123$tbc'

# 특수문자 제거
text1 = sub('[\*^$]+','',str3)
print(text1)

# 연습
# text1에 있는 문자열 중에 'test' -> 'TEST'로 변경
sub('test','TEST',text1)
sub('[a-z]{4}','TEST',text1)
sub(text1[0:4],'TEST',text1)

## 숫자 제거
print(text1)
text2 = sub('[0-9]','',text1)
text2

test홍길동 abc 대한민국 123tbc
test홍길동 abc 대한민국 123tbc


'test홍길동 abc 대한민국 tbc'

In [57]:
### https://news.v.daum.net/v/20220404120609031에서 email가져오기

import urllib.request
import re

url = 'https://news.v.daum.net/v/20220404120609031'
res = urllib.request.urlopen(url)
data = res.read()

src = data.decode('utf-8')
test1 = re.findall('\\w+@\\w+[-_.]?[a-zA-Z0-9]+',src)
print(test1)



['kimsdoo@yna.co', 'kimsdoo@yna.co', 'handbrother@yna.co', 'handbrother@yna.co', 'toadboy@yna.co', 'toadboy@yna.co', 'sncwook@yna.co', 'sncwook@yna.co']


In [None]:
'''
빅데이터 통계...

#### 자료의 분류
 - 수치형 변수(데이터)  
   > 연속형 : 연속된 값을 가지고 표현(연속적인 수)   
   > 이산형 : 정확한 숫자로 이뤄진 값(수강생 수, 카페의 수 등등)

 - 범주형 변수(데이터) -> 카테고리형  
   > 명목형 : 혈액형(A,B,O,AB), 성별, 통신사  
   > 순위형 : 학년, 등급, 설문지 척도

#### 양적변수, 질적변수 
---------------------------------------------------------------------------
#### 통계와 관련된 프로그램: SPSS, EXCEL, R(통계분석 프로그램)
---------------------------------------------------------------------------
#### R이나 파이썬에서 데이터를 다룰 때에 행과 열의 구조를 가지는 Data => frame
---------------------------------------------------------------------------------------------
#### 인덱싱 - 파이썬 인덱싱 숫자는 0부터 시작, R은 1부터 시작
---------------------------------------------------------------------------------------------
#### R프로그램 특징
1) 시각화하여 이미지를 저장할 수 있음(그래프, 분산도)
2) 라이브러리 설치를 명령어만으로 설치가능(용이함)
3) 여러가지 명령어를 스크립트로 저장하여 사용할 수 있음
4) 다양한 통계관련 모듈 함수를 지원하고 있다.

----------------------------------------------------------------------------------------------
#### 결측치, 이상치(5문제)
- 결측치 : 누락된 값, 비어있는 값(R에서는 NA로 표시)  
- 이상치 : 정상 범주에서 크게 벗어난 값

----------------------------------------------------------------------------------------------
#### R프로그램 함수 : sum(), table(), mean(), median()
----------------------------------------------------------------------------------------------
#### 기술통계는 (tecnic x) 쓰는 것, 추론통계(예측)
----------------------------------------------------------------------------------------------
#### 상관계수 : 값의 범위, 상관분석, 상관행렬
----------------------------------------------------------------------------------------------
#### 귀무가설, 대립가설
- 귀무가설 : 모집단의 특성에 대해 옳다고 제안하는 잠정적인 주장(-와 차이가 없다 또는 -와 같다의 형식)  
- 대립가설 : 귀무가설이 거짓이라면 대안적으로 참이 되는 가설(-와 차이가 있다 또는 -와 다르다의 형식)  
----------------------------------------------------------------------------------------------
#### p-value  
p-값(p-value)은 귀무 가설(null hypothesis)이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률이다.  

----------------------------------------------------------------------------------------------
#### 가설검증 (표준편차 : 오차범위 0.05)
----------------------------------------------------------------------------------------------
#### 두 집단간 평균의 차이를 검증하는 통계기법  (이 중에 하나 **t-test**, p-test, f-test, x-test)
  ----------------------------------------------------------------------------------------------₩
1. 빅데이터 플랫폼 요구사항과 거리가 먼 것?
하둡 : 대량의 데이터를 처리하기위한 시스템
신뢰성이 있는 시스템을 구축
보안문제

2. 빅데이터 처리 전 요구사항 수집과 관련 없는 것?
분산처리에서 요구사항을 분리하고 협상
요구사항을 분석하고 표현하는 것은 빅데이터 처리 이후에 하는 것

3. 빅데이터 처리 전 요구사항 정의와 관련 없는 것?
https://hp4444.tistory.com/21

4. 요구사항 명세서 작성 시 유의해야 할 사항과 거리가 먼 것?  
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=lwj798&logNo=220692163729  
사용자가 읽기 쉽고, 이해할 수 있도록 작성한다.
개발자가 설계와 코딩에 효과적으로 사용할 수 있도록 작성한다.
비기능적 요구를 명확히 작성한다.
테스트 기준 용도로 사용할 수 있도록 정략적으로 작성한다.
품질에 대한 우선순위를 명시한다.  

5. 요구사항 검증 시 검토해야 할 사항과 거리가 먼 것?

#### 빅데이터 플랫폼 인프라 구조 설계
1. 빅데이터 플랫폼 인프라 구조 설계시 업무 및 "기술 현황 분석 단계"에서 수행하는 활동
2. 빅데이터의 데이터베이스 설계시에 요구사항 분석 결과를 바탕으로 개체를 도출하고   
개체 속성과 키를 설정하는 개체간의 관계를 정의한 그림을 무엇이라고 하는가?  
3. 빅데이터 수집, 처리 저장 기법과 먼 것?  
  딥러닝은 정보를 수집(x) 학습시켜서 데이터를 저장 -> 빅데이터를 이용하는 것 수집이 아니다.
'''