### 정규식 (Regular expression operations)

In [32]:
import re 

In [33]:
# dir(module) 명령어 사용 해당 module이 어떤 기능을 확인
dir(re)  #re 모듈의 옵션 플래그들과 메쏘드들을 확인

['A',
 'ASCII',
 'DEBUG',
 'DOTALL',
 'I',
 'IGNORECASE',
 'L',
 'LOCALE',
 'M',
 'MULTILINE',
 'RegexFlag',
 'S',
 'Scanner',
 'T',
 'TEMPLATE',
 'U',
 'UNICODE',
 'VERBOSE',
 'X',
 '_MAXCACHE',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '__version__',
 '_alphanum_bytes',
 '_alphanum_str',
 '_cache',
 '_compile',
 '_compile_repl',
 '_expand',
 '_locale',
 '_pattern_type',
 '_pickle',
 '_subx',
 'compile',
 'copyreg',
 'enum',
 'error',
 'escape',
 'findall',
 'finditer',
 'fullmatch',
 'functools',
 'match',
 'purge',
 'search',
 'split',
 'sre_compile',
 'sre_parse',
 'sub',
 'subn',
 'template']

#### 정규 표현식의 기초, 메타 문자

- . ^ $ * + ? { } [ ] \ | ( )

###### 문자 클래스 [ ]   : 정규식은 "[와 ] 사이의 문자들과 매치"

In [54]:
#정규 표현식이 [abc]라면 이 표현식의 의미는 "a, b, c 중 한 개의 문자와 매치"를 뜻한다. 
#이해를 돕기 위해 문자열 "a", "before", "dude"가 정규식 [abc]와 어떻게 매치되는지 살펴보자.

#"a"는 정규식과 일치하는 문자인 "a"가 있으므로 매치
#"before"는 정규식과 일치하는 문자인 "b"가 있으므로 매치
#"dude"는 정규식과 일치하는 문자인 a, b, c 중 어느 하나도 포함하고 있지 않으므로 매치되지 않음
#[ ] 안의 두 문자 사이에 하이픈(-)을 사용하게 되면 두 문자 사이의 범위(From - To)를 의미한다. 
#예를 들어 [a-c]라는 정규 표현식은 [abc]와 동일하고 [0-5]는 [012345]와 동일하다.

###### 다음은 하이픈(-)을 이용한 문자 클래스의 사용 예이다.

- [a-zA-Z] : 알파벳 모두
- [0-9] : 숫자

In [55]:
#문자 클래스([ ]) 내에는 어떤 문자나 메타 문자도 사용할수 있지만 주의해야 할 메타 문자가 1가지 있다.
#그것은 바로 ^인데, 문자 클래스 내에 ^ 메타 문자가 사용될 경우에는 반대(not)라는 의미를 갖는다. 
#예를 들어 [^0-9]라는 정규 표현식은 숫자가 아닌 문자만 매치된다

In [81]:
import re
pat = re.compile("[abc]")   ### 정규식 패턴을 정의한다. 
strings='a'
test1 = pat.search(strings)
test2 = pat.match(strings)
print(test1.group(),test2.group())

a a


In [84]:
import re
pat = re.compile("[abc]") 
strings='before'
test1 = pat.search(strings)
test2 = pat.match(strings)
print(test1.group(),test2.group())

b b


In [87]:
import re
pat = re.compile("[abc]") 
strings='dude'
test1 = pat.search(strings)
test2 = pat.match(strings)
print(test1,test2)
#print(test1.group(),test2.group())

None None


In [92]:
import re
pat = re.compile("[a-z]") 
strings='dude'
test1 = pat.search(strings)
test2 = pat.match(strings)
print(test1,test2)
print(test1.group(),test2.group())

<_sre.SRE_Match object; span=(0, 1), match='d'> <_sre.SRE_Match object; span=(0, 1), match='d'>
d d


In [93]:
import re
pat = re.compile("[^a-z]")   # ^는 반대의 의미 
strings='dude'
test1 = pat.search(strings)
test2 = pat.match(strings)
print(test1,test2)
print(test1.group(),test2.group())

None None


AttributeError: 'NoneType' object has no attribute 'group'

In [94]:
import re
pat = re.compile("[^A-Z]")   # ^는 반대의 의미 
strings='dude'
test1 = pat.search(strings)
test2 = pat.match(strings)
print(test1,test2)
print(test1.group(),test2.group())

<_sre.SRE_Match object; span=(0, 1), match='d'> <_sre.SRE_Match object; span=(0, 1), match='d'>
d d


In [95]:
import re
pat = re.compile("[^0-9]")   # ^는 반대의 의미 
strings='dude'
test1 = pat.search(strings)
test2 = pat.match(strings)
print(test1,test2)
print(test1.group(),test2.group())

<_sre.SRE_Match object; span=(0, 1), match='d'> <_sre.SRE_Match object; span=(0, 1), match='d'>
d d


#### [자주 사용하는 문자 클래스]

#### [0-9] 또는 [a-zA-Z] 등은 무척 자주 사용하는 정규 표현식이다. 
#### 이렇게 자주 사용하는 정규식들은 별도의 표기법으로 표현할 수 있다. 다음을 기억해 두자.

- \d - 숫자와 매치, [0-9]와 동일한 표현식이다.
- \D - 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식이다.
- \s - whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식이다. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.
- \S - whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식이다.
- \w - 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9]와 동일한 표현식이다.
- \W - 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9]와 동일한 표현식이다.

### Dot(.)

In [97]:
#[a.b] a와 b사이에 줄바꿈 문자를 제외한 어떤 문자가 들어가도 모두 매치 
# a+ 모든 문자 + b

In [108]:
import re
pat = re.compile("a.b")   # 
strings='aab'
test1 = pat.search(strings)
test2 = pat.match(strings)
print(test1,test2)
print(test1.group(),test2.group())

<_sre.SRE_Match object; span=(0, 3), match='aab'> <_sre.SRE_Match object; span=(0, 3), match='aab'>
aab aab


In [109]:
import re
pat = re.compile("a.b")   # 
strings='a0b'
test1 = pat.search(strings)
test2 = pat.match(strings)
print(test1,test2)
print(test1.group(),test2.group())

<_sre.SRE_Match object; span=(0, 3), match='a0b'> <_sre.SRE_Match object; span=(0, 3), match='a0b'>
a0b a0b


In [2]:
import re
pat = re.compile("a.b")   # a와 b사이에 무엇가가 있어야 매치 
strings='acbc'
test1 = pat.search(strings)
test2 = pat.match(strings)
print(test1,test2)
#print(test1.group(),test2.group())

<_sre.SRE_Match object; span=(0, 3), match='acb'> <_sre.SRE_Match object; span=(0, 3), match='acb'>


In [3]:
### a[.]b dot(.)문자가 있어야 매치 
import re
pat = re.compile("a[.]b")   #
strings='a.c'
test1 = pat.search(strings)
test2 = pat.match(strings)
print(test1,test2)
#print(test1.group(),test2.group())

None None


In [117]:
### a[.]b dot(.)문자가 있어야 매치 
import re
pat = re.compile("a[.]b")   
strings='a.b'
test1 = pat.search(strings)
test2 = pat.match(strings)
print(test1,test2)
print(test1.group(),test2.group())

<_sre.SRE_Match object; span=(0, 3), match='a.b'> <_sre.SRE_Match object; span=(0, 3), match='a.b'>
a.b a.b


In [4]:
### a[.]b dot(.)문자가 있어야 매치     "a+ Dot(.) 문자 + b"
import re
pat = re.compile("127[.]0[.]0[.]1")   # a와 b사이에 무엇가가 있어야 매치 
strings='127.0.0.1'
test1 = pat.search(strings)
test2 = pat.match(strings)
print(test1,test2)
print(test1.group(),test2.group())

<_sre.SRE_Match object; span=(0, 9), match='127.0.0.1'> <_sre.SRE_Match object; span=(0, 9), match='127.0.0.1'>
127.0.0.1 127.0.0.1


In [127]:
##반복(*)
#ca*t

In [5]:
import re
pat = re.compile("ca*t")  
strings="ct"
test1 = pat.search(strings)
test2 = pat.match(strings)
print(test1,test2)
#print(test1.group(),test2.group())

<_sre.SRE_Match object; span=(0, 2), match='ct'> <_sre.SRE_Match object; span=(0, 2), match='ct'>


In [6]:
import re
pat = re.compile("ca*t")   
strings="cat"
test1 = pat.search(strings)
test2 = pat.match(strings)
print(test1,test2)
#print(test1.group(),test2.group())

<_sre.SRE_Match object; span=(0, 3), match='cat'> <_sre.SRE_Match object; span=(0, 3), match='cat'>


In [7]:

import re
pat = re.compile("ca*t") 
strings="caaaat"
test1 = pat.search(strings)
test2 = pat.match(strings)
print(test1,test2)
print(test1.group(),test2.group())

<_sre.SRE_Match object; span=(0, 6), match='caaaat'> <_sre.SRE_Match object; span=(0, 6), match='caaaat'>
caaaat caaaat


In [None]:
## 반복 ({m,n},?)
#반복 횟수를 3회만 또는 1회부터 3회까지만으로 제한

#※ {1,}은 +와 동일하며 {0,}은 *와 동일하다

In [10]:
#ca{2}t
import re
pat = re.compile("ca{2}t") 
strings="caat"
test1 = pat.search(strings)
test2 = pat.match(strings)
print(test1,test2)
#print(test1.group(),test2.group())

<_sre.SRE_Match object; span=(0, 4), match='caat'> <_sre.SRE_Match object; span=(0, 4), match='caat'>


In [11]:
#ca{2}t
import re
pat = re.compile("ca{4}t")    #"c + a(반드시 4번 반복) + t"
#pat = re.compile("ca{1,4}t") 
strings="caaaat"
test1 = pat.search(strings)
test2 = pat.match(strings)
print(test1,test2)
#print(test1.group(),test2.group())

<_sre.SRE_Match object; span=(0, 6), match='caaaat'> <_sre.SRE_Match object; span=(0, 6), match='caaaat'>


In [None]:
### 2. {m, n}
#ca{2,5}t
#"c + a(2~5회 반복) + t"

In [17]:
#ca{2}t
import re
pat = re.compile("ca{2,4}t")    #"c + a(반드시 4번 반복) + t"
#pat = re.compile("ca{1,4}t") 
strings1="cat"
strings2="caat"
strings3="caaaat"
strings4="caaaaat"
test1 = pat.search(strings1)
test2 = pat.search(strings2)
test3 = pat.search(strings3)
test4 = pat.search(strings4)
#test2 = pat.search(strings2)
#test2 = pat.match(strings)
print("test1:",test1)
print("test2:",test2[0])
#print(test1,test2,test3,test4)
#print(test2.group(),test3.group())

test1: None
test2: caat


In [None]:
# ?  == {0, 1}
# 반복은 아니지만 이와 비슷한 개념으로 ? 이 있다. ? 메타문자가 의미하는 것은 {0, 1} 이다.
# "a + b(있어도 되고 없어도 된다) + c"

In [18]:
import re
pat = re.compile("ab?c")   #ab?c
strings1="abc"
strings2="ac"
test1 = pat.search(strings1)
test2 = pat.search(strings2)
test3 = pat.match(strings1)
test4 = pat.match(strings2)
print(test1,test2,test3,test4)
print(test1.group(),test2.group(),test3.group(),test4.group())

<_sre.SRE_Match object; span=(0, 3), match='abc'> <_sre.SRE_Match object; span=(0, 2), match='ac'> <_sre.SRE_Match object; span=(0, 3), match='abc'> <_sre.SRE_Match object; span=(0, 2), match='ac'>
abc ac abc ac


In [None]:
### 파이션 정규식 지원 모듈 re 
# import re 
p=re.compile("ab*")  ## 정규식 표현식을 컴파일 한다. 

In [142]:
### 정규식 이용한 문자열 검색 

- match() : 문자열의 처음부터 정규식과 매치되는지 조사
- search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사
- findall() : 정규식과 매치되는 모든 문자열(substring)을 리스트 리턴
- finditer() : 정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 리턴

In [19]:
import re
p=re.compile('[a-z]+')

In [170]:
#### match  && search 

In [20]:
strings1="python"
strings2="3 python"
m1=p.match(strings1)
m2=p.match(strings2)
m3=p.search(strings1)
m4=p.search(strings2)

In [21]:
print("match example:",m1[0],m2)
print("search example:",m3[0],m4[0])
#print(m1.group(),m2.group())

match example: python None
search example: python python


### findall 

In [22]:
import re
p=re.compile('[a-z]+')
result=p.findall("Life is too short")
print(result)

['ife', 'is', 'too', 'short']


In [None]:
### "life is too short" 문자열의 ['ife', 'is', 'too', 'short'] 라는 단어들이 각각 [a-z]+ 정규식과 매치 되어 리스트로 리턴됩니다.
## 리턴 => 반환 

In [23]:
import re
p=re.compile('[a-z]+')
result1=p.findall("Life is too short")
result2=p.finditer("life is too short")
    
print(result1,result2)
## finditer findall 반환결과는 동일하지만 반복 가능한 객체로 반환한다. 
## 반복가능한 객체가 포함하는 각가그이 요소는 match 객체 이다

['ife', 'is', 'too', 'short'] <callable_iterator object at 0x0000000004B84208>


In [184]:
result = p.finditer("life is too short")
print(result)
for r in result: 
    print(r)

<callable_iterator object at 0x000001A9179603C8>
<_sre.SRE_Match object; span=(0, 4), match='life'>
<_sre.SRE_Match object; span=(5, 7), match='is'>
<_sre.SRE_Match object; span=(8, 11), match='too'>
<_sre.SRE_Match object; span=(12, 17), match='short'>


In [24]:
result = p.finditer("life is too short")
print(result)
for r in result: 
    print(r.group())

<callable_iterator object at 0x0000000004B84320>
life
is
too
short


### match 객체의 메서드

###### match 메서드와 search 메서드를 수행한 결과로 리턴되었던 match 객체에 대해서 알아보자.
###### 앞에서 정규식을 이용한 문자열 검색을 수행하면서 아마도 다음과 같은 궁금증이 생겼을 것이다.

###### 어떤 문자열이 매치되었는가?
- 매치된 문자열의 인덱스는 어디서부터 어디까지인가?
- match 객체의 메서드들을 이용하면 이 같은 궁금증을 해결할 수 있다. 다음 표를 보자.

###### method	목적
- group()	매치된 문자열을 리턴한다.
- start()	매치된 문자열의 시작 위치를 리턴한다.
- end()	매치된 문자열의 끝 위치를 리턴한다.
- span()	매치된 문자열의 (시작, 끝) 에 해당되는 튜플을 리턴한다.

In [28]:
import re
p=re.compile('python')
#result=p.findall("Life is too short")
#print(result)
m = p.match("python")

print(m.group())
#'python'
print(m.start(),m.end())
#m.end()
print(m.span())

python
0 6
(0, 6)


In [26]:
m = p.search("3 python")
m.group()
#'python'
m.start()
m.end()
m.span()
#(2, 8)

(2, 8)

In [29]:
import re
import pygeoip ## geoip
pat = re.compile("\d")
for line in open('08_regex/access_log'):
    print(line.split(' '))   # 리스트로 받환된다.  IP만 뽑기위해서는   

ModuleNotFoundError: No module named 'pygeoip'

In [74]:
import re
import pygeoip ## geoip
for line in open('08_regex/access_log'):
    print(line.split(' ')[0])   # 리스트로 받환된다.  IP만 뽑기위해서는 

220.88.102.214
220.88.102.214
220.88.102.214
220.88.102.214
220.88.102.214
220.88.102.214
220.88.102.214
220.88.102.214
220.88.102.214
220.88.102.214


In [77]:
import re
import pygeoip ## geoip
pat = re.compile("\d")

for line in open('08_regex/access_log'):
    test = pat.search(line)
    print(test.)

<_sre.SRE_Match object; span=(0, 1), match='2'>
<_sre.SRE_Match object; span=(0, 1), match='2'>
<_sre.SRE_Match object; span=(0, 1), match='2'>
<_sre.SRE_Match object; span=(0, 1), match='2'>
<_sre.SRE_Match object; span=(0, 1), match='2'>
<_sre.SRE_Match object; span=(0, 1), match='2'>
<_sre.SRE_Match object; span=(0, 1), match='2'>
<_sre.SRE_Match object; span=(0, 1), match='2'>
<_sre.SRE_Match object; span=(0, 1), match='2'>
<_sre.SRE_Match object; span=(0, 1), match='2'>


In [146]:
import re
import pygeoip ## geoip
pat = re.compile("\d")

for line in open('08_regex/access_log'):
    test = pat.findall(line)
    print(test)

#print(test.groups())

['2', '2', '0', '8', '8', '1', '0', '2', '2', '1', '4', '0', '4', '2', '0', '1', '7', '2', '2', '1', '7', '5', '5', '0', '9', '0', '0', '1', '1', '2', '0', '0', '3', '0', '7', '5']
['2', '2', '0', '8', '8', '1', '0', '2', '2', '1', '4', '0', '4', '2', '0', '1', '7', '2', '2', '1', '7', '5', '5', '0', '9', '0', '0', '1', '1', '4', '0', '4', '3', '0', '1']
['2', '2', '0', '8', '8', '1', '0', '2', '2', '1', '4', '0', '4', '2', '0', '1', '7', '2', '2', '1', '7', '5', '5', '0', '9', '0', '0', '1', '1', '2', '0', '0', '3', '2', '3', '5', '3']
['2', '2', '0', '8', '8', '1', '0', '2', '2', '1', '4', '0', '4', '2', '0', '1', '7', '2', '2', '1', '7', '5', '5', '0', '9', '0', '0', '1', '1', '2', '0', '0', '1', '4', '7', '1']
['2', '2', '0', '8', '8', '1', '0', '2', '2', '1', '4', '0', '4', '2', '0', '1', '7', '2', '2', '1', '7', '5', '5', '0', '9', '0', '0', '1', '1', '2', '0', '0', '1', '3', '4', '8']
['2', '2', '0', '8', '8', '1', '0', '2', '2', '1', '4', '0', '4', '2', '0', '1', '7', '2', '2',

AttributeError: 'list' object has no attribute 'groups'

In [58]:
import re
import pygeoip
pat = re.compile("\d")   ### 정규표현식을 정의 한다. 
i=0
for line in open('08_regex/access_log'):
	#print(line)
	ip = line.split(' ')[0]  #splite을 이용한 문자열 자르기, 공백으로 구분
	test = pat.match(line)
	re_ip=re.match(r"^\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}",line) #<==정규식이 잘못 되었을 때
	print ("ip:",ip,"re_ip:",re_ip.group(),"test:",test.group())   ###  # group() 튜플형태로 다운로드 
	
	ip=pat.search(line)
    print(ip)

ip: 220.88.102.214 re_ip: 220.88.102.214 test: 2
ip: 220.88.102.214 re_ip: 220.88.102.214 test: 2
ip: 220.88.102.214 re_ip: 220.88.102.214 test: 2
ip: 220.88.102.214 re_ip: 220.88.102.214 test: 2
ip: 220.88.102.214 re_ip: 220.88.102.214 test: 2
ip: 220.88.102.214 re_ip: 220.88.102.214 test: 2
ip: 220.88.102.214 re_ip: 220.88.102.214 test: 2
ip: 220.88.102.214 re_ip: 220.88.102.214 test: 2
ip: 220.88.102.214 re_ip: 220.88.102.214 test: 2
ip: 220.88.102.214 re_ip: 220.88.102.214 test: 2


#### 자주사용하는 메소드(함수)

- search
- match
- findall
- sub
- split
- compile

##### search

- 문자열 전체를 patten으로 검색하여 일치하는 첫번째 문자열을 찾는다.

In [34]:
#문법은 다음과 같다.
#<match object> = re.search(pattern, string, flag=0)

#match object는 다음 두 가지 메쏘드를 가진다.
#group() : 일치하는 녀석들을 하나의 문자열(str)로 반환.
#groups() : 일치하는 녀석들을 원소로 가지는 tuple 형태로 반환.

#match 오브젝트의 두 메쏘드가 모두 group, groups인 것은 하위 표현식의 역참조와 관련이 있다.
#(위 2개의 링크를 모두 정독할 것을 추천한다)

In [38]:
import re
p = re.compile('[a-z]+')

In [39]:
m = p.search("python")

In [40]:
print(m)

<_sre.SRE_Match object; span=(0, 6), match='python'>


In [52]:
print(m[0])

python


In [41]:
### 이메일을 일치시키는 다음 예제를 살펴보자.

In [42]:
m = re.search(r"(\w+[\w\.]*)@(\w+[\w\.]*)\.([A-Za-z]+)",
              "My email address is SooKkaRak@gmail.com")

In [45]:
print (m.group())

SooKkaRak@gmail.com


In [46]:
print(m.groups())

('SooKkaRak', 'gmail', 'com')


In [47]:
result=m.groups()

In [48]:
print(result[0],result[1],result[2])

SooKkaRak gmail com


In [49]:
# search가 주어진 string 전체를 검색하여 일치하는 첫번째 문자열을 찿는다고 하였다.
# 따라서 "SookkaRak@gmail.com"이 주어진 string의 젓번째 문자열이 아니었음에도 
# 전체를 검색하였기에, 일치하는 첫번째 문자열을 반환할 수 있었다.

In [39]:
## 네이버 메일주소 
import requests
import re
#m = re.search(r"(\w+[\w\.]*)@(\w+[\w\.]*)\.([A-Za-z]+)",
#              "My email address is SooKkaRak@gmail.com")
r=requests.get("http://ict.ajou.ac.kr/ict/professor/professor02.jsp?include=view&article_no=200511030&board_wrapper=%2Fict%2Fprofessor%2Fprofessor02.jsp&pager.offset=0&board_no=407")
m = re.findall(r"(\w+[\w\.]*)@(\w+[\w\.]*)\.([A-Za-z]+)",
              r.text)
print(m)

## python 
## html 수집 
## 메일주소 수집 
## 모의해킹 할때.. 사이트 가져와 수집 
## 메일서버구촉
## 칼리리눅스 이용 악성메일 작성 
## 악성 메일발송 

## 조사 잘라내요.  의 는 이, 가   평가  ## 
## 명사 형용사, 동사 


## 사이트 url 추출해서 다시 html 수집하세요.

##  www.naver.com 
##  mail.naver.com
##  admin.naver.com
##  mail2.
## mail3 
## 

## url => 다시 html 가져옵   

[('kkim86', 'ajou.ac', 'kr'), ('kkim86', 'ajou.ac', 'kr'), ('kkim86', 'gmail', 'com'), ('kkim86', 'gmail', 'com'), ('webmaster', 'ajou.ac', 'kr')]


In [41]:
import re

url = '<p>Hello World</p><a href="http://example.com">More Examples</a><a href="http://example2.com">Even More Examples</a>'

urls = re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', url)

#print (urls)
#http 깊이. 
# http flooding  차단...   ## 

#['http://example.com', 'http://example2.com']

['http://example.com', 'http://example2.com']


#####  match

In [50]:
m = p.match("python")
print(m)

<_sre.SRE_Match object; span=(0, 6), match='python'>


In [3]:
import re
m = re.search('(?<=abc)def', 'abcdef')
m.group()

'def'

In [4]:
m = re.search('(?<=-)\w+', 'spam-egg')
m.group(0)

'egg'

In [23]:
import re
strings = '123abc'
i = int(re.findall('\d+', strings)[0])
print(i)

123


In [24]:
 s= re.findall('[a-z]',strings)

In [25]:
print(s)

['a', 'b', 'c']


In [26]:
ss=strings
s=str(re.findall('[a-z]',strings))
print(s)

['a', 'b', 'c']


In [27]:
import re
hostIP='172.19.2.1'
pat = re.compile("\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}")
test = pat.match(hostIP)
if test:
    print ("Acceptable ip address")
else:
    print ("Unacceptable ip address")

Acceptable ip address


In [29]:
i = int(filter(str.isdigit,strings))

TypeError: int() argument must be a string, a bytes-like object or a number, not 'filter'

In [34]:
import re
import datetime

loop = 1000000
s = '123abc'

sdt = datetime.datetime.now()
for  in  range(loop):
    i = int(re.findall('\d+', s)[0])
edt = datetime.datetime.now()
print ("RE <%s>=>%d: loop[%d] extract digits takes %s" % (s, i, loop, edt-sdt))

sdt = datetime.datetime.now()
for _ in  range(loop):
    i = int(filter(str.isdigit,s))
edt = datetime.datetime.now()
print ("FT <%s>=>%d: loop[%d] extract digits takes %s" % (s, i, loop, edt-sdt))

RE <123abc>=>123: loop[1000000] extract digits takes 0:00:02.771178


TypeError: int() argument must be a string, a bytes-like object or a number, not 'filter'

In [22]:
str = """
Luna 801231-1938472
Star 870702-2739172
"""

In [23]:
result = []
for line in str.split('\n'):
    tokenList = []
    for word in line.split(' '):
        if len(word) == 14 and word[6] == '-' and word[:6].isdigit() and word[7:].isdigit():
            word = word[:8] + '******'
        tokenList.append(word)
    result.append(' '.join(tokenList))
print('\n'.join(result))


Luna 801231-1******
Star 870702-2******



In [43]:
from sklearn import datasets
from sklearn.model_selection import cross_val_predict
from sklearn import linear_model
import matplotlib.pyplot as plt

lr = linear_model.LinearRegression()
boston = datasets.load_boston()
y = boston.target

# cross_val_predict returns an array of the same size as `y` where each entry
# is a prediction obtained by cross validation:
predicted = cross_val_predict(lr, boston.data, y, cv=10)

fig, ax = plt.subplots()
ax.scatter(y, predicted)
ax.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=4)
ax.set_xlabel('Measured')
ax.set_ylabel('Predicted')
plt.show()

ModuleNotFoundError: No module named 'sklearn'

In [44]:
import cPickle, gzip, numpy

ModuleNotFoundError: No module named 'cPickle'