In [2]:
import pandas as pd

# 2.Pandas

## 2.1 Series

Numpy와 유사하나 index를 가지고 있음

### 생성

```python
series = pd.Series(
  [90, 85, 80, 75, 70]
  ) # 인덱스를 지정하지 않으면 0부터 시작

series = pd.Series(
  [90, 85, 80, 75, 70],
  index=['국', '영', '수', '사', '과']
  )
```

### 추가, 변경, 삭제
기존 딕셔너리의 추가, 변경, 삭제와 동일 <br>
<br>

추가
```python
series['한국사'] = 100
```
<br>

변경
```python
series['국'] = 100
series.국 = 100
```
<br>

삭제
```python
del series['국']
```




### name
name 속성을 이용하여 series와 index에 이름 부여 가능

```python
series.name = '성적'
series.index.name = '과목'
```

### indexing

```python
series[0], series['국']    # 특정 인덱스 번호 혹은 이름 지정
series.국

series[[0, 2, 1]]         # 인덱스 순서를 원하는 순서대로 변경하여 출력
series[['국', '수', '영']]  # 인덱스 순서를 원하는 순서대로 변경하여 출력

series[0:3]            # 슬라이싱
series['국어':'수학']    # 슬라이싱, 끝 점 포함
```

### series 연산

series끼리 연산 진행 가능 <br>
다만, series 연산은 동일 index끼리 연산이므로 index 정보가 다르면 연산 불가 <br>
<br>

```python
series1 = pd.Series(
  [90, 85, 80, 75, 70],
  index=['국', '영', '수', '사', '과']
  )

series2 = pd.Series(
  [95, 80, 70, 80, 95],
  index=['국', '영', '수', '사', '과']
  )
```

In [49]:
series1 = pd.Series(
  [90, 85, 80, 75, 70],
  index=['국', '영', '수', '사', '과']
  )

series2 = pd.Series(
  [95, 80, 70, 80, 95],
  index=['국', '영', '수', '사', '과']
  )

series1 + series2

국    185
영    165
수    150
사    155
과    165
dtype: int64

In [50]:
series1 = pd.Series(
  [90, 85, 80, 75, 70],
  index=['국', '영', '수', '사', '과']
  )

series2 = pd.Series(
  [95, 80, 70, 80, 95, 100],
  index=['영', '수', '사', '과', '국', '코딩']
  )

series1 + series2

# NaN 값 발생

과     150.0
국     185.0
사     145.0
수     160.0
영     180.0
코딩      NaN
dtype: float64

## 2.2 DataFrame

Series가 1d 행렬에 index를 추가한 것과 같이 <br>
DataFrame은 2d 행렬에 index와 column을 추가한 것 <br>
혹은 여러 Series의 합 <br>


### 2.2.1 판다스 기초

#### 생성

딕셔너리 기반
```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)
df
```
<br>
<br>

배열 기반
```python
data = [
  [90, 95, 85],
  [85, 80, 95],
  [80, 70, 90],
  [75, 80, 70],
  [70, 95, 85]
]

index = ['국', '영', '수', '사', '과']
columns = ['학생1', '학생2', '학생3']
df = pd.DataFrame(data, index=index, columns=columns)
```

In [51]:
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)
df

Unnamed: 0,학생1,학생2,학생3
국,90,95,85
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


In [52]:
print(df.학생1)
print("---")
print(df.학생1.국)

국    90
영    85
수    80
사    75
과    70
Name: 학생1, dtype: int64
---
90


In [53]:
data = [
  [90, 95, 85],
  [85, 80, 95],
  [80, 70, 90],
  [75, 80, 70],
  [70, 95, 85]
]

index = ['국', '영', '수', '사', '과']
columns = ['학생1','학생2','학생3']
df = pd.DataFrame(data, index=index, columns=columns)

print(df.학생1)
print("---")
print(df.학생1.국)

국    90
영    85
수    80
사    75
과    70
Name: 학생1, dtype: int64
---
90


#### 추가, 변경, 삭제
**추가** <br>
DataFrame의 추가는 기본적으로 열 단위 추가

```python
# 현재 row는 국, 영, 수, 사, 과의 5개 정보인데 1개 정보만 추가하게 되면, 이 값을 전체에 복사
# 즉, 모든 row 값을 90으로 채움
df['학생4'] = 90

# 만약 2개 이상의 값을 넣고 싶으면 배열을 이용하여 넣어야 함
# 이 경우 row수와 일치하지 않으면 에러 발생
df['학생4'] = [90, 80]     # 에러
df['학생4'] = [90, 80, 70, 60, 50] 
```
<br>

**변경** <br>
데이터프레임.컬럼.인덱스 = 변경값 <br>
기존 컬럼이 존재하면 생성과 유사하게 동작
```python
df.학생3.국 = 100
df['학생3'] = 100    # df.학생3 = 100
df['학생3'] = [100, 99, 98, 97, 96]    # df.학생3 = [100, 99, 98, 97, 96]
```



**삭제**
```python
del df['학생4']
df.drop(columns='학생4')
```


In [54]:
df['학생4'] = 90
df

Unnamed: 0,학생1,학생2,학생3,학생4
국,90,95,85,90
영,85,80,95,90
수,80,70,90,90
사,75,80,70,90
과,70,95,85,90


In [55]:
df['학생4'] = [10, 20, 50, 90, 70]
print(df)
df.학생4.국 = 80
print(df)

   학생1  학생2  학생3  학생4
국   90   95   85   10
영   85   80   95   20
수   80   70   90   50
사   75   80   70   90
과   70   95   85   70
   학생1  학생2  학생3  학생4
국   90   95   85   80
영   85   80   95   20
수   80   70   90   50
사   75   80   70   90
과   70   95   85   70


In [56]:
del df['학생4']
df

Unnamed: 0,학생1,학생2,학생3
국,90,95,85
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


In [57]:
df.drop(columns='학생2')  # drop은 원본을 수정하지 않음

Unnamed: 0,학생1,학생3
국,90,85
영,85,95
수,80,90
사,75,70
과,70,85


In [58]:
df

Unnamed: 0,학생1,학생2,학생3
국,90,95,85
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


#### name

Series에서와 마찬가지로 이름을 지정할 수 있음 <br>
다만, DataFrame은 2차원이므로 index와 column 모두에 이름 지정 가능 <br>

```python
df.index.name = '과목'
df.columns.name = '학생'
```

In [59]:
df.index.name = '과목'
df.columns.name = '학생'

df

학생,학생1,학생2,학생3
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국,90,95,85
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


#### column 이름 변경
dataframe의 column 정보는 df.columns에 저장 <br>
여기에 저장된 값을 다른 값으로 입력하면 변경 가능 <br>
단, 열 전체 정보를 입력해야 함 (열 개수와 입력 값이 일치하지 않으면 에러) <br>
개별 column 이름을 변경하고 싶으면 rename 사용
<br>

```python
df.columns
df.columns = '학생4'    # 에러
df.columns = ['학생4']  # 에러
df.rename(columns={'학생1': '학생4'})
df.columns = ['학생4', '학생5', '학생6']
```

In [60]:
df.columns

Index(['학생1', '학생2', '학생3'], dtype='object', name='학생')

In [61]:
df.columns = ['학생4', '학생2', '학생3']
df.columns.name = '학생'
df

학생,학생4,학생2,학생3
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국,90,95,85
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


In [62]:
df.rename(columns={'학생4':'학생1'})

학생,학생1,학생2,학생3
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국,90,95,85
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


#### indexing
**column** <br>
```python
df['학생1']           # Series 반환
df[['학생1']]         # DataFrame 반환
df[['학생1', '학생2']] # 다수의 컬럼 선택
```
<br>

**row** <br>
항상 슬라이싱(:) 사용
```python
df[:1]
df[1:3]
df['국':'수']
```

In [63]:
print(df['학생2'])
print(df[['학생3', '학생2']])
# print(df[['학생3':'학생2']])  없는 표현

과목
국    95
영    80
수    70
사    80
과    95
Name: 학생2, dtype: int64
학생  학생3  학생2
과목          
국    85   95
영    95   80
수    90   70
사    70   80
과    85   95


In [64]:
print(df[1:3])
print(df['영','사'])

학생  학생4  학생2  학생3
과목               
영    85   80   95
수    80   70   90


KeyError: ('영', '사')

### 2.2.2 데이터 입출력


#### 입력
pd.read_csv를 통하여 csv 데이터를 읽음

```python
pd.read_csv(파일경로)
```
<br>

read_csv 내에는 다양한 옵션 존재
- use_cols: csv 컬럼에서 특정 컬럼만을 읽음
- names: 읽어 들인 데이터의 열 이름 변경 가능
- index_col: 입력하는 파일 내의 특정 column을 index로 설정 가능
- sep: csv의 데이터 구분은 ",", 하지만 데이터 구분자가 다른 경우 (\t) 이러한 구분자를 sep을 통해 지정할 수 있음
- skiprows: 읽어들인 데이터 중 필요 없는 row를 제거할 수 있음
- na_values: 값 중 na_values에 지정한 값은 읽을 때 na 처리

In [67]:
df.to_csv('test', sep=',')

#### 출력
pd.to_csv를 통하여 csv 데이터를 출력

```python
pd.to_csv(파일경로)
```
<br>

to_csv 내에는 다양한 옵션 존재

- encoding: encoding을 지정하지 않고 출력 시 excel에서 한글이 깨지는 경우가 존재. 이 경우 utf-8-sig를 사용하면 해결 가능. <br> cp949, euc-kr등의 옵션도 존재
- sep: 입력 때와 마찬가지로 구분자를 지정해줄 수 있음
- na_rep: 입력 때와 마찬가지로 특정 값을 na로 처리하여 저장할 수 있음
- index: index를 출력할지 유무. True, False
- headers: column을 출력할지 유무. True, False


In [71]:
pd.read_csv('test.csv', skiprows='2')

TypeError: an integer is required

In [72]:
pd.read_csv('test.csv', names=['고등학생1','고등학생2','고등학생3'])

Unnamed: 0,고등학생1,고등학생2,고등학생3
과목,학생4,학생2,학생3
국,90,95,85
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


#3.정규표현식

정규표현식(Regular Expression, regex)  
프로그래밍에서 문자열을 다룰 때, 문자열의 일정 패턴을 표현하는 형식  
보통 정규식이라고 부르며, regex, regexp라고 많이 씀

정규식 테스트 사이트: https://regexr.com/  
연습문제 사이트: https://regexone.com/

## 3.1. 정규표현식 정리
메타문자: 원래 문자가 가진 뜻이 아닌 특별한 용도로 사용되는 문자  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;ex) . ^ $ * + ? { } [ ] \ | ( )

### 3.1.1 기본 메타문자

|기호  |설명                                      |
|------|------------------------------------------|
|.     |\n을 제외한 모든 문자 일치                |
|\|    |OR 왼쪽 혹은 오른쪽 문자와 일치           |
|()    |문자 집합 캡처, 캡처된 문자는 재참조 가능 |
|[]    |문자 집합 구성원 중 하나와 일치           |
|[^]   |문자 집합 구성을 제외하고 일치            |
|-     |범위 정의                                 |
|\     |다음에 오는 문자를 이스케이프             |


### 3.1.2 수량자

|기호  |설명                                                     |
|------|---------------------------------------------------------|
|*     |앞의 문자나 부분식이 0개 이상 greedy 찾기                |
|*?    |앞의 문자나 부분식이 0개 이상 lazy 찾기                  |
|+     |앞의 문자나 부분식이 1개 이상 greedy 찾기                |
|+?    |앞의 문자나 부분식이 1개 이상 lazy 찾기                  |
|?     |앞의 문자나 부분식을 0개나 1개 찾기                      |
|{n}   |앞의 문자나 부분식이 n번 일치하는 경우 찾기              |
|{m,n} |앞의 문자나 부분식이 m번 이상 n번 이하 일치하는 경우 찾기|
|{n,}  |앞의 문자나 부분식이 n번 이상인 경우 greedy 찾기         |
|{n,}? |앞의 문자나 부분식이 n번 이상인 경우 lazy 찾기           |

*는 0개 이상  
+는 1개 이상

greedy: 조건이 맞는 모든 것을 하나의 패턴으로 인식  
lazy:   조건이 맞는 1개를 하나의 패턴으로 인식

### 3.1.3 위치지정

|기호  |설명                                                                 |
|------|---------------------------------------------------------------------|
|^     |입력 문자열의 시작에서 다음에 나오는 문자나 부분식과 일치하는지 검사 |
|\$    |문자열의 끝과 일치                                                   |
|\b    |단어의 경계(공백 등)와 일치                                          |
|\B    |\b와 반대(비단어 경계)로 일치                                        |
|\A    |multiline 사용 시 줄과 관계 없이 처음 문자열에 매칭                  |
|\Z    |multiline 사용 시 줄과 관계 없이 마지막 문자열에                     |

### 3.1.4 특수문자

|기호  |설명                                                                 |
|------|---------------------------------------------------------------------|
|[\b]  |역스페이스                                                           |
|\d    |모든 숫자와 일치, [0-9]                                              |
|\D    |\d와 반대, [^0-9] , 글자나 공백 등                                                   |
|\w    |영숫자 문자나 밑줄과 일치, [a-zA-Z0-9]  영어랑 숫자만                             |
|\W    |\w와 반대, [^a-zA-Z0-9]  영어 숫자 말고
                                          |
|\n    |줄 바꿈 문자                                                         |
|\t    |탭 문자                                                              |
|\v    |세로 탭                                                              |
|\s    |공백, 탭, 용지 공급 등과 같은 문자 찾기, [\f\n\r\t\v]                |
|\S    |\s와 반대, [^\f\n\r\t\v] 공백 문자가 아닌것                                           |
|\cx   |x로 표시된 제어문자                                                  |

### 3.1.5 역참조와 전후방탐색

|기호            |설명                                                         |
|----------------|-------------------------------------------------------------|
|(pattern)       |하위 표현식 정의. 패턴을 찾아 일치하는 항목 캡처             |
|                |캡처 내에 ?:를 사용 (?:)시 캡처하지 않음,                    | 
|                |캡처된 문자는 재참조 가능                     |
|                |?P<name>으로 이름 부여 가능
|\1              |첫 번째 일치한 하위 표현식, 두 번째 일치한 표현식은 \2로 표시|
|(?=pattern)     |전방탐색                                                     |
|(?!pattern)     |부정형 전방탐색                                              |
|(?<=pattern)    |후방탐색                                                     |
|(?<!pattern)    |부정형 후방탐색                                              |
|?(BR)true       |조건 지정                                                    |
|?(BR)true|false |else 표현식 조건 지정                                        |

### 3.1.7 옵션

|기호 |설명                                                           |
|-----|---------------------------------------------------------------|
|\i   |IGNORECASE, 대소문자를 구분하지 않고 탐색                      |
|\g   |GLOBAL, 패턴을 계속 찾음.                                      |
|     |greedy처럼 일치하는 구간을 늘리는 것이 아닌 패턴 개수가 늘어남 |
|\m   |MULTILINE, 입력 문자열에 줄바꿈이 있어도 이를 문자로 간주      |
|\s   |DOTALL, .이 줄바꿈 문자를 포함한 모든 문자를 매치              |
|\x   |VERBOSE, verbose 모드 사용                                     |

## 3.2 정규표현식 기본 예제

### 3.2.1 기본 예

|정규표현식   |설명                                                           |
|-------------|---------------------------------------------------------------|
|abc          |abc가 있는 경우                                                |
|^abc         |abc로 시작하는 경우                                            |
|abc\$        |abc로 끝나는 경우                                              |
|^abc$        |abc로 시작하고 끝나는 경우                                     |
|[abc]        |a,b,c 중 하나를 포함하는 경우                                  |
|[a-z]        |a에서 z중 하나를 포함하는 경우                                 |
|^[0-9]       |0~9 중 하나로 시작하는 경우                                    |
|[^0-9]       |0~9가 아닌 경우                                                |
|^[^0-9]      |0~9가 아닌 것으로 시작하는 경우                                |
|a{3}         |a가 3번 반복되는 경우, aaa                                     |
|a{3,}        |a가 3번 이상 반복되는 경우                                     |
|[0-9]{2}     |0~9가 두 번 반복되는 경우, 두 자리 숫자                        |
|abc[7-9]{2}  |abc를포함하고 7~9까지 숫자 중 2자리가 함되는 경우              |

### 3.2.2 많이 사용하는 정규식

|설명         |정규표현식                                                     |
|-------------|---------------------------------------------------------------|
|이메일       |[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}                |
|전화번호     |(070\|02\|031\|032\|033\|041\|042\|043\|051\|052\|053\|054\|055\|061\|062\|063\|064)-\d{3,4}-\d{4}                                             |
|휴대폰번호   |(010\|011\|016\|017\|018\|019)-\d{3,4}-\d{4}                   |
|우편번호     |\d{3}-?\d{3}                                                   |
|주민등록번호 |\d{2}[0-1]\d[0-3]\d-?[1-6]\d{6}                                |

### 3.2.3 태그 제거

|패턴         |정규표현식                                                     |
|-------------|---------------------------------------------------------------|
|\&nbsp;      |\&nbsp;                                                        |
|복수 공백    |\s{2,}                                                         |
|ifram        |<iframe(.*?)<\/iframe>                                         |
|style=       |style=(\"\|\')?([^\"\']+)(\"\|\')?/"                           |
|width=       |width=(\"\|\')?\d+(\"\|\')?                                    |
|height=      |height=(\"\|\')?\d+(\"\|\')?/"                                 |

## 3.3 re 모듈
파이썬에서 정규표현식을 지원하기 위해 사용하는 모듈  
내장 라이브러리로 별도로 설치할 필요 없음



```python
import re
```




### re.match
```python
re.match('ell', 'hello')
```
문자열의 시작에서 패턴이 일치하는지 확인  
위 코드의 경우 ell이 문자열 중간에 있어 매칭되는 게 없음  

match 객체에는 다음의 메서드가 존재

|기호        |설명                                                         |
|------------|-------------------------------------------------------------|
|group()     |매치된 문자열 반환                                           |
|groupdict() |매치된 문자열의 이름과 결과 쌍 반환 (?P<이름>)사용           |
|start()     |매치된 문자열의 시작 위치 반환                               |
|end()       |매치된 문자열의 끝 위치 반환                                 |
|span()      |매치된 문자열의 (시작, 끝)에 해당하는 튜플 반환              |

### re.fullmatch
```python
re.fullmatch('ell', 'hello')
```
문자열에 시작과 끝이 정확하게 패턴과 일치하는지 확인  

### re.search
```python
re.search('ell', 'hello')
```
문자열 내에서 패턴이 일치하는지 확인  
위 코드의 경우 ell이 문자열 중간에 매칭

### re.compile
```python
regex = re.compile('ell')
regex.search('hello')
```
정규식 패턴을 정규식 객체로 컴파일  
객체에는 match, search 등의 메서드 사용 가능

### re.split
```python
re.split('\s', 'hello world')
```
주어진 패턴을 기준으로 분할 후 리스트로 반환  
maxsplit을 이용하면 최대 n개의 분할 개수 설정 가능

### re.findall
```python
re.findall(r'(\w+)=(\d+)', 'set width=20 and height=10')
```
주어진 패턴에 매칭되는 결과를 리스트로 반환

### re.finditer
```python
re.finditer(r'(\w+)=(\d+)', 'set width=20 and height=10')
```
주어진 패턴에 매칭되는 결과를 이터레이터로 반환

### re.sub
```python
re.sub('\d+', '0', 'width=20 and height=10', 1)
```
패턴에 매칭되는 글자를 repl로 치환  
subn과 마찬가지로 변경되는 최대 글자를 제한할 수 있음

### re.subn
```python
re.subn('\d+', '0', 'width=20 and height=10', 1)
```
패턴에 매칭되는 글자를 repl로 치환  
sub와 동일하나 (결과, 변환된 갯수)로 반환