# Chapter 8. pandas


- 판다스는 파이썬에서 사용하는 데이터 분석 라이브러리이다. 
- 'pandas'라는 이름은 다차원으로 구조화된 데이터를 뜻하는 경제학 용어인 Panel data와 파이썬 데이터 분석인 Python data analysis에서 따온 것이다.
- 대용량의 데이터를 처리하는데 편리한 도구이며, 
데이터의 재배치, 집계, 부분집합 구하기 등을 쉽게 할 수 있다.
- Pandas는 Series와 DataFrame이라는 자료구조를 제공한다.


추천자료: 
- https://wikidocs.net/book/7188

[Python 완전정복 시리즈] 2편 : Pandas DataFrame 완전정복
- https://pandas.pydata.org/docs/reference/index.html

## Series

- 시리즈는 1차원 배열에 인덱스를 가지고 있는 구조이다.

- 이때 값은 인덱스 번호(기본 인덱스)로도 접근 할 수 있고 인덱스명(설정 인덱스)으로도 접근할 수 있다.

- 즉, 인덱스 번호로 값을 접근할 수 있는 리스트(list)와 키(key)로 값을 접근할 수 있는 딕셔너리(dict)의 장점을 섞어 놓은 자료구조이다.

### Series 생성

- 시리즈를 생성하기 위해서는 먼저 pandas 모듈을 불러와야 한다. 
- pandas 모듈은 보통 pd라는 별칭을 사용한다.

In [None]:
import pandas as pd

- 데이터만 넣어서 시리즈를 생성할 수 있다.
- 형식은 아래와 같다. 이때 Series의 'S'를 대문자로 써야 한다는 것에 주의하자.

```python
pd.Series(list or array)
```

In [None]:
score = [84, 21, 87, 100, 59, 46]
s = pd.Series(score)
print(s)

- type() 함수로 시리즈의 타입을 확인해보자.

In [None]:
print(type(s))

- 시리즈의 모양은 변수 shape으로 확인할 수 있다.
- 1차원 배열은 (원소갯수, ) 형태로 나온다.

In [None]:
print(s.shape)

- 데이터와 인덱스를 넣어서 시리즈를 생성할 수 있다.
- 형식은 다음과 같다. 

```python
pd.Series(list or array, index = list or array)
```



In [None]:
score = [84, 21, 87, 100, 59, 46]
names=['철수','영이','길동','미영','순이','철이']
s = pd.Series(score, index = names) 
print(s)

- 딕셔너리를 넣어서 시리즈를 생성할 수 있다.
```python
pd.Series(dict)
```

In [None]:
dic={'철수':84, '영이':21, '길동':87,'미영':100, '순이':59, '철이':46}
s = pd.Series(dic)
print(s)

### Series 연산
- 시리즈에 산술연산을 적용해보자.
- 이때, 연산하여 나온 결과 또한 시리즈타입이다.

In [None]:
import pandas as pd
names1=['철수','영이','길동','미영','순이','철이']
score1 = [84, 21, 87, 100, 59, 46]
names2 =['길동','철수','영이','철이','순이','미영']
score2 = [99, 87, 87, 84, 77, 15]

s1 = pd.Series(score1, index=names1)
s2 = pd.Series(score2, index=names2)
print(s1)
print(s2)

In [None]:
s1 + 10

In [None]:
s1 + s2

In [None]:
s1 - s2

In [None]:
(s1*s2)/2

In [None]:
s1%2

In [None]:
s1**s2

### Series indexing & slicing
- 시리즈는 인덱스 번호(기본 인덱스)로도 접근 할 수 있고 인덱스명(설정 인덱스)으로도 접근할 수 있다고 앞에서 언급했었다.
- 따라서 시리즈에서는 인덱싱과 슬라이싱에도 두 가지 접근법을 모두 사용한다.

- 기본 인덱스를 이용하여 인덱싱/슬라이싱을 하는 것은 이미 배웠던 리스트나 문자열에서의 인덱싱/슬라이싱과 동일하다. 


```
시리즈변수명[start:end:step]
```



In [None]:
s1[2]

In [None]:
s1[2:] 

In [None]:
s1[:3] 

In [None]:
s1[::2] 

- 설정 인덱스로 인덱싱/슬라이싱을 하는 것은 기본 인덱스 사용방법과 한 가지만 제외하고 동일하다. 그 한가지는 슬라이싱 할때 끝 인덱스까지 포함한다는 것이다.

In [None]:
s1['영이']

- end값인 '순이'까지 포함하여 슬라이싱한다.

In [None]:
s1['영이':'순이'] 

In [None]:
s1['미영':]

Series 데이터 추가, 수정, 삭제

- 시리즈에 데이터를 추가하는 것과 수정하는 것은 동일한 형식을 사용한다.
- 시리즈에 인덱스가 있으면 수정하고, 없으면 추가한다. 기본인덱스 설정인덱스 모두 사용 가능하다.
- 형식은 다음과 같다.
 : 시리즈명[인덱스] = value

- '슬기'는 인덱스에 없으므로 추가된다.

In [None]:
s1['슬기']= 87
print(s1)

- '길동'은 인덱스에 있으므로 수정된다.

In [None]:
s1['길동']=88
print(s1)

- 인덱스 '철이'가 삭제된다.

In [None]:
del s1['철이']
print(s1)

### Series 비교연산과 filtering

- 시리즈에서도 비교연산의 결과를 필터링하는데 사용할 수 있다.
- 아래 코드는 시리즈 s1에서 85이상인 값들에 대해서 필터링한다.

In [None]:
s1[s1 > 85]

## DataFrame

DataFrame은 행과 열로 이루어진 2차원 형태의 배열이다.
즉, 시리즈들의 묶음이라고 생각할 수 있다. 반대로 데이터프레임의 각 칼럼은 하나의 시리즈이다.

### DataFrame 생성

- 코랩 파일을 장시간 사용하지 않아 구글 서버와 세션이 끊기거나 파일을 새로 열었을 때에는 다시 pandas 모듈을 불러와야한다.

In [None]:
import pandas as pd

- 시리즈를 이용하여 데이터프레임을 생성해보자.
- 먼저 아래와 같이 시리즈 2개를 만들었다.

In [None]:
names1=['철수','영이','길동','미영','순이','철이']
score1 = [84, 21, 87, 100, 59, 46]
names2 =['길동','철수','영이','철이','순이','미영']
score2 = [99, 87, 87, 84, 77, 15]

s1 = pd.Series(score1, index=names1)
s2 = pd.Series(score2, index=names2)

- 데이타프레임은 pd.DataFrame()으로 생성한다.
- 시리즈를 데이타프레임의 열(column)으로 넣어준다.
- 데이터프레임을 print()를 사용하지 않고 출력해보자.
- 테이블형태로 나오는 것을 확인할 수 있다.

In [None]:
d = pd.DataFrame()
d['국어']= s1  # 국어 칼럼 생성
d['영어']= s2  # 영어 칼럼 생성
d['합계']=d['국어']+d['영어'] # 합계 칼럼 생성
d

- 데이터프레임을 print(데이타프레임명)로 출력하면 테이블 형태로 나오지 않고 텍스트로 나온다.

In [None]:
print(d)

- 데이타프레임을 리스트나 어레이로도 만들 수 있다.
- pd.DataFrame(리스트 또는 어레이)

In [None]:
scores = [[84,87,78], [21,15,84], [87,84,76], [100,87,99],[59,99,59],[46,77,56]]
d1 = pd.DataFrame(scores)
d1

- 데이터프레임에 옵션 index와 columns에 인덱스와 칼럼명을 직접 명시해줄 수도 있다.

In [None]:
scores = [[84,87,78], [21,15,84], [87,84,76], [100,87,99],[59,99,59],[46,77,56]]
names=['철수','영이','길동','미영','순이','철이']
lectures=['국어','수학','영어']
d2 = pd.DataFrame(scores, index=names, columns=lectures)
d2

- 딕셔너리를 pd.DataFrame()의 데이터로 넣어 줄 수도 있다.

In [None]:
# 1-3. dict로 생성
ScoresWithLectures={'수학':[84,21,87,100,59,46], '국어':[87,15,84,87,99,77], '영어':[78,84,76,99,59,56]}
names=['철수','영이','길동','미영','순이','철이']
d3 = pd.DataFrame(ScoresWithLectures, index=names)
d3

- numpy에서 배웠던 전치행열 시키는 transpose() 또는 .T를 사용하여 행과 열을 교환할 수도 있다.

In [None]:
d3.transpose()
d3.T

### 데이터 확인
- 데이터프레임의 정보를 확인하기 위해 다음과 같은 변수 또는 메서드를 사용한다.
  - shape: 모양을 확인한다.
  - head(): 데이터프레임의 맨 위 5개 행을 보여준다.
  - tail(): 데이터프레임의 맨 아래 5개 행을 보여준다.
  - info(): 칼럼명, Non-Null count, Dtype 정보를 보여준다.
  - isnull().sum(): 값이 없는(null) 갯수를 반환한다.

In [None]:
d3.shape
# d.head(3) # number없으면 default로 5개
# d.tail()
# d.info() # column name, Non-Null count, Dtype 정보를 보여준다.
# d.isnull().sum()

### 행/열 Indexing & slicing

#### df.iloc[]
- iloc는 index location의 약자로 기본인덱스로만 인덱싱과 슬라이싱을 할 수 있다.
- df.iloc[]을 사용하여 행추출/열추출/행렬추출을 해보자. 여기서의 df는 데이터프레임 변수명이다.
- 형식은 다음과 같다.

```
df.iloc[행 또는 행범위, 열 또는 열범위]
```
- 이때 행이든 열이든 하나만 명시했다면 그 결과는 시리즈로 나온다.
- 행과 열 모두 범위로 명시했다면 그 결과는 데이터프레임으로 나온다.



- 행추출에서 하나의 행만 썼다면 그 결과를 시리즈로 나온다.
- start와 end값을 지정해 슬라이싱으로 했다면 그 결과는 데이터프레임으로 나온다.

In [None]:
d3.iloc[2] 
d3.iloc[2:3] 

- 열만 명시하려면 행을' : '와 같이 쓴다.

In [None]:
d3.iloc[:, 0:2]

- 행과 열을 모두 슬라이싱 범위로 줄 수 있다.

In [None]:
d3.iloc[1:3, 0:2] 
#d3.iloc[1:3, 2] 

#### df.loc[]
- 설정인덱스로만 인덱싱과 슬라이싱을 할 수 있다.
- 사용하는 방법은 iloc[]와 같다.


```
df.loc[행 또는 행범위, 열 또는 열범위]
```

In [None]:
d3.loc['길동'] # series로 반환
d3.loc['길동':'길동'] # dataframe으로 반환

In [None]:
d3.loc[:, '수학':'국어']

In [None]:
d3.loc['철수':'영이', '수학':'국어']

#### df
- df만 써서 행 또는 열, 행과열을 추출하는 방법을 가장 어렵다.

In [None]:
# df 변수명만 사용하여 추출하는 경우
# df[행범위][열이름 또는 열이름 범위]
# df[열이름 또는 열이름 범위][행범위]

# 행추출: index 번호, index명으로 추출 가능, 반드시 범위로 주어야 함
#d3[2:3] 
#d3['길동':'길동']
#d3[2] # 에러
#d3['길동'] # 에러

# 열추출: column명으로만 추출 가능, column 번호로 추출하지 못함. : 사용 못함
# d3['국어'] # series로 반환 
# d3[['국어']] #하나의 열이지만 []묶음으로 처리하여 dataframe으로 반환
# d3[['수학','영어']] # 여러개의 열, 리스트로 묶어줘야 함. 
# d3[['수학','국어']] # 맞붙어있는 열이라도 ,로 나열
# d3['수학':'국어'] # 에러
# d3[0:2] # column 번호가 아니라 index 번호로 인식

# 행렬추출
# d3['길동':'미영'][['수학','국어']]
# d3[2:4][['수학','국어']]

# d3[['수학','국어']]['길동':'미영']  
# d3[['수학','국어']][2:4]          

### 행/열 추가, 삭제

- '합계' 행을 추가해보자. 
- '합계'라는 인덱스가 없으면 생성하고, 있으면 업데이트 된다.
- '합계'행에 들어갈 값은 sum()함수로 구한다.
- axis는 생략하면 기본값은 0이다.

In [None]:
d3.loc['합계']=d3.sum() 
d3

- 총점 열을 추가해보자.
- axis가 1이면 열에 대해 작업한다.

In [None]:
d3['총점']=d3.sum(axis=1) 
d3

- groupby()를 통해서 그룹으로 묶어줄 수 있다.

In [None]:
total_groupby = d3.groupby(d3['총점']>200)
total_groupby.size()

In [None]:
d3['총점']>200

In [None]:
d3['Pass/Fail'] = ['Pass' if total>200 else 'Fail' for total in d3['총점']]
d3

In [None]:
mapping = {'Pass': 300000, 'Fail': 0}

d3['scholarship']=d3['Pass/Fail'].map(mapping)
d3

### 연습문제

In [None]:
d3

In [None]:
# 미영의 영어점수를 100점으로 수정하고 확인하시오.


In [None]:
# 영어점수가 75점 미만인 사람들을 검색하여 확인하시오.


In [None]:
# 영어점수가 75점 미만인 사람들의 영어점수를 10점씩 올려 수정하고, 전체 데이터프레임을 확인하시오.


- 행삭제/열삭제

In [None]:
d3.drop('합계',inplace=True)
d3

In [None]:
d3.drop(['Pass/Fail'], axis=1, inplace=True)
d3