# Chapter 9. pandas


- 판다스는 파이썬에서 사용하는 데이터 분석 라이브러리이다.
- 'pandas'라는 이름은 다차원으로 구조화된 데이터를 뜻하는 경제학 용어인 Panel data와 파이썬 데이터 분석인 Python data analysis에서 따온 것이다.
- 2008년 금융데이터 분석용으로 처음 개발되었다.
- 대용량의 데이터를 처리하는데 편리한 도구이며,
데이터의 재배치, 집계, 부분집합 구하기 등을 쉽게 할 수 있다.
- Pandas는 Series와 DataFrame이라는 자료구조를 제공한다.


추천자료:
- https://wikidocs.net/book/7188 :[Python 완전정복 시리즈] 2편 : Pandas DataFrame 완전정복
- https://pandas.pydata.org/docs/reference/index.html : Pandas 공식사이트 문서

## Series

- 시리즈는 1차원 배열에 인덱스를 가지고 있는 구조이다.

- 이때 값은 인덱스 번호(위치 인덱스)로도 접근 할 수 있고 인덱스명(설정 인덱스)으로도 접근할 수 있다.

- 즉, 인덱스 번호로 값을 접근할 수 있는 리스트(list)와 인덱스명과 같은 키(key)로 값을 접근할 수 있는 딕셔너리(dict)의 장점을 섞어 놓은 자료구조이다.

### Series 생성

- 시리즈를 생성하기 위해서는 먼저 pandas 모듈을 불러와야 한다.
- pandas 모듈은 보통 pd라는 별칭을 사용한다.

- 시리즈를 생성해보자. 형식은 아래와 같다. 이때 Series의 'S'를 대문자로 써야 한다는 것에 주의하자.

```python
pd.Series(list or or dict or array, index = list or array)
```

In [None]:
score = [84, 21, 87, 100, 59, 46]
#Todo


- 인덱스를 별도 설정하지 않으면 기본적으로 위치 인덱스로 설정된다.
- 마지막에 데이터 타입이 표시된다. dtype: int64는 시리즈 속 데이터가 정수형64bit 데이터임을 의미한다.

|dtype|설명|
|:----------:|:----------|
|`int64`|정수|
|`float64`|소수|
|`object`|텍스트|
|`bool`|True/False|
|`datetime64`|날짜와 시간|
|`category`|카테고리|


- type() 함수로 시리즈의 타입을 확인해보자.

In [None]:
print(type(s))

- 시리즈의 모양은 변수 shape으로 확인할 수 있다.
- 1차원 배열은 (원소갯수, ) 형태로 나온다.

In [None]:
print(s.shape)

- 데이터와 인덱스를 넣어서 시리즈를 생성할 수 있다.
- 형식은 다음과 같다.

```python
pd.Series(list or array, index = list or array)
```



In [None]:
score = [84, 21, 87, 100, 59, 46]
names=['철수','영이','길동','미영','순이','철이']
#Todo

- 딕셔너리를 넣어서 시리즈를 생성할 수 있다.
```python
pd.Series(dict)
```

In [None]:
dic={'철수':84, '영이':21, '길동':87,'미영':100, '순이':59, '철이':46}
#Todo

### Series 연산
- 시리즈에 산술연산을 적용해보자.
- 이때, 연산하여 나온 결과 또한 시리즈타입이다.

In [None]:
import pandas as pd
names1=['철수','영이','길동','미영','순이','철이']
score1 = [84, 21, 87, 100, 59, 46]
names2 =['길동','철수','영이','철이','순이','미영']
score2 = [99, 87, 87, 84, 77, 15]

#Todo

In [None]:
s1 + 10

In [None]:
s1 + s2

In [None]:
s1 - s2

In [None]:
(s1+s2)/2

In [None]:
s1%2

In [None]:
s1.sum()

### Series indexing & slicing
- 시리즈는 인덱스 번호(기본 인덱스)로도 접근 할 수 있고 인덱스명(설정 인덱스)으로도 접근할 수 있다고 앞에서 언급했었다.
- 따라서 시리즈에서는 인덱싱과 슬라이싱에도 두 가지 접근법을 모두 사용한다.

- 기본 인덱스를 이용하여 인덱싱/슬라이싱을 하는 것은 이미 배웠던 리스트나 문자열에서의 인덱싱/슬라이싱과 동일하다.


```
시리즈변수명[start:end:step]
```



In [None]:
s1[2]

In [None]:
s1[2:]

In [None]:
s1[:3]

In [None]:
s1[::2]

- 설정 인덱스로 인덱싱/슬라이싱을 하는 것은 기본 인덱스 사용방법과 한 가지만 제외하고 동일하다. 그 한가지는 슬라이싱 할때 끝 인덱스까지 포함한다는 것이다.

In [None]:
s1['영이']

- end값인 '순이'까지 포함하여 슬라이싱한다.

In [None]:
s1['영이':'순이']

In [None]:
s1['미영':]

### Series 데이터 추가, 수정, 삭제

- 시리즈에 데이터 추가와 수정은 형식이 동일하다. 시리즈에 인덱스가 있으면 수정하고, 없으면 추가한다.
- 형식은 다음과 같다.
```
시리즈명[인덱스] = value
```

- '슬기'는 인덱스에 없으므로 추가된다.

- '길동'은 인덱스에 있으므로 수정된다.

- 인덱스 '철이'가 삭제된다.

### Series 비교연산과 filtering

- 시리즈에서도 넘파이에서와 같이 비교연산의 결과를 얻기도 쉽다.


In [None]:
a = s1>=85
print(a)

- 시리즈에서도 비교연산의 결과를 필터링하는데 사용할 수 있다.
- 아래 코드는 시리즈 s1에서 85이상인 값들에 대해서 필터링한다.

In [None]:
s1[a]

## DataFrame

DataFrame은 행과 열로 이루어진 2차원 형태의 배열이다.
즉, 시리즈들의 묶음이라고 생각할 수 있다. 반대로 데이터프레임의 각 칼럼은 하나의 시리즈이다.

### DataFrame 생성

- 코랩 파일을 장시간 사용하지 않아 구글 서버와 세션이 끊기거나 파일을 새로 열었을 때에는 다시 pandas 모듈을 불러와야한다.

In [None]:
import pandas as pd

- 시리즈를 이용하여 데이터프레임을 생성해보자.
- 먼저 아래와 같이 시리즈 2개를 만들었다.

In [None]:
names1=['철수','영이','길동','미영','순이','철이']
score1 = [84, 21, 87, 100, 59, 46]
names2 =['길동','철수','영이','철이','순이','미영']
score2 = [99, 87, 87, 84, 77, 15]

s1 = pd.Series(score1, index=names1)
s2 = pd.Series(score2, index=names2)

- 데이타프레임은 pd.DataFrame()으로 생성한다.
- 시리즈를 데이타프레임의 열(column)으로 넣어준다.
- 데이터프레임을 print()를 사용하지 않고 출력해보자.
- 테이블형태로 나오는 것을 확인할 수 있다.

In [None]:
d = pd.DataFrame()
d['국어']= s1  # 국어 칼럼 생성
d['영어']= s2  # 영어 칼럼 생성
d['합계']=d['국어']+d['영어'] # 합계 칼럼 생성
d

- 데이터프레임을 print(데이타프레임명)로 출력하면 테이블 형태로 나오지 않고 텍스트로 나온다.

In [None]:
print(d)

:::{admonition} 인덱싱 주의
:class: warning  
- 시리즈에서 인덱싱
  - 예) s['영이']로 했다면 '영이'는 행의 인덱스이다.
- 데이터프레임 인덱싱
  - 예) df['국어']로 했다면 '국어'는 열의 인덱스이다.

:::

- 데이타프레임을 리스트나 어레이로도 만들 수 있다.
- pd.DataFrame(리스트 또는 어레이)

In [None]:
scores = [[84,87,78], [21,15,84], [87,84,76], [100,87,99],[59,99,59],[46,77,56]]
#Todo

- 데이터프레임에 옵션 index와 columns에 인덱스와 칼럼명을 직접 명시해줄 수도 있다.

In [None]:
scores = [[84,87,78], [21,15,84], [87,84,76], [100,87,99],[59,99,59],[46,77,56]]
names=['철수','영이','길동','미영','순이','철이']
lectures=['국어','수학','영어']
#Todo

- 딕셔너리를 pd.DataFrame()의 데이터로 넣어 줄 수도 있다.

In [None]:
# 1-3. dict로 생성
ScoresWithLectures={'수학':[84,21,87,100,59,46], '국어':[87,15,84,87,99,77], '영어':[78,84,76,99,59,56]}
names=['철수','영이','길동','미영','순이','철이']
#Todo


- numpy에서 배웠던 전치행열 시키는 transpose() 또는 .T를 사용하여 행과 열을 교환할 수도 있다.
- 그러나 데이터프레임 원본에는 반영되지 않는다.

In [None]:
d4 = d3.transpose()
d4

### 데이터프레임 확인
- 데이터프레임의 정보를 확인하기 위해 다음과 같은 변수 또는 메서드를 사용한다.
  - .shape: 모양을 확인한다.
  - .columns: 열이름을 확인한다.
  - head(): 데이터프레임의 맨 위 5개 행을 보여준다.
  - tail(): 데이터프레임의 맨 아래 5개 행을 보여준다.
  - info(): 칼럼명, Non-Null count, Dtype 정보를 보여준다.
  - isnull().sum(): 값이 없는(null) 갯수를 반환한다.

```
url='https://raw.githubusercontent.com/HaesunByun/Basic-Computing/main/titanic_test.csv'
titanic_test = pd.read_csv(url)
titanic_test
```
- passenger ID
- Pclass: 티켓 클래스. (1 = 1st, 2 = 2nd, 3 = 3rd)
- Name: 이름
- Sex: 성별
- Age: 나이(세)
- Sibsp (Siblings and spouse): 함께 탑승한 형제자매, 배우자 수 총합
- Parch (Parents and children): 함께 탑승한 부모, 자녀 수 총합
- Ticket: 티켓 번호
- Fare: 탑승 요금
- Cabin: 객실 번호
- Embarked: 탑승 항구

In [None]:
# titanic_test.shape
# titanic_test.columns
# titanic_test.head(3)
# titanic_test.tail()
# titanic_test.info()
# titanic_test.isnull().sum()

### 데이터프레임 인덱싱과 슬라이싱

#### .iloc[]

- iloc는 index location의 약자로 위치 인덱스로만 인덱싱과 슬라이싱을 할 수 있다.
- .iloc[]을 사용하여 행추출/열추출/행렬추출을 해보자.
- 형식은 다음과 같다.
```
데이터프레임명.iloc[행 또는 행범위, 열 또는 열범위]
```
- 이때 행이든 열이든 범위가 아닌 하나만 명시했다면 그 결과는 시리즈로 나온다.
- 행과 열 모두 범위로 명시했다면 그 결과는 데이터프레임으로 나온다.



In [None]:
d3.iloc[2]
d3.iloc[2:3]

- 열만 명시하려면 행을' : '와 같이 쓴다.

In [None]:
d3.iloc[:, 0:2]

- 행과 열을 모두 슬라이싱 범위로 줄 수 있다.

In [None]:
d3.iloc[1:3, 0:2]
#d3.iloc[1:3, 2]

#### .loc[]
- 설정 인덱스로만 인덱싱과 슬라이싱을 할 수 있다.
- 사용하는 방법은 다음과 같다.

```
데이터프레임명.loc[행 또는 행범위, 열 또는 열범위]
```
- 이때 행이든 열이든 범위가 아닌 하나만 명시했다면 그 결과는 시리즈로 나온다.
- 행과 열 모두 범위로 명시했다면 그 결과는 데이터프레임으로 나온다.

In [None]:
d3.loc['길동'] # series로 반환
d3.loc['길동':'길동'] # dataframe으로 반환

In [None]:
d3.loc[:, '수학':'국어']

In [None]:
d3.loc['철수':'영이', '수학':'국어']

#### 데이터프레임명으로만 추출
- 데이터프레임명만 사용하여 추출하는 방법이 조금 복잡하다.

- 행추출은 하나의 행을 추출하더라도 반드시 **슬라이싱**으로 해야 한다. 그렇지 않으면 열이름으로 인식해 에러가 난다.
```
데이터프레임명[행범위]
```

In [None]:
d3[2:3]
d3[2:5]
d3['길동':'길동']
d3['길동':'철이']

- 열추출은 반드시 **칼럼명으로만** 추출가능하다.
- 여러 칼럼을 추출할 때에는 **리스트**로 넣어준다.
```
데이터프레임명[열이름 또는 열이름 리스트]
```

In [None]:
d3['국어']
d3[['국어','수학']]

- 행렬추출은 **행렬의 대괄호 순서를 바꿀 수 있지만** 행추출, 열추출 제약사항이 그대로 적용된다.
  - 행추출은 **슬라이싱으로만!**
  - 열추출은 **칼럼명으로만!**
  - 여러 열을 추출할 때에는 **리스트로만!**
```
데이터프레임명[행범위][열이름 또는 열이름 리스트]
데이터프레임명[열이름 또는 열이름 리스트][행범위]
```

In [None]:
d3['길동':'미영'][['국어','수학']]
d3[2:4][['국어','수학']]

d3[['국어','수학']]['길동':'미영']
d3[['국어','수학']][2:4]

### 행/열 추가, 삭제

- '합계' 행을 추가해보자.
- '합계'라는 인덱스가 없으면 생성하고, 있으면 업데이트 된다.
- '합계'행에 들어갈 값은 sum()함수로 구한다.
- axis는 생략하면 기본값은 0이다.

In [None]:
d3.loc['합계']=d3.sum()
d3

- 총점 열을 추가해보자.
- axis가 1이면 열에 대해 작업한다.

In [None]:
d3['총점']=d3.sum(axis=1)
d3

- 행삭제/열삭제

In [None]:
d3.drop('합계',inplace=True)
d3

In [None]:
d3.drop(['Pass/Fail'], axis=1, inplace=True)
d3

### 데이터프레임 활용연습

- 최댓값, 최솟값 구하기

In [None]:
#총점의 max, min을 구해보자.


- idxmax()는 최댓값의 인덱스, idxmin()은 최솟값의 인덱스를 추출한다.

- '총점'이 1등인 학생의 전체 데이터를 추출한다.

- 총점이 200보다 큰 결과를 True, False로 만든다.

In [None]:
x=d3.loc[:, '총점']>200
x

In [None]:
d3['Pass/Fail']=x
d3

- 딕셔너리를 이용하여 매핑정보를 쉽게 넣을 수 있다.

In [None]:
mapping = {True: 'Pass', False: 'Fail'}
d3['Pass/Fail']= d3['Pass/Fail'].map(mapping)
d3

- groupby()를 통해서 그룹으로 묶어줄 수 있다.

In [None]:
total_groupby = d3.groupby('Pass/Fail')
total_groupby.size()

- 아래는 결측값을 채우는 방법을 익히기 위해 일부러 결측값을 만든 경우이다.

In [None]:
mapping = {'Pass': 300000}

d3['장학금']=d3['Pass/Fail'].map(mapping)
d3

- 결측값을 채우는 함수는 .fillna()이다.

In [None]:
d3['장학금'].fillna(0, inplace=True)
d3

- sort_index()를 통해 인덱스를 기준으로 정렬한다.

In [None]:
d3.sort_index(ascending=True)

- 특정 칼럼명을 기준으로 정렬한다.

In [None]:
d3.sort_values(by = '국어', ascending=True)

## Problem: BMI 지수와 비만도 결정

### Problem: BMI 지수 계산하기
😄 주어진 링크를 통해 데이터를 데이터프레임으로 가져와 주세요.

https://raw.githubusercontent.com/HaesunByun/common/main/data/Height_Weight_Index.csv


BMI 지수는 다음과 같이 계산할 수 있습니다.
```
BMI = 체중(kg) ÷ {신장(m) × 신장(m)}
```

😄 데이터프레임을 확인해보고 BMI 지수를 나타내는 "bmi" 열을 만든 뒤 남자, 여자의 BMI 평균을 출력하시오

---
Output Sample
```
남자 BMI 평균: 38.15
여자 BMI 평균: 37.39
```

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/HaesunByun/common/main/data/Height_Weight_Index.csv')

### Problem: 비만도 결정

BMI 지수에 따라 다음과 같이 비만도를 결정할 수 있습니다.
```
저체중 : BMI 18.5 이하
정상 : BMI 18.5 초과 23 이하
과체중 : BMI 23 초과 25 이하
비만 : BMI 25 초과
```

😄 비만도를 나타내는 "obesity" 열을 위의 조건에 맞게 만든 후 성별과 비만도에 따른 사람의 수를 count하여 출력해보시오. 사람의 수를 count할 열은 bmi로 주세요.

Hint : groupby 사용하기

---
DataFrame Sample
```
Gender	Height	Weight	bmi
0	Male	174	96	31.708284
1	Male	189	87	24.355421
2	Female	185	110	32.140248
3	Female	195	104	27.350427
```
Output Sample
```
Gender  obesity
Female  과체중         11
        비만          204
        저체중         13
        정상           27
Male    과체중          8
        비만          196
        저체중         21
        정상           20
```