---
<font color='Blue' size="4">
F37.101 컴퓨팅 기초: 처음 만나는 컴퓨팅(First Adventures in Computing)</font>

---



# Chapter 11. Pandas I


:::{admonition} 학습목표와 기대효과
:class: info  
- 학습목표
  - Pandas의 자료 구조인 Series와 DataFrame의 구조에 대해 알아본다.
  - Series의 생성, 연산, 인덱싱/슬라이싱 등을 실습해본다.
  - DataFrame의 생성, 연산, 인덱싱/슬라이싱 등을 실습해본다.
- 기대효과
  - Series와 DataFrame를 활용하여 다양한 데이터 연산 및 분석에 필요한 기능을 쉽고 빠르게 할 수 있다.
:::

- 판다스는 파이썬에서 사용하는 데이터 분석 라이브러리이다.
- 'pandas'라는 이름은 다차원으로 구조화된 데이터를 뜻하는 경제학 용어인 Panel data와 파이썬 데이터 분석인 Python data analysis에서 따온 것이다.
- 2008년 금융데이터 분석용으로 처음 개발되었다.
- 대용량의 데이터를 처리하는데 최적화된 도구이며, 데이터의 재배치, 집계, 부분집합 구하기 등을 쉽게 할 수 있다.
- Pandas는 Series와 DataFrame이라는 자료구조를 제공한다.


추천자료:
- https://wikidocs.net/book/7188 :[Python 완전정복 시리즈] 2편 : Pandas DataFrame 완전정복
- https://pandas.pydata.org/docs/reference/index.html : Pandas 공식사이트 문서

## Series

- 시리즈는 1차원 배열에 인덱스를 가지고 있는 구조이다.

- 이때 값은 **정수 위치 기반 인덱스**로도 접근 할 수 있고 **라벨 기반 인덱스**으로도 접근할 수 있다.

- 즉, 인덱스 번호로 값을 접근할 수 있는 리스트(list)와 인덱스명과 같은 키(key)로 값을 접근할 수 있는 딕셔너리(dict)의 장점을 섞어 놓은 자료구조이다.

### 시리즈 생성
- 시리즈를 생성하기 위해서는 먼저 pandas 모듈을 불러와야 한다.
- pandas 모듈은 보통 pd라는 별칭을 사용한다.

In [1]:
import pandas as pd

- 시리즈를 생성해보자. 형식은 아래와 같다. 이때 Series의 'S'를 대문자로 써야 한다는 것에 주의하자.

```python
pd.Series(list or dict or array, index = list or array)
```

- 인덱스를 별도 설정하지 않으면 기본적으로 위치 인덱스로 설정된다.
- 마지막에 데이터 타입이 표시된다. dtype: int64는 시리즈 속 데이터가 정수형64bit 데이터임을 의미한다.

|dtype|설명|
|:----------:|:----------|
|`int64`|정수|
|`float64`|소수|
|`object`|텍스트|
|`bool`|True/False|
|`datetime64`|날짜와 시간|
|`category`|카테고리|


In [2]:
score = [84, 21, 87, 100, 59, 46]
s = pd.Series(score)
s

0     84
1     21
2     87
3    100
4     59
5     46
dtype: int64

- index 옵션을 통해 인덱스명을 설정할 수 있다.

In [3]:
score = [84, 21, 87, 100, 59, 46]
names=['철수','영이','길동','미영','순이','철이']
s = pd.Series(score, index = names)
print(s)

철수     84
영이     21
길동     87
미영    100
순이     59
철이     46
dtype: int64


- 딕셔너리를 넣어서 시리즈를 생성할 수 있다.


In [4]:
dic={'철수':84, '영이':21, '길동':87,'미영':100, '순이':59, '철이':46}
s = pd.Series(dic)
print(s)

철수     84
영이     21
길동     87
미영    100
순이     59
철이     46
dtype: int64


- type() 함수로 시리즈의 타입을 확인해보자.

In [5]:
print(type(s))

<class 'pandas.core.series.Series'>


- 시리즈의 모양은 시리즈명.shape으로 확인할 수 있다.
- 1차원 배열은 (원소갯수, ) 형태로 나온다.

In [6]:
print(s.shape)

(6,)


### 시리즈 연산
- 시리즈에 산술연산을 적용해보자. 이때, 연산하여 나온 결과 또한 시리즈타입이다.

In [7]:
import pandas as pd
names1=['철수','영이','길동','미영','순이','철이']
score1 = [84, 21, 87, 100, 59, 46]
names2 =['길동','철수','영이','철이','순이','미영']
score2 = [99, 87, 87, 84, 77, 15]

s1 = pd.Series(score1, index=names1)
s2 = pd.Series(score2, index=names2)
print(s1)
print(s2)

철수     84
영이     21
길동     87
미영    100
순이     59
철이     46
dtype: int64
길동    99
철수    87
영이    87
철이    84
순이    77
미영    15
dtype: int64


In [8]:
s1 + 10

철수     94
영이     31
길동     97
미영    110
순이     69
철이     56
dtype: int64

In [9]:
s1 + s2

길동    186
미영    115
순이    136
영이    108
철수    171
철이    130
dtype: int64

In [10]:
s1 - s2

길동   -12
미영    85
순이   -18
영이   -66
철수    -3
철이   -38
dtype: int64

In [11]:
s1 * s2

길동    8613
미영    1500
순이    4543
영이    1827
철수    7308
철이    3864
dtype: int64

In [12]:
(s1+s2)/2

길동    93.0
미영    57.5
순이    68.0
영이    54.0
철수    85.5
철이    65.0
dtype: float64

In [13]:
s1%2

철수    0
영이    1
길동    1
미영    0
순이    1
철이    0
dtype: int64

In [14]:
s1.sum()

397

### 시리즈 인덱싱
- 시리즈의 데이터에 접근은 인덱스 번호(위치 인덱스) 또는 인덱스명(라벨 인덱스)를 통해 가능하다.
```
시리즈명[위치인덱스 or 라벨인덱스]
```

In [15]:
s1['영이']

21

In [16]:
#라벨인덱스로 만들고 위치 인덱스로 접근하는 기능은 향후 없어질것임
s1[2]

87

### 시리즈 슬라이싱
- 위치 인덱스로 슬라이싱하는 방법은 리스트나 배열과 동일하다.
- 라벨 인덱스로 슬라이싱하면 `끝 인덱스까지 포함`한다.
```
시리즈변수명[start:end:step]
```

- 끝 인덱스인 '순이'까지 포함하여 슬라이싱한다.

In [17]:
s1['영이':'순이']

영이     21
길동     87
미영    100
순이     59
dtype: int64

In [18]:
s1['미영':]

미영    100
순이     59
철이     46
dtype: int64

### 시리즈 데이터 추가, 수정, 삭제

- 시리즈에 데이터 추가와 수정은 형식이 동일하다. 시리즈에 인덱스가 있으면 수정하고, 없으면 추가한다.
- 형식은 다음과 같다.
```
시리즈명[인덱스] = value
```

- '슬기'는 인덱스에 없으므로 추가된다.

In [19]:
s1['슬기']= 87
print(s1)

철수     84
영이     21
길동     87
미영    100
순이     59
철이     46
슬기     87
dtype: int64


- '길동'은 인덱스에 있으므로 수정된다.

In [20]:
s1['길동']=88
print(s1)

철수     84
영이     21
길동     88
미영    100
순이     59
철이     46
슬기     87
dtype: int64


- 시리즈에서 데이터 삭제는 키워드 del을 통해 가능하다.
- 아래 코드는 인덱스 '철이'를 삭제한다.

In [21]:
del s1['철이']
print(s1)

철수     84
영이     21
길동     88
미영    100
순이     59
슬기     87
dtype: int64


In [22]:
s1.drop('길동')

철수     84
영이     21
미영    100
순이     59
슬기     87
dtype: int64

### 시리즈 비교연산과 필터링

- 시리즈에서도 넘파이에서와 같이 비교연산의 결과를 얻기도 쉽다.


In [23]:
a = s1>=85
print(a)

철수    False
영이    False
길동     True
미영     True
순이    False
슬기     True
dtype: bool


- 시리즈에서도 비교연산의 결과를 필터링하는데 사용할 수 있다.
- 아래 코드는 시리즈 s1에서 85이상인 값들에 대해서 필터링한다.

In [24]:
s1[a]

길동     88
미영    100
슬기     87
dtype: int64

## DataFrame

DataFrame은 행과 열로 이루어진 2차원 형태의 배열이다.
이때 한 개의 열(칼럼)은 하나의 시리즈이며, DataFrame은 시리즈들의 묶음이다.

### 데이타프레임 생성

- 데이타프레임 생성 형식은 다음과 같다.
```
pd.DataFrame(list or array or series or dictionary, index = list or array, columns = list or array)
```


- 먼저, 시리즈를 이용하여 데이터프레임을 생성해보자.
- 아래와 같이 시리즈 2개를 만들자.

In [25]:
names1=['철수','영이','길동','미영','순이','철이']
score1 = [84, 21, 87, 100, 59, 46]
names2 =['길동','철수','영이','철이','순이','미영']
score2 = [99, 87, 87, 84, 77, 15]

s1 = pd.Series(score1, index=names1)
s2 = pd.Series(score2, index=names2)

- 시리즈를 데이타프레임의 열(column)로 넣어준다.

In [26]:
df = pd.DataFrame()
df['국어']= s1  # 국어 칼럼 생성
df['영어']= s2  # 영어 칼럼 생성
df['총점']=df['국어']+df['영어'] # 합계 칼럼 생성
df

Unnamed: 0,국어,영어,총점
철수,84,87,171
영이,21,87,108
길동,87,99,186
미영,100,15,115
순이,59,77,136
철이,46,84,130


:::{admonition} 인덱싱 주의
:class: warning  
- 시리즈에서 인덱싱
  - 예) s['영이']로 했다면 '영이'는 행의 인덱스이다.
- 데이터프레임 인덱싱
  - 예) df['국어']로 했다면 '국어'는 열의 인덱스이다.

:::

- 데이타프레임을 리스트나 어레이로도 만들 수 있다.

In [27]:
scores = [[84,87,78], [21,15,84], [87,84,76], [100,87,99],[59,99,59],[46,77,56]]
d1 = pd.DataFrame(scores)
d1

Unnamed: 0,0,1,2
0,84,87,78
1,21,15,84
2,87,84,76
3,100,87,99
4,59,99,59
5,46,77,56


- 데이터프레임에 옵션 index와 columns에 인덱스와 칼럼명을 직접 명시해줄 수도 있다.

In [28]:
scores = [[84,87,78], [21,15,84], [87,84,76], [100,87,99],[59,99,59],[46,77,56]]
names=['철수','영이','길동','미영','순이','철이']
lectures=['국어','수학','영어']
d2 = pd.DataFrame(scores, index=names, columns=lectures)
d2

Unnamed: 0,국어,수학,영어
철수,84,87,78
영이,21,15,84
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56


- 딕셔너리를 데이터로 넣어 줄 수도 있다.

In [29]:
ScoresWithLectures={'국어':[84,21,87,100,59,46], '수학':[87,15,84,87,99,77], '영어':[78,84,76,99,59,56]}
names=['철수','영이','길동','미영','순이','철이']
d3 = pd.DataFrame(ScoresWithLectures, index=names)
d3

Unnamed: 0,국어,수학,영어
철수,84,87,78
영이,21,15,84
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56


- numpy에서 배웠던 전치행열 시키는 transpose() 또는 .T를 사용하여 행과 열을 교환할 수도 있다.
- 그러나 데이터프레임 원본에는 반영되지 않는다.

In [30]:
d4 = d3.transpose()
d4

Unnamed: 0,철수,영이,길동,미영,순이,철이
국어,84,21,87,100,59,46
수학,87,15,84,87,99,77
영어,78,84,76,99,59,56


In [31]:
d3

Unnamed: 0,국어,수학,영어
철수,84,87,78
영이,21,15,84
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56


### 데이터프레임 확인
- 데이터프레임의 정보를 확인하기 위해 다음과 같은 변수 또는 메서드를 사용한다.
  - .shape: 모양을 확인한다.
  - .columns: 열이름을 확인한다.
  - head(): 데이터프레임의 맨 위 5개 행을 보여준다.
  - tail(): 데이터프레임의 맨 아래 5개 행을 보여준다.
  - info(): 칼럼명, Non-Null count, Dtype 정보를 보여준다.
  - isnull().sum(): 값이 없는(null) 갯수를 반환한다.

```
url='https://raw.githubusercontent.com/HaesunByun/Basic-Computing/main/titanic_test.csv'
titanic_test = pd.read_csv(url)
titanic_test
```
- passenger ID
- Pclass: 티켓 클래스. (1 = 1st, 2 = 2nd, 3 = 3rd)
- Name: 이름
- Sex: 성별
- Age: 나이(세)
- Sibsp (Siblings and spouse): 함께 탑승한 형제자매, 배우자 수 총합
- Parch (Parents and children): 함께 탑승한 부모, 자녀 수 총합
- Ticket: 티켓 번호
- Fare: 탑승 요금
- Cabin: 객실 번호
- Embarked: 탑승 항구

In [32]:
# titanic_test.shape
# titanic_test.head(3)
# titanic_test.tail()
# titanic_test.info()
# titanic_test.isnull().sum()

### 데이터프레임 인덱싱과 슬라이싱

#### .iloc[]

- iloc는 index location의 약자로 위치 인덱스로만 인덱싱과 슬라이싱을 할 수 있다.
- .iloc[]을 사용하여 행추출/열추출/행렬추출을 해보자.
- 형식은 다음과 같다.
```
데이터프레임명.iloc[행 또는 행범위, 열 또는 열범위]
```
- 이때 행이든 열이든 범위가 아닌 하나만 명시했다면 그 결과는 시리즈로 나온다.
- 행과 열 모두 범위로 명시했다면 그 결과는 데이터프레임으로 나온다.



- 행추출

In [33]:
d3.iloc[2]
#d3.iloc[2:3]

국어    87
수학    84
영어    76
Name: 길동, dtype: int64

- 열추출

In [34]:
d3.iloc[:, 1]
#d3.iloc[:, 0:2]

철수    87
영이    15
길동    84
미영    87
순이    99
철이    77
Name: 수학, dtype: int64

- 행열 추출

In [35]:
d3.iloc[1:3, 0:2]

Unnamed: 0,국어,수학
영이,21,15
길동,87,84


#### .loc[]
- 라벨 인덱스로만 인덱싱과 슬라이싱을 할 수 있다.
- 사용하는 방법은 다음과 같다.

```
데이터프레임명.loc[행 또는 행범위, 열 또는 열범위]
```
- 이때 행이든 열이든 범위가 아닌 하나만 명시했다면 그 결과는 시리즈로 나온다.
- 행과 열 모두 범위로 명시했다면 그 결과는 데이터프레임으로 나온다.

- 행추출

In [36]:
d3.loc['길동']
d3.loc['길동':'순이']

Unnamed: 0,국어,수학,영어
길동,87,84,76
미영,100,87,99
순이,59,99,59


- 열추출

In [37]:
d3.loc[:, '국어']
d3.loc[:, '국어':'수학']

Unnamed: 0,국어,수학
철수,84,87
영이,21,15
길동,87,84
미영,100,87
순이,59,99
철이,46,77


- 행렬추출

In [38]:
d3.loc['철수':'영이', '국어':'수학']

Unnamed: 0,국어,수학
철수,84,87
영이,21,15


#### 데이터프레임명
- 데이터프레임명만 사용하여 추출하는 방법이 조금 복잡하다.

- 행추출은 하나의 행을 추출하더라도 반드시 **슬라이싱**으로 해야 한다. 그렇지 않으면 열이름으로 인식해 에러가 난다.
```
데이터프레임명[행범위]
```

In [39]:
d3[2:3]
d3[2:5]
d3['길동':'길동']
d3['길동':'철이']

Unnamed: 0,국어,수학,영어
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56


- 열추출은 반드시 **칼럼명으로만** 추출가능하다.
- 여러 칼럼을 추출할 때에는 **리스트**로 넣어준다.
```
데이터프레임명[열이름 또는 열이름 리스트]
```

In [40]:
d3['국어']
d3[['국어','수학']]

Unnamed: 0,국어,수학
철수,84,87
영이,21,15
길동,87,84
미영,100,87
순이,59,99
철이,46,77


- 행렬추출은 **행렬의 대괄호 순서를 바꿀 수 있지만** 행추출, 열추출 제약사항이 그대로 적용된다.
  - 행추출은 **슬라이싱으로만!**
  - 열추출은 **칼럼명으로만!**
  - 여러 열을 추출할 때에는 **리스트로만!**
```
데이터프레임명[행범위][열이름 또는 열이름 리스트]
데이터프레임명[열이름 또는 열이름 리스트][행범위]
```

In [41]:
d3['길동':'미영'][['국어','수학']]
d3[2:4][['국어','수학']]

d3[['국어','수학']]['길동':'미영']
d3[['국어','수학']][2:4]

Unnamed: 0,국어,수학
길동,87,84
미영,100,87


### 데이터프레임 행/열 추가



- '컴기' 열을 추가해보자.
- '컴기'라는 칼럼이 없으면 추가되고, 있으면 업데이트 된다.

In [42]:
comScore=[60, 70, 56, 74, 77, 66]
d3['컴기']= comScore
d3

Unnamed: 0,국어,수학,영어,컴기
철수,84,87,78,60
영이,21,15,84,70
길동,87,84,76,56
미영,100,87,99,74
순이,59,99,59,77
철이,46,77,56,66


- '총점'행을 추가해보자.
- '총점'행에 들어갈 값은 sum()함수로 구한다.
  - sum()함수 괄호 안에는 axis(축)을 명시할 수 있다.
  - axis=0은 행, axis=1은 열을 의미한다.
  - axis를 생략하면 기본값은 0이다.

In [43]:
d3.loc['총점']=d3.sum()
d3

Unnamed: 0,국어,수학,영어,컴기
철수,84,87,78,60
영이,21,15,84,70
길동,87,84,76,56
미영,100,87,99,74
순이,59,99,59,77
철이,46,77,56,66
총점,397,449,452,403


## 마무리
- pandas는 파이썬에서 사용하는 데이터 분석 라이브러리이다.
- Pandas는 Series와 DataFrame이라는 자료구조를 제공한다.
- 시리즈는 1차원 배열에 인덱스를 가지고 있는 구조이다.
- DataFrame은 행과 열로 이루어진 2차원 형태의 배열로, 시리즈들의 묶음이다.

- loc를 이용한 행열선택 : 데이터프레임명.loc[index명, column명 ]
- iloc를 이용한 행열선택 : 데이터프레임명.iloc[index번호, column번호]


---
<font color='Grey' size="4">
F37.101 컴퓨팅 기초: 처음 만나는 컴퓨팅(First Adventures in Computing)</font> 서울대학교 학부대학 변해선

---
