<a href="https://colab.research.google.com/github/DahyeonS/Java_Python_Lecture/blob/main/20231227/pandas01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 판다스 패키지의 소개

- 대부분의 데이터는 시계열(series)이나 표(table)의 형태
- 판다스(Pandas)는 이러한 데이터를 다루기 위한 패키지
- 시리즈(``Series``) 클래스와 데이터프레임(``DataFrame``) 클래스를 제공

## 판다스 패키지 임포트

- 판다스 패키지는 `pd`라는 별칭으로 임포트하는 것이 관례

In [21]:
import pandas as pd
import numpy as np
pd.__version__, np.__version__

('1.5.3', '1.23.5')

# `Series` 시리즈 클래스

 - 시리즈 ``Series`` 클래스는 넘파이에서 제공하는 1차원 배열과 비슷
> 시리즈 = 값(value) + 인덱스(index)

## `Series` 시리즈 생성

### 인덱스 라벨(index label)

- 데이터를 list나 1차원 Numpy 배열 형식으로 ``Series`` 클래스 생성자로 생성
- 인덱스의 길이는 데이터의 길이와 동일해야 함
- 시리즈 생성 시 index의 값을 인덱스 라벨(label)이라고 함
- 값으로 문자열, 날짜, 시간, 정수 등 가능
- index 생략 시 0부터 정수로 생성

In [22]:
s = pd.Series(range(1,4))
s

0    1
1    2
2    3
dtype: int64

In [23]:
s = pd.Series(range(1,4), index=['one','two','three'])
s

one      1
two      2
three    3
dtype: int64

### `Series.index` 속성

In [24]:
s.index # 파이썬의 object - 문자열

Index(['one', 'two', 'three'], dtype='object')

### `Series.values` 속성
- numpy 배열

In [25]:
s.values, type(s.values)

(array([1, 2, 3]), numpy.ndarray)

### `Series.name` 속성
- 시리즈 이름 생성

In [26]:
s.name = "number"
s

one      1
two      2
three    3
Name: number, dtype: int64

### `Series.index.name` 속성
- 시리즈 인덱스 이름 생성

In [27]:
s.index.name = "english"
s

english
one      1
two      2
three    3
Name: number, dtype: int64

## 시리즈 연산

- 넘파이 배열처럼 시리즈도 벡터화 연산 가능

In [28]:
s / 3

english
one      0.333333
two      0.666667
three    1.000000
Name: number, dtype: float64

## 시리즈 인덱싱

- 넘파이 배열 인덱싱
- 인덱스 라벨을 이용한 인덱싱
- 배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱(slicing)

In [29]:
s[0], s["one"], s[1], s["two"], s[2], s["three"]

(1, 1, 2, 2, 3, 3)

In [30]:
s = pd.Series(range(11,14), index=[1, 2, 3])
s[1] # s[0]은 불가능

11

In [31]:
s = pd.Series(range(11,14), index=['1', '2', '3'])
s[0]

11

In [None]:
s['1':'3']

1    11
2    12
3    13
dtype: int64

In [38]:
s = pd.Series(range(11,14), index=['a', 'b', 'c'])
s['a':'c']

a    11
b    12
c    13
dtype: int64

In [39]:
s[0:2]

a    11
b    12
dtype: int64

#### 배열 인덱싱

In [40]:
s[[0, 2, 1]], s[0]

(a    11
 c    13
 b    12
 dtype: int64,
 11)

In [41]:
s2 = s[[0, 2, 1]]
s2, type(s2)

(a    11
 c    13
 b    12
 dtype: int64,
 pandas.core.series.Series)

In [43]:
s[["a", "c", "b"]]

a    11
c    13
b    12
dtype: int64

In [47]:
cond = (s > 1) & (s % 2 == 0)
s[cond]

b    12
dtype: int64

#### 슬라이싱
- 부분적인 시리즈를 반환
- 문자열 라벨을 이용한 슬라이싱을 하는 경우에는 숫자 인덱싱과 달리 콜론(:) 기호 뒤에 오는 값도 결과에 포함되므로 주의

In [33]:
s[1:3]

b    12
c    13
dtype: int64

In [46]:
s["b":"c"]

b    12
c    13
dtype: int64

- 만약 라벨 값이 영문 문자열인 경우에는 인덱스 라벨이 속성인것처럼 점(.)을 이용하여 해당 인덱스 값에 접근 가능

In [48]:
s.a, s.b, s.c

(11, 12, 13)

### 시리즈와 딕셔너리 자료형

- 시리즈 객체는 인덱스 라벨 값을 키(key)로 가지는 dict 자료형 비슷
- dict 자료형에서 사용법과 동일

In [50]:
"one" in s  # 인덱스 라벨 중에 `one`이 있는가

False

In [51]:
"a" in s  # 인덱스 라벨 중에 `a`가 있는가

True

In [52]:
for k, v in s.items():
    print(f"{k} = {v}")

a = 11
b = 12
c = 13


- dict 로 시리즈 만들기

In [53]:
d = {"one": 1, "two": 2, "three": 3}
s2 = pd.Series(d)
s2

one      1
two      2
three    3
dtype: int64

- dict는 순서를 가지지 않으므로 만약 순서를 정하고 싶다면 인덱스를 리스트로 지정

In [54]:
d = {"one": 1, "two": 2, "three": 3, 'four':4}
s2 = pd.Series(d, index=['four','three','two','one'])
s2

four     4
three    3
two      2
one      1
dtype: int64

### 인덱스 기반 연산

- 두 시리즈에 대해 연산을 하는 경우 인덱스가 같은 데이터 계산

In [55]:
s + s

a    22
b    24
c    26
dtype: int64

In [57]:
d = {"one": 1, "two": 2, "three": 3}
s = pd.Series(d, index=['one', 'two', 'three'])

In [59]:
s

one      1
two      2
three    3
dtype: int64

In [60]:
s2

four     4
three    3
two      2
one      1
dtype: int64

In [58]:
diff = s - s2
add = s + s2
diff, add

(four     NaN
 one      0.0
 three    0.0
 two      0.0
 dtype: float64,
 four     NaN
 one      2.0
 three    6.0
 two      4.0
 dtype: float64)

#### `Series.notnull`

- ``NaN``(Not a Number)이 아닌 값 확인
- ``NaN`` 값이 ``float`` 자료형에서만 가능

In [61]:
diff.notnull()

four     False
one       True
three     True
two       True
dtype: bool

In [62]:
add[add.notnull()]

one      2.0
three    6.0
two      4.0
dtype: float64

## 데이터의 갱신, 추가, 삭제

- 인덱싱을 이용해서 딕셔너리처럼 데이터를 갱신(update)하거나 추가(add)

In [63]:
s["one"] = 11
s

one      11
two       2
three     3
dtype: int64

In [64]:
s.two = 22
s

one      11
two      22
three     3
dtype: int64

- 데이터를 삭제할 때도 딕셔너리처럼 ``del`` 명령을 사용

In [65]:
del s2['four']
s2

three    3
two      2
one      1
dtype: int64

In [66]:
s2['four'] = 4
s2

three    3
two      2
one      1
four     4
dtype: int64

In [68]:
s2 = pd.Series(s2, index=['four','three','two','one']) # 순서 바꾸기
s2

four     4
three    3
two      2
one      1
dtype: int64

# 데이터프레임 클래스

```{margin}
`DataFrame`
```

```{margin}
행 인덱스(row index, index)
```

```{margin}
열 인덱스(cplumn index, columns)
```

- 시리즈가 1차원 벡터 데이터에 행방향 인덱스(row index)를 붙인 것
- `DataFrame` 클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷
- 각각의 행 데이터의 이름이 되는 행 인덱스(row index)
- 각각의 열 데이터의 이름이 되는 열 인덱스(column index)

## 데이터프레임 생성

데이터프레임을 만드는 방법은 다양하다. 가장 간단한 방법은 다음과 같다.

1. 우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다.
2. 이 각각의 열에 대한 이름(라벨)을 키로 가지는 딕셔너리를 만든다.
3. 이 데이터를 ``DataFrame`` 클래스 생성자에 넣는다. 동시에 열방향 인덱스는 ``columns`` 인수로, 행방향 인덱스는 ``index`` 인수로 지정한다.

In [69]:
import random
random.seed(42)

In [70]:
data = {
    "2015": [random.randint(9000000,10000000), random.randint(3000000,4000000), random.randint(2000000,3000000), random.randint(900000,1000000)],
    "2010": [random.randint(9000000,10000000), random.randint(3000000,4000000), random.randint(2000000,3000000), random.randint(900000,1000000)],
    "2005": [random.randint(9000000,10000000), random.randint(3000000,4000000), random.randint(2000000,3000000), random.randint(900000,1000000)],
    "2000": [random.randint(9000000,10000000), random.randint(3000000,4000000), random.randint(2000000,3000000), random.randint(900000,1000000)],
    "지역": ["수도권", "경상권", "수도권", "경상권"]
}
columns = ["지역", "2015", "2010", "2005", "2000"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000
서울,수도권,9670487,9288389,9772246,9935518
부산,경상권,3116739,3256787,3107473,3571858
인천,수도권,2026225,2234053,2709570,2091161
대구,경상권,997196,918289,997080,977397


- 데이터만 접근하려면 ``values`` 속성
- 열방향 인덱스 ``columns`` 속성
- 행방향 인덱스 ``index`` 속성

In [71]:
df.values

array([['수도권', 9670487, 9288389, 9772246, 9935518],
       ['경상권', 3116739, 3256787, 3107473, 3571858],
       ['수도권', 2026225, 2234053, 2709570, 2091161],
       ['경상권', 997196, 918289, 997080, 977397]], dtype=object)

In [72]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000'], dtype='object')

In [73]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

- 열방향 인덱스 이름 `DataFrame.columns.name`
- 행방향 인덱스 이름 `DataFrame.index.name`

In [74]:
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9670487,9288389,9772246,9935518
부산,경상권,3116739,3256787,3107473,3571858
인천,수도권,2026225,2234053,2709570,2091161
대구,경상권,997196,918289,997080,977397


**연습**

다음 조건을 만족하는 임의의 데이터프레임을 하나 만드시오

(1) 열의 갯수와 행의 갯수가 각각 5개 이상이어야 한다.

(2) 열에는 정수, 문자열, 실수 자료형 데이터가 각각 1개 이상씩 포함되어 있어야 한다.


In [91]:
import numpy as np
col1 = list(range(1,6))
col2 = ['a','b','c','d','e']
col3 = list(np.linspace(0, 1, 5)) # 0부터 1까지의 소수 5개
col4 = ['one','two','three','four','five']
col5 = list(range(10,60,10))
data = {
    'int' : col1,
    'str' : col2,
    'float' : col3,
    'number' : col4,
    'int*10' : col5
}
index = ['I','II','III','IV', 'V']
columns = ['int','str','float', 'number', 'int*10']
ex_df = pd.DataFrame(data, index=index, columns=columns)
ex_df

Unnamed: 0,int,str,float,number,int*10
I,1,a,0.0,one,10
II,2,b,0.25,two,20
III,3,c,0.5,three,30
IV,4,d,0.75,four,40
V,5,e,1.0,five,50


### 데이터프레임은 전치(transpose)
- 넘파이 2차원 배열이 가지는 대부분의 속성이나 메서드를 지원

In [77]:
df

특성,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9670487,9288389,9772246,9935518
부산,경상권,3116739,3256787,3107473,3571858
인천,수도권,2026225,2234053,2709570,2091161
대구,경상권,997196,918289,997080,977397


In [78]:
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9670487,3116739,2026225,997196
2010,9288389,3256787,2234053,918289
2005,9772246,3107473,2709570,997080
2000,9935518,3571858,2091161,977397


## 열 데이터의 갱신, 추가, 삭제

- 데이터프레임은 열 시리즈의 dict
- 열 단위로 데이터를 갱신하거나 추가, 삭제

In [87]:
# "total"이라는 이름의 열 추가
total = df['2015'] + df['2010'] + df['2005'] + df['2000']
df['total'] = total

In [92]:
df

특성,지역,2015,2010,2005,2000,total
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9670487,9288389,9772246,9935518,38666640
부산,경상권,3116739,3256787,3107473,3571858,13052857
인천,수도권,2026225,2234053,2709570,2091161,9061009
대구,경상권,997196,918289,997080,977397,3889962


In [93]:
# "2005-2010 증감율"이라는 이름의 열 추가
df["2005-2010 증감율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,total,2005-2010 증감율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9670487,9288389,9772246,9935518,38666640,-4.95
부산,경상권,3116739,3256787,3107473,3571858,13052857,4.8
인천,수도권,2026225,2234053,2709570,2091161,9061009,-17.55
대구,경상권,997196,918289,997080,977397,3889962,-7.9


In [94]:
# "2005-2010 증감율"이라는 이름의 열 삭제
del df["2005-2010 증감율"]
df

특성,지역,2015,2010,2005,2000,total
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9670487,9288389,9772246,9935518,38666640
부산,경상권,3116739,3256787,3107473,3571858,13052857
인천,수도권,2026225,2234053,2709570,2091161,9061009
대구,경상권,997196,918289,997080,977397,3889962


## 열 인덱싱

데이터프레임은 열 라벨을 키로, 열 시리즈를 값으로 가지는 딕셔너리와 비슷하다고 하였다. 따라서 데이터프레임을 인덱싱을 할 때도 열 라벨(column label)을 키값으로 생각하여 인덱싱을 할 수 있다. 인덱스로 라벨 값을 하나만 넣으면 시리즈 객체가 반환되고 라벨의 배열 또는 리스트를 넣으면 부분적인 데이터프레임이 반환된다.

In [None]:
# 하나의 열만 인덱싱하면 시리즈가 반환된다.
df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [None]:
# 여러개의 열을 인덱싱하면 부분적인 데이터프레임이 반환된다.
df[["2010", "2015"]]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


만약 하나의 열만 빼내면서 데이터프레임 자료형을 유지하고 싶다면 원소가 하나인 리스트를 써서 인덱싱하면 된다.

In [None]:
# 2010이라는 열을 반환하면서 데이터프레임 자료형을 유지
df[["2010"]]

특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [None]:
type(df[["2010"]])

pandas.core.frame.DataFrame

In [None]:
# 2010이라는 열을 반환하면서 시리즈 자료형으로 변환
df["2010"]

도시
서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [None]:
type(df["2010"])

pandas.core.series.Series

데이터프레임의 열 인덱스가 문자열 라벨을 가지고 있는 경우에는 순서를 나타내는 정수 인덱스를 열 인덱싱에 사용할 수 없다. 정수 인덱싱의 슬라이스는 뒤에서 설명하겠지만 행(row)을 인덱싱할 때 사용하므로 열을 인덱싱할 때는 쓸 수 없다. 정수 인덱스를 넣으면 `KeyError` 오류가 발생하는 것을 볼 수 있다.

```
df[0]

...(생략)...
Key Error 0
```

 다만 원래부터 문자열이 아닌 정수형 열 인덱스를 가지는 경우에는 인덱스 값으로 정수를 사용할 수 있다.

In [None]:
df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [None]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int64

In [None]:
df2[[1, 2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


### 행 인덱싱

만약 행 단위로 인덱싱을 하고자 하면 항상 슬라이싱(slicing)을 해야 한다. 인덱스의 값이 문자 라벨이면 라벨 슬라이싱도 가능하다.

In [None]:
df[:1]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [None]:
df[1:2]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [None]:
df[1:3]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54


In [None]:
df["서울":"부산"]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4


### 개별 데이터 인덱싱

데이터프레임에서 열 라벨로 시리즈를 인덱싱하면 시리즈가 된다. 이 시리즈를 다시 행 라벨로 인덱싱하면 개별 데이터가 나온다.

In [None]:
df["2015"]["서울"]

9904312

지금까지의 데이터프레임 인덱싱 방법을 정리하면 다음과 같다.

| 인덱싱 값 | 가능 | 결과 | 자료형 | 추가사항 |
|-|-|-|-|-|
| 라벨 | O | 열 | 시리즈 | |
| 라벨 리스트 | O | 열 | 데이터프레임 | |
| 인덱스데이터(정수) | X |  |  | 열 라벨이 정수인 경우에는 라벨 인덱싱으로 인정 |
| 인덱스데이터(정수) 슬라이스 | O | 행 | 데이터프레임 | |


````{admonition} 연습 문제 4.1.3

다음 데이터프레임에서 지정하는 데이터를 뽑아내거나 처리하라.

```
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
```

(1) 모든 학생의 수학 점수를 시리즈로 나타낸다.

(2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.

(3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.

(4) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.

(5) 춘향의 점수를 데이터프레임으로 나타낸다.

(6) 향단의 점수를 시리즈로 나타낸다.

````