## Part 02 데이터 핸들링 - 2장 Pandas를 활용한 데이터 다루기
### 1절: Series와 DataFrame

In [1]:
import pandas as pd
import numpy as np

#### Series (시리즈)
- 일차원 배열 데이터값(value)와 데이터 레이블(lable) 배열인 인덱스로 이루어진 구조적 1차원 객체
- 1d array 객체와의 가장 큰 차이점은 시리즈는 원소의 데이터 타입이 서로 달라도 된다는 것
- ```pandas.Series(object, index)``` 방법으로 생성 가능

<br>

#### 인자  
- **object**: 객체, 주로 리스트 등과 같은 시퀀스형 객체와 딕셔너리형 객체 사용
- **index**: 원하는 인덱스(레이블 배열)를 지정할 때 사용. 별도 지정하지 않을 경우 위치 인덱스 번호로 자동 지정

In [2]:
# object에 리스트(시퀀스) 객체 이용
obj = ['김말이', '김건아', '호랑이']   # 값 리스트
ser1 = pd.Series(obj)
ser1

0    김말이
1    김건아
2    호랑이
dtype: object

In [3]:
# 원하는 인덱스 지정
idx = ['A', 'B', 'C']
ser2 = pd.Series(obj, index=idx)
ser2

A    김말이
B    김건아
C    호랑이
dtype: object

In [5]:
# object에 딕셔너리 객체 이용
dic = { 'a':'김말이', 'b':'김건아', 'c':'호랑이'}
ser3 = pd.Series(dic)
ser3

a    김말이
b    김건아
c    호랑이
dtype: object

#### 시리즈 정보 확인
- **시리즈.values** : 시리즈 내 값을 배열 형태로 반환
- **시리즈.index** : 시리즈 내 인덱스를 레이블 형태로 반환
- **시리즈.dtypes** : 시리즈의 데이터 타입 확인 (object-일반 문자, float-실수, int-정수, category-카테고리 등)
- **시리즈.size** : 시리즈의 총 객체 수

In [8]:
# values
print(ser1.values)
print(ser2.values)
print(ser3.values)

['김말이' '김건아' '호랑이']
['김말이' '김건아' '호랑이']
['김말이' '김건아' '호랑이']


In [7]:
# index
print(ser1.index)
print(ser2.index)
print(ser3.index)

RangeIndex(start=0, stop=3, step=1)
Index(['A', 'B', 'C'], dtype='object')
Index(['a', 'b', 'c'], dtype='object')


In [9]:
# dtypes
print(ser1.dtypes)
print(ser2.dtypes)
print(ser3.dtypes)

object
object
object


In [10]:
# size
print(ser1.size)
print(ser2.size)
print(ser3.size)

3
3
3


index 메소드를 이용해 시리즈의 인덱스 변경

In [11]:
print(ser1)                     # 변경 전
ser1.index = ['Q', 'W', 'E']    # 변경
ser1                            # 변경 후

0    김말이
1    김건아
2    호랑이
dtype: object


Q    김말이
W    김건아
E    호랑이
dtype: object

#### 시리즈의 인덱싱과 슬라이싱
- 시리즈는 대괄호([])와 위치 인덱스 번호를 통한 인덱싱과 슬라이싱이 가능
- 위치 기반 인덱스 번호만이 아니라, 레이블 기반 인덱스들로도 인덱싱과 슬라이싱이 가능함
- 시리지는 **시리즈명[위치인덱스]** 또는 **시리즈명[레이블인덱스]** 과 같은 방법으로 인덱싱과 슬라이싱이 간으함

In [13]:
obj = [22, 32, 41, 56, 46, 73]
idx = list('ABCDEF')
ser1 = pd.Series(obj, index=idx)
ser1

A    22
B    32
C    41
D    56
E    46
F    73
dtype: int64

In [15]:
# 인덱싱
print(ser1[4])    # 위치 기반
print(ser1['E'])  # 레이블 기반

46
46


In [16]:
# 슬라이싱
print(ser1[2:4])      #위치 기반
print(ser1['B':'E'])  # 레이블 기반

C    41
D    56
dtype: int64
B    32
C    41
D    56
E    46
dtype: int64


In [18]:
# 연속하지 않은 위치의 값을 참조할 때
idx = [0, 3, 4]
ser1[idx]

A    22
D    56
E    46
dtype: int64

In [19]:
lbl = ['A', 'D', 'E']
ser1[lbl]

A    22
D    56
E    46
dtype: int64

#### 시리즈의 통계 메소드
1. **시리즈.describe()** : 시리즈의 요약 통계량에 대한 정보
   - float/int - 총 객체 수, 평균, 표준편차, 최솟값, 제1사분위수, 중앙값(제2사분위수), 제3사분위수, 최댓값, 데이터타입)
   - object/category - 총 객체 수, 유일값, 최빈값, 최빈값의 빈도
2. **시리즈.count()** : 시리즈의 총 객체 수
3. **시리즈.mean()** : 시리즈 객체의 평균
4. **시리즈.var(ddof=1)** : 시리즈의 분산 (numpy.var()와 ddof의 default 값이 다름)
5. **시리즈.std(ddof=1)** : 시리즈의 표준편차 (numpy.var()와 ddof의 default 값이 다름)
6. **시리즈.min()** : 시리즈의 최솟값
7. **시리즈.max()** : 시리즈의 최댓값
8. **시리즈.median()** : 시리즈의 중앙값
9. **시리즈.quantile(q=0.5)** : 시리즈의 q * 100% 백분위수(default=0.5로, 50 백분위수)
10. **시리즈.unique()** : 시리즈의 유일값을 1d array로 반환
11. **시리즈.value_counts()** : 시리즈의 유일값별 빈도수를 시리즈로 반환
12. **시리즈.mode()** : 시리즈의 최빈값을 시리즈로 반환

In [20]:
# 시리즈 생성
ser = pd.Series(range(100))

In [21]:
ser.describe()

count    100.000000
mean      49.500000
std       29.011492
min        0.000000
25%       24.750000
50%       49.500000
75%       74.250000
max       99.000000
dtype: float64

In [22]:
ser.count()

100

In [23]:
ser.mean()

49.5

In [24]:
ser.var()

841.6666666666666

In [25]:
ser.std()

29.011491975882016

In [27]:
print(ser.min())
print(ser.max())

0
99


In [28]:
ser.median()

49.5

In [31]:
print(ser.quantile(q=0.25))
print(ser.quantile())
print(ser.quantile(q=0.75))

24.75
49.5
74.25


In [34]:
ser2 = pd.Series(['h', 'e', 'l', 'l', 'o'])

In [35]:
ser2.describe()

count     5
unique    4
top       l
freq      2
dtype: object

In [36]:
ser2.value_counts()

l    2
h    1
e    1
o    1
Name: count, dtype: int64

In [38]:
ser2.mode()

0    l
dtype: object

#### DataFrame (데이터프레임)
- 직사각형 형태의 스프레드시트처럼 같은 크기의 열들을 모아놓은 구조적 2차원 객체
- 데이터프레임은 열과 행, 각각의 인덱스들로 이루어져 있음
- 열은 변수(variable), 행은 개체(subject)
- 데이터프레임과 2d array 객체와 가장 큰 차이점은 데이터프레임의 각 변수들이 서로 다른 데이터타입을 가질 수 있다는 것
- ```pandas.DataFrame(object, index, columns)```로 생성 가능

<br>

#### 인자
- **object** : 객체, 주로 딕셔너리형과 2d array 객체를 사용
- **index** : 행에 대한 인덱스를 별도로 지정, 별도 지정하지 않을 경우 행 위치 인덱스로 자동 지정됨
- **columns** : 열에 대한 인덱스를 별도로 지정, 별도 지정하지 않을 경우 열 위치 인덱스로 자동 저장됨

<br>

- 딕셔너리를 통한 데이터프레임 객체 생성 시 딕셔너리는 동일한 길이를 가진 리스트를 값으로 가지며, columns를 생략해도 딕셔너리의 키가 데이터프레임의 열 인덱스로 자동 저장됨

In [42]:
# object에 동일한 길이의 리스트를 값으로 가지는 딕셔너리 이용
obj1 = { '이름': ['호랑이', '까치', '무지개'],
        '전공': ['경영학과', '컴퓨터공학과', '데이터과학과'],
        '성별': ['여', '남', '여'],
        '나이': [20, 21, 22]
      }

df1 = pd.DataFrame(obj1)
df1

Unnamed: 0,이름,전공,성별,나이
0,호랑이,경영학과,여,20
1,까치,컴퓨터공학과,남,21
2,무지개,데이터과학과,여,22


In [43]:
# object에 2차원 배열 이용
obj2 = np.array([ ['까마귀', '경영학과', '여', 30],
                  ['당나귀', '컴퓨터공학과', '남', 40],
                  ['너구리', '데이터과학과', '여', 35]
                ])

df2 = pd.DataFrame(obj2)
df2

Unnamed: 0,0,1,2,3
0,까마귀,경영학과,여,30
1,당나귀,컴퓨터공학과,남,40
2,너구리,데이터과학과,여,35


In [44]:
# 원하는 인덱스 지정
df3 = pd.DataFrame(obj2,
                   columns = ['Name', 'Major', 'Sex', 'Age'],     # 열에 대한 인덱스
                   index = ['A', 'B', 'C'])                       # 행에 대한 인덱스

df3

Unnamed: 0,Name,Major,Sex,Age
A,까마귀,경영학과,여,30
B,당나귀,컴퓨터공학과,남,40
C,너구리,데이터과학과,여,35


#### 데이터프레임 정보 확인
1. **df.values** : df 내 값을 배열 형태로 반환
2. **df.index** : df 내 행 인덱스를 레이블 배열 형태로 반환
3. **df.columns** : df 내 열 인덱스를 레이블 배열 형태로 반환
4. **df.dtypes** : df 내 변수(컬럼)별 데이터 타입 확인 (object-일반 문자, float-실수, int-정수, category-카테고리, datetime-시간)
5. **df.shape** : df의 행, 열 길이 확인
6. **df.info()** : df의 전반적인 정보 확인
7. **df.head(n=5)** : df의 상위 행 반환, n의 default=5, 음수를 입력할 경우 전체 행의 수에서 음수만큼 제외
8. **df.tail(n=5)** : df의 하위 행을 반환, n의 default=5, 음수를 입력할 경우 전체 행의 수에서 음수만큼 제외

In [46]:
obj3 = { 'Name': ['호랑이', '까치', '무지개', '낙타', '자전거', '숀'],
         'Sex': ['Female', 'Male', 'Female', 'Female', 'Male', 'Female'],
         'Age': [20, 21, 22, 38, 40, 17]
      }

df3 = pd.DataFrame(obj3)
df3

Unnamed: 0,Name,Sex,Age
0,호랑이,Female,20
1,까치,Male,21
2,무지개,Female,22
3,낙타,Female,38
4,자전거,Male,40
5,숀,Female,17


In [47]:
# values
df3.values

array([['호랑이', 'Female', 20],
       ['까치', 'Male', 21],
       ['무지개', 'Female', 22],
       ['낙타', 'Female', 38],
       ['자전거', 'Male', 40],
       ['숀', 'Female', 17]], dtype=object)

In [48]:
# index
df3.index 

RangeIndex(start=0, stop=6, step=1)

In [49]:
# columns
df3.columns

Index(['Name', 'Sex', 'Age'], dtype='object')

In [50]:
# dtypes
df3.dtypes

Name    object
Sex     object
Age      int64
dtype: object

In [51]:
# shape
df3.shape

(6, 3)

In [52]:
# info
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    6 non-null      object
 1   Sex     6 non-null      object
 2   Age     6 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 276.0+ bytes


In [56]:
df3.head(2)

Unnamed: 0,Name,Sex,Age
0,호랑이,Female,20
1,까치,Male,21


In [57]:
df3.head(-2)

Unnamed: 0,Name,Sex,Age
0,호랑이,Female,20
1,까치,Male,21
2,무지개,Female,22
3,낙타,Female,38


In [58]:
df3.tail(2)

Unnamed: 0,Name,Sex,Age
4,자전거,Male,40
5,숀,Female,17


In [59]:
df3.tail(-2)

Unnamed: 0,Name,Sex,Age
2,무지개,Female,22
3,낙타,Female,38
4,자전거,Male,40
5,숀,Female,17


#### 데이터프레임 인덱식와 슬라이싱

In [64]:
# 인덱싱
df3['Name']

0    호랑이
1     까치
2    무지개
3     낙타
4    자전거
5      숀
Name: Name, dtype: object

In [65]:
col = ['Name', 'Age']
df3[col]

Unnamed: 0,Name,Age
0,호랑이,20
1,까치,21
2,무지개,22
3,낙타,38
4,자전거,40
5,숀,17


In [66]:
# 행만 참조
df3.iloc[1]

Name      까치
Sex     Male
Age       21
Name: 1, dtype: object

In [67]:
df3.iloc[:5]

Unnamed: 0,Name,Sex,Age
0,호랑이,Female,20
1,까치,Male,21
2,무지개,Female,22
3,낙타,Female,38
4,자전거,Male,40


In [68]:
# 연속하지 않은 위치일 경우 리스트로 행 참조
idx=[1, 3, 5]
df3.iloc[idx]

Unnamed: 0,Name,Sex,Age
1,까치,Male,21
3,낙타,Female,38
5,숀,Female,17


In [73]:
# loc은 레이블 기반, df.loc[레이블인덱스]
col = ['A', 'B', 'C', 'D', 'E', 'F']
df3.index = col

df3.loc['B']

Name      까치
Sex     Male
Age       21
Name: B, dtype: object

In [74]:
df3.loc['A':'D']

Unnamed: 0,Name,Sex,Age
A,호랑이,Female,20
B,까치,Male,21
C,무지개,Female,22
D,낙타,Female,38


In [75]:
# 대부분의 레이블 인덱스는 연속하지 않음
rownum = ['B', 'D']  # 리스트로 행 참조
df3.loc[rownum]

Unnamed: 0,Name,Sex,Age
B,까치,Male,21
D,낙타,Female,38


In [76]:
# 인덱스 없이 행과 열을 동시에 참조하는 방법
df3['Age']

A    20
B    21
C    22
D    38
E    40
F    17
Name: Age, dtype: int64

In [77]:
df3['Age']['A']

20

In [78]:
df3['Age'][0]

20

In [79]:
# 여러 열에 대해, 행과 열을 동시에 참조하는 방법
# 1. iloc을 통한 방법 (2d array)와 동일
df3.iloc[1:4, 1:]

Unnamed: 0,Sex,Age
B,Male,21
C,Female,22
D,Female,38


In [80]:
# 2. loc을 통한 방법 (2d array에서의 방법에 숫자 대신 레이블 사용)
df3.loc['B', 'Name']

'까치'

In [81]:
# 대부분의 행과 열의 레이블 인덱스(특히 열)은 연속되지 않아 리스트 사용
rownum = ['B', 'D', 'E']
colnum = ['Name', 'Age']
df3.loc[rownum, colnum]

Unnamed: 0,Name,Age
B,까치,21
D,낙타,38
E,자전거,40


#### 데이터프레임의 통계 메소드
1. **df.describe()** : df의 요약 통계량에 대한 정보
   - 총 객체 수, 평균, 표준편차, 최솟값, 제1사분위수, 중앙값, 제3사분위수, 최댓값, 데이터타입
2. **df.count()** : df의 컬럼별 총 객체 수
3. **df.mean()** : df의 컬럼별 평균
4. **df.var(ddof=1)** : df의 컬럼별 분산 (numpy.var()와 ddof의 default 값이 다름)
5. **df.std(ddof=1)** : df의 컬럼별 표준편차 (numpy.var()와 ddof의 default 값이 다름)
6. **df.min()** : df의 컬럼별 최솟값
7. **df.max()** : df의 컬럼별 최댓값
8. **df.median()** : df의 컬럼별 중앙값
9. **df.quantile(q=0.5)** : df의 컬럼별 q * 100% 백분위수(default=0.5로, 50 백분위수)

In [83]:
df3.describe()

Unnamed: 0,Age
count,6.0
mean,26.333333
std,9.973298
min,17.0
25%,20.25
50%,21.5
75%,34.0
max,40.0


In [84]:
df3.count()

Name    6
Sex     6
Age     6
dtype: int64

In [86]:
df3['Age'].mean()

26.333333333333332

### 2절: 데이터 입출력
- csv 형식의 데이터 불러오기
- ```pandas.read_csv(filepath, sep=',', ...)```

<br>

- .csv 파일로 저장하기
- ```df.to_csv(path, index=True, ...)```

### 3절: 데이터 정렬 및 순위
- 특정 행 또는 열들을 기준으로 정렬하고자 할 경우 ```sort_values()```를 사용하면 됨
- ```df.sort_values(by, axis=0, ascending=True, inplace=False, ...)```

<br>

#### 인자
1. **by** : 정렬의 기준이 될 행/열로, 행/열 인덱스 또는 인덱스를 담은 리스트로 입력됨
2. **axis** : 0(default)는 행, 1은 열 기준으로 함
3. **ascending** : 오름차순 여부로 불값 또는 불값을 담은 리스트로 입력됨. True(default)는 오름차순, False는 내림차순으로 정렬
4. **inplace** : 기존 df에 정렬한 df를 저장할지에 대한 여부. False(default)는 정렬한 df를 새로운 변수에 다시 할당해야 하고, True는 별도 할당 없이 기존의 df의 변경

In [87]:
# sort_values
df3.sort_values('Name')

Unnamed: 0,Name,Sex,Age
B,까치,Male,21
D,낙타,Female,38
C,무지개,Female,22
F,숀,Female,17
E,자전거,Male,40
A,호랑이,Female,20


In [88]:
# Age에 대해 오름차순으로 정렬되고, 동일한 Age에 대해 Name 내림차순 정렬
df3.sort_values(['Age', 'Name'], ascending=[True, False])

Unnamed: 0,Name,Sex,Age
F,숀,Female,17
A,호랑이,Female,20
B,까치,Male,21
C,무지개,Female,22
D,낙타,Female,38
E,자전거,Male,40


- df에서 행/열 인덱스를 기준으로 정렬하고자 할 경우, ```sort_index()```를 사용하면 됨
- ```df.sort_index(axis=0, level=None, ascending=True, inplace=False, ...)```

<br>

#### 인자
1. **axis** : 0(default)는 행, 1은 열을 기준으로 함
2. **level** : 정렬 수준으로, 행/열 인덱스, 위치 인덱스 번호, 또는 이들을 담은 리스트로 입력됨 (default는 None으로 행 인덱스에 정렬됨)
3. **ascending** : 오름차순 여부로 불값 또는 불값을 담은 리스트로 입력됨. True(default)는 오름차순, False는 내림차순으로 정렬
4. **inplace** : 기존 df에 정렬한 df를 저장할지에 대한 여부. False(default)는 정렬한 df를 새로운 변수에 다시 할당해야 하고, True는 별도 할당 없이 기존의 df의 변경

In [89]:
df3.sort_index()

Unnamed: 0,Name,Sex,Age
A,호랑이,Female,20
B,까치,Male,21
C,무지개,Female,22
D,낙타,Female,38
E,자전거,Male,40
F,숀,Female,17


In [91]:
df3.sort_index(axis=1)

Unnamed: 0,Age,Name,Sex
A,20,호랑이,Female
B,21,까치,Male
C,22,무지개,Female
D,38,낙타,Female
E,40,자전거,Male
F,17,숀,Female


#### 데이터 순위
- 데이터프레임에서 하나의 행이나 열을 기준으로 정렬하고자 할 경우 ```rank()```를 사용하면 됨
- 주의할 점: df에서 대괄호[]를 통해 하나의 행/열 인덱스를 입력해야 한다는 것
- ```df.rank(axis=0, method='average', ascending=True, ...)```

<br>

#### 인자
1. **axis** : 0(default)는 행, 1은 열을 기준으로 함
2. **method** : 동점처리 기준으로 'average(default)', 'min', 'max' 등의 종류가 있음
   - 'average'는 평균 순위. 'min'은 부여된 순위 중 가장 낮은 순위, 'max'는 가장 높은 순위
3. **ascending** : 오름차순을 반영하여 순위를 생성할지에 대한 여부. True(default)는 오름차순을 반영해 가장 작은 값부터, False는 내림차순을 반영해 가장 큰 값이 1위

In [98]:
obj = {'Score' : [100, 95, 60, 20, 33, 59, 60, 70, 42, 88, 93],
       'Age'   : [20, 35, 31, 53, 14, 29, 33, 50, 50, 10, 77]}

df4 = pd.DataFrame(obj)
df4

Unnamed: 0,Score,Age
0,100,20
1,95,35
2,60,31
3,20,53
4,33,14
5,59,29
6,60,33
7,70,50
8,42,50
9,88,10


In [100]:
df4.sort_values('Score', ascending=False, inplace=True)
df4.head()

Unnamed: 0,Score,Age
0,100,20
1,95,35
10,93,77
9,88,10
7,70,50


In [103]:
# rank 동점자 평균 순위
df4['rank_avg1'] = df4['Score'].rank()

In [104]:
# 동점자 평균 순위(가장 큰 값이 1위)
df4['rank_avg2'] = df4['Score'].rank(ascending=False)

In [105]:
# 동점자 가장 낮은 순위(가장 큰 값이 1위)
df4['rank_min'] = df4['Score'].rank(method='min', ascending=False)

In [106]:
# 동점자 가장 높은 순위(가장 큰 값이 1위)
df4['rank_max'] = df4['Score'].rank(method='max', ascending=False)

In [107]:
df4

Unnamed: 0,Score,Age,rank_avg1,rank_avg2,rank_min,rank_max
0,100,20,11.0,1.0,1.0,1.0
1,95,35,10.0,2.0,2.0,2.0
10,93,77,9.0,3.0,3.0,3.0
9,88,10,8.0,4.0,4.0,4.0
7,70,50,7.0,5.0,5.0,5.0
2,60,31,5.5,6.5,6.0,7.0
6,60,33,5.5,6.5,6.0,7.0
5,59,29,4.0,8.0,8.0,8.0
8,42,50,3.0,9.0,9.0,9.0
4,33,14,2.0,10.0,10.0,10.0
