<a href="https://colab.research.google.com/github/JakeOh/202105_itw_bd26/blob/main/lab_da/da03_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import numpy as np
import pandas as pd

# Series

* 한가지 타입의 값 여러개를 저장할 수 있는 1차원 모양의 데이터 타입(클래스)
* 축(axis) 레이블을 가지고 있는 1차원 배열(ndarray)

In [2]:
s = pd.Series([1, 3, -5, -7])  # pd.Series 생성자 호출 -> Series 객체 생성

In [3]:
type(s)

pandas.core.series.Series

In [4]:
print(s)  # statement(문장)

0    1
1    3
2   -5
3   -7
dtype: int64


In [5]:
s  # expression(식)

0    1
1    3
2   -5
3   -7
dtype: int64

In [7]:
s.index  # Series의 index 속성

RangeIndex(start=0, stop=4, step=1)

In [8]:
s.values  # Series values 속성

array([ 1,  3, -5, -7])

## indexing, slicing

In [9]:
s[0]  # indexing

1

In [10]:
s[0:2]  # slicing -> Series

0    1
1    3
dtype: int64

In [14]:
# s[-1]  # ValueError 발생 - 음수 인덱싱이 되지 않음
s[-2:]  # 음수 slicing 가능

2   -5
3   -7
dtype: int64

## iloc, loc

* `iloc`: **정수 인덱스 기반**의 원소 참조
* `loc`: **레이블 기반**의 원소 참조


In [15]:
s

0    1
1    3
2   -5
3   -7
dtype: int64

In [16]:
s.loc[0]  # loc 속성을 사용한 indexing

1

In [18]:
# s.loc[-1]  # 레이블에는 -1이 없기 때문에 indexing이 안됨.

In [19]:
s.loc[0:2]  # 레이블 기반의 slicing - 시작 레이블 포함. 끝 레이블 포함!

0    1
1    3
2   -5
dtype: int64

In [20]:
s.iloc[0]

1

In [21]:
s.iloc[-1]

-7

In [22]:
s.iloc[0:2]

0    1
1    3
dtype: int64

In [23]:
s = pd.Series(data=[1, -3, 5, -7, 9], index=['a', 'b', 'x', 'y', 'c'])
s

a    1
b   -3
x    5
y   -7
c    9
dtype: int64

In [27]:
# indexing
s.loc['a']
# s.loc[-1]

1

In [28]:
# slicing
s.loc['a':'c']

a    1
b   -3
x    5
y   -7
c    9
dtype: int64

In [31]:
s.loc['y':]
# s.loc[-2:]

y   -7
c    9
dtype: int64

In [33]:
print(s.iloc[0])
print(s.iloc[-1])

1
9


## fancy indexing

In [34]:
s.loc[['a', 'b', 'c']]

a    1
b   -3
c    9
dtype: int64

In [35]:
s.iloc[[0, 1, 4]]

a    1
b   -3
c    9
dtype: int64

## boolean indexing

In [37]:
s[s > 0]  # s의 원소들 중 양수들로 이루어진 Series

a    1
x    5
c    9
dtype: int64

In [38]:
s[s < 0]  # s의 원소들 중 음수들로 이루어진 Series

b   -3
y   -7
dtype: int64

# DataFrame

In [39]:
data = {
    'city': ['서울'] * 3 + ['경기'] * 3,
    'year': [2018, 2019, 2020] * 2,
    'pop': [0.89, 0.91, 0.92, 1.1, 1.2, 1.25]
}

In [40]:
df = pd.DataFrame(data)  # DataFrame 클래스 생성자 호출 -> DataFrame 객체 생성

In [41]:
print(df)

  city  year   pop
0   서울  2018  0.89
1   서울  2019  0.91
2   서울  2020  0.92
3   경기  2018  1.10
4   경기  2019  1.20
5   경기  2020  1.25


In [42]:
df  # expression

Unnamed: 0,city,year,pop
0,서울,2018,0.89
1,서울,2019,0.91
2,서울,2020,0.92
3,경기,2018,1.1
4,경기,2019,1.2
5,경기,2020,1.25


In [45]:
# DataFrame의 속성들
print('shape:', df.shape)  # (row 개수, column 개수)
print('index:', df.index)  # row index, row label
print('columns:', df.columns)  # 컬럼 이름, column index, column label

shape: (6, 3)
index: RangeIndex(start=0, stop=6, step=1)
columns: Index(['city', 'year', 'pop'], dtype='object')


## DataFrame에서 컬럼 선택

* `data_frame['column_name']`
* `data_frame.column_name`
    * 컬럼 이름이 변수 이름 규칙에 맞지 않는 경우는 사용할 수 없음.
        * 변수 이름은 영문자, 숫자, underscore(_)만 사용할 수 있음.
        * 변수 이름은 숫자로 시작할 수 없음.
    * 컬럼 이름이 DataFrame 객체가 원래 가지고 있었던 속성 이름(변수, 메서드)과 동일한 경우에는 사용할 수 없음.


In [46]:
df['city']  # DataFrame의 컬럼은 Series

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [51]:
df.city

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [52]:
df['pop']  # 컬럼 선택

0    0.89
1    0.91
2    0.92
3    1.10
4    1.20
5    1.25
Name: pop, dtype: float64

In [53]:
df.pop  # 데이터프레임의 컬럼 선택이 아니라, 데이터프레임의 pop 속성(메서드)을 사용하는 것.

<bound method DataFrame.pop of   city  year   pop
0   서울  2018  0.89
1   서울  2019  0.91
2   서울  2020  0.92
3   경기  2018  1.10
4   경기  2019  1.20
5   경기  2020  1.25>

In [67]:
df[['year', 'pop']]  # 2개 이상의 컬럼을 함께 선택 -> DataFrame

Unnamed: 0,year,pop
0,2018,0.89
1,2019,0.91
2,2020,0.92
3,2018,1.1
4,2019,1.2
5,2020,1.25


In [68]:
df['pop']  #> 컬럼 1개 선택 -> Series

0    0.89
1    0.91
2    0.92
3    1.10
4    1.20
5    1.25
Name: pop, dtype: float64

In [69]:
df[['pop']] #> 컬럼 1개로 이루어진 "DataFrame"

Unnamed: 0,pop
0,0.89
1,0.91
2,0.92
3,1.1
4,1.2
5,1.25


## DataFrame에서 row 선택

* `data_frame.loc[레이블]`
* `data_frame.iloc[정수기반 인덱스]`


In [55]:
df

Unnamed: 0,city,year,pop
0,서울,2018,0.89
1,서울,2019,0.91
2,서울,2020,0.92
3,경기,2018,1.1
4,경기,2019,1.2
5,경기,2020,1.25


In [54]:
df.loc[0]  # indexing

city      서울
year    2018
pop     0.89
Name: 0, dtype: object

In [56]:
df.iloc[0]

city      서울
year    2018
pop     0.89
Name: 0, dtype: object

In [57]:
df.loc[1:3]  #> row 1, 2, 3으로 이루어진 DataFrame

Unnamed: 0,city,year,pop
1,서울,2019,0.91
2,서울,2020,0.92
3,경기,2018,1.1


In [58]:
df.iloc[1:3]  #> row 1, 2로 이루어진 DataFrame

Unnamed: 0,city,year,pop
1,서울,2019,0.91
2,서울,2020,0.92


In [60]:
# 데이터프레임의 첫 3개 row 출력 - head
df.iloc[:3]

Unnamed: 0,city,year,pop
0,서울,2018,0.89
1,서울,2019,0.91
2,서울,2020,0.92


In [61]:
# 데이터프레임의 마지막 3개 row 출력 - tail
df.iloc[-3:]

Unnamed: 0,city,year,pop
3,경기,2018,1.1
4,경기,2019,1.2
5,경기,2020,1.25


## boolean indexing

조건을 만족하는 행(row)들을 선택하는 방법

In [70]:
# df에서 year 값이 2020인 row들을 선택 - filtering
df[df['year'] == 2020]

Unnamed: 0,city,year,pop
2,서울,2020,0.92
5,경기,2020,1.25



* boolean indexing에서는 `and`, `or`, `not`을 사용할 수 없음.
* 대신에, `&`, `|`, `~`를 사용해야 함.
* 반드시 ()를 사용해서 연산 순서를 명시해야 함.


In [74]:
# city가 '서울'이거나 또는 pop이 1.2 이상인 행들을 선택
df[(df['city'] == '서울') | (df['pop'] >= 1.2)]

Unnamed: 0,city,year,pop
0,서울,2018,0.89
1,서울,2019,0.91
2,서울,2020,0.92
4,경기,2019,1.2
5,경기,2020,1.25


In [72]:
# 서울 2020년 자료 선택
df[(df.city == '서울') & (df.year == 2020)]

Unnamed: 0,city,year,pop
2,서울,2020,0.92


In [76]:
# 2018년도를 제외한 모든 자료 선택
# df[df['year'] != 2018]
df[~(df['year'] == 2018)]

Unnamed: 0,city,year,pop
1,서울,2019,0.91
2,서울,2020,0.92
4,경기,2019,1.2
5,경기,2020,1.25


## DataFrame 메서드

In [77]:
df

Unnamed: 0,city,year,pop
0,서울,2018,0.89
1,서울,2019,0.91
2,서울,2020,0.92
3,경기,2018,1.1
4,경기,2019,1.2
5,경기,2020,1.25


In [78]:
# 숫자 타입 데이터의 기술 통계량 요약: NA가 아닌 개수, 평균, 표준편차, 최솟값, 4분위수, 최댓값
df.describe()

Unnamed: 0,year,pop
count,6.0,6.0
mean,2019.0,1.045
std,0.894427,0.159342
min,2018.0,0.89
25%,2018.25,0.9125
50%,2019.0,1.01
75%,2019.75,1.175
max,2020.0,1.25


In [79]:
# 카테고리 타입 변수의 요약: 빈도수
df['city'].value_counts()  #> value_count() 메서드의 리턴 타입은 Series

서울    3
경기    3
Name: city, dtype: int64

In [81]:
city_counts = df['city'].value_counts()
print(city_counts.index)
print(city_counts.values)

Index(['서울', '경기'], dtype='object')
[3 3]


In [82]:
# pop 컬럼의 평균
df['pop'].mean()

1.0450000000000002

In [83]:
# data_frame['column'].method_name()
# mean, var, std, max, min, ...
df['pop'].median()

1.01