In [2]:
import numpy as np
import pandas as pd

# pandas.DataFrame
* 2차원 표(table) 형태의 데이터 타입(클래스)

## pd.DataFrame 객체 생성하기

In [3]:
data = {
    'city': ['서울', '서울', '서울', '경기', '경기', '경기'],
    'year': [2018, 2019, 2010, 2009, 2019, 2020],
    'pop': [0.85, 0.9, 0.92, 1.1, 1.2, 1.5]
}
print(data)

{'city': ['서울', '서울', '서울', '경기', '경기', '경기'], 'year': [2018, 2019, 2010, 2009, 2019, 2020], 'pop': [0.85, 0.9, 0.92, 1.1, 1.2, 1.5]}


In [4]:
# pd.DataFrame 객체 df 생성하기
df = pd.DataFrame(data)
print(df)

  city  year   pop
0   서울  2018  0.85
1   서울  2019  0.90
2   서울  2010  0.92
3   경기  2009  1.10
4   경기  2019  1.20
5   경기  2020  1.50


In [5]:
# print()를 사용하지 않더라도, Jupyter Notebook은 DataFrame을 HTML table 형식으로 보여준다.
df

Unnamed: 0,city,year,pop
0,서울,2018,0.85
1,서울,2019,0.9
2,서울,2010,0.92
3,경기,2009,1.1
4,경기,2019,1.2
5,경기,2020,1.5


## DataFrame 객체의 속성들(attributes)
* **`df.shape`** : row 개수, column 개수
* **`df.index`** : row index
* **`df.columns`** : column index, 컬럼 이름들

In [6]:
df.shape

(6, 3)

In [7]:
df.index

RangeIndex(start=0, stop=6, step=1)

In [8]:
df.columns

Index(['city', 'year', 'pop'], dtype='object')

## DataFrame column 선택 방법
* 1) **`df['column_name']`** : dict 에서 key를 사용해서 value 값을 읽는 방법과 유사함
* 2) **`df.column_name`** : 클래스 객체의 attribute 이름으로 값을 읽는 방법과 유사

In [9]:
df['city']

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [10]:
df.city

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [11]:
df = pd.DataFrame(data = {
    'col_1' : [1, 2, 3],
    '2_x' : [4, 5, 6],
    'class' : ['a', 'a', 'b']
})
df

Unnamed: 0,col_1,2_x,class
0,1,4,a
1,2,5,a
2,3,6,b


In [12]:
df['col_1']

0    1
1    2
2    3
Name: col_1, dtype: int64

In [13]:
df.col_1

0    1
1    2
2    3
Name: col_1, dtype: int64

In [14]:
df['2_x']
#> 단, 숫자로 시작하는 컬럼 이름의 경우, df.2_x는 에러가 발생한다.

0    4
1    5
2    6
Name: 2_x, dtype: int64

In [15]:
df['class']
#> df.class는 문법 오류(SytaxError)가 발생한다. class가 문제가 된다.

0    a
1    a
2    b
Name: class, dtype: object

## DataFrame row 선택 방법
1) df.loc[label]
2) df.iloc[integer]

In [16]:
df = pd.DataFrame(data)
df

Unnamed: 0,city,year,pop
0,서울,2018,0.85
1,서울,2019,0.9
2,서울,2010,0.92
3,경기,2009,1.1
4,경기,2019,1.2
5,경기,2020,1.5


In [17]:
df.loc[2] #> 인덱스가 2인 row만 선택, Series 타입으로 출력

city      서울
year    2010
pop     0.92
Name: 2, dtype: object

In [18]:
df.iloc[2]

city      서울
year    2010
pop     0.92
Name: 2, dtype: object

In [19]:
df.iloc[-1]

city      경기
year    2020
pop      1.5
Name: 5, dtype: object

## DatFrame Slicing

### iloc(integer-based location) 기반 Slicing

In [20]:
# start <= index < end
df.iloc[0:3]

Unnamed: 0,city,year,pop
0,서울,2018,0.85
1,서울,2019,0.9
2,서울,2010,0.92


In [21]:
df.iloc[:2]

Unnamed: 0,city,year,pop
0,서울,2018,0.85
1,서울,2019,0.9


In [22]:
df.iloc[4:]

Unnamed: 0,city,year,pop
4,경기,2019,1.2
5,경기,2020,1.5


### loc(label-based location) 기반 Slicing

In [23]:
df.loc[:1]

Unnamed: 0,city,year,pop
0,서울,2018,0.85
1,서울,2019,0.9


In [24]:
df.loc[4:]

Unnamed: 0,city,year,pop
4,경기,2019,1.2
5,경기,2020,1.5


## DataFrame boolean indexing
* np.ndarray, pd.Series, pd.DataFrame의 boolean indexing 에서는 and, or, not 사용 불가
* **|, &, ~ 연산자 사용**
* 괄호()로 순서를 명시해야 함

In [25]:
df

Unnamed: 0,city,year,pop
0,서울,2018,0.85
1,서울,2019,0.9
2,서울,2010,0.92
3,경기,2009,1.1
4,경기,2019,1.2
5,경기,2020,1.5


In [26]:
# 2020년 데이터 출력
df.year

0    2018
1    2019
2    2010
3    2009
4    2019
5    2020
Name: year, dtype: int64

In [27]:
df.year == 2020

0    False
1    False
2    False
3    False
4    False
5     True
Name: year, dtype: bool

In [28]:
df[df.year == 2020]

Unnamed: 0,city,year,pop
5,경기,2020,1.5


In [29]:
df[(df['year'] == 2020) & (df['pop'] >= 1.0)]

Unnamed: 0,city,year,pop
5,경기,2020,1.5
