# DataFrame 예제코드 - 생성과 액세스

In [1]:
import pandas as pd

## 생성

### 리스트에서 생성

In [2]:
# list에서 생성, 행 인덱스와 열 이름이 모두 정수로 지정됨
df_from_list = pd.DataFrame([ 
    ['Celine', 'France', 90, 100, 100],
    ['James','UK', 80, 40, 30],
    ['Jason','USA',80, 40, 60],
    ['Hans','Germany', 60, 50, 90]
])
df_from_list

Unnamed: 0,0,1,2,3,4
0,Celine,France,90,100,100
1,James,UK,80,40,30
2,Jason,USA,80,40,60
3,Hans,Germany,60,50,90


In [None]:
# 컬럼 이름 지정
column_names = ['name','nation','english','math','science']
df_from_list.columns = column_names
df_from_list

Unnamed: 0,name,nation,english,math,science
0,Celine,France,90,100,100
1,James,UK,80,40,30
2,Jason,USA,80,40,60
3,Hans,Germany,60,50,90


In [4]:
# 행 인덱스 지정
idx = ['celine','james','jason','hans']
df_from_list.index = idx
df_from_list

Unnamed: 0,name,nation,english,math,science
celine,Celine,France,90,100,100
james,James,UK,80,40,30
jason,Jason,USA,80,40,60
hans,Hans,Germany,60,50,90


In [5]:
df = pd.DataFrame([ 
    ['Celine', 'France', 90, 100, 100],
    ['James','UK', 80, 40, 30],
    ['Jason','USA',80, 40, 60],
    ['Hans','Germany', 60, 50, 90]],
    columns = ['name', 'nation', 'english', 'math', 'science'],
    index = ['celine','james','jason','hans']
)
df

Unnamed: 0,name,nation,english,math,science
celine,Celine,France,90,100,100
james,James,UK,80,40,30
jason,Jason,USA,80,40,60
hans,Hans,Germany,60,50,90


### tuple에서 생성

In [6]:
# 행 이름과 열 인덱스 모두를 지정
df_from_tuple = pd.DataFrame((
    ('Celine', 'France', 90, 100, 100),
    ('James','UK', 80, 40, 30),
    ('Jason','USA',80, 40, 60),
    ('Hans','Germany', 60, 50, 90)),
    columns = ['name', 'nation','english', 'math','science'],
    index = ['celine','james','jason','hans']
)
df_from_tuple

Unnamed: 0,name,nation,english,math,science
celine,Celine,France,90,100,100
james,James,UK,80,40,30
jason,Jason,USA,80,40,60
hans,Hans,Germany,60,50,90


### dictionary에서 생성

In [7]:
df_from_dictionary = pd.DataFrame({
    'name':     ['Celine','James','Jason','Hans'],
    'nation':   ['France','UK','USA','Germany'],
    'english':  [90,80,80,60],
    'math':     [100,40,40,50],
    'science':  [100,30,60,90]
})
df_from_dictionary

Unnamed: 0,name,nation,english,math,science
0,Celine,France,90,100,100
1,James,UK,80,40,30
2,Jason,USA,80,40,60
3,Hans,Germany,60,50,90


In [8]:
df_from_dictionary.index = df_from_dictionary['name']
df_from_dictionary

Unnamed: 0_level_0,name,nation,english,math,science
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Celine,Celine,France,90,100,100
James,James,UK,80,40,30
Jason,Jason,USA,80,40,60
Hans,Hans,Germany,60,50,90


In [9]:
df_from_dictionary['nation']['Celine']

'France'

## 행 인덱스, 컬럼 이름 변경

In [10]:
# 행 인덱스 변경
new_index = ['a','b','c','d']
df_from_dictionary.index = new_index
df_from_dictionary

Unnamed: 0,name,nation,english,math,science
a,Celine,France,90,100,100
b,James,UK,80,40,30
c,Jason,USA,80,40,60
d,Hans,Germany,60,50,90


In [11]:
# 컬럼 이름 변경
new_columns = ['이름','국적','영어','수학','과학']
df_from_dictionary.columns = new_columns
df_from_dictionary

Unnamed: 0,이름,국적,영어,수학,과학
a,Celine,France,90,100,100
b,James,UK,80,40,30
c,Jason,USA,80,40,60
d,Hans,Germany,60,50,90


In [12]:
# 컬럼 이름 변경
df = df_from_dictionary.rename(columns={'국적':'나라'})
df

Unnamed: 0,이름,나라,영어,수학,과학
a,Celine,France,90,100,100
b,James,UK,80,40,30
c,Jason,USA,80,40,60
d,Hans,Germany,60,50,90


## DataFrame 데이터 액세스

### 행(row) 선택

#### loc 인덱서 사용 (인덱스를 사용하여 액세스)

In [13]:
# 기본 인덱서 사용
df.loc['a']

이름    Celine
나라    France
영어        90
수학       100
과학       100
Name: a, dtype: object

In [14]:
# 슬라이싱
df.loc['a':'c']

Unnamed: 0,이름,나라,영어,수학,과학
a,Celine,France,90,100,100
b,James,UK,80,40,30
c,Jason,USA,80,40,60


In [15]:
# list 사용
df.loc[['a','c']]

Unnamed: 0,이름,나라,영어,수학,과학
a,Celine,France,90,100,100
c,Jason,USA,80,40,60


#### iloc 인덱서 사용

In [16]:
# 정수 인덱서 사용
df.iloc[0]

이름    Celine
나라    France
영어        90
수학       100
과학       100
Name: a, dtype: object

In [17]:
# 슬라이싱
df.iloc[0:3]

Unnamed: 0,이름,나라,영어,수학,과학
a,Celine,France,90,100,100
b,James,UK,80,40,30
c,Jason,USA,80,40,60


In [18]:
# list 사용
df.iloc[[0,2]]

Unnamed: 0,이름,나라,영어,수학,과학
a,Celine,France,90,100,100
c,Jason,USA,80,40,60


### 열(Column) 데이터 액세스

#### [ ] 사용

In [19]:
# DataFrame 인덱서 사용. Series 반환
df['이름']

a    Celine
b     James
c     Jason
d      Hans
Name: 이름, dtype: object

In [20]:
# list 사용 (DataFrame 반환)
df[['이름','영어']]

Unnamed: 0,이름,영어
a,Celine,90
b,James,80
c,Jason,80
d,Hans,60


#### dot operation 사용

In [21]:
df.이름

a    Celine
b     James
c     Jason
d      Hans
Name: 이름, dtype: object

### Cell 데이터 액세스

#### 컬럼 이름과 행 인덱스 사용

In [22]:
# 컬럼 이름과 행 인덱스 사용
df['이름']['b']

'James'

In [23]:
# 행 인덱스에 list를 사용하여 여러 원소에 액세스, Series 타입 return
df['이름'][['a','b']]

a    Celine
b     James
Name: 이름, dtype: object

#### 행 인덱스와 컬럼 이름 사용

In [24]:
# 행 인덱스와 컬럼 이름 사용
df.loc['a']['이름']

'Celine'

In [25]:
df.iloc[0]['이름']

'Celine'

In [26]:
# 행 인덱서와 컬럼 이름을 하나의 리스트로 사용
df.loc['a','이름']

'Celine'

In [27]:
# 컬럼 이름을 리스트로 여러 원소에 액세스
df.loc['b', ['이름','나라']]

이름    James
나라       UK
Name: b, dtype: object

In [28]:
# 컬럼 이름에 슬라이싱 사용
df.loc['b', '이름':'수학']

이름    James
나라       UK
영어       80
수학       40
Name: b, dtype: object

In [29]:
# 행 인덱스와 컬럼 이름 모두에 슬라이싱 사용
df.loc['a':'b', '이름':'수학']

Unnamed: 0,이름,나라,영어,수학
a,Celine,France,90,100
b,James,UK,80,40


In [30]:
# 행 인덱스와 컬럼 이름에 list 사용
df.loc[['a','c'], ['이름','나라']]

Unnamed: 0,이름,나라
a,Celine,France
c,Jason,USA


In [31]:
df

Unnamed: 0,이름,나라,영어,수학,과학
a,Celine,France,90,100,100
b,James,UK,80,40,30
c,Jason,USA,80,40,60
d,Hans,Germany,60,50,90


In [33]:
df2 = df.sort_values('나라')
df2

Unnamed: 0,이름,나라,영어,수학,과학
a,Celine,France,90,100,100
d,Hans,Germany,60,50,90
b,James,UK,80,40,30
c,Jason,USA,80,40,60
