# DataFrame

In [1]:
# 패키지 불러오기
import pandas as pd # Pandas
import numpy as np # Numpy

## DataFrame (데이터프레임)

### 데이터프레임의 생성

In [2]:
# DataFrame객체 생성 : pd.DataFrame(object, index, columns)

# 1. object에 동일한 길이의 리스트를 값으로 가지는 딕셔너리 이용
obj = {'Name' : ['Adam', 'Bob', 'Colin'],
       'Major' : ['NaturalScience', 'ComputerScience', 'DataScience'],
       'Sex' : ['F', 'M', 'F'],
       'Age' : [20, 22, 21]}

df_1 = pd.DataFrame(obj) # 데이터 프레임 생성

df_1

Unnamed: 0,Name,Major,Sex,Age
0,Adam,NaturalScience,F,20
1,Bob,ComputerScience,M,22
2,Colin,DataScience,F,21


In [3]:
# 2. object에 2차원 배열 이용
obj = np.array([['Adam', 'NaturalScience', '여', 20],
                ['Bob', 'ComputerScience', '남', 22],
                ['Colin', 'DataScience', '여', 21]])

df_2 = pd.DataFrame(obj) # 데이터 프레임 생성

df_2

Unnamed: 0,0,1,2,3
0,Adam,NaturalScience,여,20
1,Bob,ComputerScience,남,22
2,Colin,DataScience,여,21


In [4]:
# 원하는 인덱스 지정
df_3 = pd.DataFrame(obj,
                    columns = ['이름', '전공', '성별', '나이'], # 열에 대한 인덱스
                    index = ['A', 'B', 'C'] # 행에 대한 인덱스
                   )
df_3

Unnamed: 0,이름,전공,성별,나이
A,Adam,NaturalScience,여,20
B,Bob,ComputerScience,남,22
C,Colin,DataScience,여,21


In [5]:
# DataFrame객체의 행에 대한 인덱스 확인
print(df_1.index)

# DataFrame객체의 열에 대한 인덱스 확인
print(df_1.columns)

# DataFrame객체의 값 확인
print(df_1.values) # array로 반환됨

RangeIndex(start=0, stop=3, step=1)
Index(['Name', 'Major', 'Sex', 'Age'], dtype='object')
[['Adam' 'NaturalScience' 'F' 20]
 ['Bob' 'ComputerScience' 'M' 22]
 ['Colin' 'DataScience' 'F' 21]]


### 데이터프레임의 정보 확인

In [6]:
# 데이터프레임 정보 확인 메소드
# DataFrame객체 생성 
obj = {'Name' : ['Olivia', 'Lucas', 'Sophia', 'Zoe', 'Ava', 'Elliot'],
       'Sex' : ['Female', 'Male', 'Female', 'Female', 'Female', 'Male'],
       'Age' : [22, 32, 27, 18, 38, 19]}
df = pd.DataFrame(obj) # 데이터 프레임 생성
print(df)

# .values
# 데이터프레임 내 값을 배열 형태로 반환
print(df.values)

# .index
# 데이터프레임 내 행 인덱스를 레이블 배열 형태로 반환
print(df.index)

# .columns
# 데이터프레임 내 열 인덱스를 레이블 배열 형태로 반환
print(df.columns)

# .dtypes
# 데이터프레임 내 변수(컬럼)별 데이터 타입 확인
print(df.dtypes)

# .shape
# 데이터프레임의 행, 열 길이 확인
print(df.shape)

# .info()
# 데이터프레임의 전반적인 요약 정보 확인
# 로우명, 컬럼명, 행 길이, 열 길이, 컬럼별 데이터 타입, 메모리 등 확인 가능
df.info()

     Name     Sex  Age
0  Olivia  Female   22
1   Lucas    Male   32
2  Sophia  Female   27
3     Zoe  Female   18
4     Ava  Female   38
5  Elliot    Male   19
[['Olivia' 'Female' 22]
 ['Lucas' 'Male' 32]
 ['Sophia' 'Female' 27]
 ['Zoe' 'Female' 18]
 ['Ava' 'Female' 38]
 ['Elliot' 'Male' 19]]
RangeIndex(start=0, stop=6, step=1)
Index(['Name', 'Sex', 'Age'], dtype='object')
Name    object
Sex     object
Age      int64
dtype: object
(6, 3)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    6 non-null      object
 1   Sex     6 non-null      object
 2   Age     6 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 272.0+ bytes


In [7]:
# .head(n=5)
# 데이터프레임의 상위 행을 반환(n은 반환할 행의 수)
df.head() # 상위 5(default)개의 행 반환

Unnamed: 0,Name,Sex,Age
0,Olivia,Female,22
1,Lucas,Male,32
2,Sophia,Female,27
3,Zoe,Female,18
4,Ava,Female,38


In [8]:
df.head(1) # 상위 1개의 행 반환

Unnamed: 0,Name,Sex,Age
0,Olivia,Female,22


In [9]:
df.head(-3) # 상위 (전체행-3)개의 행 반환

Unnamed: 0,Name,Sex,Age
0,Olivia,Female,22
1,Lucas,Male,32
2,Sophia,Female,27


In [10]:
# .tail(n=5)
# 데이터프레임의 하위 행을 반환(n은 반환할 행의 수)
df.tail() # 하위 5(default)개의 행 반환

Unnamed: 0,Name,Sex,Age
1,Lucas,Male,32
2,Sophia,Female,27
3,Zoe,Female,18
4,Ava,Female,38
5,Elliot,Male,19


In [11]:
df.tail(1) # 하위 1개의 행 반환

Unnamed: 0,Name,Sex,Age
5,Elliot,Male,19


In [12]:
df.tail(-3) # 하위 (전체행-3)개의 행 반환

Unnamed: 0,Name,Sex,Age
3,Zoe,Female,18
4,Ava,Female,38
5,Elliot,Male,19


### 데이터프레임의 인덱싱과 슬라이싱

In [13]:
# 데이터프레임 생성
obj = {'Name' : ['Olivia', 'Lucas', 'Sophia', 'Zoe', 'Ava', 'Elliot'],
       'Sex' : ['Female', 'Male', 'Female', 'Female', 'Female', 'Male'],
       'Age' : [22, 32, 27, 18, 38, 19]}
idx = list('abcdef') # 인덱스 리스트

df = pd.DataFrame(obj, index = idx) 

In [14]:
# Case 1. 열만 참조
# 데이터프레임명['컬럼명']
df['Name']

a    Olivia
b     Lucas
c    Sophia
d       Zoe
e       Ava
f    Elliot
Name: Name, dtype: object

In [15]:
# 데이터프레임명.컬럼명
df.Name

a    Olivia
b     Lucas
c    Sophia
d       Zoe
e       Ava
f    Elliot
Name: Name, dtype: object

In [16]:
# 여러 열을 추출
# 데이터프레임명[리스트]
colnm = ['Name', 'Age'] # 추출할 열의 컬럼명
df[colnm] # Name과 Age를 열(시리즈)로 가지는 데이터프레임

Unnamed: 0,Name,Age
a,Olivia,22
b,Lucas,32
c,Sophia,27
d,Zoe,18
e,Ava,38
f,Elliot,19


In [17]:
# Case 2. 행만 참조
# iloc은 위치 기반으로, 데이터프레임명.iloc[행위치인덱스]

# 2번 째(표 기준)행의 값과 원래의 컬럼명을 레이블 인덱스으로 가지는 시리즈
df.iloc[1]

Name    Lucas
Sex      Male
Age        32
Name: b, dtype: object

In [18]:
# 2~5번 째(표 기준) 행을 가지는 데이터프레임
df.iloc[1:5]

Unnamed: 0,Name,Sex,Age
b,Lucas,Male,32
c,Sophia,Female,27
d,Zoe,Female,18
e,Ava,Female,38


In [19]:
# 연속하지 않은 위치일 경우에도 리스트로 행을 참조
idx = [1, 3] 
df.iloc[idx]

Unnamed: 0,Name,Sex,Age
b,Lucas,Male,32
d,Zoe,Female,18


In [20]:
# loc은 레이블 기반이며, 데이터프레임명.loc[행레이블인덱스]
# 2번 째(표 기준)행의 값과 원래의 컬럼명을 레이블 인덱스으로 가지는 시리즈
df.loc['b']

Name    Lucas
Sex      Male
Age        32
Name: b, dtype: object

In [21]:
# 2~5번 째(표 기준) 행을 가지는 데이터프레임
df.loc['b':'e']

Unnamed: 0,Name,Sex,Age
b,Lucas,Male,32
c,Sophia,Female,27
d,Zoe,Female,18
e,Ava,Female,38


In [22]:
# 대부분의 레이블 인덱스는 연속하지 않음
rownm = ['b', 'd'] # 리스트로 행을 참조
df.loc[rownm] # 2, 4번째(표 기준) 행을 가지는 데이터프레임

Unnamed: 0,Name,Sex,Age
b,Lucas,Male,32
d,Zoe,Female,18


In [23]:
# Case 3. 인덱서 없이 행과 열을 동시에 참조하는 방법
# i) 하나의 열에 대해 인덱싱
df['Age'] #Age 열 참조

a    22
b    32
c    27
d    18
e    38
f    19
Name: Age, dtype: int64

In [24]:
# ii) 행에 대해 인덱싱
# 시리즈가 되기 때문에 가능해짐
df['Age']['a'] #Age 열과 a 행 참조

22

In [25]:
df['Age'][0] #Age 열과 0번 위치 행 참조

22

In [26]:
# ii) loc를 통한 방법 : 2d-array에서의 방법에 숫자 대신 레이블을 이용
# 행 인덱스(로우명)이 b이고 열 인덱스(컬럼명)이 Name
df.loc['b', 'Name']

'Lucas'

In [27]:
# 대부분 행과 열의 레이블 인덱스(특히 열)은 연속되지 않아 리스트를 사용
# 행 : b, d, e
# 열 : Name Sex
rownm = ['b', 'd', 'e']
colnm = ['Name', 'Sex']
df.loc[rownm, colnm]

Unnamed: 0,Name,Sex
b,Lucas,Male
d,Zoe,Female
e,Ava,Female
