In [1]:
import pandas as pd

### 데이터프레임 클래스
- 시리즈가 1차원 벡터데이터에 행방향 인덱스를 붙인 것이라면, 데이터프레임 DataFrame 클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷하다. 2차원이므로 각각의 행 데이터의 이름이 되는 행 인덱스뿐 아니라 각각의 열데이터의 이름이 되는 열 인덱스도 붙일 수 있다.


- 데이터프레임을 만드는 방법
1. 우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다.
2. 이 각각의 열에 대한 이름을 키로 가지는 딕셔너리를 만든다.
3. 이 데이터를 DataFrame 클래스 생성자에 넣는다. 동시에 열방향 인덱스는 Columns 인수로, 행방향 인덱스는 index 인수로 지정한다.

In [3]:
data = {
    '2015' : [9904312, 3448737, 2890451, 2466052],
    '2010' : [9631482, 3393191, 2632035, 2431774],
    '2005' : [9762546, 3512547, 2517680, 2456016],
    '2000' : [9853972, 3655437, 2466338, 2473990],
    '지역': ['수도권','경상권','수도권','경상권'],
    '2010-2015 증가율' : [0.0283, 0.0163, 0.0982, 0.0141]
}

In [4]:
data # 딕셔너리 형태

{'2015': [9904312, 3448737, 2890451, 2466052],
 '2010': [9631482, 3393191, 2632035, 2431774],
 '2005': [9762546, 3512547, 2517680, 2456016],
 '2000': [9853972, 3655437, 2466338, 2473990],
 '지역': ['수도권', '경상권', '수도권', '경상권'],
 '2010-2015 증가율': [0.0283, 0.0163, 0.0982, 0.0141]}

In [5]:
columns = ['지역', '2015','2010','2005','2000','2010-2015 증가율']
index = ['서울','부산','인천','대구']
df = pd.DataFrame(data, index = index, columns = columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


- 앞에서 데이터프레임은 2차원 배열 데이터를 기반으로 한다고 했지만, 사실은 공통 인덱스를 가지는 열 시리즈를 딕셔너리로 묶어놓은 것이라고 보는 것이 정확하다.
 2차원 배열 데이터는 모든 원소가 같은 자료형을 가져야 하지만 데이터프레임은 각 열(column)마다 자료형이 다를 수 있기 때문이다. 위 예제에서도 지역과 인구와 증가율은 각각 문자열, 정수, 부동소수점 실수 이다.

- 시리즈와 마찬가지로 데이터만 접근하려면 Values 속성을 사용한다. 열방향 인덱스와 행방향 인덱스는 각각 columns,index 속성으로 접근한다.

In [6]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [7]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [8]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [9]:
df.index.name = '도시'
df.columns.name = '특성'
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


### 연습문제 4.1.2
다음 조건을 만족하는 임의의 데이터프레임을 하나 만든다
- 열의 갯수와 행의 갯수가 각각 5개 이상이어야 한다.
- 열에는 정수, 문자열, 실수 자료형 데이터가 각각 1개 이상씩 포함되어 있어야 한다.


In [11]:
data = {'정수' : [0,1,2,3,4,5],
        '문자열' : ['ㄱ','ㄴ','ㄷ','ㄹ','ㅁ','ㅂ'],
       '실수' : [234.1,590.1,3245,45.1,23.4,4395],
       '날짜' : ['2018-02-10','2010-02-10','2012-12-12','2020-04-04','2021-06-20','2013-02-03'],
       '마지막열': [123,154,123,435,345,123]}
data

{'정수': [0, 1, 2, 3, 4, 5],
 '문자열': ['ㄱ', 'ㄴ', 'ㄷ', 'ㄹ', 'ㅁ', 'ㅂ'],
 '실수': [234.1, 590.1, 3245, 45.1, 23.4, 4395],
 '날짜': ['2018-02-10',
  '2010-02-10',
  '2012-12-12',
  '2020-04-04',
  '2021-06-20',
  '2013-02-03'],
 '마지막열': [123, 154, 123, 435, 345, 123]}

In [12]:
pd.DataFrame(data)

Unnamed: 0,정수,문자열,실수,날짜,마지막열
0,0,ㄱ,234.1,2018-02-10,123
1,1,ㄴ,590.1,2010-02-10,154
2,2,ㄷ,3245.0,2012-12-12,123
3,3,ㄹ,45.1,2020-04-04,435
4,4,ㅁ,23.4,2021-06-20,345
5,5,ㅂ,4395.0,2013-02-03,123


- 데이터프레임은 전치(transpose)를 포함하여 넘파이 2차원 배열이 가지는 대부분의 속성이나 메서드를 지원한다.

In [13]:
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


#### 열 데이터의 갱신, 추가, 삭제
- 데이터프레임은 열시리즈의 딕셔너리로 볼 수 있으므로 열 단위로 데이터를 갱신하거나 추가, 삭제할 수 있다.

In [15]:
# '2010 - 2015 증가율' 이라는 이름의 열 수정
df['2010-2015 증가율'] = df['2010-2015 증가율'] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [16]:
# ' 2005-2010 증가율'이라는 이름의 열 추가
df['2005-2010 증가율'] = ((df['2010'] - df['2005']) / df['2005'] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [17]:
# '2010-2015 증가율'이라는 이름의 열 삭제
del df['2010-2015 증가율']
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


#### 열 인덱싱
- 데이터프레임은 열 라벨을 키로, 열 시리즈를 값으로 가지는 딕셔너리와 비슷하다고 하였다. 따라서 데이터프레임을 인덱싱을 할 때도 열 라벨(column label)을 키값으로 생각하여 인덱싱을 할 수 있다.
인덱스로 라벨값을 하나만 넣으면 시리즈 객체가 반환되고 라벨의 배열 또는 리스트를 넣으면 부분적인 데이터프레임이 반환된다.

In [18]:
# 하나의 열만 인덱싱하면 시리즈가 반환된다.
df['지역']

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [19]:
# 여러개의 열을 인덱싱하면 부분적인 데이터프레임이 반환된다.
df[['2010','2015']]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [20]:
# 2010열을 반환하면서 데이터프레임 자료형을 유지하려면 원소가 하나인 리스트 인덱싱을 하면 가능
df[['2010']]

특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


#### 개별데이터 인덱싱
데이터프레임에서 열라벨로 시리즈를 인덱싱하면 시리즈가 된다. 이 시리즈를 다시 행라벨로 인덱싱하면 개별 데이터가 나온다.

In [21]:
df['2015']['서울']

9904312

### 연습문제 4.1.3
- 다음 데이터프레임에서 지정하는 데이터를 뽑아내거나 처리하라.

In [22]:
data = {
    '국어' : [ 80, 90, 70, 30],
    '영어' : [ 90,70,60,40],
    '수학' : [ 90,60,80,70],
}
columns = ['국어','영어','수학']
index = ['춘향','몽룡','향단','방자']
df = pd.DataFrame(data, index= index, columns= columns)

In [24]:
# (1) 모든학생의 수학점수를 시리즈로 나타낸다
df['수학']

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [26]:
# (2) 모든 학생의 국어와 영어점수를 데이터 프레임으로 나타낸다
df[['국어','영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [46]:
#(3) 모든학생의 각과목 평균 점수를 새로운 열로 추가한다.
df['평균'] = df.mean(axis=1)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,40,70,46.669873


In [40]:
#(4) 방자의 영어점수를 80점으로 수정하고 평균점수도 다시 계산한다.
df['영어']['방자'] = 80
df['평균'] = df.mean(axis=1)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['영어']['방자'] = 80


Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,80,70,59.801432


In [47]:
df.loc['방자','영어'] = 40
df['평균'] = df.mean(axis=1)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,40,70,46.667468


In [49]:
#(5)춘향의 점수를 데이터프레임으로 나타낸다.
df.T[['춘향']]

Unnamed: 0,춘향
국어,80.0
영어,90.0
수학,90.0
평균,86.666667


In [52]:
#(6) 향단의 점수를 시리즈로 나타낸다.
df.loc['향단']

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64