In [103]:
import pandas as pd
import numpy as np

### 데이터프레임 클래스
2차원 형태의 행렬에 열과 행에 대한 인덱스가 붙은 형태.   
즉,표(table)  

#### 데이터프레임 생성 방법
1. 열 인덱스 배열 혹은 리스트를 생성  
2. 행 인덱스 배열 혹은 리스트를 생성  
3. 각 열과 행에 해당하는 데이터를 가지고 있는 딕셔너리를 생성  
4. pandas 패키지의 DataFrame 클래스의 생성자로 데이터 딕셔너리와 행 인덱스, 열 인덱스를 전달하여 생성  

In [104]:
columns = ['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'] # 열 인덱스
index = ['서울', '부산', '인천', '대구'] # 행 인덱스
data = {
  '2015': [9904312, 3448737, 2890451, 2466052],
  '2010': [9613482, 3393191, 2632035, 2431774],
  '2005': [9762546, 3512547, 2517680, 2456016],
  '2000': [9853972, 3655437, 2466338, 2473990],
  '지역': ['수도권', '경상권', '수도권', '경상권'],
  '2010-2015 증가율': [.0283, .0163, .0892, .0141]
}

df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9613482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0892
대구,경상권,2466052,2431774,2456016,2473990,0.0141


`values` 속성 : 데이터에 대한 배열 반환  
 `columns` 속성 : 열 인덱스에 대한 배열 반환  
  `index` 속성 : 행 인덱스에 대한 배열 반환

In [105]:
df.values

array([['수도권', 9904312, 9613482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0892],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [106]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [107]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [108]:
df.index.name = '도시'
df.columns.name = '특성'
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9613482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0892
대구,경상권,2466052,2431774,2456016,2473990,0.0141


데이터프레임은 넘파이 2차원 배열이 제공하는 대부분의 속성과 메서드를 지원함

In [109]:
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9613482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0892,0.0141


In [110]:
practice_columns = ['지역', '최저기온', '최고기온', '오전 강수확률', '오후 강수확률']
practice_data = {
  '지역': ['서울', '인천', '부산', '울산', '대구'],
  '최저기온': [-2, -1, 2, 3, 1],
  '최고기온': [7, 6, 9, 7, 1],
  '오전 강수확률': [.2, .2, .3, .3, .3],
  '오후 강수확률': [.6, .6, .6, .6 , .6]
}

practice_df = pd.DataFrame(practice_data, columns=practice_columns)
practice_df

Unnamed: 0,지역,최저기온,최고기온,오전 강수확률,오후 강수확률
0,서울,-2,7,0.2,0.6
1,인천,-1,6,0.2,0.6
2,부산,2,9,0.3,0.6
3,울산,3,7,0.3,0.6
4,대구,1,1,0.3,0.6


#### 열 데이터 갱신, 추가, 삭제
데이터프레임은 열 단위로 데이터를 추가, 수정, 삭제 할 수 있음

In [111]:
# 수정(갱신)
df['2010-2015 증가율'] = df['2010-2015 증가율'] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9613482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,8.92
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [112]:
# 추가
df['2005-2010 증가율'] = ((df['2010']- df['2005']) / df['2005'] * 100).round(2)
df 

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9613482,9762546,9853972,2.83,-1.53
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,8.92,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [113]:
# 삭제
del df['2010-2015 증가율']
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9613482,9762546,9853972,-1.53
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


#### 열 인덱싱
데이터프레임은 열과 행의 인덱스를 모두 가지고 있어서 열 라벨을 통한 인덱싱도 가능하다  
  
만약 문자열 형태의 하나의 열 라벨을 인덱싱 한다면 시리즈 객체로 반환  
만약 배열 혹은 리스트 형태의 열 라벨을 인덱싱 한다면 데이터프레임 객체로 반환

In [114]:
df['지역']

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [115]:
df[['2010', '2015']]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9613482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [116]:
df[['지역']]

특성,지역
도시,Unnamed: 1_level_1
서울,수도권
부산,경상권
인천,수도권
대구,경상권


열 인덱싱은 정수 인덱싱을 할 수없음

In [None]:
df[0] 

원래부터 정수형태의 열 인덱스를 가진다면 정수 인덱스로 인덱싱이 가능

In [None]:
df2 = pd.DataFrame(np.arange(12). reshape(3,4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [None]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int32

In [None]:
df2[[1, 3]]

Unnamed: 0,1,3
0,1,3
1,5,7
2,9,11


#### 행 인덱싱
데이터프레임에서 행으로 인덱싱을 하고자 한다면 반드시 슬라이싱으로 인덱싱해야 함

In [None]:
df[:1]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9613482,9762546,9853972,-1.53


In [None]:
df[1:2]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [None]:
df['서울':'부산'] # 문자열로 슬라이싱하면 결과 값이 포함되어서 나옴

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9613482,9762546,9853972,-1.53
부산,경상권,3448737,3393191,3512547,3655437,-3.4


#### 개별 데이터 인덱싱
하나의 필드 값을 얻고자 한다면 열로 먼저 인덱싱 후 행으로 다시 인덱싱 함

In [None]:
df['2015']['서울']

9904312

In [141]:
score_data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
score_columns = ["국어", "영어", "수학"]
score_index = ["춘향", "몽룡", "향단", "방자"]
score_df = pd.DataFrame(score_data, index=score_index, columns=score_columns)
score_df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [142]:
score_df['수학']

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [143]:
score_df[['국어', '영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [211]:
score_df['평균'] = ((score_df['국어']+score_df['영어']+score_df['수학']) / 3).round(2)
score_df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [212]:
score_df['영어']['방자'] = 80
score_df['평균'] = ((score_df['국어']+score_df['영어']+score_df['수학']) / 3).round(2)
score_df

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  score_df['영어']['방자'] = 80
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  score_df['영어']['방자'] = 80


Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [213]:
score_df[:1]

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67


In [219]:
score_df.T['향단'] # 전치시키면 열과 행이 바뀌면서 시리즈로 가능하네..

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64