## 데이터 프레임 클래스
### 데이터프레임 생성

In [25]:
import pandas as pd
import numpy as np
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)

df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [4]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [5]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [6]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [7]:
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [10]:
df.T # 데이터 프레임은 numpy 2차원 배열이 가지는 속성,매서드를 지원함

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


### 열(column) 갱신,추가,삭제

In [11]:
# "2010-2015 증가율"이라는 이름의 열 추가
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [12]:
# "2005-2010 증가율"이라는 이름의 열 추가
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [13]:
# "2010-2015 증가율"이라는 이름의 열 삭제
del df["2010-2015 증가율"]
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [19]:
# 하나의 열만 인덱싱하면 시리즈가 반환된다.
df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [None]:
df["2005-2010 증가율"] # [["2005-2010 증가율"]] 로 하면 데이터프레임 유지됨

도시
서울   -1.34
부산   -3.40
인천    4.54
대구   -0.99
Name: 2005-2010 증가율, dtype: float64

In [None]:
# 여러개의 열을 인덱싱하면 부분적인 데이터프레임이 반환된다.
df[["2010", "2015"]] 

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [26]:
df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [28]:
df2[[2]]

Unnamed: 0,2
0,2
1,6
2,10


In [32]:
df[:1]

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283


In [30]:
df[1:4]

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [33]:
df["2015"]["서울"] # 개별인덱싱

9904312

In [34]:
# 연습문제
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)

In [37]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [35]:
# 모든 학생의 수학 점수를 시리즈로 나타낸다.
df["수학"]

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [36]:
#모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
df[["국어","영어"]]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [63]:
# 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
df["평균점수"]=((df["국어"]+df["수학"]+df["영어"])//3)
df

Unnamed: 0,국어,영어,수학,평균점수,평균 점수
춘향,80,90,90,86,86.67
몽룡,90,70,60,73,73.33
향단,70,60,80,70,70.0
방자,30,40,70,46,46.67


In [62]:
df

Unnamed: 0,국어,영어,수학,평균점수,평균 점수
춘향,80,90,90,86.67,86.67
몽룡,90,70,60,73.33,73.33
향단,70,60,80,70.0,70.0
방자,30,40,70,46.67,46.67


In [61]:
df["평균점수"]=((df["국어"]+df["수학"]+df["영어"])/3).round(2)
df

Unnamed: 0,국어,영어,수학,평균점수,평균 점수
춘향,80,90,90,86.67,86.67
몽룡,90,70,60,73.33,73.33
향단,70,60,80,70.0,70.0
방자,30,40,70,46.67,46.67


In [68]:
df

Unnamed: 0,국어,영어,수학,평균점수,평균 점수
춘향,80,90,90,86,86.67
몽룡,90,70,60,73,73.33
향단,70,60,80,70,70.0
방자,30,40,70,46,46.67


In [70]:
# 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다
df["영어"]["방자"]= 80
df["평균점수"]=((df["국어"]+df["수학"]+df["영어"])//3)
df

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df["영어"]["방자"]= 80
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["영어"]["방자"]= 80


Unnamed: 0,국어,영어,수학,평균점수,평균 점수
춘향,80,90,90,86,86.67
몽룡,90,70,60,73,73.33
향단,70,60,80,70,70.0
방자,30,80,70,60,46.67


In [None]:
#춘향의 점수를 데이터 프레임으로 나타낸다.
df[ : 1]

Unnamed: 0,국어,영어,수학,평균점수,평균 점수
춘향,80,90,90,86,86.67


In [None]:
#향단의 점수를 시리즈로 나타낸다.
df.T['향단']

국어       70.0
영어       60.0
수학       80.0
평균점수     70.0
평균 점수    70.0
Name: 향단, dtype: float64