# ⬛ DataFrame 생성

- 2차원 배열과 유사한 자료형
- 다차원 리스트, 딕셔너리 자료형으로 데이터 구성 가능
- 관계형 데이터 베이스의 테이블 구조, excel/csv 데이터 구조와 유사 💛 
- 하나의 컬럼은 하나의 Series로서 하나의 Dataframe은 여러개의 Series 묶음으로 구성됨


- index 특징
    - row index(행 인덱스) : 기본 숫자형 인덱스가 아닌 새롭게 지정한 로우명(라벨) 인덱스를 사용해도 기본 숫자형 인덱스를 함께 사용할 수 있음
    - column index(열 인덱스) : 새롭게 컬럼명(라벨) 인덱스를 사용하면 기본 숫자형 인덱스는 사용할 수 없음
    
<img src="img/df_example.png" width="500" align="center">

In [1]:
# 🔴 import

import pandas as pd

In [2]:
# 🔴 다차원 자료형, 딕셔너리 자료형을 사용

## 🔸 주의점 : 자료형에 따라서 아이템 길이 이슈 발상
## 🔸 다차원 리스트 : 아이템 길이가 동일 / 서로 다른 타입
## 🔸 딕셔너리 : 아이템 길이가 동일 / 서로 다른 타입

In [9]:
# 🔴 데이터 프레임의 셀(튜플)에는 모든 데이터 타입 및 여러 타입 혼합 가능
## 🔸다차원 리스트 : 아이템 개수 3개, 하위 아이템 개수 4개

data1 = [[1, 2, 3, 4],
        ['a', 'b', 'c', 'd'],
        [0.1, 0.2, 0.5, 0.8]]

In [10]:
## 🔸 아이템 3개 : 행 3줄 => df에 저장하는 데이터의 개수
## 🔸 하위 아이템 4개 : 열 4줄 => df에 저장하는 데이터의 속성 / 변수의 개수

df1 = pd.DataFrame(data1)
df1

## 무조건 row가 우선 -> 그 다음 column
## 2차원 배열을 집어 넣으면 데이터프레임으로 만들어줌.
## DataFrame은 원래는 R에서 기본으로 사용하는 데이터 조회 기능임. 모사해서 파이썬에서 사용하는 것

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,a,b,c,d
2,0.1,0.2,0.5,0.8


In [11]:
## row기준으로 인식

len(data1)

3

In [12]:
## column 기준으로 인식 시키려면

len(data1[0])

4

In [13]:
# 🔴 아이템 길이가 다른 다차원 리스트

## 최대 길이의 행을 기준으로 df 구조가 생성됨
## 길이가 모자란 튜플(셀) : NaN으로 채워짐

data2 = [[1, 2, 3, 4, 5],
         ['a', 'b'],
         [0.1, 0.2, 0.5]]

In [14]:
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,0,1,2,3,4
0,1,2,3.0,4.0,5.0
1,a,b,,,
2,0.1,0.2,0.5,,


In [16]:
# 🔴 아이템 3개 value의 길이 4개 => 아이템의 개수(컬럼의 개수), value의 길이(로우의 개수)

## 딕셔너리의 키 : 

data3 = {'a': [10, 20, 30, 40],
         'b': [1, 2, 3, 4],
         'c': [5, 6, 7, 8]}

## 🔸 딕셔너리를 이용해서 만들면, 컬럼명을 부여할 수 있음.

In [17]:
df3 = pd.DataFrame(data3)
df3

Unnamed: 0,a,b,c
0,10,1,5
1,20,2,6
2,30,3,7
3,40,4,8


In [19]:
# 🔴 딕셔너리 자료형을 데이터 프레임 데이터로 활용

## 아이템 개수 3개, value 길이는 다르게
## 🔸 개수가 모자란 튜플(셀) : ValueError -> key별 매칭 value의 길이가 모두 동일해야 함

data4 = {'a': [10],
         'b': [1, 2, 3, 4],
         'c': [5, 6, 7]}

In [21]:
df4 = pd.DataFrame(data4)
df4

## 🔸 에러 메세지 ValueError: arrays must all be same length

ValueError: arrays must all be same length

In [26]:
## data1에 대해
data1

[[1, 2, 3, 4], ['a', 'b', 'c', 'd'], [0.1, 0.2, 0.5, 0.8]]

In [25]:
# 🔴 인덱스를 지정하여 객체 생성 : DataFrame 함수에서 파라미터로 지정

## 🔸 column 파라미터 : 컬럼명(열 개수와 동일한 길이를 가진 리스트 전달)
## 🔸 index 파라미터 : 로우명(행 개수와 동일한 길이를 가진 리스트 전달)

df5 = pd.DataFrame(data1, index=['r1', 'r2', 'r3'], columns=['c1', 'c2', 'c3', 'c4'])
df5

Unnamed: 0,c1,c2,c3,c4
r1,1,2,3,4
r2,a,b,c,d
r3,0.1,0.2,0.5,0.8


In [28]:
data3

{'a': [10, 20, 30, 40], 'b': [1, 2, 3, 4], 'c': [5, 6, 7, 8]}

In [29]:
# 🔴 딕셔너리를 이용했을 때 컬럼 순서를 변경하여 df 생성 가능


## 🔸 이미 있는 인덱스를 넣으면 재배치됨.
df6 = pd.DataFrame(data3, index=list('wxyz'), columns=list('cab'))
df6

Unnamed: 0,c,a,b
w,5,10,1
x,6,20,2
y,7,30,3
z,8,40,4


In [30]:
## 🔸 data3에 없는 컬럼명을 전달하는 경우 : 없는 컬럼명도 NaN으로 생성

df7 = pd.DataFrame(data3, columns=list('abd'))
df7

Unnamed: 0,a,b,d
0,10,1,
1,20,2,
2,30,3,
3,40,4,


In [31]:
# 🔴 딕셔너리 data와 일치하지 않는 index 개수를 전달하는 경우 :

## 🔸 컬럼이 3개에 row가 4개인데 5개를 전달한 상황
df8 = pd.DataFrame(data3, index=[10, 20, 30, 40, 50])
df8

## 🔸 에러 메세지 : ValueError: Shape of passed values is (4, 3), indices imply (5, 3)

ValueError: Shape of passed values is (4, 3), indices imply (5, 3)

## ⬛ DataFrame 속성


- 속성은 소괄호를 붙이지 않음
- index : df객체의 행 인덱스 배열을 반환
- columns : df 객체의 열 인덱스 배열을 반환
- axes : df 객체의 행, 열 인덱스를 아이템으로 가지는 배열을 반환
- values : df 객체의 데이터(값)을 아이템으로 가지는 2차원 배열을 반환
- dtypes : df 객체의 데이터 타입을 열 기준으로 반환
- size : df 객체의 데이터 개수(길이)를 반환
- shape : df 객체의 구조(행, 열, 차원)를 반환
- T : 행과 열을 전환시킴

In [32]:
# 🔴 딕셔너리 타입 데이터로 데이터 프레임 생성

## 🔸 서울, 경기, 충청, 경상, 전라 지역에 대해 2016, 2017, 2018년 유입 인구 데이터 세팅

data = {'서울' : [150, 180, 300],
        '경기' : [200, 240, 450],
        '충청' : [-10, 3, -13],
        '경상' : [10, 20, 30],
        '전라' : [5, 6, 7]}

In [34]:
sample = pd.DataFrame(data, index=['2016','2017','2018'])
sample

## 🔸 선생님 답 : sample.index = [2018, 2019, 2020]

Unnamed: 0,서울,경기,충청,경상,전라
2016,150,200,-10,10,5
2017,180,240,3,20,6
2018,300,450,-13,30,7


In [35]:
## 🔸 행 인덱스에 이름 붙이기

sample.index.name = 'year'
sample

Unnamed: 0_level_0,서울,경기,충청,경상,전라
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,150,200,-10,10,5
2017,180,240,3,20,6
2018,300,450,-13,30,7


In [37]:
# 🔴 열 인덱스 보기

sample.columns

Index(['서울', '경기', '충청', '경상', '전라'], dtype='object')

In [38]:
## 🔸 열 인덱스에 'location'이라는 설명을 붙여주세요

sample.columns.name = 'location'
sample

location,서울,경기,충청,경상,전라
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,150,200,-10,10,5
2017,180,240,3,20,6
2018,300,450,-13,30,7


In [39]:
# 🔴 행 인덱스(row) 수정

## 🔸 속성값

### ◾ 1. 행의 개수와 동일한 리스트를 전달
### ◾ 2. 속성값으로 사용하는 인덱스 객체는 아이템 하나 단위로 변경 불가(리스트로 전체를 바꿔야 함)
### ◾ 보조 속성은 사라진다.

sample.index=[1991, 1992, 1993]
sample

location,서울,경기,충청,경상,전라
1991,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [40]:
# 🔴 인덱스 수정

## 🔸 df메서드 : df변수.rename(data, axis)
### ◾ axis 기본값 = 0(로우 == 'index')
### ◾ 열 인덱스(컬럼)에 대한 수정 : axis=1 혹은 axis='columns'

### ◾ data : 딕셔너리타입, {'이전 인덱스명' : '바꿀 인덱스명'}

### ◾ inplace = False(기본값) : 바뀐 결과 적용 X 시뮬레이션만 수행
### ◾ inplace = True : 바뀐 결과가 바로 적용

sample.rename({1991:1990}, inplace=True)

## 🔸 하나만 바꾸려면 딕셔너리로 넣어주어야 한다. 💛

In [41]:
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [43]:
# 🔴 열 인덱스(컬럼) 변경 : axis=1 or axis='columns'

## 🔸 전라 -> 제주로 바꿔보세요. inplace는 주지 않습니다

sample.rename({'전라':'제주'}, axis=1)

location,서울,경기,충청,경상,제주
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [44]:
# 🔴 행, 열 인덱스 한번에 바꾸기 : df객체.axes

## 🔸 반환값 : 리스트 -> 첫 번째 아이템(행(row)인덱스), 두 번째 아이템(열(column)인덱스)

print(sample.axes)
print()
print(sample.axes[0]) # 행 인덱스
print()
print(sample.axes[1]) # 열 인덱스

[Int64Index([1990, 1992, 1993], dtype='int64'), Index(['서울', '경기', '충청', '경상', '전라'], dtype='object', name='location')]

Int64Index([1990, 1992, 1993], dtype='int64')

Index(['서울', '경기', '충청', '경상', '전라'], dtype='object', name='location')


In [45]:
# 🔴 reset_index(drop=True)를 사용하면 로우에 배정된 인덱스를 일괄적으로 삭제합니다. (리셋 인덱스)

sample.reset_index(drop=True)

location,서울,경기,충청,경상,전라
0,150,200,-10,10,5
1,180,240,3,20,6
2,300,450,-13,30,7


In [46]:
# 🔴 데이터 : df.values

## 🔸 반환값 : 2d array

sample.values

## values를 하면 컬럼, row 이름 없애고 2차원 데이터 배열로 만들어줌

array([[150, 200, -10,  10,   5],
       [180, 240,   3,  20,   6],
       [300, 450, -13,  30,   7]], dtype=int64)

In [47]:
# 🔴 각 컬럼(열)의 데이터 타입

sample.dtypes

location
서울    int64
경기    int64
충청    int64
경상    int64
전라    int64
dtype: object

In [48]:
# 🔴 전체 셀 개수:

sample.size

15

In [51]:
# 🔴 len으로 조회시 2차원 데이터로 간주해서 row 개수만 반환이 됨

len(sample)

3

In [52]:
# 🔴 데이터 구조(행, 열)

sample.shape

(3, 5)

In [53]:
# 🔴 행과 열을 전치

sample_t = sample.T
sample_t

Unnamed: 0_level_0,1990,1992,1993
location,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,150,180,300
경기,200,240,450
충청,-10,3,-13
경상,10,20,30
전라,5,6,7


In [54]:
## 🔸 전치한 데이터 프레임의 행(row) 인덱스

sample_t.index

Index(['서울', '경기', '충청', '경상', '전라'], dtype='object', name='location')

In [56]:
## 🔸 전치한 데이터 프레임의 열(column) 인덱스

sample_t.columns

Int64Index([1990, 1992, 1993], dtype='int64')

In [58]:
## 🔸 전치한 데이터 프레임 구조

sample_t.shape

(5, 3)

In [59]:
## 🔸 전치는 1회성으로 진행됨(원본 sample 변수는 그대로 3 * 5 형태가 유지됨)
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


## ⬛ 인덱싱 (💛 x 5)

- 컬럼 조회 (기본적으로 row가 아닌 컬럼임! )
    - 1. df[col]
    - 2. df.col(변수명)
    - 3. df.get(col)
    
    
- iloc, loc 메서드로 row 조회(iloc = index location)
    - 1. df.iloc[idx] : 기본 숫자형 인덱스 -> 인덱스 번호
    - 2. df.loc[label] : 새롭게 지정한 인덱스(숫자형이어도 기본 인덱스가 아니면 모두 loc 메서드로 조회) -> row명

In [61]:
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [63]:
# 🔴 기본적인 인덱싱 기법은 데이터 프레임의 '컬럼'에서 값을 조회

## 🔸 객체[idx_n]

sample['경기']

1990    200
1992    240
1993    450
Name: 경기, dtype: int64

In [64]:
# 🔴 '서울' 컬럼 조회의 3가지 방법

## 🔸 1. 기본적인 인덱싱 기호 : df[colname]
sample['서울']

1990    150
1992    180
1993    300
Name: 서울, dtype: int64

In [65]:
## 🔸 2. 컬럼명을 .을 이용해서 조회, 무조건 이름이 변수명으로 사용될 수 있을 때만 가능(숫자 등은 불가) : df.cloname
sample.서울

1990    150
1992    180
1993    300
Name: 서울, dtype: int64

In [67]:
## 🔸 3. df의 get메서드로 조회 : df.get(colname)
sample.get('서울')

1990    150
1992    180
1993    300
Name: 서울, dtype: int64

In [69]:
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [68]:
# 🔴 첫 번째 행(row) 조회 : 0번 인덱스 참조

## 🔸 반환값 : Series
## 🔸 라벨 인덱스 : 기존 데이터프레임의 컬럼명
## 🔸 Series name : 기본 데이터 프레임에서 참조한 첫 번째 행의 라벨 인덱스

sample.iloc[0] # 인덱스 숫자가 들어감

location
서울    150
경기    200
충청    -10
경상     10
전라      5
Name: 1990, dtype: int64

In [71]:
# 🔴 숫자형 라벨로 조회 ( 1992년 행 조회 )

sample.loc[1992] # 1992년을 찾는 것

location
서울    180
경기    240
충청      3
경상     20
전라      6
Name: 1992, dtype: int64

In [80]:
# 🔴 여러 개의 열 조회 : 리스트로 묶어서 전달(서울, 경기)

## 🔸 방법1
sample[['서울', '경기']]

location,서울,경기
1990,150,200
1992,180,240
1993,300,450


In [79]:
## 🔸 방법2

sample.get(['서울', '경기'])

location,서울,경기
1990,150,200
1992,180,240
1993,300,450


In [83]:
# 🔴 서울, 경기 지역의 1992년 데이터만 조회

sample.get(['서울', '경기']).loc[1992]
# 혹은 sample.get(['서울', '경기']).iloc[1]

location
서울    180
경기    240
Name: 1992, dtype: int64

In [85]:
sample.loc[1992].get(['서울', '경기'])

location
서울    180
경기    240
Name: 1992, dtype: int64

In [91]:
# 🔴 여러 개의 행 조회(1990, 1993년 한꺼번에 조회)

## 🔸 방법1
sample.loc[[1990, 1993]]

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1993,300,450,-13,30,7


In [92]:
## 🔸 방법2

sample.iloc[[0, 2]]

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1993,300,450,-13,30,7


In [97]:
# 🔴 1990년, 1992년 데이터에서 충청도만 남기기

sample.loc[[1990, 1992]].get(['충청'])
# 이것도 됨. 출력 형태는 조금 다름 ==> sample.loc[[1990, 1992]].get('충청')

location,충청
1990,-10
1992,3


## ⬛ 슬라이싱 (💛x5)

- 로우(행) 슬라이싱 
    - 순서가 있으며 로우 단독으로 슬라이싱 가능
    - 기본 슬라이싱 문법은 기본 숫자형 인덱스를 기준으로 적용
    - 기본 숫자형 인덱스로 슬라이싱할 때는 마지막 인덱스는 포함하지 않고, 라벨 인덱스로 슬라이싱할 때는 마지막 인덱스를 포함
    
    
- 컬럼(열) 슬라이싱 
    - 순서가 없기 때문에 컬럼 단독으로 슬라이싱할 수 없음
    - 라벨 기준으로 로우 기준 슬라이싱 결과에 대해 컬럼 슬라이싱 가능(기본 숫자형 인덱스는 적용 불가)
    - 마지막 인덱스를 포함

In [98]:
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [99]:
# 🔴 기본 row 슬라이싱 : df[start:end:step]

## 🔸 0번부터 1번까지 슬라이싱

sample[0:2]

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6


In [102]:
## 🔸 0번부터 2번까지 2행 간격으로 슬라이싱

sample[0:3:2]

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1993,300,450,-13,30,7


In [105]:
# 🔴 전체 로우에 대해 간격을 -1로 지정 : 행을 역순으로 나열

3sample[::-1]

location,서울,경기,충청,경상,전라
1993,300,450,-13,30,7
1992,180,240,3,20,6
1990,150,200,-10,10,5


In [108]:
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [110]:
# 🔴 컬럼 슬라이싱 : 행에 대한 슬라이싱 결과에 열 슬라이싱 적용

## 🔸 df[:, start:end:step]
## 🔸 기본 숫자형 인덱스 기준의 슬라이싱 -> 컬럼명으로 사용

sample.loc[:, :"경상"]

## 로우 : 전체 범위
## 컬럼 : ~ 경상까지

location,서울,경기,충청,경상
1990,150,200,-10,10
1992,180,240,3,20
1993,300,450,-13,30


In [111]:
# 🔴 컬럼, 로우 인덱스 모두 기본 숫자형 인덱스인 경우

## 🔸 1. 4 * 4 구조에서 모든 값이 0인 데이터 프레임 생성

import numpy as np

data = np.zeros((4, 4))
data

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [113]:
## 🔸 2. df화 시키기

df = pd.DataFrame(data)
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0


In [116]:
## 🔸 3. 숫자형 슬라이싱

## 컬럼, 로우 (둘 다는 안되는 듯..?)

df[:3][:1]

Unnamed: 0,0,1,2,3
0,0.0,0.0,0.0,0.0


In [119]:
## 🔸 1. 컬럼 슬라이싱에서 사용하는 인덱스 : 기본 번호 인덱스

## 🔸 2. 컬럼 슬라이싱 조건 : 로우 슬라이싱 결과에서만 가능

## 🔸 3. 메서드를 사용한 로우 슬라이싱 : iloc / loc -> 1

In [118]:
      #로우 #컬럼
df.iloc[:3, :2]

Unnamed: 0,0,1
0,0.0,0.0
1,0.0,0.0
2,0.0,0.0


### <<연습문제>>

- 아래와 같은 데이터 프레임을 생성하고, 출력 화면과 동일한 결과 생성하기

<img src="img/df_practice1.png" width="250" align="left">

In [120]:
data = {'Col1' : [0, 3, 'ks01', 2, 5],
        'Col2' : ['big', 'data', 'is', 'very', 'good'],
        'Col3' : [2.70, -5.00, 2.12, 8.31, -1.34],
        'Col4' : [True, True, False, False, True]}

In [123]:
df = pd.DataFrame(data, index=list('ABCDE'))
df

Unnamed: 0,Col1,Col2,Col3,Col4
A,0,big,2.7,True
B,3,data,-5.0,True
C,ks01,is,2.12,False
D,2,very,8.31,False
E,5,good,-1.34,True


In [127]:
# col1, col3를 함께 조회

df.get(['Col1', 'Col3'])

Unnamed: 0,Col1,Col3
A,0,2.7
B,3,-5.0
C,ks01,2.12
D,2,8.31
E,5,-1.34


In [136]:
# A, C, D 로우만 조회 ( iloc 사용하는 것도 가능 )

df.loc[['A', 'C', 'D']]

Unnamed: 0,Col1,Col2,Col3,Col4
A,0,big,2.7,True
C,ks01,is,2.12,False
D,2,very,8.31,False


In [137]:
# B, D 로우의 Col1, Col2만 조회하기

df.loc[['B', 'D']].get(['Col1', 'Col2'])

Unnamed: 0,Col1,Col2
B,3,data
D,2,very


In [139]:
## 다른 방법 : df.loc['B':'D':2, 'Col1':'Col2']

df.loc['B':'D':2, :'Col2']

Unnamed: 0,Col1,Col2
B,3,data
D,2,very


### ⬛ 컬럼, 로우 추가

- 컬럼 추가 / 변경
    - 컬럼 인덱싱 = 스칼라 값 ( 컬럼 전체가 하나의 값으로 채워짐 )
    - 컬럼 인덱싱 = 배열, 리스트(로우 개수와 아이템 개수 일치)
    - 컬럼 인덱싱 = 컬럼 간의 연산
    - 컬럼 인덱싱 = series를 넣어주기
    
    
- 로우 추가
    - 로우 인덱싱 = 스칼라 값
    - 로우 인덱싱 = 로우 간의 연산
    
    
- 데이터 분석에서 컬럼과 로우의 의미
    - 컬럼 : 변수(특성)
    - 로우 : 개별 데이터(레코드)
    - 전체 데이터를 구성하는 변수를 추가/삭제하는 일은 빈번하게 발생하지만 특정 인덱스를 기준으로 전체 로우 데이터를 추가/삭제하는 일은 자주 발생하지 않으며 데이터 처리를 하는 과정에서 권장하지 않는 작업

In [140]:
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [None]:
# 🔴 컬럼 추가1) 모든 로우에 대해서 동일한 값을 가지는 컬럼 -> 스칼라값(단일 값)

In [142]:
## 🔸 제주 컬럼 추가, 모든 데이터는 1로 통일
### ◾ 1. 없는 컬럼명을 인덱싱,
### ◾ 2. 거기에 1을 대입한다

sample['제주'] = 1
sample

location,서울,경기,충청,경상,전라,제주
1990,150,200,-10,10,5,1
1992,180,240,3,20,6,1
1993,300,450,-13,30,7,1


In [150]:
# 🔴 컬럼 추가2) 서로 다른 값을 가지는 데이터로 열을 구성하는 컬럼의 숫자

## 🔸 조건 : 전달하는 자료형(배열, 리스트)의 길이 = 행의 길이


## 🔸 부산 컬럼 추가, 데이터는 5부터 1씩 증가하는 숫자를 가지는 배열
sample['부산'] = np.arange(5, 8)
sample

location,서울,경기,충청,경상,전라,제주,부산
1990,150,200,-10,10,5,1,5
1992,180,240,3,20,6,1,6
1993,300,450,-13,30,7,1,7


In [159]:
# 🔴 컬럼 추가3) 컬럼간의 연산 -> 파생변수

## 🔸 수도권 : 서울 + 경기

sample['수도권'] = sample['서울'] + sample['경기']
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권
1990,150,200,-10,10,5,1,5,350
1992,180,240,3,20,6,1,6,420
1993,300,450,-13,30,7,1,7,750


In [163]:
# 🔴 컬럼 추가4) Series 객체를 컬럼으로 전달

## 🔸 조건 : 추가 대상의 df의 구조와, 추가 아이템인 Series의 구조를 파악해야함
## 🔸 라벨 인덱스를 기준으로 Series 데이터와 df 데이터가 매핑
## 🔸 Series에 없는 라벨 인덱스의 경우에는 NaN
## 🔸 반드시 길이가 일치하지 않아도 된다.

s1 = pd.Series([9, -99], index=[1990, 1992])
s1

1990     9
1992   -99
dtype: int64

In [164]:
sample['강원'] = s1
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,뭐시기,강원
1990,150,200,-10,10,5,1,5,350,9.0,9.0
1992,180,240,3,20,6,1,6,420,-99.0,-99.0
1993,300,450,-13,30,7,1,7,750,,


In [171]:
# 컬럼 삭제

del sample['뭐시기']
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원
1990,150,200,-10,10,5,1,5,350,9.0
1992,180,240,3,20,6,1,6,420,-99.0
1993,300,450,-13,30,7,1,7,750,
