# "[DA] Pandas - DataFrame 2"
> "데이터 프레임 속성, 데이터 입출력(csv,excel)"

- toc: true
- branch: master
- badges: true
- comments: true
- categories: [pandas,DataFrmae, df]
- author: 도형준

In [1]:
import pandas as pd

## DataFrame의 속성

### DataFrame의 속성 살펴보기

- 속성은 소괄호를 붙이지 않음
- index : df 객체의 행 인덱스 배열을 반환
- columns : df 객체의 열 인덱스 배열을 반환
- axes : df 객체의 행, 열 인덱스를 아이템으로 가지는 배열을 반환
- values : df 객체의 데이터(값)를 아이템으로 가지는 2차원 배열을 반환
- dtypes : df 객체의 데이터 타입을 열 기준으로 반환
- size : df 객체의 데이터 개수(길이)를 반환
- shape : df 객체의 구조(행, 열, 차원)를 반환
- T : 행과 열을 전환시킴

#### DF 생성

In [2]:
# 딕셔너리 타입 데이터로 데이터프레임 생성
# 서울, 경기, 충청, 경상, 전라 지역에 대해 2016, 2017, 2018년 유입인구 데이터 세팅
data = {'서울':[150,180,300],
       '경기':[200,240,450],
       '충청':[-10,3,-13],
       '경상':[10,20,30],
       '전라':[5,6,7]}

In [3]:
sample = pd.DataFrame(data)
sample

Unnamed: 0,서울,경기,충청,경상,전라
0,150,200,-10,10,5
1,180,240,3,20,6
2,300,450,-13,30,7


#### index

In [4]:
# 행(row) 인덱스: 행 개수와 동일하게 리스트로 전달
sample.index = [2018,2019,2020]
sample

Unnamed: 0,서울,경기,충청,경상,전라
2018,150,200,-10,10,5
2019,180,240,3,20,6
2020,300,450,-13,30,7


In [5]:
# 참고: 행 인덱스 이름 지정
sample.index.name = 'year'
sample

Unnamed: 0_level_0,서울,경기,충청,경상,전라
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018,150,200,-10,10,5
2019,180,240,3,20,6
2020,300,450,-13,30,7


#### columns

In [6]:
# 열 인덱스
sample.columns

Index(['서울', '경기', '충청', '경상', '전라'], dtype='object')

In [7]:
# 참고: 열 인덱스 이름 지정
sample.columns.name = 'location'
sample

location,서울,경기,충청,경상,전라
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018,150,200,-10,10,5
2019,180,240,3,20,6
2020,300,450,-13,30,7


In [8]:
# 행 인덱스(row) 수정
# 속성값
# 1. 행의 개수와 동일한 리스트를 전달
# 2. 속성값으로 사용하는 인덱스 객체는 아이템 수정 불가(하나만 수정 불가)
sample.index = [1991,1992,1993]
sample

location,서울,경기,충청,경상,전라
1991,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


#### rename

In [9]:
# 행 인덱스 수정
# df 메서드: df변수.rename(data,axis)
# axis 기본값: 0(로우 == 'index')
# 열 인덱스(컬럼)에 대한 수정: axis =1 혹은 axis ='columns'
# data: 딕셔너리타입, {'이전 인덱스명':'바꿀 인덱스명'}
# inplace = False(기본값): 바뀐 결과가 적용X(시뮬레이션만 수행)
# inplace = True: 바뀐 결과가 바로 적용
sample.rename({1991:1990})

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [10]:
sample

location,서울,경기,충청,경상,전라
1991,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [11]:
sample.rename({1991:1990},inplace = True)
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [12]:
# 열 인덱스(컬럼) 변경: axis =1, axis = 'columns'
# 전라 => 제주로 변경
# 1회성 시뮬레이션
sample.rename({'전라':'제주'},axis='columns')
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


#### axes

In [13]:
# 행, 열 인덱스: df.axes
# 반환값: 리스트 => 첫 번째 아이템(행(row)인덱스), 두번째 아이템(열(col))인덱스
print(sample.axes)

[Int64Index([1990, 1992, 1993], dtype='int64'), Index(['서울', '경기', '충청', '경상', '전라'], dtype='object', name='location')]


- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.reset_index.html?highlight=reset_index

#### reset_index

In [14]:
# reset_index(drop=True)를 사용하면 row에 배정된 인덱스를 일괄 삭제한다
print(sample,'\n')
print(sample.reset_index(drop=True))

location   서울   경기  충청  경상  전라
1990      150  200 -10  10   5
1992      180  240   3  20   6
1993      300  450 -13  30   7 

location   서울   경기  충청  경상  전라
0         150  200 -10  10   5
1         180  240   3  20   6
2         300  450 -13  30   7


In [15]:
# drop에 대해서 True를 주지 않으면, 이전 인덱스가 컬럼으로 편입됩니다.
print(sample,'\n')
print(sample.reset_index())

location   서울   경기  충청  경상  전라
1990      150  200 -10  10   5
1992      180  240   3  20   6
1993      300  450 -13  30   7 

location  index   서울   경기  충청  경상  전라
0          1990  150  200 -10  10   5
1          1992  180  240   3  20   6
2          1993  300  450 -13  30   7


#### values

In [16]:
# 데이터: df.values
# 반환값: 2d array
sample.values

array([[150, 200, -10,  10,   5],
       [180, 240,   3,  20,   6],
       [300, 450, -13,  30,   7]], dtype=int64)

#### size

In [17]:
# 전체 셀(데이터) 개수
sample.size

15

In [18]:
# len으로 조회시 2차원 데이터로 간주해서 row개수만 반환됨
len(sample)

3

#### shape

In [19]:
# 데이터 구조(행,열)
sample.shape

(3, 5)

In [20]:
# 행과 열 전치
print(sample,'\n')
print(sample.T)
sample_t = sample.T

location   서울   경기  충청  경상  전라
1990      150  200 -10  10   5
1992      180  240   3  20   6
1993      300  450 -13  30   7 

          1990  1992  1993
location                  
서울         150   180   300
경기         200   240   450
충청         -10     3   -13
경상          10    20    30
전라           5     6     7


#### T(전치행렬)

In [21]:
# 전치한 df의 행 인덱스
sample_t.index

Index(['서울', '경기', '충청', '경상', '전라'], dtype='object', name='location')

In [22]:
# 전치한 df의 열 인덱스
sample_t.columns

Int64Index([1990, 1992, 1993], dtype='int64')

In [23]:
# 전치는 1회성으로 진행됨(원본 sample 변수는 그대로 3*5 유지)
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


### 인덱싱

#### 컬럼 조회

- 컬럼 조회
    - df[col]
    - df.col
    - df.get(col)
- iloc, loc 메서드로 로우 조회
    - df.iloc[idx] : 기본 숫자형 인덱스
    - df.loc[label] : 새롭게 지정한 인덱스(숫자형이어도 기본 인덱스가 아니면 모두 loc 메서드로 조회)

In [24]:
# 기본적인 인덱싱 기법은 df의 컬럼에서 값을 조회
# 객체[idx_n]
sample['서울']

1990    150
1992    180
1993    300
Name: 서울, dtype: int64

In [25]:
# '서울' 컬럼 조회 3가지 방법
# 1. 기본적인 인덱싱 기호: df[col]
# 2. 컬럼명을 .을 이용해서 조회, 무조건 이름이 변수명으로 사용될 때만 가능
# 3. df의 get 메서드로 조회: df.get(col)
print(sample['서울'],'\n')
print(sample.서울,'\n')
print(sample.get('서울'))

1990    150
1992    180
1993    300
Name: 서울, dtype: int64 

1990    150
1992    180
1993    300
Name: 서울, dtype: int64 

1990    150
1992    180
1993    300
Name: 서울, dtype: int64


#### iloc & loc

In [26]:
# 첫 번째 행(row) 조회: 0번 인덱스 참조
# 반환값: Series
# 라벨 인덱스: 기존 df의 컬럼
# Series name: 기존 df에서 참조한 첫번째 행의 라벨 인덱스
print(sample,'\n')
print(sample.iloc[0])

location   서울   경기  충청  경상  전라
1990      150  200 -10  10   5
1992      180  240   3  20   6
1993      300  450 -13  30   7 

location
서울    150
경기    200
충청    -10
경상     10
전라      5
Name: 1990, dtype: int64


In [27]:
# 숫자형 라벨로 조회: 1992년 행 조회
sample.loc[1992]

location
서울    180
경기    240
충청      3
경상     20
전라      6
Name: 1992, dtype: int64

#### 여러 개의 열 조회(컬럼조회 & (loc, iloc))

In [28]:
# 여러개의 열 조회: 리스트로 묶어서 전달(서울,경기)
sample[['서울','경기']]

location,서울,경기
1990,150,200
1992,180,240
1993,300,450


In [29]:
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [30]:
# 서울, 경기 지역의 1992년 데이터만 조회
print(sample[['서울','경기']].loc[1992],'\n')
print(sample.loc[1992][['서울','경기']])

location
서울    180
경기    240
Name: 1992, dtype: int64 

location
서울    180
경기    240
Name: 1992, dtype: int64


In [31]:
# 여러개의 행 조회(1990,1993년 한꺼번에 조회)
sample.loc[[1990,1993]]

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1993,300,450,-13,30,7


In [32]:
# 1990, 1993년도의 데이터에서 충청지역 데이터만 남기기
print(sample.loc[[1990,1993]]['충청'],'\n')
print(sample.iloc[[0,2]]['충청'])

1990   -10
1993   -13
Name: 충청, dtype: int64 

1990   -10
1993   -13
Name: 충청, dtype: int64


### 슬라이싱

- 로우(행) 슬라이싱
    - 순서가 있으며 로우 단독으로 슬라이싱 가능
    - 기본 슬라이싱 문법은 기본 숫자형 인덱스를 기준으로 적용
    - 기본 숫자형 인덱스로 슬라이싱할 때는 마지막 인덱스는 포함하지 않고 라벨 인덱스로 슬라이싱할 때는 마지막 인덱스를 포함
- 컬럼(열) 슬라이싱
    - 순서가 없기 때문에 컬럼 단독으로 슬라이싱할 수 없음
    - 라벨 기준으로 로우 기준 슬라이싱 결과에 대해 컬럼 슬라이싱 가능(기본 숫자형 인덱스는 적용 불가)
    - 마지막 인덱스를 포함

In [33]:
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


#### row 슬라이싱

In [34]:
# 기본 row 슬라이싱: df[start:end:step]
# 0번부터 1번까지 슬라이싱
sample[0:2]

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6


In [35]:
# 0번부터 2번까지 2행 간격으로 슬라이싱
sample[0:3:2]

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1993,300,450,-13,30,7


In [36]:
# 전체 row에 대해 간격을 -1로 지정: 행을 역순으로 나열
sample[::-1]

location,서울,경기,충청,경상,전라
1993,300,450,-13,30,7
1992,180,240,3,20,6
1990,150,200,-10,10,5


#### col 슬라이싱(col이 문자인 경우)

In [37]:
# 컬럼 슬라이싱: 행에 대한 슬라이싱 결과에 열 슬라이싱 적용
# df[:,start:end:step]
# 기본 숫자형 인덱스 기준의 슬라이싱 => 컬럼명으로 사용
sample.loc[:,'경상']

1990    10
1992    20
1993    30
Name: 경상, dtype: int64

#### col 슬라이싱(col이 숫자인 경우)

In [38]:
# col, row 인덱스 모두 기본 숫자형 인덱스인 경우
# 4*4 구조에서 모든 값이 0인 DF 생성
import numpy as np
data = np.arange(1,17).reshape(4,4)
df = pd.DataFrame(data,index=list('abcd'))
df

Unnamed: 0,0,1,2,3
a,1,2,3,4
b,5,6,7,8
c,9,10,11,12
d,13,14,15,16


In [39]:
# 숫자형 슬라이싱
# 컬럼, 로우
df[:][:2]

Unnamed: 0,0,1,2,3
a,1,2,3,4
b,5,6,7,8


In [40]:
# 1. 컬럼 슬라이싱에서 사용하는 인덱스: 기본 번호 인덱스
# 2. 컬럼 슬라이싱 조건: 로우 슬라이싱 결과에서만 가능
# 3. 메서드를 사용한 로우 슬라이싱: iloc/loc => 1번 기준
df.iloc[:3,:2]

Unnamed: 0,0,1
a,1,2
b,5,6
c,9,10


#### 연습문제

- 아래와 같은 데이터프레임을 생성하고 출력화면과 동일한 결과를 생성하세요.
![df_practice1](https://user-images.githubusercontent.com/105966480/197128261-75ff9079-d415-4271-b8ad-5fe0bbb6e854.PNG)

In [41]:
Col1 = [0,3,'ks01',2,5]
a = 'big data is very good'
Col2 = a.split(' ')
Col3 = [2.7,-5,2.12,8.31,-1.34]
Col4 = [True,True,False,False,True]

df = pd.DataFrame({"Col1":Col1,"Col2":Col2,"Col3":Col3,"Col4":Col4},index=list('ABCDE'))
df

Unnamed: 0,Col1,Col2,Col3,Col4
A,0,big,2.7,True
B,3,data,-5.0,True
C,ks01,is,2.12,False
D,2,very,8.31,False
E,5,good,-1.34,True


In [42]:
# Col1, Col3 함께 조회하기
df[['Col1','Col3']]

Unnamed: 0,Col1,Col3
A,0,2.7
B,3,-5.0
C,ks01,2.12
D,2,8.31
E,5,-1.34


In [43]:
# A,C,D row만 조회
df.loc[['A','C','D']]

Unnamed: 0,Col1,Col2,Col3,Col4
A,0,big,2.7,True
C,ks01,is,2.12,False
D,2,very,8.31,False


In [44]:
# B,D row의 Col1,Col2만 조회하기
df.loc[['B','D']][['Col1','Col2']]

Unnamed: 0,Col1,Col2
B,3,data
D,2,very


### 컬럼, 로우 추가

#### 컬럼추가

In [45]:
# 컬럼 추가 1: 모든 로우에 대해서 동일한 값을 가지는 ㅋ러럼 => 스칼라(단일값)
sample

location,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [46]:
# 제주 컬럼 추가, 모든 데이터는 1로 통일
sample['제주']=1
sample

location,서울,경기,충청,경상,전라,제주
1990,150,200,-10,10,5,1
1992,180,240,3,20,6,1
1993,300,450,-13,30,7,1


In [47]:
# 컬럼 추가2: 서로 다른 값을 가지는 데이터로 열을 구성하는 컬럼의 숫자
# 조건: 전달하는 자료형(배열, 리스트)의 길이 = 행의 길이
# 부산 컬럼 추가, 데이터는 5부터 1씩 증가하는 숫자를 가지는 배열
sample['부산'] = np.arange(5,8)
sample

location,서울,경기,충청,경상,전라,제주,부산
1990,150,200,-10,10,5,1,5
1992,180,240,3,20,6,1,6
1993,300,450,-13,30,7,1,7


In [48]:
# 컬럼 추가3: 컬럼간의 연산 => 파생 변수
# 수도권: 서울 + 경기
sample['수도권'] = sample['서울']+sample['경기']
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권
1990,150,200,-10,10,5,1,5,350
1992,180,240,3,20,6,1,6,420
1993,300,450,-13,30,7,1,7,750


In [49]:
# 컬럼추가 4: Series 객체를 컬럼으로 전달
# 조건: 추가 대상인 df의 구조와 추가 아이템인 Series의 구조를 파약하야함
# 라벨 인덱스를 기준으로 Series데이터와 df데이터가 매핑
# Series에 없는 라벨 인덱스의 경우에는 NaN
# 반드시 길이가 일치하지 않아도 된다
s1 = pd.Series([9,99],index=[1990,1992])
s1

1990     9
1992    99
dtype: int64

In [50]:
sample['강원'] = s1
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원
1990,150,200,-10,10,5,1,5,350,9.0
1992,180,240,3,20,6,1,6,420,99.0
1993,300,450,-13,30,7,1,7,750,


In [51]:
# 데이터의 개수가 동일해도 라벨 기준으로 매핑하기 때문에, 값 전달이 이뤄지지 않는 케이스
s2 = pd.Series([100,100,100])
s2

0    100
1    100
2    100
dtype: int64

In [52]:
sample['test'] = s2
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1990,150,200,-10,10,5,1,5,350,9.0,
1992,180,240,3,20,6,1,6,420,99.0,
1993,300,450,-13,30,7,1,7,750,,


In [53]:
# 값 전달을 하기 위해서는 df의 인덱스를 전달
s2 = pd.Series([100,100,100],index=sample.index)
s2

1990    100
1992    100
1993    100
dtype: int64

In [54]:
sample['test'] = s2
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1990,150,200,-10,10,5,1,5,350,9.0,100
1992,180,240,3,20,6,1,6,420,99.0,100
1993,300,450,-13,30,7,1,7,750,,100


#### 로우추가

- 로우 추가
    - 로우 인덱싱 = 스칼라 값
    - 로우 인덱싱 = 로우 간의 연산
    - 로우 인덱싱 = 자료형(배열, 리스트 / 컬럼 개수와 아이템 개수 일치)

In [55]:
# 로우는 .loc를 이용해서 추가해준다
# .loc가 붙는다는 점만 빼고는 컬럼과 완전히 동일한 문법을 사용한다.
sample.loc[1994] = 0
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1990,150,200,-10,10,5,1,5,350,9.0,100
1992,180,240,3,20,6,1,6,420,99.0,100
1993,300,450,-13,30,7,1,7,750,,100
1994,0,0,0,0,0,0,0,0,0.0,0


In [56]:
sample.shape

(4, 10)

In [57]:
# 배열, 리스트, 딕셔너리" 로우 추가 가능한 자료형
# 컬럼개수와 아이템 개수를 일치시켜 전달
sample.loc[1995] = np.arange(10) #0~9까지 전달
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1990,150,200,-10,10,5,1,5,350,9.0,100
1992,180,240,3,20,6,1,6,420,99.0,100
1993,300,450,-13,30,7,1,7,750,,100
1994,0,0,0,0,0,0,0,0,0.0,0
1995,0,1,2,3,4,5,6,7,8.0,9


In [58]:
# 딕셔너리로 각 컬럼명:값 형식으로 매칭된 자료를 연도 로우에 대입
sample.loc[1996] = {'서울':10, '경기':20, '충청':40, '경상':21, '전라':37,
                   '제주':103, '부산':28, '수도권':30, '강원':15, 'test':0}
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1990,150,200,-10,10,5,1,5,350,9.0,100
1992,180,240,3,20,6,1,6,420,99.0,100
1993,300,450,-13,30,7,1,7,750,,100
1994,0,0,0,0,0,0,0,0,0.0,0
1995,0,1,2,3,4,5,6,7,8.0,9
1996,10,20,40,21,37,103,28,30,15.0,0


In [59]:
# 로우끼리 연산: 1997년 로우를 추가해주시고, 95+96년으로 입력하기
sample.loc[1997] = sample.loc[1995] + sample.loc[1996]
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1990,150.0,200.0,-10.0,10.0,5.0,1.0,5.0,350.0,9.0,100.0
1992,180.0,240.0,3.0,20.0,6.0,1.0,6.0,420.0,99.0,100.0
1993,300.0,450.0,-13.0,30.0,7.0,1.0,7.0,750.0,,100.0
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1995,0.0,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0
1996,10.0,20.0,40.0,21.0,37.0,103.0,28.0,30.0,15.0,0.0
1997,10.0,21.0,42.0,24.0,41.0,108.0,34.0,37.0,23.0,9.0


In [60]:
import numpy as np

### 로우, 컬럼 삭제

- 컬럼 삭제
    - del 키워드 + 컬럼 인덱싱
    - df.drop(col, axis=1)
    - df.drop(columns=col)
- 로우 삭제
    - df.drop(idx) : axis = 0 (기본값)

#### 컬럼삭제

In [61]:
# 컬럼 삭제 1: del 키워드 + 컬럼 인덱싱
# 특징: 원본 객체에서 바로 데이터가 사라짐(시뮬레이션 아니고 즉시 적용)
del sample['test']
sample

location,서울,경기,충청,경상,전라,제주,부산,수도권,강원
1990,150.0,200.0,-10.0,10.0,5.0,1.0,5.0,350.0,9.0
1992,180.0,240.0,3.0,20.0,6.0,1.0,6.0,420.0,99.0
1993,300.0,450.0,-13.0,30.0,7.0,1.0,7.0,750.0,
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1995,0.0,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0
1996,10.0,20.0,40.0,21.0,37.0,103.0,28.0,30.0,15.0
1997,10.0,21.0,42.0,24.0,41.0,108.0,34.0,37.0,23.0


In [67]:
# 컬럼 삭제 2: df.drop(columns = 컬럼이름)
# 특징: 원본 반영되지 않음 => inplace =True 기입시 원본에 바로 반영
# 경상 컬럼을 위의 설명을 참조해 삭제하는 코드 작성
sample.drop(columns = ['경상'],inplace =True)
sample

location,서울,경기,충청,전라,제주,부산,수도권,강원
1990,150.0,200.0,-10.0,5.0,1.0,5.0,350.0,9.0
1992,180.0,240.0,3.0,6.0,1.0,6.0,420.0,99.0
1993,300.0,450.0,-13.0,7.0,1.0,7.0,750.0,
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1995,0.0,1.0,2.0,4.0,5.0,6.0,7.0,8.0
1996,10.0,20.0,40.0,37.0,103.0,28.0,30.0,15.0
1997,10.0,21.0,42.0,41.0,108.0,34.0,37.0,23.0


In [69]:
# 컬럼 삭제 3: df.drop(컬럼명, axis = 1)
# 충청 컬럼 삭제하는 코드 작성
sample.drop('충청',axis=1,inplace=True)
sample

location,서울,경기,전라,제주,부산,수도권,강원
1990,150.0,200.0,5.0,1.0,5.0,350.0,9.0
1992,180.0,240.0,6.0,1.0,6.0,420.0,99.0
1993,300.0,450.0,7.0,1.0,7.0,750.0,
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1995,0.0,1.0,4.0,5.0,6.0,7.0,8.0
1996,10.0,20.0,37.0,103.0,28.0,30.0,15.0
1997,10.0,21.0,41.0,108.0,34.0,37.0,23.0


#### 로우 삭제

In [70]:
# 로우 삭제
# df.drop(로우명,axis = 0(생략가능))
# 1995년 데이터를 삭제
sample.drop(1995,axis=0,inplace =True)
sample

location,서울,경기,전라,제주,부산,수도권,강원
1990,150.0,200.0,5.0,1.0,5.0,350.0,9.0
1992,180.0,240.0,6.0,1.0,6.0,420.0,99.0
1993,300.0,450.0,7.0,1.0,7.0,750.0,
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1996,10.0,20.0,37.0,103.0,28.0,30.0,15.0
1997,10.0,21.0,41.0,108.0,34.0,37.0,23.0


In [74]:
# 두 개 이상의 컬럼이나 로우 삭제: 리스트로 묶어서 전달
#[제주, 강원] 삭제하기
sample.drop(columns=['제주','강원'],inplace=True)
sample

location,서울,경기,전라,부산,수도권
1990,150.0,200.0,5.0,5.0,350.0
1992,180.0,240.0,6.0,6.0,420.0
1993,300.0,450.0,7.0,7.0,750.0
1994,0.0,0.0,0.0,0.0,0.0
1996,10.0,20.0,37.0,28.0,30.0
1997,10.0,21.0,41.0,34.0,37.0


In [75]:
# 로우 역시 리스트로 묶어서 전달하면 동시에 두개 이상도 삭제 가능
# 1994, 1997년 데이터 삭제
sample.drop([1994,1997],inplace=True)
sample

location,서울,경기,전라,부산,수도권
1990,150.0,200.0,5.0,5.0,350.0
1992,180.0,240.0,6.0,6.0,420.0
1993,300.0,450.0,7.0,7.0,750.0
1996,10.0,20.0,37.0,28.0,30.0


### 산술연산

- dataframe 과 스칼라 값 산술연산
- dataframe 과 series 간의 산술연산
- dataframe 간의 산술연산
    - 컬럼, 로우 인덱스를 기준으로 연산 수행
    - 공통으로 존재하지 않는 경우 NaN 반환
    - fill_value 인자 값을 통해 NaN이 아닌 값으로 대체 가능
- 연산의 종류
    - 더하기 : +, add() 메서드
    - 빼기 : -, sub() 메서드
    - 곱하기 : *, mul() 메서드
    - 나머지만 반환 : %
    - 몫만 반환 : //

In [78]:
# 컬럼명을 서울, 경기, 인천으로, 로우명을 a,b,c로 가지고
# 0부터 1씩 증가하는 정수 값을 데이터로 가지는 DF
df1 = pd.DataFrame(np.arange(9).reshape(3,3),
                  index=list('abc'),
                  columns=['서울','인천','경기'])
df1

Unnamed: 0,서울,인천,경기
a,0,1,2
b,3,4,5
c,6,7,8


In [80]:
# 컬럼명을 서울, 경기, 인천, 세종, 강원으로
# 로우명을 a,b,c,d로 가지고 01부터 1씩 증가하는 정수값을 데이터로 가지는 DF
df2 = pd.DataFrame(np.arange(20).reshape(4,5),
                  index=list('abcd'),
                  columns=['서울','경기','인천','세종','강원'])
df2

Unnamed: 0,서울,경기,인천,세종,강원
a,0,1,2,3,4
b,5,6,7,8,9
c,10,11,12,13,14
d,15,16,17,18,19


#### 더하기

In [81]:
# 데이터 프레임 간의 더하기 연산
# 결과해석: 공통 컬럼, 로우인 데이터만 정상 더하기, 아니 부분은 NaN
df1 + df2

Unnamed: 0,강원,경기,서울,세종,인천
a,,3.0,0.0,,3.0
b,,11.0,8.0,,11.0
c,,19.0,16.0,,19.0
d,,,,,


In [82]:
# 데이터프레임 간의 빼기 연산
df1 - df2

Unnamed: 0,강원,경기,서울,세종,인천
a,,1.0,0.0,,-1.0
b,,-1.0,-2.0,,-3.0
c,,-3.0,-4.0,,-5.0
d,,,,,


In [84]:
df1.loc[['a','b','c']]+df2.loc[['d','b','a','c']]

Unnamed: 0,강원,경기,서울,세종,인천
a,,3.0,0.0,,3.0
b,,11.0,8.0,,11.0
c,,19.0,16.0,,19.0
d,,,,,


In [86]:
# d,b,a,c로 정렬하고 싶다면?
(df1.loc[['a','b','c']]+df2.loc[['d','b','a','c']]).loc[['d','b','a','c']]

Unnamed: 0,강원,경기,서울,세종,인천
d,,,,,
b,,11.0,8.0,,11.0
a,,3.0,0.0,,3.0
c,,19.0,16.0,,19.0


#### 빼기

In [87]:
df1.sub(df2,fill_value = 0)

Unnamed: 0,강원,경기,서울,세종,인천
a,-4.0,1.0,0.0,-3.0,-1.0
b,-9.0,-1.0,-2.0,-8.0,-3.0
c,-14.0,-3.0,-4.0,-13.0,-5.0
d,-19.0,-16.0,-15.0,-18.0,-17.0


#### 곱하기

In [88]:
# 데이터 프레임간의 곱하기 연산
df1 * df2

Unnamed: 0,강원,경기,서울,세종,인천
a,,2.0,0.0,,2.0
b,,30.0,15.0,,28.0
c,,88.0,60.0,,84.0
d,,,,,


In [89]:
# .mul로 처리 가능, 곱 연산시 대상 값이 없는 부분을 1로 간주하고 계산
df1.mul(df2,fill_value = 1)

Unnamed: 0,강원,경기,서울,세종,인천
a,4.0,2.0,0.0,3.0,2.0
b,9.0,30.0,15.0,8.0,28.0
c,14.0,88.0,60.0,13.0,84.0
d,19.0,16.0,15.0,18.0,17.0


#### 나누기

In [90]:
# 데이터프레임 나누기 연산
df1/df2

Unnamed: 0,강원,경기,서울,세종,인천
a,,2.0,,,0.5
b,,0.833333,0.6,,0.571429
c,,0.727273,0.6,,0.583333
d,,,,,


In [91]:
# divide를 이용해 값이 없는 부분을 1로 간주해 나누기
df1.divide(df2,fill_value = 1)

Unnamed: 0,강원,경기,서울,세종,인천
a,0.25,2.0,,0.333333,0.5
b,0.111111,0.833333,0.6,0.125,0.571429
c,0.071429,0.727273,0.6,0.076923,0.583333
d,0.052632,0.0625,0.066667,0.055556,0.058824


### DataFrame과 Series 간의 연산

- 기본적인 동작은 Series 객체의 인덱스를 DataFrame 객체의 컬럼 인덱스와 매핑하여 브로드캐스팅과 유사하게 연산 수행
- 두 객체 간의 공통된 인덱스가 아닌 대상은 NaN 값으로 대입
- 메서드를 사용하여 연산을 수행할 때는 axis 파라미터를 통해 연산을 적용할 축 지정(0:행, 1:열)
- 연산의 종류
    - 더하기 : +, add() 메서드
    - 빼기 : -,  sub() 메서드
    - 곱하기 : *, mul() 메서드

#### 더하기

In [92]:
# 컬럼명 a,b,c,d
# 로우명: 2010,2011,2012
# 데이터: 0부터 1씩 증가하는 정수
df = pd.DataFrame(np.arange(12).reshape(3,4),
                 index = [2010,2011,2012],
                 columns=list('abcd'))
df

Unnamed: 0,a,b,c,d
2010,0,1,2,3
2011,4,5,6,7
2012,8,9,10,11


In [93]:
# 첫 번째 행을 추출
# s1: 라벨 인덱스가 적용된 시리즈
s1 = df.iloc[0]
s1

a    0
b    1
c    2
d    3
Name: 2010, dtype: int32

In [94]:
df

Unnamed: 0,a,b,c,d
2010,0,1,2,3
2011,4,5,6,7
2012,8,9,10,11


In [96]:
# Series(라벨인덱스 a,b,c,d)와 df의 결합 기준: 이름이 일치할 때 더하기
df + s1

Unnamed: 0,a,b,c,d
2010,0,2,4,6
2011,4,6,8,10
2012,8,10,12,14


#### 빼기

In [97]:
# 데이터프레임
# 컬럼명: a,b,c,d,e
# 데이터: 20개의 0
df2 = pd.DataFrame(np.zeros(20).reshape(4,5),
                  columns=list('abcde'))
df2

Unnamed: 0,a,b,c,d,e
0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0


In [98]:
# 기본 인덱스를 가진 시리즈
# 데이터 0,1,2,3,
s2 = pd.Series(np.arange(5))
s2

0    0
1    1
2    2
3    3
4    4
dtype: int32

In [99]:
# 열 단위 산술 연산
# 기본 동작: Series의 로우 인덱스를 df의 컬럼에서 매핑
# 결과 해석
df2.sub(s2)

Unnamed: 0,a,b,c,d,e,0,1,2,3,4
0,,,,,,,,,,
1,,,,,,,,,,
2,,,,,,,,,,
3,,,,,,,,,,


In [100]:
# axis = 0: 컬럼과 시리즈의 라벨인덱스가 아닌 로우와 시리즈의 라벨 인덱스 일치시 연산
# 결과해석: idx 4번의 결과만 NaN(s2의 4번 인덱스)
df2.sub(s2,axis=0)

Unnamed: 0,a,b,c,d,e
0,0.0,0.0,0.0,0.0,0.0
1,-1.0,-1.0,-1.0,-1.0,-1.0
2,-2.0,-2.0,-2.0,-2.0,-2.0
3,-3.0,-3.0,-3.0,-3.0,-3.0
4,,,,,


In [101]:
# df의 컬럼에 없는 인덱스를 가진 Series
# 인덱스: a,c,e
# 데이터: 3,3,3
s3 = pd.Series([3,3,3],index=list('ace'))
s3

a    3
c    3
e    3
dtype: int64

In [102]:
# 공통되지 않은 인덱스값과 컬럼값 => NaN
df - s3

Unnamed: 0,a,b,c,d,e
2010,-3.0,,-1.0,,
2011,1.0,,3.0,,
2012,5.0,,7.0,,


In [103]:
df.sub(s3)

Unnamed: 0,a,b,c,d,e
2010,-3.0,,-1.0,,
2011,1.0,,3.0,,
2012,5.0,,7.0,,


## 데이터 입출력

### csv 파일 적재

- pd.read_csv()
    - 컬럼명이 존재하는 데이터
    - 컬럼명이 없는 데이터
    - 구분자 설정

#### 기본적인 읽기(header, sep)

In [111]:
# data1/ex1.csv 파일 읽기컬럼명이 존재하는 csv파일
# read_csv 기본동작: 첫 행 데이터를 컬럼으로 사용
# 경로 중 겹치는 부분을 제하고 달라지는 분기점부터 입력
data = pd.read_csv("data/ex1.csv")
data

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [122]:
# data1/ex2.csv 파일 읽기컬럼명이 존재하지 않는 csv파일
# read_csv 기본동작: header = None
data = pd.read_csv("data/ex2.csv",header=None)
data

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [123]:
# 컬럼명 a,b,c,d,e를 data변수에 부여
data.columns=list('abcde')
data

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [121]:
# data/ex3.csv 읽기
# 기본 구분자 = '
# read_csv(): sep 파라미터
data2 = pd.read_csv("data/ex3.csv",sep=',')
data2

Unnamed: 0,A B C
0,aaa -0.264438 -1.026059 -0.619500
1,bbb 0.927272 0.302904 -0.032399
2,ccc -0.264273 -0.386314 -0.217601
3,ddd -0.871858 -0.348382 1.100491


In [125]:
# ,가 아닌 문자를 구분자로 사용하는 데이터 처리
pd.read_csv('data/ex3.csv',sep = '\t')

Unnamed: 0,A B C
0,aaa -0.264438 -1.026059 -0.619500
1,bbb 0.927272 0.302904 -0.032399
2,ccc -0.264273 -0.386314 -0.217601
3,ddd -0.871858 -0.348382 1.100491


In [126]:
# 구분자 : ",", " ", "\t", "/", "\" => 전부 \s+로 처리 가능
pd.read_csv('data/ex3.csv', sep="\s+")

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


#### 파라미터1: skiprows

In [128]:
# data/ex4.csv 읽기(주석이 포함된 파일 읽기)
# 파라미터1: skiprows = [생략하고 읽을 로우 인덱스 번호]
pd.read_csv('data/ex4.csv')

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,# hey!
a,b,c,d,message
# just wanted to make things more difficult for you,,,,
# who reads CSV files with computers,anyway?,,,
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [129]:
pd.read_csv('data/ex4.csv',skiprows=[0,2,3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


#### 파라미터2: comment

In [130]:
# 파라미터2: comment  '주석기호'(주석 유도시 사용한 주석 시작 기호 입력)
pd.read_csv('data/ex4.csv',comment='#')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


### 엑셀 파일 적재

- 기본적으로 첫번째 시트에 있는 데이터를 읽어와서 데이터프레임으로 저장
- 모든 시트를 읽기 위해서는 sheetname 인자를 None으로 설정
    - 모든 시트의 데이터를 읽어서 사전 형태로 저장
    - key = 시트의 이름, value = 각 시트에 있는 데이터들을 저장한 데이터프레임
- 특정 시트만 읽기 위해서는 sheetname 인자에 '시트명' 설정

#### ex6.xlsx 파일
![엑셀파일예제](https://user-images.githubusercontent.com/105966480/197440443-e36b430a-354c-41b3-9589-335b20d6a976.jpg)

In [131]:
# 파일 읽기(첫 번째 시트만 자동으로 읽어옴, default)
pd.read_excel('data/ex6.xlsx')

Unnamed: 0,a,b
0,1,2
1,5,6
2,9,10


In [133]:
# 두번째 시트 읽기: sheet_name = '시트명'
pd.read_excel('data/ex6.xlsx', sheet_name = '시트2')

Unnamed: 0,c,d,message
0,3,4,hello
1,7,8,world
2,11,12,foo


In [134]:
# 모든 시트 다 읽어오기
# sheet_name 파라미터 설정: None
data = pd.read_excel('data/ex6.xlsx',sheet_name = None)
data

{'시트1':    a   b
 0  1   2
 1  5   6
 2  9  10,
 '시트2':     c   d message
 0   3   4   hello
 1   7   8   world
 2  11  12     foo}

In [135]:
data.keys()

dict_keys(['시트1', '시트2'])

In [136]:
data.values()

dict_values([   a   b
0  1   2
1  5   6
2  9  10,     c   d message
0   3   4   hello
1   7   8   world
2  11  12     foo])

In [137]:
# 시트1, 시트2의 데이터를 각각 변수 data1,data2에 저장하기
data1,data2 = data.values()

In [138]:
data1

Unnamed: 0,a,b
0,1,2
1,5,6
2,9,10


In [139]:
data2

Unnamed: 0,c,d,message
0,3,4,hello
1,7,8,world
2,11,12,foo
