# pandas
- "액셀"과 유사한 데이터프레임(DataFrame)을 사용하기 위해 필요
- 데이터프레임은 데이터 처리에 가장 많이 사용되는 2차원, 테이블형 데이터 구조
- 리스트는 1차원 데이터 구조였다

## 데이터 프레임 만들기
- 딕셔너리를 만든 후 이를 데이터프레임으로 바꾸는 방법
- 배열, 리스트, 튜플로부터 만드는 방법
- csv 파일을 읽어 만드는 방법
- 액셀 파일을 읽어 만드는 방법

## 딕셔너리에서 만드는 방법

## import

In [1]:
%config InlineBackend.figure_format = 'retina'

In [2]:
## 딕셔너리에서 데이터프레임을 만드는 예

import pandas as pd

x = {'city': ['서울', '부산', '대구', '대전', '광주'],
     'population': [990, 350, 250, 154, 150],
     'temp': [13, 16, 14, 13, 15]}

df = pd.DataFrame(x)
df

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


- 딕셔너리의 키를 컬럼명으로, 값을 데이터로 사용한다
- 인덱스(행 번호)가 자동으로 만들어진다

In [3]:
## 데이터프레임의 구조(shape)와 행과 열의 수 확인하기

print(df.shape)    # 데이터프레임 구조
print(df.shape[0]) # 행의 수
print(df.shape[1]) # 열의 수

(5, 3)
5
3


# 데이터프레임 다루기

In [4]:
## 일부 컬럼만 보기

df2 = df[['city', 'temp']]
df2

Unnamed: 0,city,temp
0,서울,13
1,부산,16
2,대구,14
3,대전,13
4,광주,15


- 원본 데이터는 바뀌지 않는다

## 컬럼 이름 바꾸기
- columns 사용

In [5]:
## 컬럼명 바꾸기

df.columns = ['도시','인구','날씨']
df

Unnamed: 0,도시,인구,날씨
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


In [6]:
## 백업을 하려면 물리적인 복사를 해야 한다

df_backup = df        # 물리적인 복사를 하지 않는다
df_backup = df.copy() # 물리적으로 사본을 만든다

In [7]:
## 컬럼과 행의 인덱스 보기

print(df.columns)
print(df.index)

Index(['도시', '인구', '날씨'], dtype='object')
RangeIndex(start=0, stop=5, step=1)


## 인덱스 바꾸기

In [8]:
## 인덱스를 컬럼중에서 하나로 선택하기

df2 = df.set_index('도시')
df2

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,990,13
부산,350,16
대구,250,14
대전,154,13
광주,150,15


- 원본 데이터는 바뀌지 않는다 (파이썬의 데이터 복사 최소화 원칙)

- 수행 결과를 원본 데이터에 반영하려면 inplace=True 사용

In [9]:
## 변경된 내용을 원래 객체에 바로 반영하는 두 가지 방법

df = df_backup.copy()             # df 백업 원본 가져오기
df.set_index('도시', inplace=True) # inplace 옵션을 사용하는 방법
# df = df.set_index('도시')        # 다른 방법: df를 엎어쓰는 방법
print(df.index)
df

Index(['서울', '부산', '대구', '대전', '광주'], dtype='object', name='도시')


Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,990,13
부산,350,16
대구,250,14
대전,154,13
광주,150,15


## 인데스 원상복귀
- reset_index 사용
- 정수형 인덱스가 자동으로 생성된다
- 기존의 인덱스는 컬럼으로 편입된다

In [10]:
## 인데스를 컬럼으로 복귀하기

df.reset_index(inplace=True)
df

Unnamed: 0,도시,인구,날씨
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


## 샘플 추가
- 데이터프레임 합치기 (보통 행 방향으로 합친다-샘플 추가)
- 판다스의  concat() 사용

In [11]:
## 새로운 데이터프레임을 만들고 두 개를 합치기
 
x2 = {'city': ['인천', '울산'],
        'population': [290, 120],
        'temp': [12.7, 15.5]}
df2 = pd.DataFrame(x2)
df2.columns = ['도시','인구','날씨'] 

# 데이터프레임 합치기 (행 방향)
df3 = pd.concat([df, df2])
df3

Unnamed: 0,도시,인구,날씨
0,서울,990,13.0
1,부산,350,16.0
2,대구,250,14.0
3,대전,154,13.0
4,광주,150,15.0
0,인천,290,12.7
1,울산,120,15.5


In [12]:
## 기존의 인덱스 번호는 무시하고 새로 인덱스 만들기

df3 = pd.concat([df, df2], ignore_index=True)
df3

Unnamed: 0,도시,인구,날씨
0,서울,990,13.0
1,부산,350,16.0
2,대구,250,14.0
3,대전,154,13.0
4,광주,150,15.0
5,인천,290,12.7
6,울산,120,15.5


In [13]:
# 인덱스를 '도시'컬럼으로 설정한 후 특정 샘플 추출하기

df = df3.copy()
df.set_index('도시', inplace=True)
df.loc[['대전','부산','광주']]

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
대전,154,13.0
부산,350,16.0
광주,150,15.0


In [14]:
# 정수형 순서 번호로 행을 추출하는 방법

df.iloc[1:5]   # 두번째(1) 행부터 다섯번째(4) 행까지 추출 

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,350,16.0
대구,250,14.0
대전,154,13.0
광주,150,15.0


## 컬럼 추가
- 기존에 없던 컬럼(열) 이름을 지정하면 새로운 열이 만들어진다

In [15]:
## 컬럼을 추가하는 방법

cars = [300, 140, 120, 70, 50, 170, 60]
df['자동차'] = cars
df["대도시"] = 1  # 동일한 값을 컬럼에 추가
df

Unnamed: 0_level_0,인구,날씨,자동차,대도시
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,990,13.0,300,1
부산,350,16.0,140,1
대구,250,14.0,120,1
대전,154,13.0,70,1
광주,150,15.0,50,1
인천,290,12.7,170,1
울산,120,15.5,60,1


In [16]:
## 기존 컬럼을 값을 갱신하는 방법

new_cars = [400, 150, 130, 80, 60, 200, 70]
df['자동차'] = new_cars
df

Unnamed: 0_level_0,인구,날씨,자동차,대도시
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,990,13.0,400,1
부산,350,16.0,150,1
대구,250,14.0,130,1
대전,154,13.0,80,1
광주,150,15.0,60,1
인천,290,12.7,200,1
울산,120,15.5,70,1


In [17]:
# 특정 조건을 만족하는 행들을 찾는 방법

df['big'] = df["자동차"] >= 100
df

Unnamed: 0_level_0,인구,날씨,자동차,대도시,big
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,13.0,400,1,True
부산,350,16.0,150,1,True
대구,250,14.0,130,1,True
대전,154,13.0,80,1,False
광주,150,15.0,60,1,False
인천,290,12.7,200,1,True
울산,120,15.5,70,1,False


In [18]:
## 해당 컬럼만 추출하는 방법

df[df["자동차"] >= 100]  # 인덱스가 True인 항목만 리턴

Unnamed: 0_level_0,인구,날씨,자동차,대도시,big
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,13.0,400,1,True
부산,350,16.0,150,1,True
대구,250,14.0,130,1,True
인천,290,12.7,200,1,True


## 행(샘플) 삭제

In [19]:
## 인덱스를 사용하여 행 삭제하기

df2 = df.drop(["서울", "울산"])
df2

Unnamed: 0_level_0,인구,날씨,자동차,대도시,big
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
부산,350,16.0,150,1,True
대구,250,14.0,130,1,True
대전,154,13.0,80,1,False
광주,150,15.0,60,1,False
인천,290,12.7,200,1,True


## 컬럼 삭제

In [20]:
df

Unnamed: 0_level_0,인구,날씨,자동차,대도시,big
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,13.0,400,1,True
부산,350,16.0,150,1,True
대구,250,14.0,130,1,True
대전,154,13.0,80,1,False
광주,150,15.0,60,1,False
인천,290,12.7,200,1,True
울산,120,15.5,70,1,False


In [21]:
df_backup2 = df.copy()

In [22]:
## 특정 컬럼을 삭제하려면 axis=1 선택한다

df2 = df.drop(["big"], axis=1)
df2

Unnamed: 0_level_0,인구,날씨,자동차,대도시
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,990,13.0,400,1
부산,350,16.0,150,1
대구,250,14.0,130,1
대전,154,13.0,80,1
광주,150,15.0,60,1
인천,290,12.7,200,1
울산,120,15.5,70,1


In [23]:
df

Unnamed: 0_level_0,인구,날씨,자동차,대도시,big
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,13.0,400,1,True
부산,350,16.0,150,1,True
대구,250,14.0,130,1,True
대전,154,13.0,80,1,False
광주,150,15.0,60,1,False
인천,290,12.7,200,1,True
울산,120,15.5,70,1,False


## (참고) 딕셔너리를 사용한 컬럼 이름 바꾸기
- 딕셔너리의 키:값 조합으로 컬럼명을 바꿀 수 있다
- rename() 사용

In [24]:
new_names = {'big': '100만대이상', '날씨':'기온'}
df.rename(columns = new_names, inplace=True)
df

Unnamed: 0_level_0,인구,기온,자동차,대도시,100만대이상
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,13.0,400,1,True
부산,350,16.0,150,1,True
대구,250,14.0,130,1,True
대전,154,13.0,80,1,False
광주,150,15.0,60,1,False
인천,290,12.7,200,1,True
울산,120,15.5,70,1,False


## 정렬

In [25]:
## 특정 컬럼을 기준으로 순서 정렬하기

df.sort_values(['인구'])

Unnamed: 0_level_0,인구,기온,자동차,대도시,100만대이상
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
울산,120,15.5,70,1,False
광주,150,15.0,60,1,False
대전,154,13.0,80,1,False
대구,250,14.0,130,1,True
인천,290,12.7,200,1,True
부산,350,16.0,150,1,True
서울,990,13.0,400,1,True


In [26]:
## 내림차순으로 순서 정렬하기

df.sort_values(['인구'], ascending=False)

Unnamed: 0_level_0,인구,기온,자동차,대도시,100만대이상
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,13.0,400,1,True
부산,350,16.0,150,1,True
인천,290,12.7,200,1,True
대구,250,14.0,130,1,True
대전,154,13.0,80,1,False
광주,150,15.0,60,1,False
울산,120,15.5,70,1,False


# Series

In [27]:
## 데이터프레임에서 시리즈 추출하기

s = df['기온']
print(type(s))
s

<class 'pandas.core.series.Series'>


도시
서울    13.0
부산    16.0
대구    14.0
대전    13.0
광주    15.0
인천    12.7
울산    15.5
Name: 기온, dtype: float64

- 데이터프레임에서 한 컬럼을 취하면 시리즈가 된다
- 시리즈에도 인덱스가 붙어있다는 것을 주의

## 시리즈 항목의 빈도수 세기

In [28]:
## 시리즈 항목의 종류와 빈도수 세기

print(s.unique())       # 항목의 종류
print(s.nunique())      # 항목의 총수, 6가지임
print(s.value_counts()) # 항목별 발생 빈도수

[13.  16.  14.  15.  12.7 15.5]
6
13.0    2
14.0    1
15.5    1
15.0    1
16.0    1
12.7    1
Name: 기온, dtype: int64


# 데이터프레임 저장
- to_csv(): csv 파일로 저장
- to_excel(): 액셀 파일로 저장

In [29]:
## 데이터프레임을 csv 파일, 액셀로 저장하기

df.to_csv('cities.csv')
df.to_excel('cities.xlsx')

!head cities.csv  # 윈도우에서는 !type cities.csv

도시,인구,기온,자동차,대도시,100만대이상
서울,990,13.0,400,1,True
부산,350,16.0,150,1,True
대구,250,14.0,130,1,True
대전,154,13.0,80,1,False
광주,150,15.0,60,1,False
인천,290,12.7,200,1,True
울산,120,15.5,70,1,False


In [30]:
## 데이터프레임 저장시 인덱스 제거하기

df.to_csv('cities_2.csv', index=False)
!head cities_2.csv  # 윈도우에서는 !type cities_2.csv

인구,기온,자동차,대도시,100만대이상
990,13.0,400,1,True
350,16.0,150,1,True
250,14.0,130,1,True
154,13.0,80,1,False
150,15.0,60,1,False
290,12.7,200,1,True
120,15.5,70,1,False


## 파일을 읽어 데이터프레임 만들기
- read_csv(): csv 파일을 데이터프레임으로 읽기
- read_excel(): 액셀, xlsx 파일을 데이터프레임으로 읽기
- 액셀에서 한글이 깨지는 경우 encoding='utf-8', 'cp494','euc-kr' 등의 옵션 사용
- 참고: https://teddylee777.github.io/pandas/%EA%B3%B5%EA%B3%B5%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%95%9C%EA%B8%80%EA%B9%A8%EC%A7%90%ED%98%84%EC%83%81-%ED%95%B4%EA%B2%B0%EB%B0%A9%EB%B2%95

In [31]:
## csv 파일을 읽어서 데이터프레임 만들기

df2 = pd.read_csv('cities.csv')  
df2

Unnamed: 0,도시,인구,기온,자동차,대도시,100만대이상
0,서울,990,13.0,400,1,True
1,부산,350,16.0,150,1,True
2,대구,250,14.0,130,1,True
3,대전,154,13.0,80,1,False
4,광주,150,15.0,60,1,False
5,인천,290,12.7,200,1,True
6,울산,120,15.5,70,1,False


In [32]:
# 액셀 읽기

df = pd.read_excel('cities.xlsx')  
df

Unnamed: 0,도시,인구,기온,자동차,대도시,100만대이상
0,서울,990,13.0,400,1,True
1,부산,350,16.0,150,1,True
2,대구,250,14.0,130,1,True
3,대전,154,13.0,80,1,False
4,광주,150,15.0,60,1,False
5,인천,290,12.7,200,1,True
6,울산,120,15.5,70,1,False


## merge
- 특정 열(컬럼)을 기준으로 데이터프레임 합치기
- 즉, 인덱스를 사용하지 않는다

## 참조 테이블과 합치기
- merge 사용하여 상품별 매출과 가격표를 합치는 예

In [33]:
## 전자제품 미국 수출 데이터, logistic은 운송 방법

export = {'item': ['eCar', 'eCar', 'TV',  'TV', 'Refr','Refr'],
        'logistic': ['ship', 'air', 'ship', 'air', 'ship', 'air'],
        '2020': [39, 17, 64, 33, 65, 23],
        '2021': [45, 22, 84, 57, 95, 30]}
df_export = pd.DataFrame(export)
df_export

Unnamed: 0,item,logistic,2020,2021
0,eCar,ship,39,45
1,eCar,air,17,22
2,TV,ship,64,84
3,TV,air,33,57
4,Refr,ship,65,95
5,Refr,air,23,30


In [34]:
## 제품(item)별 가격표 테이블

price_list = {'item': [ 'Refr', 'eCar', 'TV'],
        'price': [200, 1000, 100]}
df_price = pd.DataFrame(price_list)
df_price

Unnamed: 0,item,price
0,Refr,200
1,eCar,1000
2,TV,100


In [35]:
## 제품별 가격표를 반영한 데이터프레임

df_all = df_export.merge(df_price, on="item")
df_all

Unnamed: 0,item,logistic,2020,2021,price
0,eCar,ship,39,45,1000
1,eCar,air,17,22,1000
2,TV,ship,64,84,100
3,TV,air,33,57,100
4,Refr,ship,65,95,200
5,Refr,air,23,30,200


# groupby

- 특정 조건에 맞는 그룹을 테이블로 새로 만들고 다양하게 원하는 조작/계산을 한다

In [36]:
## 수출현황 데이터프레임을 제품(item) 기준으로 groupby 수행

df = df_all.copy()
g = df.groupby('item')
print(type(g))    # DataFrameGroupBy
print(g.ngroups)  # 3
print(g.groups)   # {'Refr': [4, 5], 'TV': [2, 3], 'eCar': [0, 1]}
print(g.size())

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>
3
{'Refr': [4, 5], 'TV': [2, 3], 'eCar': [0, 1]}
item
Refr    2
TV      2
eCar    2
dtype: int64


In [37]:
## g로부터 item이 TV인 세부그룹 데이터프레임 얻기

g.get_group('TV')

Unnamed: 0,item,logistic,2020,2021,price
2,TV,ship,64,84,100
3,TV,air,33,57,100


In [38]:
## 그룹바이 객체 g의 레이블(item)과 해당 그룹을 얻는다

for item, group in g:
    print(item)
    print(group)
    print(group['2021'].mean())
    print('------------------------------------')

Refr
   item logistic  2020  2021  price
4  Refr     ship    65    95    200
5  Refr      air    23    30    200
62.5
------------------------------------
TV
  item logistic  2020  2021  price
2   TV     ship    64    84    100
3   TV      air    33    57    100
70.5
------------------------------------
eCar
   item logistic  2020  2021  price
0  eCar     ship    39    45   1000
1  eCar      air    17    22   1000
33.5
------------------------------------


In [39]:
g[['2020','2021']].sum()

Unnamed: 0_level_0,2020,2021
item,Unnamed: 1_level_1,Unnamed: 2_level_1
Refr,88,125
TV,97,141
eCar,56,67


In [40]:
## 그룹바이 객체에 함수를 적용한 결과 보기

g[['2020','2021']].agg(['max','sum', 'size','mean'])

Unnamed: 0_level_0,2020,2020,2020,2020,2021,2021,2021,2021
Unnamed: 0_level_1,max,sum,size,mean,max,sum,size,mean
item,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Refr,65,88,2,44.0,95,125,2,62.5
TV,64,97,2,48.5,84,141,2,70.5
eCar,39,56,2,28.0,45,67,2,33.5


In [41]:
## 그룹바이 객체에 사용자 정의 함수를 적용한 결과 보기

def find_big_sale(x):
    m = x.mean()
    return True if m > 40 else False

g[['2020','2021']].aggregate(['max', 'mean',  find_big_sale])

Unnamed: 0_level_0,2020,2020,2020,2021,2021,2021
Unnamed: 0_level_1,max,mean,find_big_sale,max,mean,find_big_sale
item,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Refr,65,44.0,True,95,62.5,True
TV,64,48.5,True,84,70.5,True
eCar,39,28.0,False,45,33.5,False


# pivot_table
- 조건에 맞는 수치 요약 테이블을 생성한다
- groupby는 그룹을 생성하는 중간 과정이 있으나 피봇 페이블은 수치 요약 결과만 보여준다

In [42]:
## 제품별 2020, 2021년 총 매출액

df.pivot_table(index=['item'], values=['2020','2021'], aggfunc='sum')

Unnamed: 0_level_0,2020,2021
item,Unnamed: 1_level_1,Unnamed: 2_level_1
Refr,88,125
TV,97,141
eCar,56,67


In [43]:
## 이중 인덱스를 사용하는 예

df.pivot_table(index=['item', 'logistic'], 
               values=['2020','2021'],aggfunc=['sum','mean'])

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,sum,mean,mean
Unnamed: 0_level_1,Unnamed: 1_level_1,2020,2021,2020,2021
item,logistic,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Refr,air,23,30,23,30
Refr,ship,65,95,65,95
TV,air,33,57,33,57
TV,ship,64,84,64,84
eCar,air,17,22,17,22
eCar,ship,39,45,39,45


In [44]:
## column을 사용하여 컬럼을 세분화하기

df.pivot_table(index=['item'], values=['2020','2021'],aggfunc=['sum','mean'],
              columns=['logistic'])

Unnamed: 0_level_0,sum,sum,sum,sum,mean,mean,mean,mean
Unnamed: 0_level_1,2020,2020,2021,2021,2020,2020,2021,2021
logistic,air,ship,air,ship,air,ship,air,ship
item,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
Refr,23,65,30,95,23,65,30,95
TV,33,64,57,84,33,64,57,84
eCar,17,39,22,45,17,39,22,45
