# pandas
- 데이터프레임(DataFrame)을 사용하기 위한 패키지
- 데이터프레임은 2차원 테이블 구조로 "액셀"과 같은 용도로 사용된다
- (참고) 1차원의 데이터를 다루기 위해서는 리스트가 사용된다
- copy()

## 데이터 프레임 생성 방법
- 딕셔너리로부터 만드는 방법
- 배열, 리스트, 튜플로부터 만드는 방법
- csv 파일을 읽어 만드는 방법
- 액셀 파일을 읽어 만드는 방법

## import

In [1]:
import pandas as pd

# 레티나 디스플레이를 사용하는 경우 설정
%config InlineBackend.figure_format = 'retina'

In [2]:
## 딕셔너리에서 데이터프레임을 만드는 예

x = {'city': ['서울', '부산', '대구', '대전', '광주'],
     'population': [990, 350, 250, 154, 150],
     'temp': [17, 18, 18, 19, 20]}

df = pd.DataFrame(x)
df

Unnamed: 0,city,population,temp
0,서울,990,17
1,부산,350,18
2,대구,250,18
3,대전,154,19
4,광주,150,20


In [3]:
# 리스트로 DataFrame 생성
data = [
    ['서울', 990, 17],
    ['부산', 350, 18],
    ['대구', 250, 18],
    ['대전', 154, 19],
    ['광주', 150, 20]
]

# 열 이름을 지정하여 DataFrame 생성
df = pd.DataFrame(data, columns=['city', 'population', 'temp'])
df

Unnamed: 0,city,population,temp
0,서울,990,17
1,부산,350,18
2,대구,250,18
3,대전,154,19
4,광주,150,20


In [4]:
df.to_csv('./data.csv', index=False)
# CSV 파일로부터 DataFrame 생성
df = pd.read_csv('data.csv')  # 'data.csv'는 파일 경로
df

Unnamed: 0,city,population,temp
0,서울,990,17
1,부산,350,18
2,대구,250,18
3,대전,154,19
4,광주,150,20


In [5]:
df.to_excel('./data.xlsx', index=False)
# CSV 파일로부터 DataFrame 생성
df = pd.read_excel('data.xlsx')  # 'data.xlsx'는 파일 경로
df

Unnamed: 0,city,population,temp
0,서울,990,17
1,부산,350,18
2,대구,250,18
3,대전,154,19
4,광주,150,20


In [6]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   city        5 non-null      object
 1   population  5 non-null      int64 
 2   temp        5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 248.0+ bytes
None


- 딕셔너리의 키를 컬럼명으로, 값을 데이터로 사용한다
- 인덱스(행 번호)가 자동으로 만들어진다

In [7]:
## 데이터프레임의 구조(shape)와 행과 열의 수 확인하기

print(df.shape)    # 데이터프레임 구조
print(df.shape[0]) # 행의 수
print(df.shape[1]) # 열의 수

(5, 3)
5
3


# 데이터프레임 다루기

In [8]:
## 일부 컬럼만 보기

df2 = df[['city', 'temp']]
df2

Unnamed: 0,city,temp
0,서울,17
1,부산,18
2,대구,18
3,대전,19
4,광주,20


- 원본 데이터는 바뀌지 않는다

In [9]:
df

Unnamed: 0,city,population,temp
0,서울,990,17
1,부산,350,18
2,대구,250,18
3,대전,154,19
4,광주,150,20


## 컬럼 이름 바꾸기
- columns 사용

In [10]:
## 컬럼명 바꾸기

df.columns = ['도시','인구','날씨']
df

Unnamed: 0,도시,인구,날씨
0,서울,990,17
1,부산,350,18
2,대구,250,18
3,대전,154,19
4,광주,150,20


## copy()
- 물리적인 복사(백업)를 하려면 copy()를 사용한다
- 처리된 원본을 백업해둔다

In [11]:
df_backup = df.copy()             # df 백업하기

In [12]:
# copy() 사용 예

x = list((1,2,3,4))
x

[1, 2, 3, 4]

In [13]:
y = x
y.append(100)
y

[1, 2, 3, 4, 100]

In [14]:
# y를 변경하면 x도 같이 변경된다 (물리적인 복사를 하지 않았다)
# 같은 메모리를 가리키며 변수의 이름만 복사한 것임
x

[1, 2, 3, 4, 100]

In [15]:
# copy()를 사용하여 물리적인 복사를 하겠다

x = list((1,2,3,4))
y = x.copy()
y.append(100)
y

[1, 2, 3, 4, 100]

In [16]:
# y를 바꾸어도 x는 변경되지 않는다
x

[1, 2, 3, 4]

In [17]:
# 데이터프레임 복사
df_copy = df.copy()

# 복사본 수정
df_copy['인구'] = [1000, 400, 300, 200, 300]

# 출력
print("원본 데이터프레임:\n", df)
print("\n복사된 데이터프레임:\n", df_copy)


원본 데이터프레임:
    도시   인구  날씨
0  서울  990  17
1  부산  350  18
2  대구  250  18
3  대전  154  19
4  광주  150  20

복사된 데이터프레임:
    도시    인구  날씨
0  서울  1000  17
1  부산   400  18
2  대구   300  18
3  대전   200  19
4  광주   300  20


## 인덱스 바꾸기

In [18]:
## 컬럼과 행의 인덱스 보기

print(df.columns)
print(df.index)

Index(['도시', '인구', '날씨'], dtype='object')
RangeIndex(start=0, stop=5, step=1)


In [19]:
## 인덱스를 컬럼중에서 하나로 선택하기

df2 = df.set_index('도시')
df2

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,990,17
부산,350,18
대구,250,18
대전,154,19
광주,150,20


- 수행 결과를 원본 데이터에 바로 반영하려면 inplace=True를 사용한다

In [20]:
## 변경된 내용을 원래 객체에 바로 반영하는 방법
# inplace 옵션을 사용하는 방법

df.set_index('도시', inplace=True)
df

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,990,17
부산,350,18
대구,250,18
대전,154,19
광주,150,20


## 인데스 원상복귀
- reset_index 사용
- 기존의 인덱스는 컬럼으로 편입된다
- 정수형 인덱스가 자동으로 생성된다

In [21]:
## 인데스를 컬럼으로 복귀하기

df.reset_index(inplace=True)
df

Unnamed: 0,도시,인구,날씨
0,서울,990,17
1,부산,350,18
2,대구,250,18
3,대전,154,19
4,광주,150,20


## 샘플 추가
- 데이터프레임 합치기 (보통 행 방향으로 합친다-샘플 추가)
- 판다스의  concat() 사용

In [22]:
## 새로운 데이터프레임을 만들고 두 개를 합치기

x2 = {'city': ['인천', '울산'],
        'population': [290, 120],
        'temp': [12.7, 15.5]}
df2 = pd.DataFrame(x2)
df2.columns = ['도시','인구','날씨']

# 데이터프레임 합치기 (행 방향)
df3 = pd.concat([df, df2])
df3

Unnamed: 0,도시,인구,날씨
0,서울,990,17.0
1,부산,350,18.0
2,대구,250,18.0
3,대전,154,19.0
4,광주,150,20.0
0,인천,290,12.7
1,울산,120,15.5


In [23]:
## 기존의 인덱스 번호는 무시하고 새로 인덱스 만들기

df3 = pd.concat([df, df2], ignore_index=True)
df3

Unnamed: 0,도시,인구,날씨
0,서울,990,17.0
1,부산,350,18.0
2,대구,250,18.0
3,대전,154,19.0
4,광주,150,20.0
5,인천,290,12.7
6,울산,120,15.5


In [24]:
# 새로운 열을 데이터프레임으로 생성
df2 = pd.DataFrame({'습도': [55, 60, 65, 70, 75]})

# 열 방향으로 새로운 열을 추가
df3 = pd.concat([df, df2], axis=1)
df3

Unnamed: 0,도시,인구,날씨,습도
0,서울,990,17,55
1,부산,350,18,60
2,대구,250,18,65
3,대전,154,19,70
4,광주,150,20,75


## loc, iloc()
- loc(): 특정 인덱스에 해당하는 샘플을 얻는다
- iloc(): 정수형 순서 번호로 샘플을 얻는다

In [25]:
# 인덱스를 '도시'컬럼으로 설정한 후 특정 인덱스에 해당하는 샘플 얻기

df = df3.copy()

df.set_index('도시', inplace=True)
df.loc[['대전','부산','광주']]

Unnamed: 0_level_0,인구,날씨,습도
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
대전,154,19,70
부산,350,18,60
광주,150,20,75


In [26]:
# 정수형 순서 번호로 행을 추출하는 방법

df.iloc[3:5]   # 3~5 행 추출

Unnamed: 0_level_0,인구,날씨,습도
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
대전,154,19,70
광주,150,20,75


## 컬럼 추가
- 기존에 없던 컬럼(열) 이름을 지정하면서 값을 주면 새로운 열이 만들어진다

In [27]:
## 컬럼을 추가하는 방법

cars = [300, 140, 120, 70, 50]
df['자동차'] = cars
df["대도시"] = 1  # 동일한 값을 컬럼에 추가
df

Unnamed: 0_level_0,인구,날씨,습도,자동차,대도시
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,17,55,300,1
부산,350,18,60,140,1
대구,250,18,65,120,1
대전,154,19,70,70,1
광주,150,20,75,50,1


In [28]:
## 기존 컬럼을 값을 갱신하는 방법

new_cars = [400, 150, 130, 80, 60]
df['자동차'] = new_cars
df

Unnamed: 0_level_0,인구,날씨,습도,자동차,대도시
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,17,55,400,1
부산,350,18,60,150,1
대구,250,18,65,130,1
대전,154,19,70,80,1
광주,150,20,75,60,1


In [29]:
# 특정 조건을 만족하는 행들을 찾는 방법

df['big'] = df["자동차"] >= 100
df

Unnamed: 0_level_0,인구,날씨,습도,자동차,대도시,big
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,990,17,55,400,1,True
부산,350,18,60,150,1,True
대구,250,18,65,130,1,True
대전,154,19,70,80,1,False
광주,150,20,75,60,1,False


In [30]:
## 해당 컬럼만 추출하는 방법

df[df["자동차"] >= 100]  # 데이터프레임은 인덱스가 True인 항목만 리턴

Unnamed: 0_level_0,인구,날씨,습도,자동차,대도시,big
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,990,17,55,400,1,True
부산,350,18,60,150,1,True
대구,250,18,65,130,1,True


## 행(샘플) 삭제

In [31]:
## 인덱스를 사용하여 행 삭제하기

df2 = df.drop(["서울", "광주"])
df2

Unnamed: 0_level_0,인구,날씨,습도,자동차,대도시,big
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,350,18,60,150,1,True
대구,250,18,65,130,1,True
대전,154,19,70,80,1,False


## 컬럼 삭제

In [32]:
## 특정 컬럼을 삭제하려면 axis=1 선택한다

df2 = df.drop(["big"], axis=1)
df2

Unnamed: 0_level_0,인구,날씨,습도,자동차,대도시
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,17,55,400,1
부산,350,18,60,150,1
대구,250,18,65,130,1
대전,154,19,70,80,1
광주,150,20,75,60,1


## 정렬

In [33]:
## 특정 컬럼을 기준으로 순서 정렬하기

df.sort_values(['인구'])

Unnamed: 0_level_0,인구,날씨,습도,자동차,대도시,big
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주,150,20,75,60,1,False
대전,154,19,70,80,1,False
대구,250,18,65,130,1,True
부산,350,18,60,150,1,True
서울,990,17,55,400,1,True


In [34]:
## 내림차순으로 순서 정렬하기

df.sort_values(['인구'], ascending=False)

Unnamed: 0_level_0,인구,날씨,습도,자동차,대도시,big
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,990,17,55,400,1,True
부산,350,18,60,150,1,True
대구,250,18,65,130,1,True
대전,154,19,70,80,1,False
광주,150,20,75,60,1,False


# Series

- 데이터프레임에서 한 컬럼을 취하면 시리즈가 된다
- 시리즈는 리스트처럼 1차원 데이터인데, 인덱스가 붙어 있다

In [35]:
## 데이터프레임에서 시리즈 추출하기

s = df['자동차']
print(type(s))
s

<class 'pandas.core.series.Series'>


Unnamed: 0_level_0,자동차
도시,Unnamed: 1_level_1
서울,400
부산,150
대구,130
대전,80
광주,60


## 시리즈 다루기
- 시리즈(하 컬럼 데이터)의 기초 통계치 보기

In [36]:
## 시리즈 항목의 종류와 빈도수 세기

print(s.unique())       # 항목의 종류
print(s.nunique())      # 항목의 총수
print(s.max())       # 최대치
print(s.min())       # 최소치
print(s.mean())       # 평균
print(s.value_counts()) # 빈도수

[400 150 130  80  60]
5
400
60
164.0
자동차
400    1
150    1
130    1
80     1
60     1
Name: count, dtype: int64


# 데이터프레임 저장
- to_csv(): csv 파일로 저장
- to_excel(): 액셀 파일로 저장
- 한글이 깨지는 경우 encoding='utf-8', 'cp949','euc-kr' 등의 옵션 사용
- [한글보기 블로그](https://teddylee777.github.io/pandas/%EA%B3%B5%EA%B3%B5%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%95%9C%EA%B8%80%EA%B9%A8%EC%A7%90%ED%98%84%EC%83%81-%ED%95%B4%EA%B2%B0%EB%B0%A9%EB%B2%95)

In [37]:
## 데이터프레임을 csv 파일, 액셀로 저장하기

df.to_csv('cities.csv')
df.to_excel('cities.xlsx')

# 파일을 읽고 화면에 출력하기
with open('cities.csv', encoding='utf-8') as f:
    print(f.read())

도시,인구,날씨,습도,자동차,대도시,big
서울,990,17,55,400,1,True
부산,350,18,60,150,1,True
대구,250,18,65,130,1,True
대전,154,19,70,80,1,False
광주,150,20,75,60,1,False



In [38]:
## 데이터프레임 저장시 인덱스 제거하기

df.to_csv('cities_2.csv', index=False)
with open('cities_2.csv', encoding='utf-8') as f:
    print(f.read())

인구,날씨,습도,자동차,대도시,big
990,17,55,400,1,True
350,18,60,150,1,True
250,18,65,130,1,True
154,19,70,80,1,False
150,20,75,60,1,False



## 파일을 읽어 데이터프레임 만들기
- read_csv(): csv 파일을 데이터프레임으로 읽기
- read_excel(): 액셀, xlsx 파일을 데이터프레임으로 읽기

In [39]:
## csv 파일을 읽어서 데이터프레임 만들기

df2 = pd.read_csv('cities.csv')
df2

Unnamed: 0,도시,인구,날씨,습도,자동차,대도시,big
0,서울,990,17,55,400,1,True
1,부산,350,18,60,150,1,True
2,대구,250,18,65,130,1,True
3,대전,154,19,70,80,1,False
4,광주,150,20,75,60,1,False


In [40]:
# 액셀 읽기

df = pd.read_excel('cities.xlsx')
df

Unnamed: 0,도시,인구,날씨,습도,자동차,대도시,big
0,서울,990,17,55,400,1,True
1,부산,350,18,60,150,1,True
2,대구,250,18,65,130,1,True
3,대전,154,19,70,80,1,False
4,광주,150,20,75,60,1,False


# merge
- 특정 열(컬럼)을 기준으로 두 데이터프레임 합치기
- (참고) 같은 인덱스를 기준으로 합칠때는 join()을 사용한다

## 참조 테이블과 합치기
- merge 사용하여 상품별 매출과 가격표를 합치는 예

In [41]:
## 전자제품 수출 데이터 샘플, logistic은 운송 방법

export = {'item': ['eCar', 'eCar', 'TV',  'TV', 'Refr','Refr'],
        'logistic': ['ship', 'air', 'ship', 'air', 'ship', 'air'],
        '2020': [39, 17, 64, 33, 65, 23],
        '2021': [45, 22, 84, 57, 95, 30]}
df_export = pd.DataFrame(export)
df_export

Unnamed: 0,item,logistic,2020,2021
0,eCar,ship,39,45
1,eCar,air,17,22
2,TV,ship,64,84
3,TV,air,33,57
4,Refr,ship,65,95
5,Refr,air,23,30


In [42]:
## 제품(item)별 가격표 테이블이 따로 제공되는 경우

price_list = {'item': [ 'Refr', 'eCar', 'TV'],
        'price': [200, 1000, 100]}
df_price = pd.DataFrame(price_list)
df_price

Unnamed: 0,item,price
0,Refr,200
1,eCar,1000
2,TV,100


In [43]:
## 제품별 가격표를 반영한 데이터프레임을 merge()로 만든다
# merge()하는 데잍 프레임의 크기가 다를 수 있다, on을 기준으로 합친다

df_all = df_export.merge(df_price, on="item")
df_all

Unnamed: 0,item,logistic,2020,2021,price
0,eCar,ship,39,45,1000
1,eCar,air,17,22,1000
2,TV,ship,64,84,100
3,TV,air,33,57,100
4,Refr,ship,65,95,200
5,Refr,air,23,30,200


# groupby

- 데이터프레임을 특정 조건에 맞는 그룹을 세분화하여 처리한다
- 내부적으로 여러개의 데이터프레임으로 나누어진다

In [44]:
## 수출현황 데이터프레임을 제품(item) 기준으로 groupby 수행
# 그룹바이 g 객체 내에 여러가지 정보가 포함되어 있다

df = df_all.copy()
g = df.groupby('item')

print(type(g))    # DataFrameGroupBy
print(g.ngroups)  # 3
print(g.groups)   # {'Refr': [4, 5], 'TV': [2, 3], 'eCar': [0, 1]}
print(g.size())   # 각 그룹 데이터프레임의 크기를 알려준다

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>
3
{'Refr': [4, 5], 'TV': [2, 3], 'eCar': [0, 1]}
item
Refr    2
TV      2
eCar    2
dtype: int64


In [45]:
## g로부터 item이 TV인 세부그룹 데이터프레임 얻기
# get_group()를 사용한다

g.get_group('TV')

Unnamed: 0,item,logistic,2020,2021,price
2,TV,ship,64,84,100
3,TV,air,33,57,100


In [46]:
g.get_group('eCar')

Unnamed: 0,item,logistic,2020,2021,price
0,eCar,ship,39,45,1000
1,eCar,air,17,22,1000


In [47]:
## 그룹바이 객체 g의 레이블(item)과 해당 그룹을 얻는 방법
# 아래는 각 그룹의 2021년도 평균치를 출력했다

for item, group in g:
    print(item)
    print(group)
    print(group['2021'].mean())
    print('------------------------------------')

Refr
   item logistic  2020  2021  price
4  Refr     ship    65    95    200
5  Refr      air    23    30    200
62.5
------------------------------------
TV
  item logistic  2020  2021  price
2   TV     ship    64    84    100
3   TV      air    33    57    100
70.5
------------------------------------
eCar
   item logistic  2020  2021  price
0  eCar     ship    39    45   1000
1  eCar      air    17    22   1000
33.5
------------------------------------


In [48]:
# 그룹바이 모든 항목에 대한 연산수행

g[['2020','2021']].sum()

Unnamed: 0_level_0,2020,2021
item,Unnamed: 1_level_1,Unnamed: 2_level_1
Refr,88,125
TV,97,141
eCar,56,67


In [49]:
## 그룹바이 모든 항목에 대여 여러가지 함수를 적용하는 경우

g[['2020','2021']].agg(['max','sum', 'size','mean'])

Unnamed: 0_level_0,2020,2020,2020,2020,2021,2021,2021,2021
Unnamed: 0_level_1,max,sum,size,mean,max,sum,size,mean
item,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Refr,65,88,2,44.0,95,125,2,62.5
TV,64,97,2,48.5,84,141,2,70.5
eCar,39,56,2,28.0,45,67,2,33.5


In [50]:
## 그룹바이 객체에 임의의 사용자 정의 함수를 적용할 수도 있다

def find_big_sale(x):
    m = x.mean()
    return True if m > 40 else False

g[['2020','2021']].aggregate(['max', 'mean',  find_big_sale])

Unnamed: 0_level_0,2020,2020,2020,2021,2021,2021
Unnamed: 0_level_1,max,mean,find_big_sale,max,mean,find_big_sale
item,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Refr,65,44.0,True,95,62.5,True
TV,64,48.5,True,84,70.5,True
eCar,39,28.0,False,45,33.5,False
