### pandas 모듈
- 데이터 분석에 관련된 기능을 제공하는 파이썬 라이브러리
- 빅데이터를 빠르게 처리 ( indexing, slicing, sorting 등 )
- 데이터들의 연산 등을 쉽게 처리할 수 있다.
- 외부 데이터 ( csv, txt, excel 등 ) 의 처리 우수하다.
- 데이터 전처리 및 간단 연산, 자료관리 등에 사용
- 설치 : pip install pandas / conda install pandas

pandas 자료구조
- 시리즈(Series) : 1차원 배열형태(1열)
- 데이터프레임(DataFrame) : 행/열로 구성된 2차원 배열형태

In [1]:
import pandas as pd

# 시리즈 생성(리스트 이용)
seriesData = pd.Series(["서울", "경기", "인천", "강원", "부산", "대구"])
seriesData

0    서울
1    경기
2    인천
3    강원
4    부산
5    대구
dtype: object

In [2]:
# 시리즈 생성(딕셔너리 이용)
seriesData = pd.Series({1:"서울", 2:"경기", 3:"인천", 4:"강원", 5:"부산", 6:"대구"})
seriesData

1    서울
2    경기
3    인천
4    강원
5    부산
6    대구
dtype: object

DataFrame 생성

In [3]:
import pandas as pd

# 리스트를 이용한 DataFrame 생성(국어, 영어, 수학)
tmp = [["홍길동",92,68,89], ["이순신",78,88,85], ["박문수",92,88,65]]
df1 = pd.DataFrame(tmp, columns=["이름","국어", "영어", "수학"])
df1

Unnamed: 0,이름,국어,영어,수학
0,홍길동,92,68,89
1,이순신,78,88,85
2,박문수,92,88,65


In [4]:
# 딕셔너리를 이용한 생성
tmp = {
  "이름":["홍길동", "이순신", "박문수"],
  "국어": [92,78,92],
  "영어": [68,88,88],
  "수학": [89,85,65]
}

df1 = pd.DataFrame(tmp)
df1

Unnamed: 0,이름,국어,영어,수학
0,홍길동,92,68,89
1,이순신,78,88,85
2,박문수,92,88,65


pandas 파일 읽기/쓰기(교안05-p34)
- pandas.read_csv("데이터경로/파일명", ...)
- pandas.read_csv, excel, json

In [5]:
# 엑셀파일 읽어오기
import pandas as pd

df1 = pd.read_excel("./data/지역_위치별(주유소).xls", header=2)
df1

Unnamed: 0,지역,상호,주소,상표,전화번호,셀프여부,고급휘발유,휘발유,경유,실내등유
0,부산광역시,(주)태화주유소,부산 부산진구 가야대로 402,SK에너지,051-896-6147,Y,-,1475,1375,-
1,부산광역시,항도주유소,부산 부산진구 신암로 14 (범천동),GS칼텍스,051-632-5189,Y,1698,1475,1375,-
2,부산광역시,(주)우양네트웍스 하마정주유소,부산 부산진구 동평로 398,S-OIL,051-861-5104,Y,-,1493,1395,-
3,부산광역시,대양주유소,부산 부산진구 새싹로 61-1 (부암동),알뜰주유소,051-818-6161,Y,-,1493,1393,-
4,부산광역시,영우에너지 부전주유소,부산 부산진구 신천대로 132,S-OIL,051-802-5593,Y,-,1493,1393,-
5,부산광역시,스마일주유소,부산 부산진구 동평로 49,알뜰주유소,051-939-2022,Y,-,1498,1398,-
6,부산광역시,광신석유(주)직영 양정주유소,부산 부산진구 동평로 361 (양정동),SK에너지,051-862-7063,Y,-,1498,1399,-
7,부산광역시,(주)주공에너지,부산 부산진구 백양대로 231,알뜰주유소,051-898-0809,Y,-,1499,1399,-
8,부산광역시,남부산고속주유소,부산 부산진구 거제대로 84 (양정동),S-OIL,051-867-2231,Y,1789,1509,1399,-
9,부산광역시,가야주유소,부산 부산진구 가야대로552번길 39,SK에너지,051-896-6300,Y,-,1509,1409,-


In [6]:
# columns 값 확인
df1.columns

Index(['지역', '상호', '주소', '상표', '전화번호', '셀프여부', '고급휘발유', '휘발유', '경유', '실내등유'], dtype='object')

In [7]:
# 컬럼 이름 변경(rename)
# df1.rename(columns={'전화번호':"연락처"}, inplace=True)  # 수정된 값 즉시 적용: inplace=True
df1 = df1.rename(columns={'전화번호':"연락처"})
df1.columns

Index(['지역', '상호', '주소', '상표', '연락처', '셀프여부', '고급휘발유', '휘발유', '경유', '실내등유'], dtype='object')

In [8]:
# 컬럼 이름 변경
df1.columns = ['지역', '상호', '주소', '상표', '전화번호', '셀프여부', '고급휘발유', '휘발유', '경유', '실내등유']
df1.columns

Index(['지역', '상호', '주소', '상표', '전화번호', '셀프여부', '고급휘발유', '휘발유', '경유', '실내등유'], dtype='object')

#### 데이터 조회

열(column\) 기준 조회
- 1개의 열 조회: df["필드명"]
- 2개이상 열 조회: df[["필드명1","필드명2", ... ]]

In [9]:
# 휘발유 가격 확인
df1["휘발유"]

0     1475
1     1475
2     1493
3     1493
4     1493
5     1498
6     1498
7     1499
8     1509
9     1509
10    1509
11    1512
12    1513
13    1539
14    1546
15    1559
16    1559
17    1598
18    1599
19    1679
20    1698
21    1728
22    1748
Name: 휘발유, dtype: int64

In [10]:
# 여러 필드 출력(필요시 필드명을 이용해 출력 순서를 변경할수 있음)
df2 = df1[['상표', '상호', '주소', '전화번호', '셀프여부', '휘발유', '경유']]
df2

Unnamed: 0,상표,상호,주소,전화번호,셀프여부,휘발유,경유
0,SK에너지,(주)태화주유소,부산 부산진구 가야대로 402,051-896-6147,Y,1475,1375
1,GS칼텍스,항도주유소,부산 부산진구 신암로 14 (범천동),051-632-5189,Y,1475,1375
2,S-OIL,(주)우양네트웍스 하마정주유소,부산 부산진구 동평로 398,051-861-5104,Y,1493,1395
3,알뜰주유소,대양주유소,부산 부산진구 새싹로 61-1 (부암동),051-818-6161,Y,1493,1393
4,S-OIL,영우에너지 부전주유소,부산 부산진구 신천대로 132,051-802-5593,Y,1493,1393
5,알뜰주유소,스마일주유소,부산 부산진구 동평로 49,051-939-2022,Y,1498,1398
6,SK에너지,광신석유(주)직영 양정주유소,부산 부산진구 동평로 361 (양정동),051-862-7063,Y,1498,1399
7,알뜰주유소,(주)주공에너지,부산 부산진구 백양대로 231,051-898-0809,Y,1499,1399
8,S-OIL,남부산고속주유소,부산 부산진구 거제대로 84 (양정동),051-867-2231,Y,1509,1399
9,SK에너지,가야주유소,부산 부산진구 가야대로552번길 39,051-896-6300,Y,1509,1409


행(row) 기준 데이터 출력(행/열 모두 출력)
- index를 이용한 출력
  - index => 행 ID
- 위치값을 이용한 출력
  - 위치값, 즉 데이터의 인덱싱 위치값

=============================================================================================

- index를 이용한 출력
  - 행전체 : df.loc[시작:종료]
  - 행/열  : df.loc[시작:종료, ["필드명", ...]]

In [11]:
 # 3행부터 7행까지
df2.loc[3:7]   

Unnamed: 0,상표,상호,주소,전화번호,셀프여부,휘발유,경유
3,알뜰주유소,대양주유소,부산 부산진구 새싹로 61-1 (부암동),051-818-6161,Y,1493,1393
4,S-OIL,영우에너지 부전주유소,부산 부산진구 신천대로 132,051-802-5593,Y,1493,1393
5,알뜰주유소,스마일주유소,부산 부산진구 동평로 49,051-939-2022,Y,1498,1398
6,SK에너지,광신석유(주)직영 양정주유소,부산 부산진구 동평로 361 (양정동),051-862-7063,Y,1498,1399
7,알뜰주유소,(주)주공에너지,부산 부산진구 백양대로 231,051-898-0809,Y,1499,1399


In [12]:
 # 3행부터 7행까지, [상표, 셀프여부, 휘발유] 출력
df2.loc[3:7, ["상표", "셀프여부", "휘발유"]]   

Unnamed: 0,상표,셀프여부,휘발유
3,알뜰주유소,Y,1493
4,S-OIL,Y,1493
5,알뜰주유소,Y,1498
6,SK에너지,Y,1498
7,알뜰주유소,Y,1499


In [13]:
 # [상표, 셀프여부, 휘발유] 출력
df2.loc[ : , ["상표", "셀프여부", "휘발유"]] 

Unnamed: 0,상표,셀프여부,휘발유
0,SK에너지,Y,1475
1,GS칼텍스,Y,1475
2,S-OIL,Y,1493
3,알뜰주유소,Y,1493
4,S-OIL,Y,1493
5,알뜰주유소,Y,1498
6,SK에너지,Y,1498
7,알뜰주유소,Y,1499
8,S-OIL,Y,1509
9,SK에너지,Y,1509


In [14]:
 # 3, 7, 11에 대한 [상표, 셀프여부, 휘발유] 출력
df2.loc[[3, 7, 11], ["상표", "셀프여부", "휘발유"]] 

Unnamed: 0,상표,셀프여부,휘발유
3,알뜰주유소,Y,1493
7,알뜰주유소,Y,1499
11,SK에너지,N,1512


In [15]:
df2 = df2.sort_values("상표")
df2

Unnamed: 0,상표,상호,주소,전화번호,셀프여부,휘발유,경유
1,GS칼텍스,항도주유소,부산 부산진구 신암로 14 (범천동),051-632-5189,Y,1475,1375
16,GS칼텍스,지에스칼텍스㈜ 성지주유소,부산 부산진구 동평로 289 (연지동),051-806-0466,Y,1559,1459
10,HD현대오일뱅크,명품주유소 당감점,부산 부산진구 백양대로 78 (당감동),051-891-1881,Y,1509,1399
2,S-OIL,(주)우양네트웍스 하마정주유소,부산 부산진구 동평로 398,051-861-5104,Y,1493,1395
20,S-OIL,케이제이주유소,부산 부산진구 전포대로176번길 5,051-809-5145,Y,1698,1598
4,S-OIL,영우에너지 부전주유소,부산 부산진구 신천대로 132,051-802-5593,Y,1493,1393
8,S-OIL,남부산고속주유소,부산 부산진구 거제대로 84 (양정동),051-867-2231,Y,1509,1399
21,S-OIL,대명주유소,부산 부산진구 가야대로 523 (가야동),051-896-5105,Y,1728,1638
12,S-OIL,진성주유소,부산 부산진구 백양대로 242,051-896-4500,Y,1513,1418
14,S-OIL,대흥주유소,부산 부산진구 동평로 21,051-898-5151,Y,1546,1456


In [16]:
# loc()
df2.loc[7:3, ['상호', "휘발유"]]

Unnamed: 0,상호,휘발유
7,(주)주공에너지,1499
5,스마일주유소,1498
3,대양주유소,1493


- 위치값을 이용한 출력
  - df.iloc[출력위치]
  - df.iloc[시작위치:종료위치]
  - df.iloc[시작위치:종료위치, 시작위치:종료위치]

In [17]:
df2.iloc[0:3]

Unnamed: 0,상표,상호,주소,전화번호,셀프여부,휘발유,경유
1,GS칼텍스,항도주유소,부산 부산진구 신암로 14 (범천동),051-632-5189,Y,1475,1375
16,GS칼텍스,지에스칼텍스㈜ 성지주유소,부산 부산진구 동평로 289 (연지동),051-806-0466,Y,1559,1459
10,HD현대오일뱅크,명품주유소 당감점,부산 부산진구 백양대로 78 (당감동),051-891-1881,Y,1509,1399


In [18]:
df2.iloc[0:4, 4:7]  # df2.iloc[0:4, -3:7] 

Unnamed: 0,셀프여부,휘발유,경유
1,Y,1475,1375
16,Y,1559,1459
10,Y,1509,1399
2,Y,1493,1395


In [19]:
df2.iloc[[3,6], [0,-3,-2]] 

Unnamed: 0,상표,셀프여부,휘발유
2,S-OIL,Y,1493
8,S-OIL,Y,1509


조건에 따른 데이터 추출
- df[df["필드명"]== "조건"][["출력필드", ...]]
- df.query("조건식")[["출력필드",...]]
- df.loc[:, [["필드명"]>"조건"]]

In [20]:
# 셀프여부 == Y
df2[df2["셀프여부"]=="Y"][["상표","상호","휘발유","경유"]]

Unnamed: 0,상표,상호,휘발유,경유
1,GS칼텍스,항도주유소,1475,1375
16,GS칼텍스,지에스칼텍스㈜ 성지주유소,1559,1459
10,HD현대오일뱅크,명품주유소 당감점,1509,1399
2,S-OIL,(주)우양네트웍스 하마정주유소,1493,1395
20,S-OIL,케이제이주유소,1698,1598
4,S-OIL,영우에너지 부전주유소,1493,1393
8,S-OIL,남부산고속주유소,1509,1399
21,S-OIL,대명주유소,1728,1638
12,S-OIL,진성주유소,1513,1418
14,S-OIL,대흥주유소,1546,1456


In [21]:
df2.loc[(df2["셀프여부"]>="Y")&(df2["경유"]>=1500)]

Unnamed: 0,상표,상호,주소,전화번호,셀프여부,휘발유,경유
20,S-OIL,케이제이주유소,부산 부산진구 전포대로176번길 5,051-809-5145,Y,1698,1598
21,S-OIL,대명주유소,부산 부산진구 가야대로 523 (가야동),051-896-5105,Y,1728,1638
19,SK에너지,한일주유소,부산 부산진구 백양순환로110번길 19 (부암동),051-809-1542,Y,1679,1599
17,SK에너지,럭키주유소,부산 부산진구 새싹로 230 (초읍동),051-808-5113,Y,1598,1548


In [22]:
df2.query("셀프여부 == 'Y'")[["상표","상호","휘발유","경유"]]

Unnamed: 0,상표,상호,휘발유,경유
1,GS칼텍스,항도주유소,1475,1375
16,GS칼텍스,지에스칼텍스㈜ 성지주유소,1559,1459
10,HD현대오일뱅크,명품주유소 당감점,1509,1399
2,S-OIL,(주)우양네트웍스 하마정주유소,1493,1395
20,S-OIL,케이제이주유소,1698,1598
4,S-OIL,영우에너지 부전주유소,1493,1393
8,S-OIL,남부산고속주유소,1509,1399
21,S-OIL,대명주유소,1728,1638
12,S-OIL,진성주유소,1513,1418
14,S-OIL,대흥주유소,1546,1456


In [23]:
df2.query("경유 >= 1450")[["상표","상호","휘발유","경유"]]

Unnamed: 0,상표,상호,휘발유,경유
16,GS칼텍스,지에스칼텍스㈜ 성지주유소,1559,1459
20,S-OIL,케이제이주유소,1698,1598
21,S-OIL,대명주유소,1728,1638
14,S-OIL,대흥주유소,1546,1456
19,SK에너지,한일주유소,1679,1599
18,SK에너지,동방석유(주)sk전포주유소,1599,1469
17,SK에너지,럭키주유소,1598,1548
15,SK에너지,동방석유(주)황령산주유소,1559,1459
13,SK에너지,SK에너지(주) 연지오토self,1539,1479
22,SK에너지,서영주유소,1748,1698


데이터프레임에 필드 추가
- df["추가필드"] = 값 => 값: df의 데이터 길이와 동일한 리스트 데이터
- df.assign(필드명 = 값) 

In [24]:
# 평균 휘발유 기준 차액
mean_val = df2['휘발유'].mean()
print(mean_val )

df2.assign(차액 = df2["휘발유"]-mean_val)

1553.4347826086957


Unnamed: 0,상표,상호,주소,전화번호,셀프여부,휘발유,경유,차액
1,GS칼텍스,항도주유소,부산 부산진구 신암로 14 (범천동),051-632-5189,Y,1475,1375,-78.434783
16,GS칼텍스,지에스칼텍스㈜ 성지주유소,부산 부산진구 동평로 289 (연지동),051-806-0466,Y,1559,1459,5.565217
10,HD현대오일뱅크,명품주유소 당감점,부산 부산진구 백양대로 78 (당감동),051-891-1881,Y,1509,1399,-44.434783
2,S-OIL,(주)우양네트웍스 하마정주유소,부산 부산진구 동평로 398,051-861-5104,Y,1493,1395,-60.434783
20,S-OIL,케이제이주유소,부산 부산진구 전포대로176번길 5,051-809-5145,Y,1698,1598,144.565217
4,S-OIL,영우에너지 부전주유소,부산 부산진구 신천대로 132,051-802-5593,Y,1493,1393,-60.434783
8,S-OIL,남부산고속주유소,부산 부산진구 거제대로 84 (양정동),051-867-2231,Y,1509,1399,-44.434783
21,S-OIL,대명주유소,부산 부산진구 가야대로 523 (가야동),051-896-5105,Y,1728,1638,174.565217
12,S-OIL,진성주유소,부산 부산진구 백양대로 242,051-896-4500,Y,1513,1418,-40.434783
14,S-OIL,대흥주유소,부산 부산진구 동평로 21,051-898-5151,Y,1546,1456,-7.434783


In [25]:
import numpy as np

df2.assign(비고 = np.where(df2["휘발유"] < mean_val, "싸다", "비싸다"))

Unnamed: 0,상표,상호,주소,전화번호,셀프여부,휘발유,경유,비고
1,GS칼텍스,항도주유소,부산 부산진구 신암로 14 (범천동),051-632-5189,Y,1475,1375,싸다
16,GS칼텍스,지에스칼텍스㈜ 성지주유소,부산 부산진구 동평로 289 (연지동),051-806-0466,Y,1559,1459,비싸다
10,HD현대오일뱅크,명품주유소 당감점,부산 부산진구 백양대로 78 (당감동),051-891-1881,Y,1509,1399,싸다
2,S-OIL,(주)우양네트웍스 하마정주유소,부산 부산진구 동평로 398,051-861-5104,Y,1493,1395,싸다
20,S-OIL,케이제이주유소,부산 부산진구 전포대로176번길 5,051-809-5145,Y,1698,1598,비싸다
4,S-OIL,영우에너지 부전주유소,부산 부산진구 신천대로 132,051-802-5593,Y,1493,1393,싸다
8,S-OIL,남부산고속주유소,부산 부산진구 거제대로 84 (양정동),051-867-2231,Y,1509,1399,싸다
21,S-OIL,대명주유소,부산 부산진구 가야대로 523 (가야동),051-896-5105,Y,1728,1638,비싸다
12,S-OIL,진성주유소,부산 부산진구 백양대로 242,051-896-4500,Y,1513,1418,싸다
14,S-OIL,대흥주유소,부산 부산진구 동평로 21,051-898-5151,Y,1546,1456,싸다
