## 서울시 공공자전거 대여소 정보 분석으로 판다스 입문하기

* 데이터 출처 : [서울시 공공자전거 대여소 정보> 데이터셋> 공공데이터 | 서울열린데이터광장](http://data.seoul.go.kr/dataList/OA-13252/F/1/datasetView.do)

<img src="https://pandas.pydata.org/docs/_static/pandas.svg" width="300">

## Pandas
* https://pandas.pydata.org/
* https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
* [10 minutes to pandas — pandasdocumentation](https://pandas.pydata.org/docs/user_guide/10min.html)
* [Pandas 10분 완성](https://dataitgirls2.github.io/10minutes2pandas/)

In [5]:
# pandas, numpy 불러오기
import pandas as pd
import numpy as np

## 데이터 불러오기

데이터 출처 : [서울시 공공자전거 대여소 정보> 데이터셋> 공공데이터 | 서울열린데이터광장](http://data.seoul.go.kr/dataList/OA-13252/F/1/datasetView.do)

In [None]:
%pwd

In [None]:
import os 
os.getcwd()

In [9]:
import glob
glob.glob("data/*.xlsx")

['data/공공자전거 대여소 정보(21.12월 기준).xlsx']

In [14]:
# 공공자전거 대여소 정보(21.12월 기준).xlsx 파일을 불러옵니다. 
# sheet_name=2 에 해당 데이터가 있습니다.
raw = pd.read_excel('data/공공자전거 대여소 정보(21.12월 기준).xlsx', sheet_name=2)
raw

Unnamed: 0,대여소\n번호,보관소(대여소)명,소재지(위치),Unnamed: 3,Unnamed: 4,Unnamed: 5,설치\n시기,설치형태,Unnamed: 8,운영\n방식
0,,,,,,,NaT,LCD,QR,
1,,,자치구,상세주소,위도,경도,NaT,,,
2,,,,,,,NaT,거치\n대수,거치\n대수,
3,,,,,,,NaT,,,
4,102.0,망원역 1번출구 앞,마포구,서울특별시 마포구 월드컵로 72,37.555649,126.910629,2015-09-06 23:42:06,20,,LCD
...,...,...,...,...,...,...,...,...,...,...
2585,5070.0,마곡13단지힐스테이트마스터 후문(1320동 앞),강서구,서울시 강서구 마곡중앙1로 71 마곡13단지힐스테이트마스터 후문 인근,37.556763,126.818695,2021-11-11 00:00:00,,15,QR
2586,5072.0,김포공항입구 교통섬,강서구,공항동 74-5,37.561546,126.807083,2021-09-28 00:00:00,,10,QR
2587,5073.0,우장산역 헤링턴타워 앞,강서구,화곡동 1013-3,37.546619,126.836235,2021-10-20 00:00:00,,6,QR
2588,5074.0,마곡동 주니어마곡점앞,강서구,강서구 마곡동 798-17,37.558235,126.82576,2021-11-19 00:00:00,,10,QR


## 데이터 전처리
### 컬럼명 변경하고 사용하지 않는 데이터 제거

In [15]:
# 컬럼 정보가 들어있는 데이터만 가져오기
raw.columns

Index(['대여소\n번호', '보관소(대여소)명', '소재지(위치)', 'Unnamed: 3', 'Unnamed: 4',
       'Unnamed: 5', '설치\n시기', '설치형태', 'Unnamed: 8', '운영\n방식'],
      dtype='object')

In [16]:
# 컬럼이름
col_names = ["대여소번호","대여소명", "자치구", "상세주소", "위도", "경도", "설치시기", "LCD", "QR", "운영방식"]
col_names

['대여소번호', '대여소명', '자치구', '상세주소', '위도', '경도', '설치시기', 'LCD', 'QR', '운영방식']

In [23]:
# 컬럼명 변경하고 4번 인덱스 행부터 사용하기
raw.columns = col_names
df = raw[4:].copy()
df

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식
4,102.0,망원역 1번출구 앞,마포구,서울특별시 마포구 월드컵로 72,37.555649,126.910629,2015-09-06 23:42:06,20,,LCD
5,103.0,망원역 2번출구 앞,마포구,서울특별시 마포구 월드컵로 79,37.554951,126.910835,2015-09-06 23:43:13,14,,LCD
6,104.0,합정역 1번출구 앞,마포구,서울특별시 마포구 양화로 59,37.550629,126.914986,2015-09-06 23:44:31,13,,LCD
7,105.0,합정역 5번출구 앞,마포구,서울특별시 마포구 양화로 48,37.550007,126.914825,2015-09-06 23:45:30,5,,LCD
8,106.0,합정역 7번출구 앞,마포구,서울특별시 마포구 독막로 4,37.548645,126.912827,2015-09-06 23:46:31,10,,LCD
...,...,...,...,...,...,...,...,...,...,...
2585,5070.0,마곡13단지힐스테이트마스터 후문(1320동 앞),강서구,서울시 강서구 마곡중앙1로 71 마곡13단지힐스테이트마스터 후문 인근,37.556763,126.818695,2021-11-11 00:00:00,,15,QR
2586,5072.0,김포공항입구 교통섬,강서구,공항동 74-5,37.561546,126.807083,2021-09-28 00:00:00,,10,QR
2587,5073.0,우장산역 헤링턴타워 앞,강서구,화곡동 1013-3,37.546619,126.836235,2021-10-20 00:00:00,,6,QR
2588,5074.0,마곡동 주니어마곡점앞,강서구,강서구 마곡동 798-17,37.558235,126.82576,2021-11-19 00:00:00,,10,QR


### 인덱스 초기화

In [32]:
# reset_index 로 초기화를 합니다. 기존 인덱스는 제거합니다.
df = df.reset_index(drop=True)
df

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식
0,102.0,망원역 1번출구 앞,마포구,서울특별시 마포구 월드컵로 72,37.555649,126.910629,2015-09-06 23:42:06,20,,LCD
1,103.0,망원역 2번출구 앞,마포구,서울특별시 마포구 월드컵로 79,37.554951,126.910835,2015-09-06 23:43:13,14,,LCD
2,104.0,합정역 1번출구 앞,마포구,서울특별시 마포구 양화로 59,37.550629,126.914986,2015-09-06 23:44:31,13,,LCD
3,105.0,합정역 5번출구 앞,마포구,서울특별시 마포구 양화로 48,37.550007,126.914825,2015-09-06 23:45:30,5,,LCD
4,106.0,합정역 7번출구 앞,마포구,서울특별시 마포구 독막로 4,37.548645,126.912827,2015-09-06 23:46:31,10,,LCD
...,...,...,...,...,...,...,...,...,...,...
2581,5070.0,마곡13단지힐스테이트마스터 후문(1320동 앞),강서구,서울시 강서구 마곡중앙1로 71 마곡13단지힐스테이트마스터 후문 인근,37.556763,126.818695,2021-11-11 00:00:00,,15,QR
2582,5072.0,김포공항입구 교통섬,강서구,공항동 74-5,37.561546,126.807083,2021-09-28 00:00:00,,10,QR
2583,5073.0,우장산역 헤링턴타워 앞,강서구,화곡동 1013-3,37.546619,126.836235,2021-10-20 00:00:00,,6,QR
2584,5074.0,마곡동 주니어마곡점앞,강서구,강서구 마곡동 798-17,37.558235,126.82576,2021-11-19 00:00:00,,10,QR


## 데이터 요약

In [37]:
# info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2586 entries, 0 to 2585
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   대여소번호   2586 non-null   float64       
 1   대여소명    2586 non-null   object        
 2   자치구     2586 non-null   object        
 3   상세주소    2586 non-null   object        
 4   위도      2586 non-null   object        
 5   경도      2586 non-null   object        
 6   설치시기    2586 non-null   datetime64[ns]
 7   LCD     1400 non-null   object        
 8   QR      1187 non-null   object        
 9   운영방식    2586 non-null   object        
dtypes: datetime64[ns](1), float64(1), object(8)
memory usage: 202.2+ KB


## 데이터 타입 변경하기

In [44]:
df["위도"].describe()

count     2586.00000
unique    2508.00000
top         37.47818
freq         2.00000
Name: 위도, dtype: float64

In [54]:
# nan == not a number 의 약자로 결측치를 의미합니다.
type(np.nan)

float

In [59]:
pd.Series([1, 3, 5, 7, np.nan]).astype(float)

0    1.0
1    3.0
2    5.0
3    7.0
4    NaN
dtype: float64

In [62]:
# 위도, 경도, LCD, QR을 수치 형태로 변경합니다.
df["위도"] = df["위도"].astype(float)
df["경도"] = df["경도"].astype(float)
df["LCD"] = df["LCD"].astype(float)
df["QR"] = df["QR"].astype(float)

In [64]:
df["위도"].describe()

count    2586.000000
mean       37.547230
std         0.051938
min        37.430977
25%        37.505417
50%        37.546198
75%        37.577216
max        37.691013
Name: 위도, dtype: float64

## Attributes를 통한 데이터의 개별 정보 보기
* https://pandas.pydata.org/docs/reference/frame.html

In [65]:
# shape
df.shape

(2586, 10)

In [66]:
# dtypes
df.dtypes

대여소번호           float64
대여소명             object
자치구              object
상세주소             object
위도              float64
경도              float64
설치시기     datetime64[ns]
LCD             float64
QR              float64
운영방식             object
dtype: object

In [67]:
# index
df.index

RangeIndex(start=0, stop=2586, step=1)

In [68]:
# columns
df.columns

Index(['대여소번호', '대여소명', '자치구', '상세주소', '위도', '경도', '설치시기', 'LCD', 'QR',
       '운영방식'],
      dtype='object')

In [69]:
# values
df.values

array([[102.0, '망원역 1번출구 앞', '마포구', ..., 20.0, nan, 'LCD'],
       [103.0, '망원역 2번출구 앞', '마포구', ..., 14.0, nan, 'LCD'],
       [104.0, '합정역 1번출구 앞', '마포구', ..., 13.0, nan, 'LCD'],
       ...,
       [5073.0, '우장산역 헤링턴타워 앞', '강서구', ..., nan, 6.0, 'QR'],
       [5074.0, '마곡동 주니어마곡점앞', '강서구', ..., nan, 10.0, 'QR'],
       [5075.0, '템퍼 목동점', '강서구', ..., nan, 10.0, 'QR']], dtype=object)

## 중복확인

In [72]:
# duplicated 확인
df[df.duplicated()]

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식


## 결측치 확인
### 결측치 합계

In [74]:
True == 1

True

In [77]:
True + True + False + True

3

In [78]:
# 결측치 합계
df.isnull().sum()

대여소번호       0
대여소명        0
자치구         0
상세주소        0
위도          0
경도          0
설치시기        0
LCD      1186
QR       1399
운영방식        0
dtype: int64

### 결측치 비율

In [82]:
(True + True + False + True) / 4 * 100

75.0

In [83]:
# 결측치 비율
df.isnull().mean() * 100

대여소번호     0.000000
대여소명      0.000000
자치구       0.000000
상세주소      0.000000
위도        0.000000
경도        0.000000
설치시기      0.000000
LCD      45.862336
QR       54.098995
운영방식      0.000000
dtype: float64

### LCD, QR 둘 다 운영중인 대여소 찾기

In [88]:
# LCD, QR 둘다 notnull 인 곳 == 운영중인 곳
df[df["LCD"].notnull() & df["QR"].notnull()]

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식
407,583.0,청계천 생태교실 앞,성동구,서울특별시 성동구 마장로39길 51,37.56797,127.04689,2016-07-06 12:00:00,20.0,5.0,LCD


## 파생변수 만들기

In [99]:
np.nan + 1

nan

In [98]:
pd.Series([np.nan]).fillna(0) + 1

0    1.0
dtype: float64

In [102]:
# LCD, QR을 더해서 자전거수 파생변수 만들기
df["자전거수"] = df["LCD"].fillna(0) + df["QR"].fillna(0)
df["자전거수"] = df["자전거수"].astype(int)
df["자전거수"]

0       20
1       14
2       13
3        5
4       10
        ..
2581    15
2582    10
2583     6
2584    10
2585    10
Name: 자전거수, Length: 2586, dtype: int64

In [104]:
df.head(1)

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식,자전거수
0,102.0,망원역 1번출구 앞,마포구,서울특별시 마포구 월드컵로 72,37.555649,126.910629,2015-09-06 23:42:06,20.0,,LCD,20


In [107]:
# 연도 파생변수 만들기
df["연도"] = df["설치시기"].dt.year
df.head(1)

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식,자전거수,연도
0,102.0,망원역 1번출구 앞,마포구,서울특별시 마포구 월드컵로 72,37.555649,126.910629,2015-09-06 23:42:06,20.0,,LCD,20,2015


In [111]:
# 월(month), 일(day), 요일(dayofweek) 만들기
df["월"] = df["설치시기"].dt.month
df["일"] = df["설치시기"].dt.day
df["요일"] = df["설치시기"].dt.dayofweek
df.head(1)

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식,자전거수,연도,월,일,요일
0,102.0,망원역 1번출구 앞,마포구,서울특별시 마포구 월드컵로 72,37.555649,126.910629,2015-09-06 23:42:06,20.0,,LCD,20,2015,9,6,6


## 기초 기술통계 

In [113]:
# describe
df.describe()

Unnamed: 0,대여소번호,위도,경도,LCD,QR,자전거수,연도,월,일,요일
count,2586.0,2586.0,2586.0,1400.0,1187.0,2586.0,2586.0,2586.0,2586.0,2586.0
mean,2110.668987,37.54723,126.99171,12.666429,11.679865,12.218484,2018.49536,6.651585,15.362336,2.016628
std,1420.43132,0.051938,0.092821,4.728,4.776484,4.777751,1.894351,3.344621,9.642257,1.447506
min,102.0,37.430977,126.798599,5.0,4.0,4.0,2015.0,1.0,1.0,0.0
25%,923.25,37.505417,126.914808,10.0,10.0,10.0,2017.0,4.0,7.0,1.0
50%,1845.5,37.546198,127.002693,10.0,10.0,10.0,2018.0,6.0,15.0,2.0
75%,3412.75,37.577216,127.064451,15.0,15.0,15.0,2020.0,10.0,24.0,3.0
max,5075.0,37.691013,127.180641,40.0,40.0,40.0,2021.0,12.0,31.0,6.0


In [114]:
# describe
df.describe(include="object")

Unnamed: 0,대여소명,자치구,상세주소,운영방식
count,2586,2586,2586,2586
unique,2584,25,2486,2
top,신봉천주유소,송파구,국회의사당 경내,LCD
freq,2,207,7,1400


In [116]:
df[df["대여소명"] == "신봉천주유소"]

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식,자전거수,연도,월,일,요일
1497,2199.0,신봉천주유소,관악구,남부순환로 1884,37.478771,126.958694,2020-04-30,,8.0,QR,8,2020,4,30,3
2148,3810.0,신봉천주유소,관악구,남부순환로 1880,37.478882,126.95842,2021-02-01,,10.0,QR,10,2021,2,1,0


In [117]:
df[df["상세주소"] == "국회의사당 경내"]

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식,자전거수,연도,월,일,요일
2413,4579.0,국회의사당 본관,영등포구,국회의사당 경내,37.532574,126.914047,2021-03-10,,12.0,QR,12,2021,3,10,2
2414,4580.0,국회 3문,영등포구,국회의사당 경내,37.529747,126.91317,2021-03-10,,12.0,QR,12,2021,3,10,2
2415,4581.0,국회 소통관,영등포구,국회의사당 경내,37.530502,126.912895,2021-03-10,,8.0,QR,8,2021,3,10,2
2416,4582.0,국회도서관,영등포구,국회의사당 경내,37.53054,126.918175,2021-03-10,,6.0,QR,6,2021,3,10,2
2417,4583.0,의정관,영등포구,국회의사당 경내,37.532146,126.917473,2021-03-11,,12.0,QR,12,2021,3,11,3
2418,4584.0,국회 2문,영등포구,국회의사당 경내,37.528641,126.915108,2021-03-10,,6.0,QR,6,2021,3,10,2
2419,4585.0,국회 6문,영등포구,국회의사당 경내,37.532719,126.917992,2021-03-11,,6.0,QR,6,2021,3,11,3


## 정렬하기

### 자전거 수가 많은 대여소

In [121]:
# sort_values 로 "자전거수"가 많은 대여소 찾기
df.sort_values(by="자전거수", ascending=False).head(10)

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식,자전거수,연도,월,일,요일
558,790.0,화곡고가 사거리,양천구,양천구 신월동 455-5,37.527607,126.848755,2020-03-11 00:00:00,,40.0,QR,40,2020,3,11,2
269,420.0,서울시 공공자전거 상암센터,마포구,서울특별시 마포구 월드컵북로47길 10,37.566246,126.896179,2015-10-07 11:39:12,40.0,,LCD,40,2015,10,7,2
90,207.0,여의나루역 1번출구 앞,영등포구,서울특별시 영등포구 여의동로 지하343,37.527157,126.9319,2015-09-17 15:33:18,40.0,,LCD,40,2015,9,17,3
74,186.0,월드컵공원,마포구,서울특별시 마포구 하늘공원로 108-1,37.563965,126.898209,2016-07-06 12:00:00,40.0,,LCD,40,2016,7,6,2
590,829.0,베르가모앞,용산구,서울특별시 용산구 한강대로 23,37.52293,126.961693,2017-11-28 11:57:57,40.0,,LCD,40,2017,11,28,1
400,574.0,아차산역4번출구,광진구,서울특별시 광진구 능동로 216,37.551849,127.088982,2016-07-06 12:00:00,40.0,,LCD,40,2016,7,6,2
1965,3507.0,어린이회관,광진구,서울특별시 광진구 능동 465-7,37.545952,127.078003,2017-11-01 16:00:00,39.0,,LCD,39,2017,11,1,2
89,206.0,KBS 앞,영등포구,서울특별시 영등포구 여의공원로 13,37.524666,126.918022,2015-09-17 15:09:17,35.0,,LCD,35,2015,9,17,3
94,212.0,여의도역 1번출구 옆,영등포구,서울특별시 영등포구 의사당대로 88,37.521362,126.923462,2015-09-17 15:12:54,35.0,,LCD,35,2015,9,17,3
92,210.0,IFC몰,영등포구,서울특별시 영등포구 국제금융로 10,37.526031,126.925507,2015-09-17 15:11:22,31.0,,LCD,31,2015,9,17,3


In [122]:
# nlargest 로 "자전거수"가 많은 대여소 찾기
df.nlargest(10, "자전거수")

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식,자전거수,연도,월,일,요일
74,186.0,월드컵공원,마포구,서울특별시 마포구 하늘공원로 108-1,37.563965,126.898209,2016-07-06 12:00:00,40.0,,LCD,40,2016,7,6,2
90,207.0,여의나루역 1번출구 앞,영등포구,서울특별시 영등포구 여의동로 지하343,37.527157,126.9319,2015-09-17 15:33:18,40.0,,LCD,40,2015,9,17,3
269,420.0,서울시 공공자전거 상암센터,마포구,서울특별시 마포구 월드컵북로47길 10,37.566246,126.896179,2015-10-07 11:39:12,40.0,,LCD,40,2015,10,7,2
400,574.0,아차산역4번출구,광진구,서울특별시 광진구 능동로 216,37.551849,127.088982,2016-07-06 12:00:00,40.0,,LCD,40,2016,7,6,2
558,790.0,화곡고가 사거리,양천구,양천구 신월동 455-5,37.527607,126.848755,2020-03-11 00:00:00,,40.0,QR,40,2020,3,11,2
590,829.0,베르가모앞,용산구,서울특별시 용산구 한강대로 23,37.52293,126.961693,2017-11-28 11:57:57,40.0,,LCD,40,2017,11,28,1
1965,3507.0,어린이회관,광진구,서울특별시 광진구 능동 465-7,37.545952,127.078003,2017-11-01 16:00:00,39.0,,LCD,39,2017,11,1,2
89,206.0,KBS 앞,영등포구,서울특별시 영등포구 여의공원로 13,37.524666,126.918022,2015-09-17 15:09:17,35.0,,LCD,35,2015,9,17,3
94,212.0,여의도역 1번출구 옆,영등포구,서울특별시 영등포구 의사당대로 88,37.521362,126.923462,2015-09-17 15:12:54,35.0,,LCD,35,2015,9,17,3
92,210.0,IFC몰,영등포구,서울특별시 영등포구 국제금융로 10,37.526031,126.925507,2015-09-17 15:11:22,31.0,,LCD,31,2015,9,17,3


In [123]:
df.nsmallest(10, "자전거수")

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식,자전거수,연도,월,일,요일
2048,3629.0,청담사거리(신한오피스텔빌딩 앞),강남구,도산대로 510,37.524162,127.04895,2021-02-23 00:00:00,,4.0,QR,4,2021,2,23,1
2090,3687.0,신명초교입구 교차로,강동구,강동구 길동 95,37.540768,127.146881,2021-06-01 00:00:00,,4.0,QR,4,2021,6,1,1
2167,3882.0,자양2동 주민센터,광진구,광진구 자양로3가길 26,37.528793,127.084633,2021-07-23 00:00:00,,4.0,QR,4,2021,7,23,4
2234,4044.0,공릉산 백세문 입구,노원구,노원구 노원로 62,37.62812,127.085487,2021-10-07 00:00:00,,4.0,QR,4,2021,10,7,3
2248,4080.0,창동주공19단지앞,도봉구,도봉시 노해로 70길 19 1905동 앞 ( 도봉경찰서 건너편) 버스정류장 쯤에 희...,37.652508,127.052277,2021-10-27 00:00:00,,4.0,QR,4,2021,10,27,2
2323,4363.0,신금호역 2번출구 앞,성동구,신금호역 2번출구,37.555073,127.01989,2021-06-25 00:00:00,,4.0,QR,4,2021,6,25,4
3,105.0,합정역 5번출구 앞,마포구,서울특별시 마포구 양화로 48,37.550007,126.914825,2015-09-06 23:45:30,5.0,,LCD,5,2015,9,6,6
5,107.0,신한은행 서교동금융센터점 앞,마포구,서울특별시 마포구 월드컵북로 35,37.55751,126.918503,2015-09-06 23:47:57,5.0,,LCD,5,2015,9,6,6
13,116.0,일진아이윌아파트 옆,서대문구,서울특별시 서대문구 동교로 290,37.564541,126.927071,2015-09-07 01:30:25,5.0,,LCD,5,2015,9,7,0
17,120.0,신수동 사거리,마포구,서울특별시 마포구 토정로 211,37.545242,126.934113,2015-09-07 01:34:59,5.0,,LCD,5,2015,9,7,0


## DataFrame

<img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg">

In [124]:
# df 의 type 확인
type(df)

pandas.core.frame.DataFrame

## Series

<img src="https://pandas.pydata.org/docs/_images/01_table_series.svg">

In [127]:
# series 의 type 확인
type(df["대여소명"])

pandas.core.series.Series

In [129]:
# 컬럼 인덱싱
df["대여소명"]

0                       망원역 1번출구 앞
1                       망원역 2번출구 앞
2                       합정역 1번출구 앞
3                       합정역 5번출구 앞
4                       합정역 7번출구 앞
                   ...            
2581    마곡13단지힐스테이트마스터 후문(1320동 앞)
2582                    김포공항입구 교통섬
2583                  우장산역 헤링턴타워 앞
2584                   마곡동 주니어마곡점앞
2585                        템퍼 목동점
Name: 대여소명, Length: 2586, dtype: object

In [131]:
df["상세주소"]

0                            서울특별시 마포구 월드컵로 72
1                            서울특별시 마포구 월드컵로 79
2                             서울특별시 마포구 양화로 59
3                             서울특별시 마포구 양화로 48
4                              서울특별시 마포구 독막로 4
                         ...                  
2581    서울시 강서구 마곡중앙1로 71 마곡13단지힐스테이트마스터 후문 인근
2582                                  공항동 74-5
2583                                화곡동 1013-3
2584                            강서구 마곡동 798-17
2585                            강서구 등촌동 649-14
Name: 상세주소, Length: 2586, dtype: object

In [134]:
# 2개 이상의 컬럼 인덱싱
df[["대여소명", "자전거수"]]

Unnamed: 0,대여소명,자전거수
0,망원역 1번출구 앞,20
1,망원역 2번출구 앞,14
2,합정역 1번출구 앞,13
3,합정역 5번출구 앞,5
4,합정역 7번출구 앞,10
...,...,...
2581,마곡13단지힐스테이트마스터 후문(1320동 앞),15
2582,김포공항입구 교통섬,10
2583,우장산역 헤링턴타워 앞,6
2584,마곡동 주니어마곡점앞,10


In [136]:
df[["대여소명"]]

Unnamed: 0,대여소명
0,망원역 1번출구 앞
1,망원역 2번출구 앞
2,합정역 1번출구 앞
3,합정역 5번출구 앞
4,합정역 7번출구 앞
...,...
2581,마곡13단지힐스테이트마스터 후문(1320동 앞)
2582,김포공항입구 교통섬
2583,우장산역 헤링턴타워 앞
2584,마곡동 주니어마곡점앞


## loc

In [140]:
# loc를 통한 행 인덱싱
# loc == locate
df.loc[0]

대여소번호                  102.0
대여소명              망원역 1번출구 앞
자치구                      마포구
상세주소       서울특별시 마포구 월드컵로 72
위도                 37.555649
경도                126.910629
설치시기     2015-09-06 23:42:06
LCD                     20.0
QR                       NaN
운영방식                     LCD
자전거수                      20
연도                      2015
월                          9
일                          6
요일                         6
Name: 0, dtype: object

In [142]:
# 여러 행 인덱싱
df.loc[[0, 1, 2]]

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식,자전거수,연도,월,일,요일
0,102.0,망원역 1번출구 앞,마포구,서울특별시 마포구 월드컵로 72,37.555649,126.910629,2015-09-06 23:42:06,20.0,,LCD,20,2015,9,6,6
1,103.0,망원역 2번출구 앞,마포구,서울특별시 마포구 월드컵로 79,37.554951,126.910835,2015-09-06 23:43:13,14.0,,LCD,14,2015,9,6,6
2,104.0,합정역 1번출구 앞,마포구,서울특별시 마포구 양화로 59,37.550629,126.914986,2015-09-06 23:44:31,13.0,,LCD,13,2015,9,6,6


In [143]:
# 행, 열 인덱싱
df.loc[0, "대여소명"]

'망원역 1번출구 앞'

In [144]:
# 행, 열 슬라이싱
# 
df.loc[:3, :"상세주소"]

Unnamed: 0,대여소번호,대여소명,자치구,상세주소
0,102.0,망원역 1번출구 앞,마포구,서울특별시 마포구 월드컵로 72
1,103.0,망원역 2번출구 앞,마포구,서울특별시 마포구 월드컵로 79
2,104.0,합정역 1번출구 앞,마포구,서울특별시 마포구 양화로 59
3,105.0,합정역 5번출구 앞,마포구,서울특별시 마포구 양화로 48


### iloc

In [146]:
# iloc 를 통한 인덱싱
df.iloc[0, 1]

'망원역 1번출구 앞'

In [147]:
# iloc 를 통한 슬라이싱
df.iloc[:3, :3]

Unnamed: 0,대여소번호,대여소명,자치구
0,102.0,망원역 1번출구 앞,마포구
1,103.0,망원역 2번출구 앞,마포구
2,104.0,합정역 1번출구 앞,마포구


## 조건 검색

* `Boolean Indexing`
* 결과값이 True, False bool 형태로 반환되기 때문에 boolean indexing 이라고 부릅니다.
* boolean indexing 을 사용해 특정 조건식을 만족하는 데이터를 서브셋으로 가져옵니다.

<img src="https://pandas.pydata.org/docs/_images/03_subset_rows.svg">

In [151]:
# Boolean Indexing
# 마포구 대여소 찾기
df[df["자치구"] == "마포구"]

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식,자전거수,연도,월,일,요일
0,102.0,망원역 1번출구 앞,마포구,서울특별시 마포구 월드컵로 72,37.555649,126.910629,2015-09-06 23:42:06,20.0,,LCD,20,2015,9,6,6
1,103.0,망원역 2번출구 앞,마포구,서울특별시 마포구 월드컵로 79,37.554951,126.910835,2015-09-06 23:43:13,14.0,,LCD,14,2015,9,6,6
2,104.0,합정역 1번출구 앞,마포구,서울특별시 마포구 양화로 59,37.550629,126.914986,2015-09-06 23:44:31,13.0,,LCD,13,2015,9,6,6
3,105.0,합정역 5번출구 앞,마포구,서울특별시 마포구 양화로 48,37.550007,126.914825,2015-09-06 23:45:30,5.0,,LCD,5,2015,9,6,6
4,106.0,합정역 7번출구 앞,마포구,서울특별시 마포구 독막로 4,37.548645,126.912827,2015-09-06 23:46:31,10.0,,LCD,10,2015,9,6,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2290,4233.0,코오롱아파트사거리,마포구,마포구 연남로 42 코오롱아파트사거리,37.563038,126.921432,2021-10-28 00:00:00,,10.0,QR,10,2021,10,28,3
2291,4234.0,에스테반,마포구,마포구 만리재로 95,37.548920,126.959518,2021-10-28 00:00:00,,7.0,QR,7,2021,10,28,3
2292,4238.0,상암한샘빌딩앞,마포구,서울시 마포구 성암로 179,37.576492,126.898674,2021-10-28 00:00:00,,7.0,QR,7,2021,10,28,3
2293,4239.0,성산2동 주민센터,마포구,서울 마포구 성산동 601-8,37.568970,126.907799,2021-10-28 00:00:00,,5.0,QR,5,2021,10,28,3


In [155]:
# isin 으로 "마포구", "종로구" 대여소 찾기
df[df["자치구"].isin(["마포구", "종로구"])]

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식,자전거수,연도,월,일,요일
0,102.0,망원역 1번출구 앞,마포구,서울특별시 마포구 월드컵로 72,37.555649,126.910629,2015-09-06 23:42:06,20.0,,LCD,20,2015,9,6,6
1,103.0,망원역 2번출구 앞,마포구,서울특별시 마포구 월드컵로 79,37.554951,126.910835,2015-09-06 23:43:13,14.0,,LCD,14,2015,9,6,6
2,104.0,합정역 1번출구 앞,마포구,서울특별시 마포구 양화로 59,37.550629,126.914986,2015-09-06 23:44:31,13.0,,LCD,13,2015,9,6,6
3,105.0,합정역 5번출구 앞,마포구,서울특별시 마포구 양화로 48,37.550007,126.914825,2015-09-06 23:45:30,5.0,,LCD,5,2015,9,6,6
4,106.0,합정역 7번출구 앞,마포구,서울특별시 마포구 독막로 4,37.548645,126.912827,2015-09-06 23:46:31,10.0,,LCD,10,2015,9,6,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2474,4709.0,천지인 오피스텔 앞,종로구,평창문화로 29,37.604698,126.964516,2021-02-02 00:00:00,,5.0,QR,5,2021,2,2,1
2475,4710.0,자교교회 앞,종로구,자하문로 58,37.581146,126.971237,2020-11-05 00:00:00,,8.0,QR,8,2020,11,5,3
2476,4711.0,올림픽기념 국민생활관 로터리,종로구,종로구 혜화동 9-8,37.589836,126.999344,2020-09-10 00:00:00,,10.0,QR,10,2020,9,10,3
2477,4713.0,현대 뜨레비앙 아파트 앞,종로구,돈화문로11가길 59,37.575283,126.990623,2021-02-02 00:00:00,,7.0,QR,7,2021,2,2,1


In [162]:
# 여러 조건 비교하기
# 마포구의 LCD 운영 대여소 찾기
df[(df["자치구"] == "마포구") & (df["운영방식"] == "LCD")]

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식,자전거수,연도,월,일,요일
0,102.0,망원역 1번출구 앞,마포구,서울특별시 마포구 월드컵로 72,37.555649,126.910629,2015-09-06 23:42:06,20.0,,LCD,20,2015,9,6,6
1,103.0,망원역 2번출구 앞,마포구,서울특별시 마포구 월드컵로 79,37.554951,126.910835,2015-09-06 23:43:13,14.0,,LCD,14,2015,9,6,6
2,104.0,합정역 1번출구 앞,마포구,서울특별시 마포구 양화로 59,37.550629,126.914986,2015-09-06 23:44:31,13.0,,LCD,13,2015,9,6,6
3,105.0,합정역 5번출구 앞,마포구,서울특별시 마포구 양화로 48,37.550007,126.914825,2015-09-06 23:45:30,5.0,,LCD,5,2015,9,6,6
4,106.0,합정역 7번출구 앞,마포구,서울특별시 마포구 독막로 4,37.548645,126.912827,2015-09-06 23:46:31,10.0,,LCD,10,2015,9,6,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
284,436.0,이대역 5번출구,마포구,마포구 대흥동 2-1,37.556591,126.946190,2018-11-21 00:00:00,10.0,,LCD,10,2018,11,21,2
285,437.0,대흥역 1번출구,마포구,마포구 대흥동 105-4,37.548470,126.940926,2018-12-04 00:00:00,12.0,,LCD,12,2018,12,4,1
286,438.0,성산2-1 공영주차장,마포구,마포구 성산동 199-46,37.564720,126.906769,2018-11-22 00:00:00,15.0,,LCD,15,2018,11,22,3
287,439.0,마포어린이공원,마포구,마포구 마포동 364-4,37.535751,126.944038,2018-12-06 00:00:00,10.0,,LCD,10,2018,12,6,3


In [167]:
# 여러 조건 비교하기
# 상세주소에 월드컵로가 들어가는 LCD 운영 대여소 찾기
df[df["상세주소"].str.contains("월드컵로") & (df["운영방식"] == "LCD")]

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식,자전거수,연도,월,일,요일
0,102.0,망원역 1번출구 앞,마포구,서울특별시 마포구 월드컵로 72,37.555649,126.910629,2015-09-06 23:42:06,20.0,,LCD,20,2015,9,6,6
1,103.0,망원역 2번출구 앞,마포구,서울특별시 마포구 월드컵로 79,37.554951,126.910835,2015-09-06 23:43:13,14.0,,LCD,14,2015,9,6,6
72,184.0,SK망원동주유소 건너편,마포구,서울특별시 마포구 월드컵로 119?,37.558949,126.907753,2016-07-06 12:00:00,9.0,,LCD,9,2016,7,6,2
267,418.0,월드컵경기장역 3번출구 옆,마포구,서울특별시 마포구 월드컵로 지하240,37.570721,126.898979,2015-10-07 11:40:49,10.0,,LCD,10,2015,10,7,2
268,419.0,홈플러스 앞,마포구,서울특별시 마포구 월드컵로 240,37.56842,126.899429,2015-10-07 11:40:04,21.0,,LCD,21,2015,10,7,2


In [170]:
# 자전거수가 특정 수 이상 있는 대여소 찾기
df[df["자전거수"] > 30]

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식,자전거수,연도,월,일,요일
74,186.0,월드컵공원,마포구,서울특별시 마포구 하늘공원로 108-1,37.563965,126.898209,2016-07-06 12:00:00,40.0,,LCD,40,2016,7,6,2
89,206.0,KBS 앞,영등포구,서울특별시 영등포구 여의공원로 13,37.524666,126.918022,2015-09-17 15:09:17,35.0,,LCD,35,2015,9,17,3
90,207.0,여의나루역 1번출구 앞,영등포구,서울특별시 영등포구 여의동로 지하343,37.527157,126.9319,2015-09-17 15:33:18,40.0,,LCD,40,2015,9,17,3
92,210.0,IFC몰,영등포구,서울특별시 영등포구 국제금융로 10,37.526031,126.925507,2015-09-17 15:11:22,31.0,,LCD,31,2015,9,17,3
94,212.0,여의도역 1번출구 옆,영등포구,서울특별시 영등포구 의사당대로 88,37.521362,126.923462,2015-09-17 15:12:54,35.0,,LCD,35,2015,9,17,3
269,420.0,서울시 공공자전거 상암센터,마포구,서울특별시 마포구 월드컵북로47길 10,37.566246,126.896179,2015-10-07 11:39:12,40.0,,LCD,40,2015,10,7,2
400,574.0,아차산역4번출구,광진구,서울특별시 광진구 능동로 216,37.551849,127.088982,2016-07-06 12:00:00,40.0,,LCD,40,2016,7,6,2
558,790.0,화곡고가 사거리,양천구,양천구 신월동 455-5,37.527607,126.848755,2020-03-11 00:00:00,,40.0,QR,40,2020,3,11,2
590,829.0,베르가모앞,용산구,서울특별시 용산구 한강대로 23,37.52293,126.961693,2017-11-28 11:57:57,40.0,,LCD,40,2017,11,28,1
1965,3507.0,어린이회관,광진구,서울특별시 광진구 능동 465-7,37.545952,127.078003,2017-11-01 16:00:00,39.0,,LCD,39,2017,11,1,2


## 전처리 내용 파일저장하기

<img src="https://pandas.pydata.org/docs/_images/02_io_readwrite.svg">

In [171]:
# 파일명 지정하기
file_name = "data/bike_station.csv"
file_name

'data/bike_station.csv'

In [174]:
# to_csv 로 저장하고 index=False 로 인덱스는 제외하고 저장하기
df.to_csv(file_name, index=False)

In [176]:
glob.glob("data/bike*.csv")

['data/bike_station.csv']

In [177]:
# read_csv 로 저장한 파일 읽어와서 확인하기
pd.read_csv(file_name)

Unnamed: 0,대여소번호,대여소명,자치구,상세주소,위도,경도,설치시기,LCD,QR,운영방식,자전거수,연도,월,일,요일
0,102.0,망원역 1번출구 앞,마포구,서울특별시 마포구 월드컵로 72,37.555649,126.910629,2015-09-06 23:42:06.000,20.0,,LCD,20,2015,9,6,6
1,103.0,망원역 2번출구 앞,마포구,서울특별시 마포구 월드컵로 79,37.554951,126.910835,2015-09-06 23:43:13.000,14.0,,LCD,14,2015,9,6,6
2,104.0,합정역 1번출구 앞,마포구,서울특별시 마포구 양화로 59,37.550629,126.914986,2015-09-06 23:44:31.000,13.0,,LCD,13,2015,9,6,6
3,105.0,합정역 5번출구 앞,마포구,서울특별시 마포구 양화로 48,37.550007,126.914825,2015-09-06 23:45:30.000,5.0,,LCD,5,2015,9,6,6
4,106.0,합정역 7번출구 앞,마포구,서울특별시 마포구 독막로 4,37.548645,126.912827,2015-09-06 23:46:31.000,10.0,,LCD,10,2015,9,6,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2581,5070.0,마곡13단지힐스테이트마스터 후문(1320동 앞),강서구,서울시 강서구 마곡중앙1로 71 마곡13단지힐스테이트마스터 후문 인근,37.556763,126.818695,2021-11-11 00:00:00.000,,15.0,QR,15,2021,11,11,3
2582,5072.0,김포공항입구 교통섬,강서구,공항동 74-5,37.561546,126.807083,2021-09-28 00:00:00.000,,10.0,QR,10,2021,9,28,1
2583,5073.0,우장산역 헤링턴타워 앞,강서구,화곡동 1013-3,37.546619,126.836235,2021-10-20 00:00:00.000,,6.0,QR,6,2021,10,20,2
2584,5074.0,마곡동 주니어마곡점앞,강서구,강서구 마곡동 798-17,37.558235,126.825760,2021-11-19 00:00:00.000,,10.0,QR,10,2021,11,19,4


* https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf