---
title: "data_analysis_uber"
author: "Taebum Eom"
date: "2023-05-30"
date-format: "YYYY/MM/DD"
categories: [Data-Mining, GeoPandas]
title-block-banner: false
page-layout: full
image: "h3.png"
---

> data_analysis_uber

In [1]:
import matplotlib.pyplot as plt
from collections import Counter
import pydeck as pdk
import pandas as pd
from h3 import h3

In [2]:
H3_HEX_DATA = "https://raw.githubusercontent.com/visgl/deck.gl-data/master/website/sf.h3cells.json"

df = pd.read_json(H3_HEX_DATA)

# Define a layer to display on a map
layer = pdk.Layer(
    "H3HexagonLayer",
    df,
    pickable=True,
    stroked=True,
    filled=True,
    extruded=False,
    get_hexagon="hex",
    get_fill_color="[255 - count, 255, count]",
    get_line_color=[255, 255, 255],
    line_width_min_pixels=2,
)

# Set the viewport location
view_state = pdk.ViewState(latitude=37.7749295, longitude=-122.4194155, zoom=10, bearing=0, pitch=30)


# Render
r = pdk.Deck(layers=[layer], initial_view_state=view_state, tooltip={"text": "Count: {count}"})
r

In [3]:
df['center'] = df['hex'].map(lambda x: h3.h3_to_geo(x))
df['boundary'] = df['hex'].map(lambda x: h3.h3_to_geo_boundary(x))

In [4]:
from folium import Map, CircleMarker, Polygon

m = Map(location=[37.7, -122.4], zoom_start=11)

for idx, row in df.iterrows():
    CircleMarker(location=[row['center'][0], row['center'][1]],
                 fill=True, radius=2, color='red').add_to(m)
    Polygon(locations=row['boundary']).add_to(m)
m

In [5]:
# 데이터 로드
df = pd.read_csv('https://github.com/fivethirtyeight/uber-tlc-foil-response/raw/master/uber-trip-data/uber-raw-data-apr14.csv')

# 데이터셋 확인
print(df.head())

          Date/Time      Lat      Lon    Base
0  4/1/2014 0:11:00  40.7690 -73.9549  B02512
1  4/1/2014 0:17:00  40.7267 -74.0345  B02512
2  4/1/2014 0:21:00  40.7316 -73.9873  B02512
3  4/1/2014 0:28:00  40.7588 -73.9776  B02512
4  4/1/2014 0:33:00  40.7594 -73.9722  B02512


- Date/Time: 여행이 시작된 날짜와 시간 정보. 예를 들어, 4/1/2014 0:11:00는 2014년 4월 1일 오전 0시 11분에 시작된 여행을 의미합니다.
- Lat: 출발지의 위도 정보. 위도는 지구의 남북 위치를 나타내는 수치입니다.
- Lon: 출발지의 경도 정보. 경도는 지구의 동서 위치를 나타내는 수치입니다.
- Base: Uber의 서비스를 제공하는 특정 "베이스 코드"가 포함되어 있습니다. 이 코드는 보통 특정 Uber 서비스 센터 또는 운영 지역을 나타냅니다.

In [6]:
df.describe()

Unnamed: 0,Lat,Lon
count,564516.0,564516.0
mean,40.740005,-73.976817
std,0.036083,0.050426
min,40.0729,-74.7733
25%,40.7225,-73.9977
50%,40.7425,-73.9848
75%,40.7607,-73.97
max,42.1166,-72.0666


### 1. 데이터의 기본적인 indexing 및 slicing

In [7]:
# 처음 5개의 행을 출력
print(df.head())

          Date/Time      Lat      Lon    Base
0  4/1/2014 0:11:00  40.7690 -73.9549  B02512
1  4/1/2014 0:17:00  40.7267 -74.0345  B02512
2  4/1/2014 0:21:00  40.7316 -73.9873  B02512
3  4/1/2014 0:28:00  40.7588 -73.9776  B02512
4  4/1/2014 0:33:00  40.7594 -73.9722  B02512


In [8]:
# 'Lat' 열의 값만 출력
print(df['Lat'])

0         40.7690
1         40.7267
2         40.7316
3         40.7588
4         40.7594
           ...   
564511    40.7640
564512    40.7629
564513    40.7443
564514    40.6756
564515    40.6880
Name: Lat, Length: 564516, dtype: float64


In [9]:
# 10행부터 20행까지 출력
print(df.iloc[10:21])

           Date/Time      Lat      Lon    Base
10  4/1/2014 1:19:00  40.7256 -73.9869  B02512
11  4/1/2014 1:48:00  40.7591 -73.9684  B02512
12  4/1/2014 1:49:00  40.7271 -73.9803  B02512
13  4/1/2014 2:11:00  40.6463 -73.7896  B02512
14  4/1/2014 2:25:00  40.7564 -73.9167  B02512
15  4/1/2014 2:31:00  40.7666 -73.9531  B02512
16  4/1/2014 2:43:00  40.7580 -73.9761  B02512
17  4/1/2014 3:22:00  40.7238 -73.9821  B02512
18  4/1/2014 3:35:00  40.7531 -74.0039  B02512
19  4/1/2014 3:35:00  40.7389 -74.0393  B02512
20  4/1/2014 3:41:00  40.7619 -73.9715  B02512


In [10]:
# Base 갯수 확인
df.Base.value_counts()

B02682    227808
B02598    183263
B02617    108001
B02512     35536
B02764      9908
Name: Base, dtype: int64

### 2. 결측치에 대한 처리

In [11]:
# 결측치 개수 확인
print(df.isnull().sum())

Date/Time    0
Lat          0
Lon          0
Base         0
dtype: int64


### 3. 기초적인 통계 추출 및 분석

In [12]:
# 데이터 요약
print(df.describe())

# 'Lat' 열의 평균
print(df['Lat'].mean())

# 'Lon' 열의 중앙값
print(df['Lon'].median())

# 'Base' 열에서 각 값의 빈도수 출력
print(df['Base'].value_counts())

                 Lat            Lon
count  564516.000000  564516.000000
mean       40.740005     -73.976817
std         0.036083       0.050426
min        40.072900     -74.773300
25%        40.722500     -73.997700
50%        40.742500     -73.984800
75%        40.760700     -73.970000
max        42.116600     -72.066600
40.74000520746974
-73.9848
B02682    227808
B02598    183263
B02617    108001
B02512     35536
B02764      9908
Name: Base, dtype: int64


### 4. 데이터에 대한 질문을 던져보고 해답을 찾기

In [13]:
df['Date/Time'] = pd.to_datetime(df['Date/Time'])

df['day_name'] = df['Date/Time'].dt.day_name()
df['month'] = df['Date/Time'].dt.month
df['hour'] = df['Date/Time'].dt.hour

In [14]:
df

Unnamed: 0,Date/Time,Lat,Lon,Base,day_name,month,hour
0,2014-04-01 00:11:00,40.7690,-73.9549,B02512,Tuesday,4,0
1,2014-04-01 00:17:00,40.7267,-74.0345,B02512,Tuesday,4,0
2,2014-04-01 00:21:00,40.7316,-73.9873,B02512,Tuesday,4,0
3,2014-04-01 00:28:00,40.7588,-73.9776,B02512,Tuesday,4,0
4,2014-04-01 00:33:00,40.7594,-73.9722,B02512,Tuesday,4,0
...,...,...,...,...,...,...,...
564511,2014-04-30 23:22:00,40.7640,-73.9744,B02764,Wednesday,4,23
564512,2014-04-30 23:26:00,40.7629,-73.9672,B02764,Wednesday,4,23
564513,2014-04-30 23:31:00,40.7443,-73.9889,B02764,Wednesday,4,23
564514,2014-04-30 23:32:00,40.6756,-73.9405,B02764,Wednesday,4,23


### 4.1 월별/요일별 Uber 이용량 비교
- 가장 Uber 이용량이 많은 요일은 언제일까요?

In [15]:
uber_weekday = df.groupby(['month', 'day_name']).size().reset_index(level=[0, 1])
uber_weekday.columns = ['month', 'day_name', 'count']

uber_weekday = uber_weekday.sort_values('count', ascending=False)
uber_weekday

Unnamed: 0,month,day_name,count
6,4,Wednesday,108631
5,4,Tuesday,91185
0,4,Friday,90303
4,4,Thursday,85067
2,4,Saturday,77218
1,4,Monday,60861
3,4,Sunday,51251


### 4.2 시간대별 이용량 비교
- 가장 이용량이 많은 시간대는 언제일까요?

In [16]:
df['hour'].value_counts().sort_index()

0     11910
1      7769
2      4935
3      5040
4      6095
5      9476
6     18498
7     24924
8     22843
9     17939
10    17865
11    18774
12    19425
13    22603
14    27190
15    35324
16    42003
17    45475
18    43003
19    38923
20    36244
21    36964
22    30645
23    20649
Name: hour, dtype: int64

### 4.3 Uber 수요에 대한 공간적인 시각화
- 가장 수요가 많은 지역은 어디일까요?
- 시간대/지역별로 수요의 변화를 나타내보고, 시사점을 도출해 봅시다

In [17]:
df['hex'] = df.apply(lambda x: h3.geo_to_h3(x['Lat'], x['Lon'], 5), axis=1)

In [18]:
df_hex_count = df[['hex']].value_counts().reset_index()
df_hex_count.columns = ['hex', 'count']

layer = pdk.Layer(
    "H3HexagonLayer",
    df_hex_count,
    pickable=True,
    stroked=True,
    filled=True,
    extruded=False,
    get_hexagon="hex",
    get_fill_color="[255 - count, 0, count]",
    get_line_color=[255, 255, 255],
    opacity=0.2,
    coverage=0.9,
    line_width_min_pixels=2,
)

view_state = pdk.ViewState(latitude=40.8, longitude=-73.6, zoom=7)
r = pdk.Deck(layers=[layer], initial_view_state=view_state, tooltip={"text": "Count: {count}"})

r

### New York 부근이 가장 수요가 많음

In [19]:
from IPython.display import display, clear_output
import ipywidgets as widgets
import time

slider = widgets.IntSlider(0, min=1, max=23, step=1)

df_hour_region = df[['hour', 'hex']].groupby(['hour', 'hex']).size().reset_index(level=[0, 1])
df_hour_region.columns = ['hour', 'hex', 'count']

view_state = pdk.ViewState(latitude=40.8, longitude=-73.6, zoom=7)

layer = pdk.Layer(
    "H3HexagonLayer",
    df_hour_region,
    pickable=True,
    stroked=True,
    filled=True,
    extruded=False,
    get_hexagon="hex",
    get_fill_color="[255 - count, 0, count]",
    get_line_color=[255, 255, 255],
    opacity=0.2,
    coverage=0.9,
    line_width_min_pixels=2,
)
def on_change(v):
    results = df_hour_region.loc[df_hour_region['hour'] == int(v)].to_dict('records')
    layer.data = results
    r.update()
    clear_output()
    display(r)
    time.sleep(3)

r = pdk.Deck(layers=[layer], initial_view_state=view_state, tooltip={"text": "Count: {count}"})
display(r)

while True:
    for t in range(0, 24):
        on_change(t)

# slider.observe(on_change, names='value')
# display(slider)

### 제 컴퓨터에서만 안되는건지 pydeck update 함수가 동작하지 않아
### clear output 함수를 활용했습니다.

KeyboardInterrupt: 