---
title: "Uber"
author: "kim dayeon"
date: today
categories: [news, code, analysis]
image: "uber.png"
---

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from h3 import h3
from collections import Counter
import pydeck as pdk

In [11]:
H3_HEX_DATA = "https://raw.githubusercontent.com/visgl/deck.gl-data/master/website/sf.h3cells.json"

df = pd.read_json(H3_HEX_DATA)

# Define a layer to display on a map
layer = pdk.Layer(
    "H3HexagonLayer",
    df,
    pickable=True,
    stroked=True,
    filled=True,
    extruded=False,
    get_hexagon="hex",  #반대로 h3.ceoll_to_latlng(cell)을 하면 헥사곤의 중심좌표나오게 할수도 있음
    get_fill_color="[255 - count, 255, count]", #count에 따라 색이 바뀌게 
    get_line_color=[255, 255, 255],
    line_width_min_pixels=2,
)

# Set the viewport location
view_state = pdk.ViewState(latitude=37.7749295, longitude=-122.4194155, zoom=14, bearing=0, pitch=30)


# Render
r = pdk.Deck(layers=[layer], initial_view_state=view_state, tooltip={"text": "Count: {count}"})
r.show()

DeckGLWidget(carto_key=None, custom_libraries=[], google_maps_key=None, json_input='{\n  "initialViewState": {…

In [12]:
#중심좌표 계산 함수
def calculate_center(hexagon):
    hex_center = h3.h3_to_geo(h3.h3_to_parent(hexagon,0))
    return hex_center

#중심좌표 계산 및 결과 열 추가
df['center_coordinates'] = df['hex'].apply(lambda x: calculate_center(x))

print(df)


                 hex  count                        center_coordinates
0    88283082b9fffff     96  (40.13171663764596, -124.76072993368852)
1    8828308281fffff    534  (40.13171663764596, -124.76072993368852)
2    88283082d7fffff     36  (40.13171663764596, -124.76072993368852)
3    88283082c1fffff    297  (40.13171663764596, -124.76072993368852)
4    88283082a9fffff    147  (40.13171663764596, -124.76072993368852)
..               ...    ...                                       ...
119  8828309563fffff      2  (40.13171663764596, -124.76072993368852)
120  8828309589fffff      4  (40.13171663764596, -124.76072993368852)
121  882830820bfffff      4  (40.13171663764596, -124.76072993368852)
122  88283095c1fffff      4  (40.13171663764596, -124.76072993368852)
123  88283095e1fffff      8  (40.13171663764596, -124.76072993368852)

[124 rows x 3 columns]


In [18]:
#중심좌표 계산 함수
def calculate_center(hexagon):
    hex_boundary = h3.h3_to_geo_boundary(hexagon)
    return hex_boundary

#중심좌표 계산 및 결과 열 추가
df['center_coordinates'] = df['hex'].apply(lambda x: calculate_center(x))


#boundary 좌표 계산 및 결과 열 추가
df['boundary_coordinates'] = df['hex'].apply(lambda x: calculate_center(x))

print(df) 

                 hex  count   
0    88283082b9fffff     96  \
1    8828308281fffff    534   
2    88283082d7fffff     36   
3    88283082c1fffff    297   
4    88283082a9fffff    147   
..               ...    ...   
119  8828309563fffff      2   
120  8828309589fffff      4   
121  882830820bfffff      4   
122  88283095c1fffff      4   
123  88283095e1fffff      8   

                                    center_coordinates   
0    ((37.78289841436256, -122.42116698852692), (37...  \
1    ((37.768823088264455, -122.41682323684428), (3...   
2    ((37.764031696110386, -122.43760980181288), (3...   
3    ((37.74650902798579, -122.41550590767771), (37...   
4    ((37.773611293806056, -122.3960319590407), (37...   
..                                                 ...   
119  ((37.70771385735556, -122.42023721647774), (37...   
120  ((37.74380260664484, -122.49257324317678), (37...   
121  ((37.72552278129231, -122.37564746106892), (37...   
122  ((37.72972832316704, -122.48822347363136),

In [19]:
# 데이터 로드
df = pd.read_csv('https://github.com/fivethirtyeight/uber-tlc-foil-response/raw/master/uber-trip-data/uber-raw-data-apr14.csv')

# 데이터셋 확인
print(df.head())

          Date/Time      Lat      Lon    Base
0  4/1/2014 0:11:00  40.7690 -73.9549  B02512
1  4/1/2014 0:17:00  40.7267 -74.0345  B02512
2  4/1/2014 0:21:00  40.7316 -73.9873  B02512
3  4/1/2014 0:28:00  40.7588 -73.9776  B02512
4  4/1/2014 0:33:00  40.7594 -73.9722  B02512


- Date/Time: 여행이 시작된 날짜와 시간 정보. 예를 들어, 4/1/2014 0:11:00는 2014년 4월 1일 오전 0시 11분에 시작된 여행을 의미합니다.
- Lat: 출발지의 위도 정보. 위도는 지구의 남북 위치를 나타내는 수치입니다.
- Lon: 출발지의 경도 정보. 경도는 지구의 동서 위치를 나타내는 수치입니다.
- Base: Uber의 서비스를 제공하는 특정 "베이스 코드"가 포함되어 있습니다. 이 코드는 보통 특정 Uber 서비스 센터 또는 운영 지역을 나타냅니다.

In [20]:
df.describe()

Unnamed: 0,Lat,Lon
count,564516.0,564516.0
mean,40.740005,-73.976817
std,0.036083,0.050426
min,40.0729,-74.7733
25%,40.7225,-73.9977
50%,40.7425,-73.9848
75%,40.7607,-73.97
max,42.1166,-72.0666


## 1. 데이터의 기본적인 indexing 및 slicing



In [5]:
# 처음 5개의 행을 출력
print(df.head())


          Date/Time      Lat      Lon    Base
0  4/1/2014 0:11:00  40.7690 -73.9549  B02512
1  4/1/2014 0:17:00  40.7267 -74.0345  B02512
2  4/1/2014 0:21:00  40.7316 -73.9873  B02512
3  4/1/2014 0:28:00  40.7588 -73.9776  B02512
4  4/1/2014 0:33:00  40.7594 -73.9722  B02512


In [21]:
# 'Lat' 열의 값만 출력
print(df['Lat'])

0         40.7690
1         40.7267
2         40.7316
3         40.7588
4         40.7594
           ...   
564511    40.7640
564512    40.7629
564513    40.7443
564514    40.6756
564515    40.6880
Name: Lat, Length: 564516, dtype: float64


In [7]:
# 10행부터 20행까지 출력
print(df.iloc[10:21])

           Date/Time      Lat      Lon    Base
10  4/1/2014 1:19:00  40.7256 -73.9869  B02512
11  4/1/2014 1:48:00  40.7591 -73.9684  B02512
12  4/1/2014 1:49:00  40.7271 -73.9803  B02512
13  4/1/2014 2:11:00  40.6463 -73.7896  B02512
14  4/1/2014 2:25:00  40.7564 -73.9167  B02512
15  4/1/2014 2:31:00  40.7666 -73.9531  B02512
16  4/1/2014 2:43:00  40.7580 -73.9761  B02512
17  4/1/2014 3:22:00  40.7238 -73.9821  B02512
18  4/1/2014 3:35:00  40.7531 -74.0039  B02512
19  4/1/2014 3:35:00  40.7389 -74.0393  B02512
20  4/1/2014 3:41:00  40.7619 -73.9715  B02512


In [8]:
# Base 갯수 확인
df.Base.value_counts()

Base
B02682    227808
B02598    183263
B02617    108001
B02512     35536
B02764      9908
Name: count, dtype: int64

## 2. 결측치에 대한 처리

In [9]:
# 결측치 개수 확인
print(df.isnull().sum())

Date/Time    0
Lat          0
Lon          0
Base         0
dtype: int64


## 3. 기초적인 통계 추출 및 분석



In [10]:
# 데이터 요약
print(df.describe())

# 'Lat' 열의 평균
print(df['Lat'].mean())

# 'Lon' 열의 중앙값
print(df['Lon'].median())

# 'Base' 열에서 각 값의 빈도수 출력
print(df['Base'].value_counts())

                 Lat            Lon
count  564516.000000  564516.000000
mean       40.740005     -73.976817
std         0.036083       0.050426
min        40.072900     -74.773300
25%        40.722500     -73.997700
50%        40.742500     -73.984800
75%        40.760700     -73.970000
max        42.116600     -72.066600
40.74000520746974
-73.9848
Base
B02682    227808
B02598    183263
B02617    108001
B02512     35536
B02764      9908
Name: count, dtype: int64


## 4. 데이터에 대한 질문을 던져보고 해답을 찾기



### 4.1 월별/요일별 Uber 이용량 비교
- 가장 Uber 이용량이 많은 요일은 언제일까요?

In [11]:
# 3. 월별 이용량 비교

#2020년 4월 데이터라서 의미가 없음
df['Date/Time'] = pd.to_datetime(df['Date/Time'])
df['month'] = df['Date/Time'].dt.month
mothly_data = df.groupby('month').size().reset_index(name='count')
print(mothly_data)

   month   count
0      4  564516


In [12]:
# 3. 일별 이용량 비교

#2020년 4월 데이터라서 의미가 없음
df['day_of_week'] = pd.to_datetime(df['Date/Time'])
df['day_of_week'] = df['Date/Time'].dt.dayofweek
weekly_data = df.groupby('month').size().reset_index(name='count')
print(weekly_data)

   month   count
0      4  564516


In [20]:
# 데이터프레임에서 "Date/Time" 열을 datetime 형식으로 변환
df["Date/Time"] = pd.to_datetime(df["Date/Time"])

# 월(month)과 요일(weekday) 열을 생성
df["month"] = df["Date/Time"].dt.month
df["weekday"] = df["Date/Time"].dt.dayofweek

# 월별 및 요일별 Uber 이용량 계산
uber_usage = df.groupby(["month", "weekday"]).size().reset_index(name="count")

# 가장 Uber 이용량이 많은 요일 추출
max_usage_day = uber_usage.loc[uber_usage["count"].idxmax()]

# 결과 출력
print("가장 Uber 이용량이 많은 요일은:")
print("워: {}".format(max_usage_day["month"]))
print("요일: {}".format(max_usage_day["weekday"]))
print("이용량: {}".format(max_usage_day["count"]))

가장 Uber 이용량이 많은 요일은:
워: 4
요일: 2
이용량: 108631


In [None]:
days = [0:'Monday',1:'Tuseday',2:'Wednesday',3:'Friday',5:'Saturday',6:'Sunday']

In [None]:
import seaborn as sns

#연속형을 범주형으로 
penguins["bill_length_10"] = (penguins["bill_length_mm"]//10 )* 10

fig, axes = plt.subplots(figsize=(8,4))

sns.boxplot(x="bill_length_10", y="bill_depth_mm", data=penguins)
sns.stripplot(x="bill_length_10", y="bill_depth_mm", color="black", data=penguins,size = 4)

plt.show()

#fig.tight_layout()

In [23]:
import seaborn as sns

plt.figure(figsize = (10,6))

sns.barplot(x = "dat_of_week",y='count',data=weekly_data,color = 'grey')

plt.xticks(rotation = 45)

plt.show()

ValueError: Could not interpret input 'dat_of_week'

<Figure size 1000x600 with 0 Axes>

### 4.2 시간대별 이용량 비교

- 가장 이용량이 많은 시간대는 언제일까요? 


In [None]:
df['hour']=df['Date/Time']

In [None]:
plt.figure(fizsize = (10,6))

plt.ylabel('count')
plt.show()

### 4.3 Uber 수요에 대한 공간적인 시각화

- 가장 수요가 많은 지역은 어디일까요?
- 시간대/지역별로 수요의 변화를 나타내보고, 시사점을 도출해 봅시다

In [28]:
# 위도와 경도를 사용하여 h3 셀 생성
df['h3'] = df.apply(lambda row: h3.geo_to_h3(row['Lat'], row['Lon'], 6), axis = 1) # 여기서 6은 해상도를 나타냅니다. 필요에 따라 조절 가능합니다. 

In [30]:
df.h3.value_counts()

h3
862a100d7ffffff    247294
862a1072fffffff    125962
862a1008fffffff     60138
862a10727ffffff     50036
862a100dfffffff     26684
                    ...  
862a10cd7ffffff         1
862a13c57ffffff         1
862a10c0fffffff         1
862a10397ffffff         1
862a10b8fffffff         1
Name: count, Length: 229, dtype: int64

In [None]:
df.groupby('h3').size

In [31]:
h3_counts = Counter(df['h3'])

In [32]:
df_h3_counts =pd.DataFrame.from_dict(h3_counts,orient='index').reset_index
df_h3_counts.colums = ['h3','count']
df_h3_counts['lat']=df_h3_counts['h3'].apply(lambda x: h3.h3_to_geo(x)[0])
df_h3_conts['lon']=df_h3_counts['h3'].apply(lambda x: h3.h3_to_geo(x)[1])

AttributeError: 'method' object has no attribute 'colums'