## 처음 보는 데이터를 마주했을때 할 수 있는 사고 흐름
https://www.notion.so/157c2f942752803fb016e85c0288dad9?pvs=4

In [2]:
import pandas as pd

### [1] 데이터의 정보, 형태 파악하기

In [3]:
# 분석할 csv 파일 불러오기
df = pd.read_csv("/Users/jungbongjun/Downloads/data_analysis_adv-main/datasets/Uber/Uber.csv")

# 데이터의 정보, 형태 확인해보기
df.head()
# df.info()

Unnamed: 0,START_DATE*,END_DATE*,CATEGORY*,START*,STOP*,MILES*,PURPOSE*
0,1/1/2016 21:11,1/1/2016 21:17,Business,Fort Pierce,Fort Pierce,5.1,Meal/Entertain
1,1/2/2016 1:25,1/2/2016 1:37,Business,Fort Pierce,Fort Pierce,5.0,
2,1/2/2016 20:25,1/2/2016 20:38,Business,Fort Pierce,Fort Pierce,4.8,Errand/Supplies
3,1/5/2016 17:31,1/5/2016 17:45,Business,Fort Pierce,Fort Pierce,4.7,Meeting
4,1/6/2016 14:42,1/6/2016 15:49,Business,Fort Pierce,West Palm Beach,63.7,Customer Visit


### [2] 데이터의 결측치 확인하기

In [4]:
# info()에서 "PURPOSE*"만 결측치가 유독 많았다.
# "PURPOSE*" 내에 결측치만 있는 행만 확인해보자.
    # 작동원리
        # 데이터프레임 내에 있는 "PURPOSE*"를 모두 불러온다.
        # isna()가 결측치를 확인하기 위해서 "PURPOSE*" 내에 있는 모든 행과 대응해본다. 그 결과, 결측치이면 True, 아니면 False가 남는다.
        # True, False가 출력된 걸 '불리언마스크가 씌워졌다'고 표현한다.
        # 불리언마스크가 씌워진 곳에 df[]를 한 번 더 씌우면, 데이터프레임 형식으로 출력된다.
null_purpose_rows = df[df["PURPOSE*"].isna()]


# 1. 결측치가 담긴 데이터프레임 중 CATEGORY* 데이터를 보고싶어.
# 2. 근데 그 데이터 중에서 CATEGORY* 범주형 데이터의 빈도수를 보여줘.
    # 작동원리
        # 모든 데이터 프레임 중에서 "PURPOSE*"가 결측치인 행만 'null_purpose_rows'에 저장했다.
        # 이런 행을 가진 현재 데이터 프레임에서 'CATEGORY*'을 선택한다.
        # 그리고 'CATEGORY*' 내에 있는 요소의 빈도수를 체크한다.
null_purpose_rows['CATEGORY*'].value_counts()

CATEGORY*
Business    431
Personal     71
Name: count, dtype: int64

### [3] 연속형 데이터 다루기 | 기술통계 확인, 날짜 데이터 내 숫자 다루기

In [5]:
# 수치형 데이터인 MILES*의 기술통계 값을 보고 싶어
# df['MILES*'].describe()

# 평균과 표준편차가 굉장히 많이나네?
# 최댓값이 왜 12204나 되는 걸까?
# MILES*의 최댓값이 담긴 행을 데이터프레임 형식으로 출력해서 확인해보기
    # 마일즈의 맥스 값을 출력해본다
    # 이 맥스 값과 마일즈 내에 모든 행을 대응 시키기 위해서 연산자를 사용해본다
    # 불리언마스크가 남는 자리에 df[]로 한 번 더 감싸준다.
# 아, 최댓값이 있는 행에는 다른 컬럼이 모두 결측치이구나.
    # 아래 코드 작동원리
        # 좌항에 있는 코드를 읽는다 | 마일즈라는 컬럼명을 가진 컬럼의 데이터를 모두 가져온다.
        # 우항에 있는 코드를 읽는다 | 마일즈 데이터 중에서도 최댓값을 찾는다.
        # 연산자 코드를 읽는다 | 좌항과 우항을 비교한다. 이때, 우항에 있는 값은 한 개이기 때문에, True는 한 개만 나온다. ex) 좌항 첫번째 행과 우항맥스값이 같니? -> 틀리면 False 맞으면 True 이런식으로 모든 행을 비교해서 비교한 자리에는 True/False만 남는다.
        # 불리언 자료형이 남는 걸 '불리언마스크'가 생겼다고 표현한다. 그리고 불리언 마스크가 있는 곳에다가 df[]로 한 번 더 감싸면 True인 값만 선택 돼 출력된다.
# df[df['MILES*'] == df['MILES*'].max()]

# 필요 없는 값이니깐 1155번째 행을 제거하자
    # 값을 제거하고 반드시 저장하자!
# df = df.drop(1155)

# 제거가 잘 됐는지 확인해보자
# 평균과 표준편차 값의 차이가 줄어들었다. 맥스값도 310으로 변했다.
df.describe()

Unnamed: 0,MILES*
count,1156.0
mean,21.115398
std,359.299007
min,0.5
25%,2.9
50%,6.0
75%,10.4
max,12204.7


In [6]:
# 운행 시간은 얼마나 됐을까?
# (운행 종료 시간 - 운행 시작 시간)
    # 1. 연산 할 때는 바깥쪽에 소괄호를 씌워야 한다.
    # 2. 문자열끼리는 연산을 할 수 없다. 데이터타입을 변경해 줘야 한다.
# 운행 시간이라는 행을 따로 빼두기
# ---

# 데이터 타입 날짜 타입으로 변경해주기
df['END_DATE*'] = pd.to_datetime(df['END_DATE*'])
df['START_DATE*'] = pd.to_datetime(df['START_DATE*'], errors="coerce") # errors="coerce"는 변경할 수 없는 값을 NaN으로 변경해주는 파라미터


# '운행 시간'이라는 열 따로 생성해주기 | 파생변수 만들기
df["DURATION"] = (df['END_DATE*'] - df['START_DATE*'])

df.head()
# df.info()


Unnamed: 0,START_DATE*,END_DATE*,CATEGORY*,START*,STOP*,MILES*,PURPOSE*,DURATION
0,2016-01-01 21:11:00,2016-01-01 21:17:00,Business,Fort Pierce,Fort Pierce,5.1,Meal/Entertain,0 days 00:06:00
1,2016-01-02 01:25:00,2016-01-02 01:37:00,Business,Fort Pierce,Fort Pierce,5.0,,0 days 00:12:00
2,2016-01-02 20:25:00,2016-01-02 20:38:00,Business,Fort Pierce,Fort Pierce,4.8,Errand/Supplies,0 days 00:13:00
3,2016-01-05 17:31:00,2016-01-05 17:45:00,Business,Fort Pierce,Fort Pierce,4.7,Meeting,0 days 00:14:00
4,2016-01-06 14:42:00,2016-01-06 15:49:00,Business,Fort Pierce,West Palm Beach,63.7,Customer Visit,0 days 01:07:00


In [12]:
# 분을 보기 좋은 형태로 만들기
#     1. 분을 초로 바꾸기. dt는 날짜 매서드가 담긴 엑세서
#     2. dt 엑세서 안에 있는 'total_seconds()'를 이용해서 숫자데이터를 모두 초로 변환
#     3. 초로 변환한 결과를 모두 60으로 나눠서 분으로 보기 좋게 표기
df["DURATION"] = df["DURATION"].dt.total_seconds() / 60

df.head()

Unnamed: 0,START_DATE*,END_DATE*,CATEGORY*,START*,STOP*,MILES*,PURPOSE*,DURATION
0,2016-01-01 21:11:00,2016-01-01 21:17:00,Business,Fort Pierce,Fort Pierce,5.1,Meal/Entertain,6.0
1,2016-01-02 01:25:00,2016-01-02 01:37:00,Business,Fort Pierce,Fort Pierce,5.0,,12.0
2,2016-01-02 20:25:00,2016-01-02 20:38:00,Business,Fort Pierce,Fort Pierce,4.8,Errand/Supplies,13.0
3,2016-01-05 17:31:00,2016-01-05 17:45:00,Business,Fort Pierce,Fort Pierce,4.7,Meeting,14.0
4,2016-01-06 14:42:00,2016-01-06 15:49:00,Business,Fort Pierce,West Palm Beach,63.7,Customer Visit,67.0


### [4] 그룹별로 묶어서 값 확인하기

In [13]:
# 카테고리 내에 있는 요소별로 모든 행을 보고 싶습니다
# df.groupby('CATEGORY*').value_counts()

# 카테고리 별로 마일스의 평균치를 보고 싶습니다.
# df.groupby("CATEGORY*")["MILES*"].mean()

# 카테고리&퍼포즈별 모든 행을 보고 싶습니다.
# df.groupby(["CATEGORY*", "PURPOSE*"]).value_counts()

# 카테고리&퍼포즈별로 마일즈와 듀레이션의 평균값을 보고 싶습니다.
# df.groupby(["CATEGORY*", "PURPOSE*"])[["MILES*", "DURATION"]].mean()

# 카테고리&퍼포즈별로 마일즈와 듀레이션을 보여줘.
# 근데 마일즈에는 평균, 표준편차, 개수를 보여줘. 듀레이션도 마찬가지로
df.groupby(["CATEGORY*", "PURPOSE*"])[["MILES*", "DURATION"]].agg(["mean", "std", "count"])
    # agg()는 aggregate(집합)의 줄임말. 계산을 2개 이상 하고 싶을 때 사용하는 메서드이다.

Unnamed: 0_level_0,Unnamed: 1_level_0,MILES*,MILES*,MILES*,DURATION,DURATION,DURATION
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,count,mean,std,count
CATEGORY*,PURPOSE*,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Business,Airport/Travel,5.5,1.852026,3,26.0,9.848858,3
Business,Between Offices,10.944444,8.458913,18,25.5,15.553513,18
Business,Customer Visit,20.688119,40.632891,101,33.415842,42.891087,101
Business,Errand/Supplies,3.96875,3.464619,128,12.976562,9.656677,128
Business,Meal/Entertain,5.698125,5.01969,160,16.125,10.477739,160
Business,Meeting,15.247594,25.093394,187,29.737968,26.662381,187
Business,Temporary Site,10.474,7.75744,50,25.86,18.233195,50
Personal,Charity ($),15.1,,1,27.0,,1
Personal,Commute,180.2,,1,185.0,,1
Personal,Moving,4.55,1.181807,4,15.0,4.546061,4
