In [1]:
import pandas as pd
# describe 메서드를 이용한 데이터테이블의 범주형 통계정보 파악
df = pd.read_csv('../datasets/bookings/bookings.csv')
df.describe(include='object')

Unnamed: 0,Hotel_Name,Review,Total_Review,Location
count,525,325,325,525
unique,498,8,255,25
top,Oakwood Residence Midtown East,Very good,1 review,Manhattan
freq,2,117,5,112


In [2]:
# 고유값과 고유값들이 나타나는 빈도수 구하기(항목별 개수 구하기)
df['Review'].value_counts()

Review
Very good         117
Good              116
Review score       31
Fabulous           30
Superb             16
Superb 9.0          8
Exceptional         5
Exceptional 10      2
Name: count, dtype: int64

In [3]:
# review 열의 일부 값 수정 및 value_counts 메서드 재실행
df.loc[df['Review'] == "Superb 9.0", "Review"] = "Superb "
df.loc[df['Review'] == "Exceptional 10", "Review"] = "Exceptional "

df['Review'].value_counts()

Review
Very good        117
Good             116
Review score      31
Fabulous          30
Superb            24
Exceptional        7
Name: count, dtype: int64

In [4]:
# unique 메서드를 이용한 고유값 확인
df['Total_Review'].unique()

array(['28', '52', '2,870', '975', '13,951', '8,044', '16,148', '343',
       '6,038', '2,028', '9,659', '4,435', '7,298', '11,455', '2,802',
       '1,847', '2,189', '703', '1,382', '4,646', '951', '4,498', '1,475',
       '6,245', '5,866', '959', '1,876', '848', '3,097', '3,477', '1,648',
       '46', '2,289', '148', '664', '1,867', '1,067', '130', '920',
       '2,560', '3,878', '1,698', '719', '7,585', '1,180', '2,035',
       '6,144', '638', '9,240', '3,907', '3,128', '2,383', '833', '558',
       '3,170', '2,857', '981', '192', '1,449', '1,373', '598', '3,859',
       '3,639', '1,048', '2,859', '2,412', '749', '6,639', '1,143',
       '2,353', '3,002', '8,844', '57', '657', '2,535', '946', '1,087',
       '3,627', '844', '483', '1,078', '1,074', '1,797', '728', '415',
       '766', '523', '770', '178', '464', '647', '1,225', '562',
       '1 review', '1,188', '1,260', '4,246', '2,521', '586', '1,643',
       '1,243', '2,623', '621', '488', '607', '1,425', '1,389', '2,014',
      

In [5]:
# Total review 열 일부 값 수정 후 unique 메서드 재실행
df['Total_Review'] = df['Total_Review'].map(lambda x: str(x).replace('external','').strip())
df['Total_Review'] = df['Total_Review'].map(lambda x: str(x).replace('review','').strip())
df['Total_Review'] = df['Total_Review'].map(lambda x: str(x).replace(',',''))
df['Total_Review'] = df['Total_Review'].astype('float')
df['Total_Review'].describe()

count      325.000000
mean      1771.630769
std       2530.013514
min          1.000000
25%        343.000000
50%        920.000000
75%       2189.000000
max      16148.000000
Name: Total_Review, dtype: float64

결측치를 처리하는 fillna, dropna 메소드

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 525 entries, 0 to 524
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Hotel_Name    525 non-null    object 
 1   Review        325 non-null    object 
 2   Total_Review  325 non-null    float64
 3   Rating        315 non-null    float64
 4   Location      525 non-null    object 
dtypes: float64(2), object(3)
memory usage: 20.6+ KB


In [7]:
# bookings 데이터셋에서 "Review" 열이 결측치인 행의 상위 5개 인덱스 호출
index = df[df['Rating'].isna()].head(5).index
index

Index([167, 168, 169, 170, 171], dtype='int64')

In [8]:
# 해당 열의 평균값으로 결측치를 대체
df['Rating'] = df['Rating'].fillna(df['Rating'].mean())

In [9]:
# "Rating"열이 결측치였던 인덱스를 재호출
df.loc[index, 'Rating']

167    7.883492
168    7.883492
169    7.883492
170    7.883492
171    7.883492
Name: Rating, dtype: float64

In [10]:
# 결측치를 포함하는 간단한 Pandas Series를 생성
import numpy as np
s = pd.Series([1, np.nan, np.nan,2, np.nan, 3])
s

0    1.0
1    NaN
2    NaN
3    2.0
4    NaN
5    3.0
dtype: float64

In [11]:
# 결측치 이전에 있던 값으로 결측치를 대체
s.fillna(method='ffill')

  s.fillna(method='ffill')


0    1.0
1    1.0
2    1.0
3    2.0
4    2.0
5    3.0
dtype: float64

In [12]:
# 결측치 이후에 나오는 값으로 이전 결측치를 대체
s.fillna(method='bfill')

  s.fillna(method='bfill')


0    1.0
1    2.0
2    2.0
3    2.0
4    3.0
5    3.0
dtype: float64

In [13]:
# dropna 메서드를 이용한 결측치 제거(결측치가 있는 행을 삭제)
df = df.dropna()
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 317 entries, 0 to 343
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Hotel_Name    317 non-null    object 
 1   Review        317 non-null    object 
 2   Total_Review  317 non-null    float64
 3   Rating        317 non-null    float64
 4   Location      317 non-null    object 
dtypes: float64(2), object(3)
memory usage: 14.9+ KB


데이터의 분위수를 구하는 quantile 메소드

In [2]:
import pandas as pd
# booking 데이터셋을 불러와 total review 열의 값 수정
df = pd.read_csv('../datasets/bookings/bookings.csv')

# Total_Review 열에서 문자열 데이터를 치환하여 수치형 데이터로 변환
df['Total_Review'] = df['Total_Review'].map(lambda x: str(x).replace('external','').strip())
df['Total_Review'] = df['Total_Review'].map(lambda x: str(x).replace('review','').strip())
df['Total_Review'] = df['Total_Review'].map(lambda x: str(x).replace(',',''))
df['Total_Review'] = df['Total_Review'].astype('float')

In [4]:
# Total review 열의 값을 0부터 1까지의 0.2 단위 분위수 구하기
quantile = [0, 0.2, 0.4, 0.6, 0.8, 1]

# interpolate='lower'를 사용하여 하위 정수값을 반환(예: 1.4 -> 1)
# interpolate='higher'를 사용하여 상위 정수값을 반환(예: 1.4 -> 2)
# interpolate='midpoint'를 사용하여 중간값을 반환(예: 1.4 -> 1.5)
# interpolate='nearest'를 사용하여 가장 가까운 정수값을 반환(예: 1.4 -> 1)
for idx in quantile:
    q = df['Total_Review'].quantile(idx, interpolation='lower')
    print(f'quantile({idx}) is {q}')

quantile(0) is 1.0
quantile(0.2) is 227.0
quantile(0.4) is 657.0
quantile(0.6) is 1169.0
quantile(0.8) is 2620.0
quantile(1) is 16148.0


In [5]:
# quantile 메서드의 interpolation 인자 수정
for idx in quantile:
    q = df['Total_Review'].quantile(idx, interpolation='nearest')
    print(f'quantile({idx}) is {q}')

quantile(0) is 1.0
quantile(0.2) is 230.0
quantile(0.4) is 663.0
quantile(0.6) is 1169.0
quantile(0.8) is 2620.0
quantile(1) is 16148.0


원하는 데이터만 필터링 하는 query 메소드