In [1]:
import pandas as pd

### 1. 데이터 알아보기

In [2]:
# 데이터를 읽어올 웹 페이지의 주소
site = 'https://www.basketball-reference.com/leagues/NBA_2018_games.html'

In [3]:
# 지정된 웹문서의 table 태그를 리스트로 생성한다.
# 웹 내에서 원하는 데이터가 테이블 형식일때 사용
tables = pd.read_html(site)
tables

[                  Date Start (ET)        Visitor/Neutral  PTS  \
 0    Tue, Oct 17, 2017      8:01p         Boston Celtics   99   
 1    Tue, Oct 17, 2017     10:30p        Houston Rockets  122   
 2    Wed, Oct 18, 2017      7:00p      Charlotte Hornets   90   
 3    Wed, Oct 18, 2017      7:00p          Brooklyn Nets  131   
 4    Wed, Oct 18, 2017      7:00p             Miami Heat  109   
 ..                 ...        ...                    ...  ...   
 99   Mon, Oct 30, 2017     10:30p  Golden State Warriors  141   
 100  Tue, Oct 31, 2017      7:00p       Sacramento Kings   83   
 101  Tue, Oct 31, 2017      7:30p           Phoenix Suns  122   
 102  Tue, Oct 31, 2017      8:00p  Oklahoma City Thunder  110   
 103  Tue, Oct 31, 2017     10:30p        Detroit Pistons   93   
 
               Home/Neutral  PTS.1 Unnamed: 6 Unnamed: 7  Attend.  Notes  
 0      Cleveland Cavaliers    102  Box Score        NaN    20562    NaN  
 1    Golden State Warriors    121  Box Score        NaN

In [4]:
tables[0].head()

Unnamed: 0,Date,Start (ET),Visitor/Neutral,PTS,Home/Neutral,PTS.1,Unnamed: 6,Unnamed: 7,Attend.,Notes
0,"Tue, Oct 17, 2017",8:01p,Boston Celtics,99,Cleveland Cavaliers,102,Box Score,,20562,
1,"Tue, Oct 17, 2017",10:30p,Houston Rockets,122,Golden State Warriors,121,Box Score,,19596,
2,"Wed, Oct 18, 2017",7:00p,Charlotte Hornets,90,Detroit Pistons,102,Box Score,,20491,
3,"Wed, Oct 18, 2017",7:00p,Brooklyn Nets,131,Indiana Pacers,140,Box Score,,15008,
4,"Wed, Oct 18, 2017",7:00p,Miami Heat,109,Orlando Magic,116,Box Score,,18846,


In [5]:
# 파일로 저장한다. (index = False) 첫 인덱스번호는 저장하지 않음
tables[0].to_csv('data/nav_2018.csv', index=False)

### 2.데이터 파악하기

In [6]:
df1 = pd.read_csv('data/nav_2018.csv')
df1.head()

Unnamed: 0,Date,Start (ET),Visitor/Neutral,PTS,Home/Neutral,PTS.1,Unnamed: 6,Unnamed: 7,Attend.,Notes
0,"Tue, Oct 17, 2017",8:01p,Boston Celtics,99,Cleveland Cavaliers,102,Box Score,,20562,
1,"Tue, Oct 17, 2017",10:30p,Houston Rockets,122,Golden State Warriors,121,Box Score,,19596,
2,"Wed, Oct 18, 2017",7:00p,Charlotte Hornets,90,Detroit Pistons,102,Box Score,,20491,
3,"Wed, Oct 18, 2017",7:00p,Brooklyn Nets,131,Indiana Pacers,140,Box Score,,15008,
4,"Wed, Oct 18, 2017",7:00p,Miami Heat,109,Orlando Magic,116,Box Score,,18846,


In [7]:
# 데이터프레임의 요약정보 보기
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 104 entries, 0 to 103
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Date             104 non-null    object 
 1   Start (ET)       104 non-null    object 
 2   Visitor/Neutral  104 non-null    object 
 3   PTS              104 non-null    int64  
 4   Home/Neutral     104 non-null    object 
 5   PTS.1            104 non-null    int64  
 6   Unnamed: 6       104 non-null    object 
 7   Unnamed: 7       2 non-null      object 
 8   Attend.          104 non-null    int64  
 9   Notes            0 non-null      float64
dtypes: float64(1), int64(3), object(6)
memory usage: 8.2+ KB


In [8]:
# 로우와 컬럼의 수
df1.shape

(104, 10)

### 03. 데이터 전처리

In [9]:
# 데이터 프레임의 컬럼 이름을 가져온다.
df1.columns

Index(['Date', 'Start (ET)', 'Visitor/Neutral', 'PTS', 'Home/Neutral', 'PTS.1',
       'Unnamed: 6', 'Unnamed: 7', 'Attend.', 'Notes'],
      dtype='object')

In [10]:
# 컬럼이름을 변경한다.
df1.columns = ['경기일자', '시작시간','방문팀','방문팀점수', 
                '홈팀', '홈팀점수', 'Box', '연장전여부', '관중수','Note']
df1.columns

Index(['경기일자', '시작시간', '방문팀', '방문팀점수', '홈팀', '홈팀점수', 'Box', '연장전여부', '관중수',
       'Note'],
      dtype='object')

In [11]:
# 결측치 확인
df1.isna().sum()

경기일자       0
시작시간       0
방문팀        0
방문팀점수      0
홈팀         0
홈팀점수       0
Box        0
연장전여부    102
관중수        0
Note     104
dtype: int64

In [12]:
# 연장전여부 컬럼이 저장되어 있는 값을 확인한다.
df1['연장전여부'].value_counts()

OT    2
Name: 연장전여부, dtype: int64

In [13]:
# 연장전여부 컬럼의 결측치를 Not로 변경한다.
df1['연장전여부'].fillna('NOT', inplace=True)
df1['연장전여부'].value_counts()

NOT    102
OT       2
Name: 연장전여부, dtype: int64

In [14]:
# 날짜 데이터를 원하는 양식으로 변경하기
# Tue, Oct 17, 2017 -> 2017-10-17
a1 = pd.to_datetime(df1['경기일자'], format= '%a, %b %d, %Y')
df1['경기일자'] = a1
df1['경기일자']

0     2017-10-17
1     2017-10-17
2     2017-10-18
3     2017-10-18
4     2017-10-18
         ...    
99    2017-10-30
100   2017-10-31
101   2017-10-31
102   2017-10-31
103   2017-10-31
Name: 경기일자, Length: 104, dtype: datetime64[ns]

In [15]:
# 사용하지 않는 Note 컬럼 제거
df1_na = df1.drop('Note',axis=1)
df1_na.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 104 entries, 0 to 103
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   경기일자    104 non-null    datetime64[ns]
 1   시작시간    104 non-null    object        
 2   방문팀     104 non-null    object        
 3   방문팀점수   104 non-null    int64         
 4   홈팀      104 non-null    object        
 5   홈팀점수    104 non-null    int64         
 6   Box     104 non-null    object        
 7   연장전여부   104 non-null    object        
 8   관중수     104 non-null    int64         
dtypes: datetime64[ns](1), int64(3), object(5)
memory usage: 7.4+ KB


### 04. 필요한 열만 추출해서 정리하기

In [16]:
# 일부 컬럼만 가져온다.
a1 =['경기일자','방문팀','방문팀점수','홈팀','홈팀점수']
games_nae = df1_na[a1]
games_nae.head()

Unnamed: 0,경기일자,방문팀,방문팀점수,홈팀,홈팀점수
0,2017-10-17,Boston Celtics,99,Cleveland Cavaliers,102
1,2017-10-17,Houston Rockets,122,Golden State Warriors,121
2,2017-10-18,Charlotte Hornets,90,Detroit Pistons,102
3,2017-10-18,Brooklyn Nets,131,Indiana Pacers,140
4,2017-10-18,Miami Heat,109,Orlando Magic,116


In [17]:
# 경기일자 컬럼을 인덱스로 지정한다
# set_index : 지정한 컬럼을 인덱스로 지정
# append = True : 이전 인덱스를 유지하고 추가로 인덱스를 설정
games_naes = games_nae.set_index('경기일자', append=True)
games_naes.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,방문팀,방문팀점수,홈팀,홈팀점수
Unnamed: 0_level_1,경기일자,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,2017-10-17,Boston Celtics,99,Cleveland Cavaliers,102
1,2017-10-17,Houston Rockets,122,Golden State Warriors,121
2,2017-10-18,Charlotte Hornets,90,Detroit Pistons,102
3,2017-10-18,Brooklyn Nets,131,Indiana Pacers,140
4,2017-10-18,Miami Heat,109,Orlando Magic,116


In [18]:
# 인덱스 이름을 설정한다.
games_naesr = games_naes.rename_axis(['게임', '경기일자'])
games_naesr.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,방문팀,방문팀점수,홈팀,홈팀점수
게임,경기일자,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,2017-10-17,Boston Celtics,99,Cleveland Cavaliers,102
1,2017-10-17,Houston Rockets,122,Golden State Warriors,121
2,2017-10-18,Charlotte Hornets,90,Detroit Pistons,102
3,2017-10-18,Brooklyn Nets,131,Indiana Pacers,140
4,2017-10-18,Miami Heat,109,Orlando Magic,116


### 05. 데이터 전처리 체이닝 처리

#### 작업순서
1. 파일에서 데이터를 읽어와 데이터프레임 생성
2. 컬럼이름 변경
3. 원하는 컬럼만 가져오기
4. .assign을 이용하여 필요한 데이터 형태로 변경
5. 변경한 데이터를 인덱스로 추가 .set_index(append=True) 기존 인덱스는 유지

In [19]:
# 컬럼 이름
a1 = {
    'Date' : '경기일자',
    'Start (ET)' : '시작시간',
    'Visitor/Neutral' : '방문팀',
    'PTS' : '방문팀점수',
    'Home/Neutral' : '홈팀',
    'PTS.1' : '홈팀점수',
    'Unnamed: 6' : 'Box',
    'Unnamed: 7' : '연장전여부',
    'Attend' : '관중수',
    'Notes' : 'Notes'
}

In [20]:
# rename은 딕셔너리 형태가 들어가야함
games_all = pd.read_csv('data/nav_2018.csv') \
                .rename(columns=a1) \
            [['경기일자', '방문팀', '방문팀점수', '홈팀', '홈팀점수']] \
            .assign(경기일자=lambda x : pd.to_datetime(x['경기일자'], format='%a, %b %d, %Y')) \
            .set_index('경기일자', append=True) \
            .rename_axis(['게임', '경기일자'])

                        
                                            
games_all.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,방문팀,방문팀점수,홈팀,홈팀점수
게임,경기일자,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,2017-10-17,Boston Celtics,99,Cleveland Cavaliers,102
1,2017-10-17,Houston Rockets,122,Golden State Warriors,121
2,2017-10-18,Charlotte Hornets,90,Detroit Pistons,102
3,2017-10-18,Brooklyn Nets,131,Indiana Pacers,140
4,2017-10-18,Miami Heat,109,Orlando Magic,116


### 05-1 데이터 전처리 변수지정 처리

In [21]:
# 컬럼 이름
a1 = {
    'Date' : '경기일자',
    'Start (ET)' : '시작시간',
    'Visitor/Neutral' : '방문팀',
    'PTS' : '방문팀점수',
    'Home/Neutral' : '홈팀',
    'PTS.1' : '홈팀점수',
    'Unnamed: 6' : 'Box',
    'Unnamed: 7' : '연장전여부',
    'Attend' : '관중수',
    'Notes' : 'Notes'
}

# 작업순서
# 파일에서 데이터를 읽어와 데이터 프레임 생성
games_all = pd.read_csv('data/nav_2018.csv')

# 컬럼이름 변경
games_all = games_all.rename(columns=a1)

# 원하는 컬럼만 가져오기
games_all = games_all[['경기일자', '방문팀', '방문팀점수', '홈팀', '홈팀점수']]

# 날짜를 원하는 양식으로 만들어 다시 설정
games_all = games_all.assign(경기일자=lambda x : pd.to_datetime(x['경기일자'], format='%a, %b %d, %Y'))

# 경기날짜를 인덱스로 추가
games_all = games_all.set_index('경기일자', append=True)

# 인덱스 이름 재설정
games_all = games_all.rename_axis(['게임', '경기일자'])

games_all.head()


Unnamed: 0_level_0,Unnamed: 1_level_0,방문팀,방문팀점수,홈팀,홈팀점수
게임,경기일자,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,2017-10-17,Boston Celtics,99,Cleveland Cavaliers,102
1,2017-10-17,Houston Rockets,122,Golden State Warriors,121
2,2017-10-18,Charlotte Hornets,90,Detroit Pistons,102
3,2017-10-18,Brooklyn Nets,131,Indiana Pacers,140
4,2017-10-18,Miami Heat,109,Orlando Magic,116


### 06. 데이터 조정해서 확정하기

In [22]:
df = pd.DataFrame({
    'A' : ['a1','a2','a3','a4'],
    'B' : ['b1','b2','b3','b4'],
    'C' : [1,2,3,4],
    'D' : [100,200,300,400]
    
})
df

Unnamed: 0,A,B,C,D
0,a1,b1,1,100
1,a2,b2,2,200
2,a3,b3,3,300
3,a4,b4,4,400


In [23]:
# melt 함수 사용
# A는 기준 컬럼
# value_vars로 지정한 컬럼을 기준컬럼에 녹여서 보여준다.?
df.melt(id_vars='A', value_vars=['B','C'])

Unnamed: 0,A,variable,value
0,a1,B,b1
1,a2,B,b2
2,a3,B,b3
3,a4,B,b4
4,a1,C,1
5,a2,C,2
6,a3,C,3
7,a4,C,4


In [24]:
# 인덱스를 다시 설정한다.
a1 = games_all.reset_index()
a1

Unnamed: 0,게임,경기일자,방문팀,방문팀점수,홈팀,홈팀점수
0,0,2017-10-17,Boston Celtics,99,Cleveland Cavaliers,102
1,1,2017-10-17,Houston Rockets,122,Golden State Warriors,121
2,2,2017-10-18,Charlotte Hornets,90,Detroit Pistons,102
3,3,2017-10-18,Brooklyn Nets,131,Indiana Pacers,140
4,4,2017-10-18,Miami Heat,109,Orlando Magic,116
...,...,...,...,...,...,...
99,99,2017-10-30,Golden State Warriors,141,Los Angeles Clippers,113
100,100,2017-10-31,Sacramento Kings,83,Indiana Pacers,101
101,101,2017-10-31,Phoenix Suns,122,Brooklyn Nets,114
102,102,2017-10-31,Oklahoma City Thunder,110,Milwaukee Bucks,91


In [25]:
# 게임, 경기일자를 기준으로 방문팀 데이터와 홈팀 데이터를 가져옴
tidy = pd.melt(a1, id_vars=['게임','경기일자'],
                    value_vars=['방문팀', '홈팀'],
                    var_name='팀구분', value_name='팀')

# 조건에 맞는 값 추출
tidy.query('경기일자 == "2017-10-17"')

Unnamed: 0,게임,경기일자,팀구분,팀
0,0,2017-10-17,방문팀,Boston Celtics
1,1,2017-10-17,방문팀,Houston Rockets
104,0,2017-10-17,홈팀,Cleveland Cavaliers
105,1,2017-10-17,홈팀,Golden State Warriors


In [26]:
# 날짜별 경기 수 구하기
# 경기일자 타입을 파악
tidy['경기일자'].dtype

dtype('<M8[ns]')

In [35]:
# 팀을 기준으로 경기일자를 가져옴
# diff : 다른 값들과 비교해서 얼마나 다른지를 확인?
# .dt.days : 중간값과의 차이를 확인
# 하루에 몇경기가 있었는지를 확인 

# 팀을 기준으로 경기일자 데이터를 가져오고 이전경기와 경기날짜가 하루인 팀의 데이터를 가져온다.
a1 = tidy.groupby('팀')['경기일자'].diff().dt.days == 1
tidy['경기일자'][a1]

12    2017-10-18
28    2017-10-21
30    2017-10-21
32    2017-10-21
33    2017-10-21
34    2017-10-21
41    2017-10-23
59    2017-10-25
61    2017-10-25
77    2017-10-28
78    2017-10-28
90    2017-10-29
91    2017-10-30
93    2017-10-30
96    2017-10-30
137   2017-10-21
175   2017-10-27
Name: 경기일자, dtype: datetime64[ns]

In [34]:
# NaT는 결측치
# 경기일자 차이가 바로 위의 로우와 얼마나 차이가 나는지를 확인
tidy['경기일자'].diff()

0        NaT
1     0 days
2     1 days
3     0 days
4     0 days
       ...  
203   0 days
204   1 days
205   0 days
206   0 days
207   0 days
Name: 경기일자, Length: 208, dtype: timedelta64[ns]

In [38]:
# 몇일씩 쉬었는지 계산한다.
ab = tidy.groupby('팀')['경기일자'].diff().dt.days -1 

In [40]:
ab.shape

(208,)

In [41]:
ab.isnull().sum()

30

In [43]:
# 경기일자를 기준으로 정렬
a1 = tidy.sort_values('경기일자')

# 팀을 기준으로 그룹을 묶는다.
a2 = a1.groupby('팀')

# 경기일자를 기준으로 차이값을 구한다.
a3 = a2.경기일자.diff()

# 1을 빼서 휴식을 구한다.
tidy['휴식일'] = a3.dt.days - 1
tidy

Unnamed: 0,게임,경기일자,팀구분,팀,휴식일
0,0,2017-10-17,방문팀,Boston Celtics,
1,1,2017-10-17,방문팀,Houston Rockets,
2,2,2017-10-18,방문팀,Charlotte Hornets,
3,3,2017-10-18,방문팀,Brooklyn Nets,
4,4,2017-10-18,방문팀,Miami Heat,
...,...,...,...,...,...
203,99,2017-10-30,홈팀,Los Angeles Clippers,1.0
204,100,2017-10-31,홈팀,Indiana Pacers,1.0
205,101,2017-10-31,홈팀,Brooklyn Nets,1.0
206,102,2017-10-31,홈팀,Milwaukee Bucks,1.0


In [44]:
# 결측치 확인
tidy.isna().sum()

게임       0
경기일자     0
팀구분      0
팀        0
휴식일     30
dtype: int64

In [45]:
# 결측치에 0을 셋팅한다.
tidy = tidy.fillna(0)
tidy

Unnamed: 0,게임,경기일자,팀구분,팀,휴식일
0,0,2017-10-17,방문팀,Boston Celtics,0.0
1,1,2017-10-17,방문팀,Houston Rockets,0.0
2,2,2017-10-18,방문팀,Charlotte Hornets,0.0
3,3,2017-10-18,방문팀,Brooklyn Nets,0.0
4,4,2017-10-18,방문팀,Miami Heat,0.0
...,...,...,...,...,...
203,99,2017-10-30,홈팀,Los Angeles Clippers,1.0
204,100,2017-10-31,홈팀,Indiana Pacers,1.0
205,101,2017-10-31,홈팀,Brooklyn Nets,1.0
206,102,2017-10-31,홈팀,Milwaukee Bucks,1.0


In [47]:
# pivot 테이블을 구한다
by_game = pd.pivot_table(tidy, values='휴식일',
                        index=['게임', '경기일자'],
                        columns = '팀구분')
by_game

Unnamed: 0_level_0,팀구분,방문팀,홈팀
게임,경기일자,Unnamed: 2_level_1,Unnamed: 3_level_1
0,2017-10-17,0.0,0.0
1,2017-10-17,0.0,0.0
2,2017-10-18,0.0,0.0
3,2017-10-18,0.0,0.0
4,2017-10-18,0.0,0.0
...,...,...,...
99,2017-10-30,0.0,1.0
100,2017-10-31,1.0,1.0
101,2017-10-31,2.0,1.0
102,2017-10-31,2.0,1.0


In [49]:
# 컬럼 이름 변경
a1 = {
    '방문팀' : '방문팀 휴식일',
    '홈팀' : '홈팀 휴식일'
}

by_game = by_game.rename(columns = a1)
by_game

Unnamed: 0_level_0,팀구분,방문팀 휴식일,홈팀 휴식일
게임,경기일자,Unnamed: 2_level_1,Unnamed: 3_level_1
0,2017-10-17,0.0,0.0
1,2017-10-17,0.0,0.0
2,2017-10-18,0.0,0.0
3,2017-10-18,0.0,0.0
4,2017-10-18,0.0,0.0
...,...,...,...
99,2017-10-30,0.0,1.0
100,2017-10-31,1.0,1.0
101,2017-10-31,2.0,1.0
102,2017-10-31,2.0,1.0


In [51]:
# 원본과 합친다.
df = pd.concat([games_all, by_game], axis=1)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,방문팀,방문팀점수,홈팀,홈팀점수,방문팀 휴식일,홈팀 휴식일
게임,경기일자,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,2017-10-17,Boston Celtics,99,Cleveland Cavaliers,102,0.0,0.0
1,2017-10-17,Houston Rockets,122,Golden State Warriors,121,0.0,0.0
2,2017-10-18,Charlotte Hornets,90,Detroit Pistons,102,0.0,0.0
3,2017-10-18,Brooklyn Nets,131,Indiana Pacers,140,0.0,0.0
4,2017-10-18,Miami Heat,109,Orlando Magic,116,0.0,0.0
...,...,...,...,...,...,...,...
99,2017-10-30,Golden State Warriors,141,Los Angeles Clippers,113,0.0,1.0
100,2017-10-31,Sacramento Kings,83,Indiana Pacers,101,1.0,1.0
101,2017-10-31,Phoenix Suns,122,Brooklyn Nets,114,2.0,1.0
102,2017-10-31,Oklahoma City Thunder,110,Milwaukee Bucks,91,2.0,1.0
