# Python_Machine Learning_Pandas_Data Analysis - part 5

##### 데이터 분석 관련 내용을 정리 하였으며, 파이썬 머신러닝 판다스 데이터분석(오승환 지음)을 참고하여 작성하였습니다.
##### 해당 자료는 python 3.7 기반으로 작성되었습니다.

## 5 데이터 사전 처리
### 5.1 누락 데이터 처리
#### - 데이터 분석의 정확도는 분석 데이터의 품질에 좌우된다. 데이터 품질 향상을 위해 누락 데이터, 중복 데이터 등 오류를 수정하고 분석 목적에 맞게 변형하는 과정이 필요하다. 

In [1]:
import seaborn as sns

df = sns.load_dataset('titanic')

In [6]:
# head() - df의 첫 5행 확인
print(df.head())
print("----------------------------------")

# info() - df의 요약 정보 확인 / null이 아닌 개수를 출력
print(df.info())
print("----------------------------------")

# value_counts() - dropna = False를 통해 누락 데이터 개수 확인 가능
nan_deck = df['deck'].value_counts(dropna = False)
print(nan_deck)
print("----------------------------------")

# isnull() - 누락 데이터면 True / notnull() - 누락 데이터면 False
print(df.head().isnull())
print("----------------------------------")
print(df.head().notnull())
print("----------------------------------")

# isnull() & sum(axis = 0) - isnull() 결과 값의 행을 기준으로 합하면 각 열의 누락 데이터 합을 구할 수 있다.
print(df.head().isnull().sum(axis = 0))
print("----------------------------------")

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  
----------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  --

In [12]:
# for문을 활용하여 각 열의 nan 개수 계산
missing_df = df.isnull()
for col in missing_df.columns:
    missing_count = missing_df[col].value_counts()
    
    try:
        print(col, ": ", missing_count[True])
    except:
        print(col, ": ", 0)
print("----------------------------------")
        
# dropna() - thresh 옵션을 적용하여 특정 기준 이상의 nan 개수를 갖는 열을 삭제한다. / axis = 1 - 열 삭제
df_thread = df.dropna(axis = 1, thresh = 500)
print(df_thread.columns)
print("----------------------------------")

# age 열에 나이 데이터가 없는 모든 행 삭제 / axis = 0 - 행 삭제 / how = 'any' - 하나라도 존재하면 삭제 / how = 'all' - 모든 데이터가 nan이면 삭제
df_age = df.dropna(subset = ['age'], how = 'any', axis = 0)
print(len(df_age))
print("----------------------------------")

survived :  0
pclass :  0
sex :  0
age :  177
sibsp :  0
parch :  0
fare :  0
embarked :  2
class :  0
who :  0
adult_male :  0
deck :  688
embark_town :  2
alive :  0
alone :  0
----------------------------------
Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'embark_town', 'alive',
       'alone'],
      dtype='object')
----------------------------------
714
----------------------------------


In [13]:
# fillna() - 누락된 값을 특정 값으로 대체 / inplace = True 를 통해 원본 데이터 변경 가능
print('nan 값 채우기 전 :', df['age']) 
print("----------------------------------")

mean_age = df['age'].mean(axis = 0) # age의 평균
df['age'].fillna(mean_age, inplace = True)

print('nan 값 채운 후 :', df['age'])
print("----------------------------------")

nan 값 채우기 전 : 0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: age, Length: 891, dtype: float64
----------------------------------
nan 값 채운 후 : 0      22.000000
1      38.000000
2      26.000000
3      35.000000
4      35.000000
         ...    
886    27.000000
887    19.000000
888    29.699118
889    26.000000
890    32.000000
Name: age, Length: 891, dtype: float64
----------------------------------


#### - 데이터 중 null 값이 ?, * 와 같은 의미없는 값으로 입력되는 경우가 많다. pandas에서 null 데이터를 다루기 위해서는 다음과 같은 값을 replace() 메소드를 활용하여 numpy에서 지원하는 np.nan으로 변경하는 것이 좋다.
#### - 예시 : ?을 np.nan으로 치환 -> df.replace('?', np.nan, inplace = True)

In [14]:
# fillna() - method = 'ffill' : 직전 행의 값으로 채워줌 / method = 'bfill' : 직후 행의 값으로 채워줌
print('누락된 값 채우기 전: ', df['embark_town'][825:830])
print("----------------------------------")

df['embark_town'].fillna(method = 'ffill', inplace = True)
print('누락된 값 채운 후: ', df['embark_town'][825:830])
print("----------------------------------")

누락된 값 채우기 전:  825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
Name: embark_town, dtype: object
----------------------------------
누락된 값 채운 후:  825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829     Queenstown
Name: embark_town, dtype: object
----------------------------------


### 5.2 중복 데이터 처리

In [19]:
# duplicated() - 행의 레코드가 중복되는 지 확인 - 처음 나오는 값은 False 반환
import pandas as pd

df = pd.DataFrame({'c1' : ['a', 'a', 'b', 'a', 'b'],
                  'c2' : [1,1,1,2,2,],
                  'c3' : [1,1,2,2,2]})

print(df)
print("----------------------------------")

df_dup = df.duplicated()
print(df_dup)
print("----------------------------------")

# seires에도 duplicated() 적용 가능
col_dup = df['c2'].duplicated()
print(col_dup)
print("----------------------------------")

# drop_duplicates() - 중복데이터 제거
df2 = df.drop_duplicates()
print(df2)
print("----------------------------------")

# drop_duplicates() - subset 옵션에 '열 이름 리스트' 전달 하여 해당 열들을 기준으로 중복을 판단
df3 = df.drop_duplicates(subset = ['c2' ,'c3'])
print(df3)
print("----------------------------------")

  c1  c2  c3
0  a   1   1
1  a   1   1
2  b   1   2
3  a   2   2
4  b   2   2
----------------------------------
0    False
1     True
2    False
3    False
4    False
dtype: bool
----------------------------------
0    False
1     True
2     True
3    False
4     True
Name: c2, dtype: bool
----------------------------------
  c1  c2  c3
0  a   1   1
2  b   1   2
3  a   2   2
4  b   2   2
----------------------------------
  c1  c2  c3
0  a   1   1
2  b   1   2
3  a   2   2
----------------------------------


### 5.3 데이터 표준화
#### - 데이터 포맷을 일관성 있게 표준화하는 작업

#### 5.3.1 단위 환산

In [28]:
df = pd.read_csv('auto-mpg.csv', header = None)

df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin', 'name']
print(df.head())
print("----------------------------------")

# mpg를 kpl로 변환(mpg to kpl = 0.425)
mpg_to_kpl = 1.60934 / 3.78541

df['kpl'] = df['mpg'] * mpg_to_kpl
print(df.head(5))
print("----------------------------------")

df['kpl'] = df['kpl'].round(2)
print(df.head(5))
print("----------------------------------")

    mpg  cylinders  displacement horsepower  weight  acceleration  model year  \
0  18.0          8         307.0      130.0  3504.0          12.0          70   
1  15.0          8         350.0      165.0  3693.0          11.5          70   
2  18.0          8         318.0      150.0  3436.0          11.0          70   
3  16.0          8         304.0      150.0  3433.0          12.0          70   
4  17.0          8         302.0      140.0  3449.0          10.5          70   

   origin                       name  
0       1  chevrolet chevelle malibu  
1       1          buick skylark 320  
2       1         plymouth satellite  
3       1              amc rebel sst  
4       1                ford torino  
----------------------------------
    mpg  cylinders  displacement horsepower  weight  acceleration  model year  \
0  18.0          8         307.0      130.0  3504.0          12.0          70   
1  15.0          8         350.0      165.0  3693.0          11.5          70   
2

#### 5.3.2 자료형 변환

In [34]:
print(df.dtypes)
print("----------------------------------")

# unique() - 고유값 확인
print(df['horsepower'].unique())
print("----------------------------------")

# 누락데이터의 형태를 변경 후 삭제 한 뒤 type 변환
import numpy as np
df['horsepower'].replace('?', np.nan, inplace = True)
df.dropna(subset = ['horsepower'], axis = 0, inplace = True)
df['horsepower'] = df['horsepower'].astype('float')
print(df['horsepower'].dtypes)
print("----------------------------------")

# str -> category
df['origin'] = df['origin'].astype('category')
print(df['origin'].dtypes)
print("----------------------------------")

# category -> str
df['origin'] = df['origin'].astype('str')
print(df['origin'].dtypes)
print("----------------------------------")

# sample() - random choice
print(df['model year'].sample(3))
print("----------------------------------")

# int -> category
df['model year'] = df['model year'].astype('category')
print(df['model year'].sample(3))
print("----------------------------------")

mpg              float64
cylinders          int64
displacement     float64
horsepower       float64
weight           float64
acceleration     float64
model year      category
origin            object
name              object
kpl              float64
dtype: object
----------------------------------
[130. 165. 150. 140. 198. 220. 215. 225. 190. 170. 160.  95.  97.  85.
  88.  46.  87.  90. 113. 200. 210. 193. 100. 105. 175. 153. 180. 110.
  72.  86.  70.  76.  65.  69.  60.  80.  54. 208. 155. 112.  92. 145.
 137. 158. 167.  94. 107. 230.  49.  75.  91. 122.  67.  83.  78.  52.
  61.  93. 148. 129.  96.  71.  98. 115.  53.  81.  79. 120. 152. 102.
 108.  68.  58. 149.  89.  63.  48.  66. 139. 103. 125. 133. 138. 135.
 142.  77.  62. 132.  84.  64.  74. 116.  82.]
----------------------------------
float64
----------------------------------
category
----------------------------------
object
----------------------------------
357    81
378    82
204    76
Name: model year, dtype: category


### 5.4 범주형 데이터 처리
#### 5.4.1 구간 분할

In [37]:
import pandas as pd
import numpy as np

df = pd.read_csv('auto-mpg.csv', header = None)

df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin', 'name']

df['horsepower'].replace('?', np.nan, inplace = True)
df.dropna(subset = ['horsepower'], axis = 0, inplace = True)
df['horsepower'] = df['horsepower'].astype('float')

# np.histogram() - 경계값을 구하는 방법 - bins 옵션에 입력하여 구간에 속하는 값의 개수와 경계값 리스트 반환
count, bin_dividers = np.histogram(df['horsepower'], bins = 3)
print(bin_dividers)
print("----------------------------------")

# pd.cut() - 경계값 할당 - include_lowest = True : 구간의 낮은 경계값을 포함
bin_names = ['저출력', '보통출력', '고출력']
df['hp_bin'] = pd.cut(x = df['horsepower'], 
                     bins = bin_dividers,
                     labels=bin_names,
                     include_lowest=True)
print(df[['horsepower', 'hp_bin']].head(15))
print("----------------------------------")

[ 46.         107.33333333 168.66666667 230.        ]
----------------------------------
    horsepower hp_bin
0        130.0   보통출력
1        165.0   보통출력
2        150.0   보통출력
3        150.0   보통출력
4        140.0   보통출력
5        198.0    고출력
6        220.0    고출력
7        215.0    고출력
8        225.0    고출력
9        190.0    고출력
10       170.0    고출력
11       160.0   보통출력
12       150.0   보통출력
13       225.0    고출력
14        95.0    저출력
----------------------------------


#### 5.4.2 더미 변수

In [43]:
# pd.get_dummies() - 범주형 변수의 모든 고유값을 각각 새로운 더비 면수로 변환
horsepower_dummies = pd.get_dummies(df['hp_bin'])
print(horsepower_dummies.head(15))
print("----------------------------------")

# sklearn 라이브러리를 활용한 one-hot encoding
from sklearn import preprocessing

# 전처리를 위한 encoder 객체 만들기 
label_encoder = preprocessing.LabelEncoder()
onehot_encoder = preprocessing.OneHotEncoder()

# label_encoder로 문자열 범주를 숫자형 범주로 변환
onehot_labeled = label_encoder.fit_transform(df['hp_bin'].head(15))
print(onehot_labeled)
print("----------------------------------")
print(type(onehot_labeled))
print("----------------------------------")

# 2차원 행렬로 변경
onehot_reshaped = onehot_labeled.reshape(len(onehot_labeled), 1)
print(onehot_reshaped)
print("----------------------------------")
print(type(onehot_reshaped))
print("----------------------------------")

# 희소행렬로 변환
onehot_fitted = onehot_encoder.fit_transform(onehot_reshaped)
print(onehot_fitted)
print("----------------------------------")
print(type(onehot_fitted))
print("----------------------------------")

    저출력  보통출력  고출력
0     0     1    0
1     0     1    0
2     0     1    0
3     0     1    0
4     0     1    0
5     0     0    1
6     0     0    1
7     0     0    1
8     0     0    1
9     0     0    1
10    0     0    1
11    0     1    0
12    0     1    0
13    0     0    1
14    1     0    0
----------------------------------
[1 1 1 1 1 0 0 0 0 0 0 1 1 0 2]
----------------------------------
<class 'numpy.ndarray'>
----------------------------------
[[1]
 [1]
 [1]
 [1]
 [1]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [1]
 [1]
 [0]
 [2]]
----------------------------------
<class 'numpy.ndarray'>
----------------------------------
  (0, 1)	1.0
  (1, 1)	1.0
  (2, 1)	1.0
  (3, 1)	1.0
  (4, 1)	1.0
  (5, 0)	1.0
  (6, 0)	1.0
  (7, 0)	1.0
  (8, 0)	1.0
  (9, 0)	1.0
  (10, 0)	1.0
  (11, 1)	1.0
  (12, 1)	1.0
  (13, 0)	1.0
  (14, 2)	1.0
----------------------------------
<class 'scipy.sparse.csr.csr_matrix'>
----------------------------------


### 5.5 정규화
#### - 각 열(변수)에 속하는 데이터 값을 동일한 크기 기준으로 나눈 비율을 나타내는 것을 정규화라고 한다.

In [48]:
import pandas as pd
import numpy as np

df = pd.read_csv('auto-mpg.csv', header = None)

df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin', 'name']

df['horsepower'].replace('?', np.nan, inplace = True)
df.dropna(subset = ['horsepower'], axis = 0, inplace = True)
df['horsepower'] = df['horsepower'].astype('float')

print(df['horsepower'].describe())
print("----------------------------------")

df['horsepower'] = df['horsepower'] / abs(df['horsepower'].max())
print(df['horsepower'].head())
print("----------------------------------")
print(df['horsepower'].describe())
print("----------------------------------")

min_x = df['horsepower'] - df['horsepower'].min()
min_max = df['horsepower'].max() - df['horsepower'].min()
df['horsepower'] = min_x / min_max
print(df['horsepower'].head())
print("----------------------------------")
print(df['horsepower'].describe())
print("----------------------------------")

count    392.000000
mean     104.469388
std       38.491160
min       46.000000
25%       75.000000
50%       93.500000
75%      126.000000
max      230.000000
Name: horsepower, dtype: float64
----------------------------------
0    0.565217
1    0.717391
2    0.652174
3    0.652174
4    0.608696
Name: horsepower, dtype: float64
----------------------------------
count    392.000000
mean       0.454215
std        0.167353
min        0.200000
25%        0.326087
50%        0.406522
75%        0.547826
max        1.000000
Name: horsepower, dtype: float64
----------------------------------
0    0.456522
1    0.646739
2    0.565217
3    0.565217
4    0.510870
Name: horsepower, dtype: float64
----------------------------------
count    392.000000
mean       0.317768
std        0.209191
min        0.000000
25%        0.157609
50%        0.258152
75%        0.434783
max        1.000000
Name: horsepower, dtype: float64
----------------------------------


### 5.6 시계열 데이터
#### 5.6.1 다른 자료형을 시계열 객체로 변환

In [51]:
import pandas as pd

df = pd.read_csv('stock-data.csv')
print(df.head())
print("----------------------------------")
print(df.info())
print("----------------------------------")

# pd.to_datetime() - pandas의 timestamp(시점)을 나타내는 datetime64 타입으로 변환
df['new_Date'] = pd.to_datetime(df['Date'])
print(df.head())
print("----------------------------------")
print(df.info())
print("----------------------------------")
print(type(df['new_Date'][0]))
print("----------------------------------")

# 바꾼 datetime을 index 지정 시 datetimeindex로 저장
df.set_index('new_Date', inplace = True)
df.drop('Date', axis = 1, inplace = True)
print(df.head())
print("----------------------------------")
print(df.info())
print("----------------------------------")

         Date  Close  Start   High    Low  Volume
0  2018-07-02  10100  10850  10900  10000  137977
1  2018-06-29  10700  10550  10900   9990  170253
2  2018-06-28  10400  10900  10950  10150  155769
3  2018-06-27  10900  10800  11050  10500  133548
4  2018-06-26  10800  10900  11000  10700   63039
----------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Date    20 non-null     object
 1   Close   20 non-null     int64 
 2   Start   20 non-null     int64 
 3   High    20 non-null     int64 
 4   Low     20 non-null     int64 
 5   Volume  20 non-null     int64 
dtypes: int64(5), object(1)
memory usage: 1.1+ KB
None
----------------------------------
         Date  Close  Start   High    Low  Volume   new_Date
0  2018-07-02  10100  10850  10900  10000  137977 2018-07-02
1  2018-06-29  10700  10550  10900   9990  170253 2018-06-29
2 

In [52]:
dates = ['2019-01-01', '2020-03-01', '2021-06-01']

ts_dates = pd.to_datetime(dates)
print(ts_dates)
print("----------------------------------")

# to_period() - 일정한 기간을 나타내는 period 객체로 timestamp 객체를 변환 / freq 옵션에 기준이 되는 기간 설정
pr_day = ts_dates.to_period(freq = 'D')
print(pr_day)
print("----------------------------------")

pr_month = ts_dates.to_period(freq = 'M')
print(pr_month)
print("----------------------------------")

pr_year = ts_dates.to_period(freq = 'Y')
print(pr_year)
print("----------------------------------")

DatetimeIndex(['2019-01-01', '2020-03-01', '2021-06-01'], dtype='datetime64[ns]', freq=None)
----------------------------------
PeriodIndex(['2019-01-01', '2020-03-01', '2021-06-01'], dtype='period[D]', freq='D')
----------------------------------
PeriodIndex(['2019-01', '2020-03', '2021-06'], dtype='period[M]', freq='M')
----------------------------------
PeriodIndex(['2019', '2020', '2021'], dtype='period[A-DEC]', freq='A-DEC')
----------------------------------


#### 5.6.2 시계열 데이터 만들기

In [54]:
# pd.date_range() - 여러 개의 날짜가 들어 있는 배열 형태의 시계열 데이터 생성
ts_ms = pd.date_range(start = '2019-01-01', # 시작점
                     end = None,            # 끝점
                     periods = 6,           # 생성할 timestamp 개수
                     freq = 'MS',           # 시간 간격(MS : 월의 시작일)
                     tz = 'Asia/Seoul')     # 시간대(timezone) - 한국

print(ts_ms)
print("----------------------------------")

ts_me = pd.date_range(start = '2019-01-01', # 시작점
                     end = None,            # 끝점
                     periods = 6,           # 생성할 timestamp 개수
                     freq = 'M',           # 시간 간격(M : 월의 마지막 날)
                     tz = 'Asia/Seoul')     # 시간대(timezone) - 한국

print(ts_me)
print("----------------------------------")

ts_3m = pd.date_range(start = '2019-01-01', # 시작점
                     end = None,            # 끝점
                     periods = 6,           # 생성할 timestamp 개수
                     freq = '3M',           # 시간 간격(3M : 3개월)
                     tz = 'Asia/Seoul')     # 시간대(timezone) - 한국

print(ts_3m)
print("----------------------------------")

DatetimeIndex(['2019-01-01 00:00:00+09:00', '2019-02-01 00:00:00+09:00',
               '2019-03-01 00:00:00+09:00', '2019-04-01 00:00:00+09:00',
               '2019-05-01 00:00:00+09:00', '2019-06-01 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='MS')
----------------------------------
DatetimeIndex(['2019-01-31 00:00:00+09:00', '2019-02-28 00:00:00+09:00',
               '2019-03-31 00:00:00+09:00', '2019-04-30 00:00:00+09:00',
               '2019-05-31 00:00:00+09:00', '2019-06-30 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='M')
----------------------------------
DatetimeIndex(['2019-01-31 00:00:00+09:00', '2019-04-30 00:00:00+09:00',
               '2019-07-31 00:00:00+09:00', '2019-10-31 00:00:00+09:00',
               '2020-01-31 00:00:00+09:00', '2020-04-30 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='3M')
----------------------------------


In [56]:
# pd.period_range() - 여러 개의 기간이 들어 있는 시계열 데이터 생성
pr_m = pd.period_range(start = '2019-01-01',
                      end = None,
                      periods = 3,
                      freq = 'M')     # 기간의 길이(M:월)
print(pr_m)
print("----------------------------------")

pr_h = pd.period_range(start = '2019-01-01',
                      end = None,
                      periods = 3,
                      freq = 'H')     # 기간의 길이(H: 1시간)
print(pr_h)
print("----------------------------------")

pr_2h = pd.period_range(start = '2019-01-01',
                      end = None,
                      periods = 3,
                      freq = '2H')     # 기간의 길이(2H: 2시간)
print(pr_2h)
print("----------------------------------")

PeriodIndex(['2019-01', '2019-02', '2019-03'], dtype='period[M]', freq='M')
----------------------------------
PeriodIndex(['2019-01-01 00:00', '2019-01-01 01:00', '2019-01-01 02:00'], dtype='period[H]', freq='H')
----------------------------------
PeriodIndex(['2019-01-01 00:00', '2019-01-01 02:00', '2019-01-01 04:00'], dtype='period[2H]', freq='2H')
----------------------------------


#### 5.6.3 시계열 데이터 활용

In [61]:
df = pd.read_csv('stock-data.csv')
df['new_Date'] = pd.to_datetime(df['Date'])
print(df.head())
print("----------------------------------")

# dt 속성을 이용하여 열의 연-월-일 정보를 년, 월, 일로 구분
df['Year'] = df['new_Date'].dt.year
df['Month'] = df['new_Date'].dt.month
df['Day'] = df['new_Date'].dt.day
print(df.head())
print("----------------------------------")

# timestamp를 period로 변환하여 연-월-일 표기 변경
df['Date_yr'] = df['new_Date'].dt.to_period(freq = 'A')
df['Date_m'] = df['new_Date'].dt.to_period(freq = 'M')
print(df.head())
print("----------------------------------")

df.set_index('Date_m', inplace = True)
print(df.head())
print("----------------------------------")

         Date  Close  Start   High    Low  Volume   new_Date
0  2018-07-02  10100  10850  10900  10000  137977 2018-07-02
1  2018-06-29  10700  10550  10900   9990  170253 2018-06-29
2  2018-06-28  10400  10900  10950  10150  155769 2018-06-28
3  2018-06-27  10900  10800  11050  10500  133548 2018-06-27
4  2018-06-26  10800  10900  11000  10700   63039 2018-06-26
----------------------------------
         Date  Close  Start   High    Low  Volume   new_Date  Year  Month  Day
0  2018-07-02  10100  10850  10900  10000  137977 2018-07-02  2018      7    2
1  2018-06-29  10700  10550  10900   9990  170253 2018-06-29  2018      6   29
2  2018-06-28  10400  10900  10950  10150  155769 2018-06-28  2018      6   28
3  2018-06-27  10900  10800  11050  10500  133548 2018-06-27  2018      6   27
4  2018-06-26  10800  10900  11000  10700   63039 2018-06-26  2018      6   26
----------------------------------
         Date  Close  Start   High    Low  Volume   new_Date  Year  Month  \
0  2018-07-02

In [65]:
df = pd.read_csv('stock-data.csv')
df['new_Date'] = pd.to_datetime(df['Date'])
df.set_index('new_Date', inplace = True)
print(df.head())
print("----------------------------------")
print(df.index)
print("----------------------------------")

df_y = df['2018']
print(df_y.head())
print("----------------------------------")

df_ym = df.loc['2018-07']
print(df_ym)
print("----------------------------------")

df_ym_cols = df.loc['2018-07', 'Start':'High']
print(df_ym_cols)
print("----------------------------------")

df_ymd = df['2018-07-02']
print(df_ymd)
print("----------------------------------")

df_ymd_range = df['2018-06-25' : '2018-06-20']
print(df_ymd_range)
print("----------------------------------")

                  Date  Close  Start   High    Low  Volume
new_Date                                                  
2018-07-02  2018-07-02  10100  10850  10900  10000  137977
2018-06-29  2018-06-29  10700  10550  10900   9990  170253
2018-06-28  2018-06-28  10400  10900  10950  10150  155769
2018-06-27  2018-06-27  10900  10800  11050  10500  133548
2018-06-26  2018-06-26  10800  10900  11000  10700   63039
----------------------------------
DatetimeIndex(['2018-07-02', '2018-06-29', '2018-06-28', '2018-06-27',
               '2018-06-26', '2018-06-25', '2018-06-22', '2018-06-21',
               '2018-06-20', '2018-06-19', '2018-06-18', '2018-06-15',
               '2018-06-14', '2018-06-12', '2018-06-11', '2018-06-08',
               '2018-06-07', '2018-06-05', '2018-06-04', '2018-06-01'],
              dtype='datetime64[ns]', name='new_Date', freq=None)
----------------------------------
                  Date  Close  Start   High    Low  Volume
new_Date                            

  if __name__ == '__main__':
