In [1]:
import numpy as np
import pandas as pd

# 1. 누락 데이터 확인 
- 누락데이터 확인 
    - df.isnull()  : 누락 데이터면 True를 반환하고, 유효한 데이터가 존재하면 False를 반환한다
        = df.isna()
    - df.notnull() : 유효한 데이터가 존재하면 True를 반환하고, 누락 데이터면 False를 반환한다

- 각 컬럼별 누락데이터 갯수 세기
    - df[행/열 이름].value_counts(dropna = False) : dropna = False 옵션 없을 시, 데이터의 NaN 값을 제외하고 카운트
    - df.sum(axis = 0) : sum() 메소드는 df의 각 열에 대한 True값들을 더함. 
        - df.isnull() 을 통해 NaN 값들은 True로 처리된 데이터 프레임 
            - df.isnull().sum(axis = 0) : 각 열에 대한 NaN 갯수 더함

In [2]:
titanic = pd.read_csv('../pandas_data/titanic.csv')
titanic.head()

FileNotFoundError: [Errno 2] File ../pandas_data/titanic.csv does not exist: '../pandas_data/titanic.csv'

###### 1) titanic 데이터 확인 ➤ RangeIndex = 891, Cabin의 Non-Null Count = 204, 따라서 Null Count = 687

In [None]:
titanic.info()

###### 2) 누락 데이터 확인 (1) : 데이터프레임[ "열 이름" ].value_counts(dropna = False) 

In [None]:
nan_cabin = titanic['Cabin'].value_counts(dropna = False)
nan_cabin

###### 3) 누락 데이터 확인(2) : df.isnull(), df.notnull()

In [None]:
titanic.head().isnull() 

In [None]:
titanic.head().notnull()

###### 4) 누락 데이터 갯수 세기
- 전체 승객 중 대부분의 Cabin 데이터가 누락, 누락 데이터를 삭제하거나, 분석에서 제외하는 것이 나음

In [None]:
titanic.isnull().sum(axis=0)

# 2. 누락 데이터 제거
- 누락 데이터 제거
    - df.dropna(axis = 1, thresh = n) : 반환값은 조건을 만족하는 열(행)을 제거한 
        - axis = 1 열, 0 행
        - thresh : NaN 값이 thresh 이상일 경우 삭제 
        - how = 'any' : NaN이 하나라도 있다면 삭제
        - how = 'all' : 모든 값이 NaN일 경우 삭제
        - subset=["열 이름"] : 해당 열에 대해서 확인 
                - ex) df_age = df.dropna(subset=['age'], how='any', axis=0)
                - age 열에 대해 조사하고, NaN일 경우 해당 행(axis=0) 삭제

           

###### 1) 누락 데이터 갯수 확인

In [None]:
print ( titanic['Cabin'].value_counts(dropna = False) )
print( '**************************************************')
print ( titanic.isnull().sum(axis=0) )

In [None]:
titanic.columns

###### 2) 누락 데이터가 있는 열 모두 제거 : Cabin이 컬럼에서 삭제됨 

In [None]:
titanic.dropna(axis = 1, thresh = 500, inplace = False).columns

###### 3) 누락 데이터가 있는 열 모두 제거 

In [None]:
len( titanic['Age'] )

In [None]:
titanic.dropna(subset=['Age'], how='any', axis=0, inplace = True)

In [None]:
print( len(titanic.Age) )

# 3. 누락 데이터 치환
- 누락 데이터를 삭제하기에는 데이터를 활용하지 못하게 되므로, 최대한 데이터를 활용하기 위하여, 
    - 누락된 데이터를 활용하기 위하여 __평균( mean() )__,  __중간값( median() )__ 등으로 치환하여 사용하는 경우도 있다.

- 최빈값으로의 치환 => [ 컬럼 ].idxmax()
    - df['열 이름"].value_counts(dropna = True).idxmax()

- 누락된 데이터 치환
    - df["행/열 이름"].fillna(값, inplace = False/True)

- 근처 값으로 NaN 데이터 치환 : fillna( method = 'ffill' )
    - df['열 이름'].fillna(method = 'ffill', inplace = False/True)

###### default setting

In [None]:
titanic = pd.read_csv('../pandas_data/titanic.csv')
titanic.head()

######  1) 누락된 데이터를 평균값으로 치환

In [None]:
mean_age = titanic['Age'].mean()
mean_age

In [None]:
titanic['Age'].fillna( mean_age, inplace = True)

###### 2) 누락된 데이터 치환 후, 치환이 잘 되었는 지 확인 

In [None]:
print ( titanic['Age'].value_counts(dropna = False) )
print( ' ******* ******* ******* ******* ')
print( titanic['Age'].isnull().sum(axis = 0) )

###### 3) Age 최빈값 찾기 

In [None]:
titanic['Age'].value_counts(dropna = True)

In [None]:
titanic['Age'].value_counts(dropna = True)[29.69911764705882] # 시리즈의 인덱스를 통해 빈도 확인

In [None]:
titanic['Age'].value_counts(dropna = True).idxmax()

In [None]:
titanic['Age'].value_counts(dropna = True).idxmin()

# 4. 시계열 데이터 
- 시계열 데이터 표현
    - Timestamp : 특정 시점 
    - Period : 두 시점 사이의 일정한 기간 
<img src = '../images/시계열데이터.jpg' width = '70%' height = '70%' align = 'left'>

# 5. Timestamp 생성 
- Timestamp 배열 만들기 


- pd.date_range(start = '시작 시점', period = '갯수') 
    - 옵션
        - end : 마지막 날짜
        - freq : 시간 간격 ( 표 확인 )
        - tz  : 타임존 옵션

###### default setting

In [None]:
sample_data = {'A' : [1,2,3,4],
            'B' : [5,6,7,8],
            'C' : [9,10,11,12]}
sample_df = pd.DataFrame(sample_data)
sample_df

###### 타임스탬프 생성 및 인덱스로 사용 

In [None]:
ts_me = pd.date_range('20200101', periods=4)
sample_df.set_index(ts_me)

#  6. 문자열을 Datetime으로 변환 
- pd.to_datetime(df["컬럼 명"])
    - 반환값 : 시리즈 

In [None]:
stock = pd.read_csv('../pandas_data/stock-data.csv', skipfooter = 10, engine ='python')

### 1) 데이터 자료 확인 

In [None]:
stock.head()

In [None]:
stock.info()

### 2) 문자열 데이터(시리즈 객체)를 판다스 Datetime으로 변환 

In [None]:
stock['New_Date'] = pd.to_datetime(stock['Date'])
stock.head()

In [None]:
stock.info()

### 3) Datetime 변수를 인덱스로 변환 

In [None]:
stock.set_index('New_Date', inplace =True)
stock.drop('Date', inplace = True, axis=1)
stock.head()

### 4) Year, Month, Day 등 기간으로 변환  ( Timestamp ➤ Period )
- 가능 형식
    - yyyy/mm/dd
    - yyyymmdd
    - yyyy-mm-dd

In [None]:
dates = ['20190101', '2020/03/01', '2021-06-01']

In [None]:
ts_dates = pd.to_datetime(dates)
ts_dates

In [None]:
# Timestamp를 Period로 변환 
pr_second = ts_dates.to_period(freq = 'S')

pr_hour = ts_dates.to_period(freq = 'H')

pr_minute = ts_dates.to_period(freq = 'T')

pr_day = ts_dates.to_period(freq = 'D')

pr_week = ts_dates.to_period(freq = 'W')

pr_month = ts_dates.to_period(freq = 'M')

pr_qtr = ts_dates.to_period(freq = 'Q')

pr_year = ts_dates.to_period(freq = 'A')

print(pr_second)
print()
print(pr_hour)
print()
print(pr_minute)
print()
print(pr_day)
print()
print(pr_week)
print()
print(pr_month)
print()
print(pr_qtr)
print()
print(pr_year)