In [6]:
import numpy as np
import pandas as pd

# 1. 누락 데이터 확인 
- 누락데이터 확인 
    - df.isnull()  : 누락 데이터면 True를 반환하고, 유효한 데이터가 존재하면 False를 반환한다
        = df.isna()
    - df.notnull() : 유효한 데이터가 존재하면 True를 반환하고, 누락 데이터면 False를 반환한다

- 각 컬럼별 누락데이터 갯수 세기
    - df[행/열 이름].value_counts(dropna = False) : dropna = False 옵션 없을 시, 데이터의 NaN 값을 제외하고 카운트
    - df.sum(axis = 0) : sum() 메소드는 df의 각 열에 대한 True값들을 더함. 
        - df.isnull() 을 통해 NaN 값들은 True로 처리된 데이터 프레임 
            - df.isnull().sum(axis = 0) : 각 열에 대한 NaN 갯수 더함

In [10]:
titanic = pd.read_csv('../pandas_data/titanic.csv')
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


###### 1) titanic 데이터 확인 ➤ RangeIndex = 891, Cabin의 Non-Null Count = 204, 따라서 Null Count = 687

In [11]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


###### 2) 누락 데이터 확인 (1) : 데이터프레임[ "열 이름" ].value_counts(dropna = False) 

In [12]:
nan_cabin = titanic['Cabin'].value_counts(dropna = False)
nan_cabin

NaN            687
G6               4
B96 B98          4
C23 C25 C27      4
F33              3
              ... 
C104             1
A32              1
E12              1
D11              1
E31              1
Name: Cabin, Length: 148, dtype: int64

###### 3) 누락 데이터 확인(2) : df.isnull(), df.notnull()

In [13]:
titanic.head().isnull() 

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False


In [14]:
titanic.head().notnull()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,True,True,True,True,True,True,True,True,True,True,False,True
1,True,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,False,True
3,True,True,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True,False,True


###### 4) 누락 데이터 갯수 세기
- 전체 승객 중 대부분의 Cabin 데이터가 누락, 누락 데이터를 삭제하거나, 분석에서 제외하는 것이 나음

In [15]:
titanic.isnull().sum(axis=0)

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

# 2. 누락 데이터 제거
- 누락 데이터 제거
    - df.dropna(axis = 1, thresh = n) : 반환값은 조건을 만족하는 열(행)을 제거한 
        - axis = 1 열, 0 행
        - thresh : NaN 값이 thresh 이상일 경우 삭제 
        - how = 'any' : NaN이 하나라도 있다면 삭제
        - how = 'all' : 모든 값이 NaN일 경우 삭제
        - subset=["열 이름"] : 해당 열에 대해서 확인 
                - ex) df_age = df.dropna(subset=['age'], how='any', axis=0)
                - age 열에 대해 조사하고, NaN일 경우 해당 행(axis=0) 삭제

           

###### 1) 누락 데이터 갯수 확인

In [16]:
print ( titanic['Cabin'].value_counts(dropna = False) )
print( '**************************************************')
print ( titanic.isnull().sum(axis=0) )

NaN            687
G6               4
B96 B98          4
C23 C25 C27      4
F33              3
              ... 
C104             1
A32              1
E12              1
D11              1
E31              1
Name: Cabin, Length: 148, dtype: int64
**************************************************
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


In [17]:
titanic.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

###### 2) 누락 데이터가 있는 열 모두 제거 : Cabin이 컬럼에서 삭제됨 

In [18]:
titanic.dropna(axis = 1, thresh = 500, inplace = False).columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Embarked'],
      dtype='object')

###### 3) 누락 데이터가 있는 열 모두 제거 

In [19]:
len( titanic['Age'] )

891

In [20]:
titanic.dropna(subset=['Age'], how='any', axis=0, inplace = True)

In [21]:
print( len(titanic.Age) )

714


# 3. 누락 데이터 치환
- 누락 데이터를 삭제하기에는 데이터를 활용하지 못하게 되므로, 최대한 데이터를 활용하기 위하여, 
    - 누락된 데이터를 활용하기 위하여 __평균( mean() )__,  __중간값( median() )__ 등으로 치환하여 사용하는 경우도 있다.

- 최빈값으로의 치환 => [ 컬럼 ].idxmax()
    - df['열 이름"].value_counts(dropna = True).idxmax()

- 누락된 데이터 치환
    - df["행/열 이름"].fillna(값, inplace = False/True)

- 근처 값으로 NaN 데이터 치환 : fillna( method = 'ffill' )
    - df['열 이름'].fillna(method = 'ffill', inplace = False/True)

###### default setting

In [22]:
titanic = pd.read_csv('../pandas_data/titanic.csv')
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


######  1) 누락된 데이터를 평균값으로 치환

In [23]:
mean_age = titanic['Age'].mean()
mean_age

29.69911764705882

In [24]:
titanic['Age'].fillna( mean_age, inplace = True)

###### 2) 누락된 데이터 치환 후, 치환이 잘 되었는 지 확인 

In [25]:
print ( titanic['Age'].value_counts(dropna = False) )
print( ' ******* ******* ******* ******* ')
print( titanic['Age'].isnull().sum(axis = 0) )

29.699118    177
24.000000     30
22.000000     27
18.000000     26
28.000000     25
            ... 
55.500000      1
53.000000      1
20.500000      1
23.500000      1
0.420000       1
Name: Age, Length: 89, dtype: int64
 ******* ******* ******* ******* 
0


###### 3) Age 최빈값 찾기 

In [26]:
titanic['Age'].value_counts(dropna = True)

29.699118    177
24.000000     30
22.000000     27
18.000000     26
28.000000     25
            ... 
55.500000      1
53.000000      1
20.500000      1
23.500000      1
0.420000       1
Name: Age, Length: 89, dtype: int64

In [27]:
titanic['Age'].value_counts(dropna = True)[29.69911764705882] # 시리즈의 인덱스를 통해 빈도 확인

177

In [28]:
titanic['Age'].value_counts(dropna = True).idxmax()

29.69911764705882

In [29]:
titanic['Age'].value_counts(dropna = True).idxmin()

14.5

# 4. 시계열 데이터 
- 시계열 데이터 표현
    - Timestamp : 특정 시점 
    - Period : 두 시점 사이의 일정한 기간 
<img src = '../images/시계열데이터.jpg' width = '70%' height = '70%' align = 'left'>

# 5. Timestamp 생성 
- Timestamp 배열 만들기 


- pd.date_range(start = '시작 시점', period = '갯수') 
    - 옵션
        - end : 마지막 날짜
        - freq : 시간 간격 ( 표 확인 )
        - tz  : 타임존 옵션

###### default setting

In [7]:
sample_data = {'A' : [1,2,3,4],
            'B' : [5,6,7,8],
            'C' : [9,10,11,12]}
sample_df = pd.DataFrame(sample_data)
sample_df

Unnamed: 0,A,B,C
0,1,5,9
1,2,6,10
2,3,7,11
3,4,8,12


###### 타임스탬프 생성 및 인덱스로 사용 

In [8]:
ts_me = pd.date_range('20200101', periods=4)
sample_df.set_index(ts_me)

Unnamed: 0,A,B,C
2020-01-01,1,5,9
2020-01-02,2,6,10
2020-01-03,3,7,11
2020-01-04,4,8,12


#  6. 문자열을 Datetime으로 변환 
- pd.to_datetime(df["컬럼 명"])
    - 반환값 : 시리즈 

In [66]:
stock = pd.read_csv('../pandas_data/stock-data.csv', skipfooter = 10, engine ='python')

### 1) 데이터 자료 확인 

In [67]:
stock.head()

Unnamed: 0,Date,Close,Start,High,Low,Volume
0,2018-07-02,10100,10850,10900,10000,137977
1,2018-06-29,10700,10550,10900,9990,170253
2,2018-06-28,10400,10900,10950,10150,155769
3,2018-06-27,10900,10800,11050,10500,133548
4,2018-06-26,10800,10900,11000,10700,63039


In [68]:
stock.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Date    10 non-null     object
 1   Close   10 non-null     int64 
 2   Start   10 non-null     int64 
 3   High    10 non-null     int64 
 4   Low     10 non-null     int64 
 5   Volume  10 non-null     int64 
dtypes: int64(5), object(1)
memory usage: 608.0+ bytes


### 2) 문자열 데이터(시리즈 객체)를 판다스 Datetime으로 변환 

In [69]:
stock['New_Date'] = pd.to_datetime(stock['Date'])
stock.head()

Unnamed: 0,Date,Close,Start,High,Low,Volume,New_Date
0,2018-07-02,10100,10850,10900,10000,137977,2018-07-02
1,2018-06-29,10700,10550,10900,9990,170253,2018-06-29
2,2018-06-28,10400,10900,10950,10150,155769,2018-06-28
3,2018-06-27,10900,10800,11050,10500,133548,2018-06-27
4,2018-06-26,10800,10900,11000,10700,63039,2018-06-26


In [60]:
stock.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 10 entries, 2018-07-02 to 2018-06-19
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Close   10 non-null     int64
 1   Start   10 non-null     int64
 2   High    10 non-null     int64
 3   Low     10 non-null     int64
 4   Volume  10 non-null     int64
dtypes: int64(5)
memory usage: 480.0 bytes


### 3) Datetime 변수를 인덱스로 변환 

In [56]:
stock.set_index('New_Date', inplace =True)
stock.drop('Date', inplace = True, axis=1)
stock.head()

Unnamed: 0_level_0,Close,Start,High,Low,Volume
New_Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-07-02,10100,10850,10900,10000,137977
2018-06-29,10700,10550,10900,9990,170253
2018-06-28,10400,10900,10950,10150,155769
2018-06-27,10900,10800,11050,10500,133548
2018-06-26,10800,10900,11000,10700,63039


### 4) Year, Month, Day 등 기간으로 변환  ( Timestamp ➤ Period )
- 가능 형식
    - yyyy/mm/dd
    - yyyymmdd
    - yyyy-mm-dd

In [79]:
dates = ['20190101', '2020/03/01', '2021-06-01']

In [80]:
ts_dates = pd.to_datetime(dates)
ts_dates

DatetimeIndex(['2019-01-01', '2020-03-01', '2021-06-01'], dtype='datetime64[ns]', freq=None)

In [81]:
# Timestamp를 Period로 변환 
pr_second = ts_dates.to_period(freq = 'S')

pr_hour = ts_dates.to_period(freq = 'H')

pr_minute = ts_dates.to_period(freq = 'T')

pr_day = ts_dates.to_period(freq = 'D')

pr_week = ts_dates.to_period(freq = 'W')

pr_month = ts_dates.to_period(freq = 'M')

pr_qtr = ts_dates.to_period(freq = 'Q')

pr_year = ts_dates.to_period(freq = 'A')

print(pr_second)
print()
print(pr_hour)
print()
print(pr_minute)
print()
print(pr_day)
print()
print(pr_week)
print()
print(pr_month)
print()
print(pr_qtr)
print()
print(pr_year)

PeriodIndex(['2019-01-01 00:00:00', '2020-03-01 00:00:00',
             '2021-06-01 00:00:00'],
            dtype='period[S]', freq='S')

PeriodIndex(['2019-01-01 00:00', '2020-03-01 00:00', '2021-06-01 00:00'], dtype='period[H]', freq='H')

PeriodIndex(['2019-01-01 00:00', '2020-03-01 00:00', '2021-06-01 00:00'], dtype='period[T]', freq='T')

PeriodIndex(['2019-01-01', '2020-03-01', '2021-06-01'], dtype='period[D]', freq='D')

PeriodIndex(['2018-12-31/2019-01-06', '2020-02-24/2020-03-01',
             '2021-05-31/2021-06-06'],
            dtype='period[W-SUN]', freq='W-SUN')

PeriodIndex(['2019-01', '2020-03', '2021-06'], dtype='period[M]', freq='M')

PeriodIndex(['2019Q1', '2020Q1', '2021Q2'], dtype='period[Q-DEC]', freq='Q-DEC')

PeriodIndex(['2019', '2020', '2021'], dtype='period[A-DEC]', freq='A-DEC')
