# Labco_data

### 파일 종류
- 강동구.xlsx
- 광진구.xlsx
- 마포구.xlsx
- 성동구.xlsx
- 중랑구.xlsx
- TMS(통합).xlsx

5개의 Excel파일 모두 "년","월","일',"시","분" 열이 존재한다.  
시계열 분석을 위해서는 해당 열들을 값을 datetime 형태 및 타입으로 변환해야한다.  
파일 종류에 따라 측정시간(datetime)열을 생성해주는 Class 생성

## 환경 변수 설정

In [139]:
# 환경변수 불러오기
import pandas as pd
from dotenv import load_dotenv
import os
import matplotlib.pyplot as plt
%matplotlib inline

load_dotenv()

True

## Datetime 변환

In [133]:
class DatetimeConverter:
    def __init__(self, file_path):
        self.file_path = file_path
    
    # file_name에 따른 Load
    def load_data(self, file_name):
        return pd.read_excel(self.file_path + file_name)
    
    # 행 삭제(각각의 파일들 마지막에는 수치 계산이 존재)
    def drop_rows(self, df, file_name):
        if file_name != "TMS(통합).xlsx":
            df = df.drop(df.index[[-1,-2,-3]])
        return df
    
    # 날짜 열 int형으로 변환
    def convert_columns_to_int(self, df):
        # 5개의 파일에 존재하는 열
        columns = ['년','월','일','시','분']
        for col in columns:
            df[col] = df[col].astype(int)
        return df
    
    # datetime으로 변환
    def create_datetime_column(self, df):
        df_renamed = df.rename(columns={'년': 'year', '월': 'month', '일': 'day', '시': 'hour', '분': 'minute'})
        # datetime인 "측정시간" 열 생성
        df['측정시간'] = pd.to_datetime(df_renamed[['year', 'month', 'day', 'hour', 'minute']])
        return df
    
    # "측정시간"을 index로 설정한 후 기존 열과 columns 열 삭제
    def set_datetime_index(self, df, datetime_col):
        columns = ['년','월','일','시','분']
        df.index = df[datetime_col]
        return df.drop([datetime_col] + columns, axis=1)
    
    # 함수 실행
    def process_file(self, file_name):
        df = self.load_data(file_name)
        df = self.drop_rows(df, file_name)
        df = self.convert_columns_to_int(df)
        df = self.create_datetime_column(df)
        df = self.set_datetime_index(df, '측정시간')
        return df

In [134]:
# 경로 설정
file_path = os.getenv("FILE_PATH")

In [135]:
# 인스턴스 생성
converter = DatetimeConverter(file_path)

In [136]:
# 파일 확인
gangdong = converter.process_file("강동구.xlsx")
# gwangjin = converter.process_file("광진구.xlsx")
# mapo = converter.process_file("마포구.xlsx")
# sungdong = converter.process_file("성동구.xlsx")
# jungrang = converter.process_file("중랑구.xlsx")
# tms = converter.process_file("TMS(통합).xlsx")

## 데이터 확인

In [143]:
gangdong

Unnamed: 0_level_0,측정소,PM2.5,PM10,CH01,CH02,CH03,CH04,CH05,CH06,CH07,...,CH12,CH13,CH14,CH15,CH16,CH17,CH18,CH19,PUA,SEA
측정시간,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2022-07-27 00:00:00,"강동헤리티지자이 (길동신동아1,2,차아파트재건축사업)",(P),(P),(P),(P),(P),(P),(P),(P),(P),...,(P),(P),(P),(P),(P),(P),(P),(P),(P),(P)
2022-07-27 00:05:00,"강동헤리티지자이 (길동신동아1,2,차아파트재건축사업)",(P),(P),(P),(P),(P),(P),(P),(P),(P),...,(P),(P),(P),(P),(P),(P),(P),(P),(P),(P)
2022-07-27 00:10:00,"강동헤리티지자이 (길동신동아1,2,차아파트재건축사업)",(P),(P),(P),(P),(P),(P),(P),(P),(P),...,(P),(P),(P),(P),(P),(P),(P),(P),(P),(P)
2022-07-27 00:15:00,"강동헤리티지자이 (길동신동아1,2,차아파트재건축사업)",(P),(P),(P),(P),(P),(P),(P),(P),(P),...,(P),(P),(P),(P),(P),(P),(P),(P),(P),(P)
2022-07-27 00:20:00,"강동헤리티지자이 (길동신동아1,2,차아파트재건축사업)",(P),(P),(P),(P),(P),(P),(P),(P),(P),...,(P),(P),(P),(P),(P),(P),(P),(P),(P),(P)
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2022-09-30 23:35:00,"강동헤리티지자이 (길동신동아1,2,차아파트재건축사업)",32,85,0,1283,3328,1310,688,470,275,...,0,0,0,0,0,0,0,0,0.1,4.8
2022-09-30 23:40:00,"강동헤리티지자이 (길동신동아1,2,차아파트재건축사업)",31,80,0,1246,3215,1235,701,480,273,...,0,0,0,0,0,0,0,0,0.1,4.8
2022-09-30 23:45:00,"강동헤리티지자이 (길동신동아1,2,차아파트재건축사업)",31,75,0,1263,3235,1230,663,456,228,...,0,0,0,0,0,0,0,0,0.1,4.8
2022-09-30 23:50:00,"강동헤리티지자이 (길동신동아1,2,차아파트재건축사업)",30,72,0,1221,3116,1175,645,463,238,...,0,0,0,0,0,0,0,0,0.1,4.8


In [142]:
# 열 확인
gangdong.columns

Index(['측정소', 'PM2.5', 'PM10', 'CH01', 'CH02', 'CH03', 'CH04', 'CH05', 'CH06',
       'CH07', 'CH08', 'CH09', 'CH10', 'CH11', 'CH12', 'CH13', 'CH14', 'CH15',
       'CH16', 'CH17', 'CH18', 'CH19', 'PUA', 'SEA'],
      dtype='object')

In [148]:
# 각 열의 (P) 개수 파악
def count_p_values(df):
    return df.apply(lambda col: (col == '(P)').sum())

In [151]:
p_counts = count_p_values(gangdong)
print(p_counts)

측정소         0
PM2.5    9752
PM10     9752
CH01     9752
CH02     9752
CH03     9752
CH04     9752
CH05     9752
CH06     9752
CH07     9752
CH08     9752
CH09     9752
CH10     9752
CH11     9752
CH12     9752
CH13     9752
CH14     9752
CH15     9752
CH16     9752
CH17     9752
CH18     9752
CH19     9752
PUA      9752
SEA      9752
dtype: int64


In [154]:
# 측정소가 같은지 확인
gangdong['측정소'].unique()

array(['강동헤리티지자이 (길동신동아1,2,차아파트재건축사업)'], dtype=object)

In [157]:
# '측정소'를 제외하고 행의 값이 모두 'P'인지 확인
def count_p_rows(df, exclude_column):
    # '측정소'를 제외
    columns_to_check = df.columns.difference([exclude_column])
    
    return df[columns_to_check].apply(lambda row: (row == '(P)').all(), axis=1).sum()

# '측정소'를 제외하고 행의 값이 모두 'P'인 행의 개수 계산
num_p_rows = count_p_rows(gangdong, '측정소')

print(f"'측정소'를 제외하고 행의 값이 모두 'P'인 행의 개수: {num_p_rows}")

'측정소'를 제외하고 행의 값이 모두 'P'인 행의 개수: 9752


In [163]:
# 열의 값이 (P)라면 모든 열 (P)값이므로 제외
# 기준 PM2.5로 설정
removed_p_value = gangdong[gangdong['PM2.5'] != '(P)']

In [189]:
# removed_p_value

In [187]:
# # 모든 데이터 확인 
# pd.set_option('display.max_rows', None)
# pd.set_option('display.max_columns', None)