In [1]:
import pandas as pd

# 데이터를 읽어오기
data_df = pd.read_csv('data.csv')
result_df = pd.read_csv('result.csv')

# '접수번호'를 기준으로 데이터 병합
merged_df = pd.merge(data_df, result_df, on='접수번호', how='inner')

# 병합된 데이터를 CSV 파일로 저장
merged_df.to_csv('merged_data.csv', index=False)


In [2]:
# '실내공기질'이 포함된 데이터만 필터링
filtered_df = merged_df[merged_df['검체유형_x'].str.contains('실내공기질', na=False)]

# 필터링된 데이터 확인
print(filtered_df.head())

# 필요한 경우, 필터링된 데이터를 CSV 파일로 저장
filtered_df.to_csv('filtered_data.csv', index=False)


     #           접수번호        접수일자              검체유형_x            시설명 시료명_x  \
16 NaN  2792400012-01  2024-02-06  실내공기질/실내공기질/다중이용시설            오남역   대합실   
17 NaN  2792400012-02  2024-02-06  실내공기질/실내공기질/다중이용시설            오남역   승강장   
18 NaN  2792400013-01  2024-02-06  실내공기질/실내공기질/다중이용시설         별내별가람역   승강장   
19 NaN  2792400013-02  2024-02-06  실내공기질/실내공기질/다중이용시설         별내별가람역   대합실   
20 NaN  2792400014-01  2024-02-06  실내공기질/실내공기질/다중이용시설  남양주시도시공사(진접역)   대합실   

    의뢰기관  의뢰자_x  대표자    진행상황  ...  트리클로로에틸렌 아크릴로니트릴  1,2-Dichlorethane  \
16  남양주시  남양주시장  NaN  결과승인완료  ...       NaN     NaN                NaN   
17  남양주시  남양주시장  NaN  결과승인완료  ...       NaN     NaN                NaN   
18  남양주시  남양주시장  NaN  결과승인완료  ...       NaN     NaN                NaN   
19  남양주시  남양주시장  NaN  결과승인완료  ...       NaN     NaN                NaN   
20  남양주시  남양주시장  NaN  결과승인완료  ...       NaN     NaN                NaN   

    Carbon tetrachloride  테트라클로로에틸렌 클로로포름 황산화물 이황화탄소  총탄화수소 납화합물  
16                 

In [3]:
# '시설군' 컬럼 추가 (검체유형_x 열에서 파생)
filtered_df['시설군'] = filtered_df['검체유형_x'].str.split('/').str[2]

# 지정된 열 선택
selected_columns = [
    '의뢰기관', '시설군', '배출시설', '시설명', '채취장소_x', '시료명_x',
    'PM10', 'PM2.5', 'CO2', '폼알데하이드', '부유세균', '라돈', '라돈(밀폐)', '벤젠', '톨루엔', '에틸벤젠', '자일렌', '스틸렌', '부적합항목', '확인일', '접수번호'
]

# 해당 열만 포함된 새 DataFrame 생성
extracted_df = filtered_df[selected_columns]

# 필요한 경우, 데이터를 CSV 파일로 저장
extracted_df.to_csv('extracted_data.csv', index=False)

# 데이터 확인
print(extracted_df.head())


    의뢰기관     시설군  배출시설            시설명                     채취장소_x 시료명_x  PM10  \
16  남양주시  다중이용시설  지하역사            오남역   경기 남양주시 오남읍 진건오남로 지하 929   대합실   NaN   
17  남양주시  다중이용시설  지하역사            오남역   경기 남양주시 오남읍 진건오남로 지하 929   승강장   NaN   
18  남양주시  다중이용시설  지하역사         별내별가람역  경기 남양주시 별내3로 지하 345 (별내동)   승강장   NaN   
19  남양주시  다중이용시설  지하역사         별내별가람역  경기 남양주시 별내3로 지하 345 (별내동)   대합실   NaN   
20  남양주시  다중이용시설  지하역사  남양주시도시공사(진접역)    경기 남양주시 진접읍 경복대로 지하 244   대합실   NaN   

    PM2.5  CO2  폼알데하이드  ...  라돈  라돈(밀폐)   벤젠 톨루엔  에틸벤젠  자일렌 스틸렌  부적합항목  \
16    NaN  NaN     NaN  ... NaN     NaN  NaN NaN   NaN  NaN NaN    NaN   
17    NaN  NaN     NaN  ... NaN     NaN  NaN NaN   NaN  NaN NaN    NaN   
18    NaN  NaN     NaN  ... NaN     NaN  NaN NaN   NaN  NaN NaN    NaN   
19    NaN  NaN     NaN  ... NaN     NaN  NaN NaN   NaN  NaN NaN    NaN   
20    NaN  NaN     NaN  ... NaN     NaN  NaN NaN   NaN  NaN NaN    NaN   

           확인일           접수번호  
16  2024-02-13  2792400012-01  
17  2024-0

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df['시설군'] = filtered_df['검체유형_x'].str.split('/').str[2]


In [5]:
import pandas as pd

# 데이터 파일 로드
file_path = 'extracted_data.csv'
data = pd.read_csv(file_path)

# 열 이름 변경
rename_columns = {
    '의뢰기관': '시군명',
    '배출시설': '세부시설군',
    '채취장소_x': '주소',
    'PM10': '미세먼지(PM10)',
    'PM2.5': '초미세먼지(PM2.5)',
    'CO2': '이산화탄소',
    '부유세균': '총부유세균'
}
data.rename(columns=rename_columns, inplace=True)

# 접수번호의 앞 10자리를 기준으로 새로운 열 생성
data['접수번호_10자리'] = data['접수번호'].str[:10]

# 시료명 데이터 결합 및 채취지점 생성
data['채취지점'] = data.groupby('시설명')['시료명_x'].transform(lambda x: ', '.join(x.unique()))

# 수치 데이터의 평균 계산 (접수번호의 앞 10자리를 기준으로)
numeric_columns = ['미세먼지(PM10)', '초미세먼지(PM2.5)', '이산화탄소', '폼알데하이드', '총부유세균', '라돈']
data_avg = data.groupby(['시설명', '접수번호_10자리']).agg({col: 'mean' for col in numeric_columns}).reset_index()

# 채취지점 데이터와 합치기
data_merged = data_avg.merge(data.drop(columns=numeric_columns).drop_duplicates(['시설명', '접수번호_10자리']), on=['시설명', '접수번호_10자리'])

# 불필요한 시료명_x 열 제거
data_merged.drop(columns='시료명_x', inplace=True)

# 데이터 정렬
data_sorted = data_merged.sort_values(by=['시군명', '시설군', '세부시설군', '시설명', '주소', '채취지점', '미세먼지(PM10)', '초미세먼지(PM2.5)', '이산화탄소', '폼알데하이드', '총부유세균', '라돈'])

# 결과 저장
output_path = 'report_data.csv'
data_sorted.to_csv(output_path, index=False)
