In [1]:
import pandas as pd
from pathlib import Path

# 1. 현장데이터 폴더 경로 지정
base_path = Path(r"C:\Users\qndba\peer\현장데이터")

# 2. 'wave'로 시작하고 .xlsx 확장자인 파일 모두 찾기
excel_files = list(base_path.rglob("*wave*.xlsx"))

# 3. 데이터프레임을 담을 리스트
dfs = []

# 4. 각 엑셀에서 '설문지 응답 시트1' 시트를 읽어오기
for file in excel_files:
    try:
        df = pd.read_excel(file, sheet_name='설문지 응답 시트1', engine='openpyxl')
        df['source_file'] = file.name  # 출처 파일명 기록
        dfs.append(df)
    except Exception as e:
        print(f"파일 {file.name} 에서 오류 발생: {e}")

# 5. 데이터프레임 병합
if dfs:
    merged_df = pd.concat(dfs, ignore_index=True)
    print(merged_df.head())  # 일부 확인
else:
    print("불러온 파일이 없습니다.")

                        타임스탬프   학년    반   번호     성별     이름  \
0  2024-04-17 09:18:11.580000  6.0  5.0  1.0  0. 남자  51강*욱   
1  2024-04-17 09:20:19.070000  6.0  5.0  2.0  0. 남자  52곽*중   
2  2024-04-17 09:20:41.511000  6.0  5.0  3.0  0. 남자  53김*재   
3  2024-04-17 09:19:17.376000  6.0  5.0  4.0  1. 여자  54김*은   
4  2024-04-17 09:18:52.839000  6.0  5.0  5.0  1. 여자  55김*우   

  본 설문은 여러분의 학교생활을 돕기 위한 상담자료로 활용되며, 학교 프로그램의 향상에 큰 도움이 됩니다. 아래 참여 동의에 체크하여, 설문 참여에 동의해 주세요. \n(만약 설문에 참여하는 것이 불편하시다면, 선생님께 알려주신 후 참여가 어려움에 체크해주세요.)  \
0                                            1. 참여동의                                                                                                   
1                                            1. 참여동의                                                                                                   
2                                            1. 참여동의                                                                                                   
3                  

In [6]:
# 예시 df 뽑아서 전처리 해보기
df = dfs[0]
print(df)

                         타임스탬프  학년  반  번호     성별        이름  \
0   2024-04-17 09:18:11.580000   6  5   1  0. 남자     51강*욱   
1   2024-04-17 09:20:19.070000   6  5   2  0. 남자     52곽*중   
2   2024-04-17 09:20:41.511000   6  5   3  0. 남자     53김*재   
3   2024-04-17 09:19:17.376000   6  5   4  1. 여자     54김*은   
4   2024-04-17 09:18:52.839000   6  5   5  1. 여자     55김*우   
5   2024-04-17 09:23:28.437000   6  5   6  0. 남자     56김*홍   
6   2024-04-17 09:16:08.017000   6  5   7  1. 여자     57김*윤   
7   2024-04-17 09:22:37.996000   6  5   8  0. 남자     58박*형   
8   2024-04-17 09:22:56.137000   6  5   9  1. 여자     59박*린   
9   2024-04-17 09:15:52.454000   6  5  10  0. 남자    510박*우   
10  2024-04-17 09:20:11.408000   6  5  11  1. 여자    511박*유   
11  2024-04-17 09:20:05.455000   6  5  12  0. 남자    512배*을   
12  2024-04-17 09:36:09.439000   6  5  13  0. 남자    513서*웅   
13  2024-04-17 09:16:35.215000   6  5  14  1. 여자    514오*서   
14  2024-04-17 09:16:18.802000   6  5  16  1. 여자    516이*영   
15  2024

In [13]:
# 인적사항 분리하고, 필요한 문항 데이터만 남겨서 붙이기
personinfo_df = df.loc[:,['타임스탬프', '학년', '반', '번호', '성별', '이름']]

In [14]:
keywords = [
    "가장 인기가 있는",
    "가장 친한 친구는?",
    "학급에서 영향력이 있",
    "친구들의 생각을 자주",
    "험담을 하거나 다른 친",
    "나쁜 소문을 퍼뜨리는",
    "친절한",
    "협력적인"
]

# 이해가 안되는 컴프리헨션이라서 추후 공부기기
filtered_cols = [col for col in df.columns if any(keyword in col for keyword in keywords)]

# 필터링된 데이터프레임
filtered_df = df[filtered_cols]

   가장 인기가 있는 [51강*욱]  가장 인기가 있는 [52곽*중]  가장 인기가 있는 [53김*재]  가장 인기가 있는 [54김*은]  \
0                NaN                NaN                NaN                NaN   
1                NaN                NaN                NaN                NaN   
2                1.0                1.0                NaN                NaN   
3                1.0                1.0                1.0                NaN   
4                NaN                NaN                NaN                NaN   

   가장 인기가 있는 [55김*우]  가장 인기가 있는 [56김*홍]  가장 인기가 있는 [57김*윤]  가장 인기가 있는 [58박*형]  \
0                NaN                NaN                NaN                NaN   
1                NaN                NaN                NaN                NaN   
2                NaN                1.0                NaN                1.0   
3                NaN                NaN                1.0                1.0   
4                NaN                NaN                NaN                NaN   

   가장 인기가 있는 [59박*린]  가장 인

In [16]:
filtered_df

Unnamed: 0,가장 인기가 있는 [51강*욱],가장 인기가 있는 [52곽*중],가장 인기가 있는 [53김*재],가장 인기가 있는 [54김*은],가장 인기가 있는 [55김*우],가장 인기가 있는 [56김*홍],가장 인기가 있는 [57김*윤],가장 인기가 있는 [58박*형],가장 인기가 있는 [59박*린],가장 인기가 있는 [510박*우],...,가장 친한 친구는? [517이*],가장 친한 친구는? [518*훈],가장 친한 친구는? [519장*준],가장 친한 친구는? [520장*수],가장 친한 친구는? [521정***타],가장 친한 친구는? [522조*민],가장 친한 친구는? [523진*랑],가장 친한 친구는? [524최*원],가장 친한 친구는? [525최*예],가장 친한 친구는? [526홍*경]
0,,,,,,,,,,1.0,...,,,,,1.0,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,1.0,1.0,,,,1.0,,1.0,,1.0,...,,,,,1.0,,,1.0,,
3,1.0,1.0,1.0,,,,1.0,1.0,,1.0,...,,,,,,1.0,,,,1.0
4,,,,,,,,,,,...,,,,,,,,,,
5,,,,,,,,,,,...,,,,,,,,1.0,,
6,,,,,,,,,,,...,,,,1.0,,,1.0,,1.0,
7,,,,,,,,,,,...,,,,,1.0,,,1.0,,
8,1.0,1.0,1.0,,,1.0,1.0,1.0,,1.0,...,,,,,,1.0,,,,1.0
9,,,,,,,,,,,...,,,,,1.0,,,,,


In [26]:
row_df = pd.concat([personinfo_df, filtered_df], ignore_index=False, axis=1)

In [67]:
# 전처리된거에서 인적정보 다시 분리
rowinfo_df = row_df.iloc[:,:6]

# 아이템 분리 후
rowitem_df = row_df.iloc[:,6:]
# 문항별로 또 분리
keywords_dict = {
    'PN1': "가장 인기가 있는",
    'PN14': "가장 친한 친구는?",
    'PN4': "학급에서 영향력이 있",
    'PN5': "친구들의 생각을 자주",
    'PN6': "험담을 하거나 다른 친",
    'PN7': "나쁜 소문을 퍼뜨리는",
    'PN8': "친절한",
    'PN9': "협력적인"
}
# 문항별 데이터프레임을 담을 딕셔너리
item_matrix_dict = {}

# keywords_dict에 따라 필터링된 데이터프레임을 저장
for item_no, keyword in keywords_dict.items():
    temp_df = rowitem_df.filter(regex=keyword)
    temp_df = temp_df.fillna(0)
    labels = rowinfo_df['이름'].tolist()
    temp_df.index = labels
    temp_df.columns = labels
    item_matrix_dict[item_no] = temp_df