In [1]:
import pandas as pd
import numpy as np
import pickle
import glob
import os

In [17]:
# 모든 리뷰 데이터를 이 dir에 넣어두기
DATA_ROOT = './QnA_data/'

# 파싱한 결과를 json 파일로 저장할 dir
SAVE_ROOT = './QnA_result/'

# 만약 SAVE_ROOT dir이 존재하지 않으면 dir 생성
if not os.path.exists(SAVE_ROOT): os.mkdir(SAVE_ROOT)

# file list 불러오기
file_list = glob.glob(DATA_ROOT+'*.*')

## 진명 & 영민 Data Parse

In [20]:
class parse_QnA:
    def __init__(self, file_list):
        self.file_list = file_list
        self.category_ids = []
        self.data = []
        for file in self.file_list:
            df = pd.read_excel(file)
            self.data.append(df)
            self.category_ids.append(list(np.unique(df.id)))

    def parse(self):
        self.df_Q = pd.DataFrame()
        self.Dict_A = {}

        questions = []
        id_per_question = []

        for df, id_list in zip(self.data, self.category_ids):
            for id in id_list:
                arr = list(np.unique(df.Q[df.id == id]))
                questions.extend(arr)
                for _ in range(len(arr)):
                    id_per_question.append(id)

                answers = list(np.unique(df.A[df.id == id]))
                self.Dict_A[str(id)] = answers
        
        if len(questions) == len(id_per_question):
            self.df_Q['Question'] = questions
            self.df_Q['id'] = id_per_question
            print("Data Parsing Complete!")
        else:
            print("[Number of Qustions] And [Number of id] must be same!")
    
    def get_parse(self):
        try : return self.df_Q, self.Dict_A
        except : print("Should Use 'parse()' method first")
    
    def to_pickle(self, root='./'):
        self.df_Q.to_pickle(root+'question_data.pkl')
        
        with open(root+'answer_data.pkl', 'wb') as f:
            pickle.dump(self.Dict_A, f, pickle.HIGHEST_PROTOCOL)
        
        print("pickle file saved!")
        

In [21]:
# parse data 넣기
parser = parse_QnA(file_list)

# data parse
parser.parse()

# parsing한 data 
parser.to_pickle(root=SAVE_ROOT)

Data Parsing Complete!
pickle file saved!


In [22]:
question = pd.read_pickle(SAVE_ROOT+'question_data.pkl')

question

Unnamed: 0,Question,id
0,C 김성한,46
1,C 수업 김성한 교수님꺼 어때?,46
2,C언어 김성한,46
3,C언어 수업 김성한 교수님꺼 어때?,46
4,C프로그래밍및실습 김성한,46
...,...,...
915,자동제어 수업 김세원 교수님꺼 어때?,128
916,송진우 자동제어 들을만해?,129
917,송진우교수님 자동제어 수업 어때?,129
918,자동제어 송진우,129


In [23]:
with open(SAVE_ROOT+'answer_data.pkl', 'rb') as f:
    answer = pickle.load(f)

answer

{'46': ['되게 잘 가르치시고 괜찮으심 꿀강이라고는 못하겠으나 다른 강의가두렵다면 이걸 듣는게 나을듯',
  '수업떄 항상 학생입장에서 생각해주시고 말씀도 차분차분하게 잘하심 매트랩수업때 뵐께요^^',
  '진짜 너무 스윗하신 교수님☆ 학생들 배려 많이 해주신다!  싸강이었지만 설명도 잘하시고 너무너무 좋은 교수님이었다',
  '코로나 때문에 개고생하는 학기였는데 확실히 학생들 배려해주시는 모습이 보여서 좋았음 확실히 유연한 성격이라서 맘편히 들었음'],
 '47': ['비록 인증시험에 떨어져 이 과목을 중간에 철회했지만은 교수님은 좋다고 말할 수 있을 것이다.'],
 '48': ['갓시영 교수님임.일단 다른 교수님들은 메일 보내도 읽씹하시거나 귀찮아 하시는 경우 있는데 이 분은 진짜 항상 친절하고 자세하게 학생의 입장에서 답변 메일 주시는 분임. 되게 꼼꼼하시고 학생들 하나하나 잘 대해주시려고 하는게 눈에 보임. 학점도 잘 주심 짱짱',
  '갓시영 교수님입니다! 온라인 비대면이라 한계는 있었지만그래서 더욱 교수님의 인간미가 부각되었던 수업!!학생들 진심으로 걱정하고 챙겨주시는게 보임하기싫어도 교수님때매 열심히 따라가야겠다는 마음이 생길정도',
  '교수님께.얻어가는 건 없었습니다..질문을 하면 내 코드에서 고쳐야할 부분을 알려주시는 게 아니라 소스코드를 공유해주는 식본인 코드에서 해결방법을 찾고자하면 수업시간보다 따로 조교님께 여쭤보는게 더 효과적이얐어요뒤처지는 학생 하나하나 챙겨주시고요 그래도 학점은 정말정말 잘주십니다',
  '교수님한테 이름이 기억돼서 잘 주신건지 잘 모르겠으나 수업 재밌게 잘들었고 애들 과제 안하는거 다 체크해서 연락해주시는 친절함이 있으셔서 저처럼 건망증 있는 사람은 과제 놓칠일이 없었어요! 기말 망쳐서 걱정했는데 A0 받은걸 보니 인증시험 잘보시면 될 것 같아요',
  '기분좋은 빡셈과 얻어가는게 많은 수업입니다. 과제와 실습이 어려운만큼 실력이 향상되는게 느껴짐',
  '인증시험 끝날때마다 수고했다고 커피 기프티콘을 주셨음

## 이선 Data Parse

In [30]:
class parse_QnA_Eesun:
    def __init__(self, file_list):
        self.file_list = file_list
        self.category_ids = []
        self.data = []
        for file in self.file_list:
            df = pd.read_excel(file)
            self.data.append(df)
            self.category_ids.append(list(np.unique(df.id)))

    def parse(self):
        self.df_Q = pd.DataFrame()
        self.Dict_A = {}

        questions = []
        id_per_question = []

        for df, id_list in zip(self.data, self.category_ids):
            for id in id_list:
                arr = list(np.unique(df.Q[df.id == id]))
                questions.extend(arr)
                for _ in range(len(arr)):
                    id_per_question.append(id)

                answers = list(np.unique(df.A[df.id == id].dropna()))
                self.Dict_A[str(id)] = answers
        
        if len(questions) == len(id_per_question):
            self.df_Q['Question'] = questions
            self.df_Q['id'] = id_per_question
            print("Data Parsing Complete!")
        else:
            print("[Number of Qustions] And [Number of id] must be same!")
    
    def get_parse(self):
        try : return self.df_Q, self.Dict_A
        except : print("Should Use 'parse()' method first")
    
    def to_pickle(self, root='./'):
        self.df_Q.to_pickle(root+'question_data.pkl')
        
        with open(root+'answer_data.pkl', 'wb') as f:
            pickle.dump(self.Dict_A, f, pickle.HIGHEST_PROTOCOL)
        
        print("pickle file saved!")

In [31]:
file_list = ['./_.xls']

In [32]:
parser = parse_QnA_Eesun(file_list)

parser.parse()

parser.to_pickle()

In [35]:
question = pd.read_pickle('question_data.pkl')

question

Unnamed: 0,Question,id
0,자구 송원선,3
1,자구 송원선 과제많음?,3
2,자구 송원선 교수님 어때?,3
3,자구 송원선 학점 잘줌?,3
4,자료구조 송원선,3
5,자료구조 송원선 교수님 과제 많아?,3
6,자료구조 송원선 교수님 학점 잘 줘?,3
7,자료구조및실습 송원선,3
8,자료구조및실습 송원선 교수님,3


In [37]:
with open('answer_data.pkl', 'rb') as f:
    answer = pickle.load(f)

answer

{'3': ['강의: 교재 그대로 읽기 (가끔 어디서 외부 자료 구해오시는데 그것도 그냥 읽으심)과제: 실습 시간에 문제 푸는 것 제외하곤 하나만 있었음시험: 교재, 교안과 매우 괴리감이 느껴지는 문제들이 많음가르치는데 열정이 없으셔서 학생들도 같이 흐지부지되는 경향이 짙은 거 같음개인적으로 성적도 매우 짜게 주신다고 생각함',
  '강의를 아무리 돌려봐도 1초도 언급 안된 단어와 문제 유형이 시험에 출제돼서 내가 다른 과목 시험을 보고있나 생각이 듦. 자료구조라는 과목이 중요하다 들었는게 그냥 날려먹은 느낌 ..',
  '과제도 하나밖에 없고 강의는 그냥 ppt에 있는 내용 읽어주기시험문제는 안배운것도 많이 나오고 시험범위가 1~4까지라고 하면 1~3까지 나옴...자료구조라서 당연히 빡세게 굴려줄거 같았는데 전혀 그런 느낌없고 걍 다른 교수님거 들으셈',
  '시험 잘보려면 교수님 해킹하면됨도대체 시험을 어디서 내는건지 모르겠음. 교안x 강의x 살짝 학생이 자기만큼 알고있다고 생각함. 팩트는 알려주지도 않음ㅇㅇ',
  '피티 - 교재 피티,수업 - 피티랑 책 읽음.이런식으로 강의하면, 초3도 강의 쌉가능임']}