# 데이터 통합하기

## 직접 설문 조사한 데이터 + 에브리타임 데이터

In [62]:
import pandas as pd

# 1) 파일 불러오기
df_reviews = pd.read_csv("reviews.csv", encoding="utf-8-sig")
df_corr    = pd.read_csv("everytime_professor_review.csv", encoding="utf-8-sig")

In [63]:
df_reviews.head()

Unnamed: 0,professor,review
0,김유섭 교수님,"친근하다,적극적이다,좋다"
1,김유섭 교수님,교수님의 말투가 친근하고 또박또박 말씀하셔서 듣기가 좋습니다. 강의 자료만 봐도 이...
2,김유섭 교수님,말투가 느리시지만 상냥한 어투로 말해주신다. 강의 자료는 깔끔하고 이해가 쉽게 되어...
3,김유섭 교수님,교수님 인상과 말투가 친근하다\n수업이해도 보통이다\n학생 수업 참여 유도 없다
4,김유섭 교수님,교수님 설명을 쉽게 잘해주신다. 시험 난이도는 적당한 편이다. 적극적으로 수업 하신...


In [64]:
df_corr.head()

Unnamed: 0,professor,review
0,김유섭,텐서플로 넘파이 컨볼루션 연산 등등 배웁니다.
1,김유섭,"중간, 기말, 기말 프로젝트까지 있지만 난이도는 어렵지않음"
2,김유섭,중간은 그렇다치고 기말프로젝트랑 기말시험이 같이 있음. 조교님은 좋으신데 교수님이 ...
3,김유섭,학점 기준 없음\nB+이 10명 있고 B0가 1명인 수업.\nA 비율 50% 채울 ...
4,김유섭,오늘은 제가 지금은 집에 가서요 지금 오늘은도 못 좀 보고 보고 싶어요 빨리 보고요


In [65]:
import pandas as pd
import re

# 1) 각 파일 읽기
df1 = pd.read_csv('reviews.csv')
df2 = pd.read_csv('everytime_professor_review.csv')

# 2) 컬럼명 통일
for df in (df1, df2):
    if 'text' in df.columns:
        df.rename(columns={'text': 'review'}, inplace=True)

# 3) 교수님 이름 정규화 함수 (뒤에 '교수님' 또는 '교수'가 붙어도 제거)
def normalize_prof(name):
    return re.sub(r'\s*교수님?$', '', name).strip()

# 4) 교수님–리뷰 컬럼만 추리고 이름 정규화
for df in (df1, df2):
    df['professor'] = df['professor'].apply(normalize_prof)
    df = df[['professor', 'review']]

# 5) 두 데이터 합치기
df = pd.concat([
    df1[['professor', 'review']],
    df2[['professor', 'review']]
], ignore_index=True)


# 7) 결과 확인 및 저장
print(df)
df.to_csv('merged_reviews_by_professor.csv', index=False)


     professor                                             review
0          김유섭                                      친근하다,적극적이다,좋다
1          김유섭  교수님의 말투가 친근하고 또박또박 말씀하셔서 듣기가 좋습니다. 강의 자료만 봐도 이...
2          김유섭  말투가 느리시지만 상냥한 어투로 말해주신다. 강의 자료는 깔끔하고 이해가 쉽게 되어...
3          김유섭       교수님 인상과 말투가 친근하다\n수업이해도 보통이다\n학생 수업 참여 유도 없다
4          김유섭  교수님 설명을 쉽게 잘해주신다. 시험 난이도는 적당한 편이다. 적극적으로 수업 하신...
...        ...                                                ...
1189       김선정  갓선정 교수님 수업은 믿고 들으세요\n다만 이번 학기에 c++과 블루프린트를 혼합해...
1190       김선정                    갓선정... 성적 잘주십니다\n여러분도 꼭 들으세여!!!
1191       김선정  외쳐! 갓선정! 믿고듣는 갓선정 교수님 사랑해염 ㅎㅎㅎ 수업도 그래픽스 들은사람이면...
1192       김선정  진도가 빠르긴한데 다 필요한 내용이고 다 이해할 수 있게 잘 가르쳐주십니다. 기말에...
1193       김선정  유니티를 사용하여 VR, AR 콘텐츠 제작 후 메타 퀘스트, 구글 카드보드로 직접 ...

[1194 rows x 2 columns]


In [68]:
df = pd.read_csv("merged_reviews_by_professor.csv", encoding="utf-8-sig")
print(df.head())

  professor                                             review
0       김유섭                                      친근하다,적극적이다,좋다
1       김유섭  교수님의 말투가 친근하고 또박또박 말씀하셔서 듣기가 좋습니다. 강의 자료만 봐도 이...
2       김유섭  말투가 느리시지만 상냥한 어투로 말해주신다. 강의 자료는 깔끔하고 이해가 쉽게 되어...
3       김유섭       교수님 인상과 말투가 친근하다\n수업이해도 보통이다\n학생 수업 참여 유도 없다
4       김유섭  교수님 설명을 쉽게 잘해주신다. 시험 난이도는 적당한 편이다. 적극적으로 수업 하신...


In [69]:
reviews = pd.read_csv("reviews.csv", encoding="utf-8-sig")

print("=== 교수님별 리뷰 개수 (value_counts) ===")
print(reviews['professor'].value_counts().to_string())

=== 교수님별 리뷰 개수 (value_counts) ===
professor
김유섭 교수님    43
김은주 교수님    27
이정근 교수님    26
양은샘 교수님    24
신미영 교수님    23
김선정 교수님    20


In [70]:
reviews = pd.read_csv("everytime_professor_review.csv", encoding="utf-8-sig")

print("=== 교수님별 리뷰 개수 (value_counts) ===")
print(reviews['professor'].value_counts().to_string())

=== 교수님별 리뷰 개수 (value_counts) ===
professor
신미영    269
양은샘    244
김은주    228
김유섭    127
김선정    106
이정근     57


In [71]:
reviews = pd.read_csv("merged_reviews_by_professor.csv", encoding="utf-8-sig")

print("=== 교수님별 리뷰 개수 (value_counts) ===")
print(reviews['professor'].value_counts().to_string())

=== 교수님별 리뷰 개수 (value_counts) ===
professor
신미영    292
양은샘    268
김은주    255
김유섭    170
김선정    126
이정근     83
