In [None]:

import pandas as pd

# 1) CSV 파일 불러오기 (업로드 했다면 파일명, 그렇지 않다면 경로를 적절히 수정)
df = pd.read_csv('everytime_reviews.csv')

# 2) text 컬럼을 review로 이름 변경
df = df.rename(columns={'text': 'review'})

# 3) 필요한 교수님 리스트와 순서 지정
prof_list = ['김유섭', '김은주', '이정근', '양은샘', '신미영', '김선정']

# 4) 해당 교수님들만 필터링
df_filtered = df[df['professor'].isin(prof_list)].copy()

# 5) 교수님 순서대로 정렬하기 위해 카테고리 타입 지정
df_filtered['professor'] = pd.Categorical(
    df_filtered['professor'],
    categories=prof_list,
    ordered=True
)

# 6) 정렬 및 인덱스 초기화
df_sorted = df_filtered.sort_values('professor').reset_index(drop=True)


# 8) 결과 확인
print(df_sorted.head())

# 9) 필요하면 CSV로 저장
df_sorted.to_csv('filtered_reviews.csv', index=False)


  professor  lecture_id lecture_name    year semester  \
0       김유섭     1129978         인공지능  2023.0        1   
1       김유섭     1884750      텍스트정보처리  2021.0        2   
2       김유섭     1884750      텍스트정보처리  2018.0        2   
3       김유섭     1884750      텍스트정보처리  2018.0        2   
4       김유섭     1884730         머신러닝     NaN      NaN   

                                              review  rate  posvote  
0                          텐서플로 넘파이 컨볼루션 연산 등등 배웁니다.   4.0      0.0  
1                   중간, 기말, 기말 프로젝트까지 있지만 난이도는 어렵지않음   3.0      0.0  
2  중간은 그렇다치고 기말프로젝트랑 기말시험이 같이 있음. 조교님은 좋으신데 교수님이 ...   2.0      0.0  
3  학점 기준 없음\nB+이 10명 있고 B0가 1명인 수업.\nA 비율 50% 채울 ...   1.0      0.0  
4                                                NaN   NaN      NaN  


In [None]:
# 10) review 컬럼에 NaN 이 있는 행 제거
df_cleaned = df_sorted.dropna(subset=['review']).copy()

# 11) review 컬럼이 빈 문자열(공백)인 행도 제거
df_cleaned = df_cleaned[df_cleaned['review'].str.strip() != ''].reset_index(drop=True)

# 12) 결과 확인
print(df_cleaned.head())

# 13) 필요하면 CSV로 저장
df_cleaned.to_csv('filtered_reviews_no_missing.csv', index=False)


  professor  lecture_id lecture_name    year semester  \
0       김유섭     1129978         인공지능  2023.0        1   
1       김유섭     1884750      텍스트정보처리  2021.0        2   
2       김유섭     1884750      텍스트정보처리  2018.0        2   
3       김유섭     1884750      텍스트정보처리  2018.0        2   
4       김유섭     1716552        이산구조론  2023.0        1   

                                              review  rate  posvote  
0                          텐서플로 넘파이 컨볼루션 연산 등등 배웁니다.   4.0      0.0  
1                   중간, 기말, 기말 프로젝트까지 있지만 난이도는 어렵지않음   3.0      0.0  
2  중간은 그렇다치고 기말프로젝트랑 기말시험이 같이 있음. 조교님은 좋으신데 교수님이 ...   2.0      0.0  
3  학점 기준 없음\nB+이 10명 있고 B0가 1명인 수업.\nA 비율 50% 채울 ...   1.0      0.0  
4     오늘은 제가 지금은 집에 가서요 지금 오늘은도 못 좀 보고 보고 싶어요 빨리 보고요   5.0      0.0  


In [14]:
#동명이인 및 소프트웨어학과 강의가 아닌 것 수작업으로 제거
everytime = pd.read_csv('everytimedata.csv')

In [15]:
everytime.head()

Unnamed: 0,professor,lecture_id,lecture_name,year,semester,review,rate,posvote
0,김유섭,1129978,인공지능,2023,1,텐서플로 넘파이 컨볼루션 연산 등등 배웁니다.,4,0
1,김유섭,1884750,텍스트정보처리,2021,2,"중간, 기말, 기말 프로젝트까지 있지만 난이도는 어렵지않음",3,0
2,김유섭,1884750,텍스트정보처리,2018,2,중간은 그렇다치고 기말프로젝트랑 기말시험이 같이 있음. 조교님은 좋으신데 교수님이 ...,2,0
3,김유섭,1884750,텍스트정보처리,2018,2,학점 기준 없음\nB+이 10명 있고 B0가 1명인 수업.\nA 비율 50% 채울 ...,1,0
4,김유섭,1716552,이산구조론,2023,1,오늘은 제가 지금은 집에 가서요 지금 오늘은도 못 좀 보고 보고 싶어요 빨리 보고요,5,0


In [18]:
df_final = everytime[['professor', 'review']].copy()

df_final.to_csv('everytime_professor_review.csv', index=False)

print(df_final.head())

  professor                                             review
0       김유섭                          텐서플로 넘파이 컨볼루션 연산 등등 배웁니다.
1       김유섭                   중간, 기말, 기말 프로젝트까지 있지만 난이도는 어렵지않음
2       김유섭  중간은 그렇다치고 기말프로젝트랑 기말시험이 같이 있음. 조교님은 좋으신데 교수님이 ...
3       김유섭  학점 기준 없음\nB+이 10명 있고 B0가 1명인 수업.\nA 비율 50% 채울 ...
4       김유섭     오늘은 제가 지금은 집에 가서요 지금 오늘은도 못 좀 보고 보고 싶어요 빨리 보고요


In [19]:
print("=== 교수님별 리뷰 개수 (value_counts) ===")
print(df_final['professor'].value_counts().to_string())

=== 교수님별 리뷰 개수 (value_counts) ===
professor
신미영    269
양은샘    244
김은주    228
김유섭    127
김선정    106
이정근     57
