In [None]:
import pandas as pd  # 데이터 처리
from sklearn.feature_extraction.text import CountVectorizer  # 텍스트 벡터화
from sklearn.model_selection import train_test_split  # 데이터 나누기
from sklearn.naive_bayes import MultinomialNB  # 나이브 베이즈 모델
from sklearn.metrics import accuracy_score  # 모델 평가


In [None]:
# 영화 리뷰 데이터 준비
data = {'review': [
    "이 영화 너무 감동적이고 재미있었어요",  # 긍정
    "완전 별로였어요. 돈이 아까움",  # 부정
    "최고의 영화입니다! 또 보고 싶어요",  # 긍정
    "다시는 안 보고 싶어요. 지루해요",  # 부정
    "정말 멋진 작품입니다. 강추!",  # 긍정
    "시간 낭비였어요. 실망스러움"  # 부정
],
'label': [1, 0, 1, 0, 1, 0]}  # 1: 긍정, 0: 부정

# 데이터프레임 생성
df = pd.DataFrame(data)

# 데이터 확인
print(df)
df


In [None]:
# 텍스트를 숫자로 변환하는 벡터화 과정
vectorizer = CountVectorizer()  # 단어 빈도수 기반 벡터화
X_vectorized = vectorizer.fit_transform(df['review'])  # 텍스트 데이터 변환
# 벡터화된 데이터 확인 (숫자로 변환됨)
print(X_vectorized.toarray())


In [None]:
# 학습 데이터와 테스트 데이터 나누기
X_train, X_test, y_train, y_test = train_test_split(X_vectorized, df['label'], test_size=0.2, random_state=42)

# 데이터 개수 확인
print(f"학습 데이터 개수: {X_train.shape[0]}, 테스트 데이터 개수: {X_test.shape[0]}") # Use shape[0] to get the number of rows

In [None]:
# 나이브 베이즈 모델 생성 및 학습
model = MultinomialNB()
model.fit(X_train, y_train)
# 모델 예측
y_pred = model.predict(X_test)

# 정확도 평가
accuracy = accuracy_score(y_test, y_pred)
print(f"모델 정확도: {accuracy * 100:.2f}%")

In [None]:
# 새로운 리뷰 예측
new_review = ["정말 감동적인 영화였어요. 눈물이 났어요."]  # 예측할 문장

# 벡터화
new_review_vectorized = vectorizer.transform(new_review)

# 예측 수행
prediction = model.predict(new_review_vectorized)

# 결과 출력
result = "긍정적 리뷰 😀" if prediction[0] == 1 else "부정적 리뷰 😡"
print(f"입력된 문장: {new_review[0]}")
print(f"예측 결과: {result}")


In [None]:
new_reviews = ["너무 지루해서 잠들었어요.", "배우 연기가 최고였어요!", "이게 영화냐?", "돈이 아깝다."]
new_reviews_vectorized = vectorizer.transform(new_reviews)
predictions = model.predict(new_reviews_vectorized)
for review, pred in zip(new_reviews, predictions):
    result = "긍정적 리뷰 😀" if pred == 1 else "부정적 리뷰 😡"
    print(f"'{review}' → 예측 결과: {result}")


In [None]:
# 📌 1. 필요한 라이브러리 불러오기
import pandas as pd  # 데이터 처리
from sklearn.feature_extraction.text import CountVectorizer  # 텍스트 벡터화
from sklearn.model_selection import train_test_split  # 데이터 나누기
from sklearn.naive_bayes import MultinomialNB  # 나이브 베이즈 분류기
from sklearn.metrics import accuracy_score  # 모델 평가

# 📌 2. 영화 리뷰 데이터 준비 (긍정=1, 부정=0)
# 데이터 확대 (긍정=1, 부정=0)
data = {'review': [
    "이 영화 정말 재미있어요",  # 긍정
    "완전 별로였어요",  # 부정
    "정말 감동적인 이야기였습니다",  # 긍정
    "시간 낭비였어요",  # 부정
    "최고의 영화예요",  # 긍정
    "지루해서 졸았어요",  # 부정
    "정말 최고의 작품이네요!",  # 긍정
    "스토리가 너무 지루하고 재미없어요",  # 부정
    "배우 연기가 뛰어나고 감동적이었어요",  # 긍정
    "액션이 너무 지루하고 기대 이하였습니다",  # 부정
    "가족과 함께 보기 좋은 감동적인 영화",  # 긍정
    "너무 유치하고 뻔한 내용",  # 부정
    "눈물이 날 정도로 감동적이었어요",  # 긍정
    "배우들 연기가 너무 어색하고 실망",  # 부정
    "기대 이상으로 재미있고 감동적이었어요",  # 긍정
    "이게 영화냐? 돈이 아깝다",  # 부정
    "완전 추천합니다! 최고의 감동을 줬어요",  # 긍정
    "보는 내내 지루해서 힘들었어요",  # 부정
    "정말 사랑스러운 영화였습니다",  # 긍정
    "너무 지루해서 중간에 나왔어요"  # 부정
],
'label': [1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0]}  # 1: 긍정, 0: 부정

# 데이터프레임 생성
df = pd.DataFrame(data)


# 데이터프레임 생성
df = pd.DataFrame(data)

# 📌 3. 텍스트 데이터를 숫자로 변환 (벡터화)
vectorizer = CountVectorizer()  # 단어 빈도수 기반 벡터화
X_vectorized = vectorizer.fit_transform(df['review'])  # 텍스트 데이터 변환
print(X_vectorized.toarray())
# 📌 4. 학습 데이터와 테스트 데이터 나누기
X_train, X_test, y_train, y_test = train_test_split(X_vectorized, df['label'], test_size=0.2, random_state=42)


# 📌 5. 나이브 베이즈 모델 생성 및 학습
model = MultinomialNB()
model.fit(X_train, y_train)

# 📌 6. 모델 예측 및 정확도 평가
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"모델 정확도: {accuracy * 100:.2f}%")

# 📌 7. 새로운 리뷰 예측하기
new_reviews = ["정말 감동적인 영화였어요. 눈물이 났어요.", "너무 지루해서 잠들었어요.", "배우 연기가 최고였어요!"]
new_reviews_vectorized = vectorizer.transform(new_reviews)
predictions = model.predict(new_reviews_vectorized)

# 예측 결과 출력
for review, pred in zip(new_reviews, predictions):
    result = "긍정적 리뷰 😀" if pred == 1 else "부정적 리뷰 😡"
    print(f"'{review}' → 예측 결과: {result}")


In [None]:
# 📌 2. 라이브러리 불러오기
import pandas as pd  # 데이터 처리
from sklearn.feature_extraction.text import TfidfVectorizer  # 텍스트 벡터화
from sklearn.model_selection import train_test_split  # 데이터 나누기
from sklearn.naive_bayes import MultinomialNB  # 나이브 베이즈 모델
from sklearn.metrics import accuracy_score  # 모델 평가

# 📌 3. 민원 데이터 준비 (샘플 데이터)
data = {
    "민원 제목": [
        "도로에 가로등이 고장났어요",
        "쓰레기 무단 투기 신고합니다",
        "노인 복지 혜택을 늘려주세요",
        "횡단보도에 신호등이 고장났어요",
        "공원에 쓰레기가 많아요",
        "대중교통 배차 간격이 너무 길어요",
        "공원에 나무가 너무 우거졌어요",
        "복지관 프로그램을 확대해 주세요"
    ],
    "민원 내용": [
        "우리 동네 가로등이 꺼져있어 밤에 너무 어두워요.",
        "아파트 뒤편에 쓰레기를 아무데나 버리는 사람들이 많습니다.",
        "노인들이 받을 수 있는 복지 혜택이 부족합니다.",
        "횡단보도 신호등이 작동하지 않아 사고 위험이 있습니다.",
        "공원 곳곳에 쓰레기가 방치되어 있어 불편합니다.",
        "버스를 너무 오래 기다려야 해요.",
        "공원에 나무가 너무 많아 시야를 가립니다.",
        "복지관에서 운영하는 프로그램이 부족합니다."
    ],
    "카테고리": ["교통", "환경", "복지", "교통", "환경", "교통", "환경", "복지"]
}

df = pd.DataFrame(data)

# 📌 4. 텍스트 데이터를 숫자로 변환 (TF-IDF 벡터화)
vectorizer = TfidfVectorizer()
X_vectorized = vectorizer.fit_transform(df["민원 내용"])  # '민원 내용'을 숫자로 변환

# 📌 5. 학습 데이터와 테스트 데이터 나누기 (80% 학습, 20% 테스트)
X_train, X_test, y_train, y_test = train_test_split(X_vectorized, df["카테고리"], test_size=0.2, random_state=42)

# 📌 6. 나이브 베이즈 모델 생성 및 학습
model = MultinomialNB()
model.fit(X_train, y_train)

# 📌 7. 모델 예측 및 평가
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"모델 정확도: {accuracy * 100:.2f}%")

# 📌 8. 새로운 민원 예측하기
new_complaints = [
    "지하철이 너무 자주 고장나요.",
    "공원에서 담배를 피우는 사람이 많아요.",
    "복지 지원금을 늘려 주세요."
]

new_complaints_vectorized = vectorizer.transform(new_complaints)
predictions = model.predict(new_complaints_vectorized)

# 예측 결과 출력
for complaint, pred in zip(new_complaints, predictions):
    print(f"'{complaint}' → 예측 결과: {pred}")


In [None]:
import pandas as pd

# 샘플 민원 데이터 생성
data = {
    "민원 제목": [
        "도로에 가로등이 고장났어요",
        "쓰레기 무단 투기 신고합니다",
        "노인 복지 혜택을 늘려주세요",
        "횡단보도에 신호등이 고장났어요",
        "공원에 쓰레기가 많아요"
    ],
    "민원 내용": [
        "우리 동네 가로등이 꺼져있어 밤에 너무 어두워요.",
        "아파트 뒤편에 쓰레기를 아무데나 버리는 사람들이 많습니다.",
        "노인들이 받을 수 있는 복지 혜택이 부족합니다.",
        "횡단보도 신호등이 작동하지 않아 사고 위험이 있습니다.",
        "공원 곳곳에 쓰레기가 방치되어 있어 불편합니다."
    ],
    "카테고리": ["교통", "환경", "복지", "교통", "환경"]
}

df = pd.DataFrame(data)
print(df)

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# 민원 제목과 내용을 합쳐서 사용
df["텍스트"] = df["민원 제목"] + " " + df["민원 내용"]

# 텍스트 데이터를 벡터화
vectorizer = CountVectorizer(stop_words="english")
X = vectorizer.fit_transform(df["텍스트"])

# 카테고리를 숫자로 변환
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
y = encoder.fit_transform(df["카테고리"])

# 벡터화된 데이터와 레이블 확인
print("단어 벡터화 결과:")
print(X.toarray())
print("레이블:")
print(y)

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB

# 훈련 데이터와 테스트 데이터로 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 나이브 베이즈 모델 학습
model = MultinomialNB()
model.fit(X_train, y_train)

In [None]:
from sklearn.metrics import classification_report

# 테스트 데이터 예측
y_pred = model.predict(X_test)

# Get unique labels from y_test and y_pred
unique_labels = sorted(list(set(y_test) | set(y_pred)))

# 결과 평가
print("모델 성능 평가:")
print(classification_report(y_test, y_pred, target_names=encoder.classes_[unique_labels])) # Only use target names for the present labels

In [None]:
# 새로운 민원 데이터
new_data = ["동네 신호등이 고장났어요.", "공원에 쓰레기가 너무 많습니다."]
new_vector = vectorizer.transform(new_data)

# 예측
new_pred = model.predict(new_vector)
predicted_categories = encoder.inverse_transform(new_pred)

# 결과 출력
for text, category in zip(new_data, predicted_categories):
    print(f"민원: '{text}' -> 예측된 카테고리: '{category}'")

In [None]:
# 📌 2. 라이브러리 불러오기
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 📌 3. 영어 데이터셋 (민원 데이터 영어 변환)
data = {
    "Complaint": [
        "The streetlight is broken",  # Traffic
        "Illegal trash dumping reported",  # Environment
        "Increase welfare benefits for seniors",  # Welfare
        "Traffic signal is not working",  # Traffic
        "There is too much trash in the park",  # Environment
        "Bus intervals are too long",  # Traffic
        "Trees in the park are too dense",  # Environment
        "Expand programs in the welfare center",  # Welfare
        "The road is too bumpy to drive",  # Traffic
        "Subway breaks down too often",  # Traffic
        "Many people smoke in the park",  # Environment
        "Need more daycare facilities",  # Welfare
        "Traffic signal is too short",  # Traffic
        "Bus stop is too far away",  # Traffic
        "Strengthen environmental protection policies",  # Environment
        "Improve elderly employment policies",  # Welfare
        "Garbage sorting is not done properly",  # Environment
        "Not enough playground facilities for children",  # Welfare
        "Taxi fares are too expensive",  # Traffic
        "Lack of parking spaces",  # Traffic
    ],
    "Category": [
        "Traffic", "Environment", "Welfare", "Traffic", "Environment",
        "Traffic", "Environment", "Welfare", "Traffic", "Traffic",
        "Environment", "Welfare", "Traffic", "Traffic", "Environment",
        "Welfare", "Environment", "Welfare", "Traffic", "Traffic"
    ]
}

# 데이터프레임 생성
df = pd.DataFrame(data)

# 📌 4. TF-IDF 벡터화 (영어 데이터 변환)
vectorizer = TfidfVectorizer()
X_vectorized = vectorizer.fit_transform(df["Complaint"])

# 📌 5. 데이터를 학습용과 테스트용으로 나누기
X_train, X_test, y_train, y_test = train_test_split(X_vectorized, df["Category"], test_size=0.2, random_state=10)

# 📌 6. 로지스틱 회귀 모델 학습
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# 📌 7. 모델 평가 (정확도 측정)
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Model Accuracy: {accuracy * 100:.2f}%")

# 📌 8. 새로운 민원 예측하기
new_complaints = ["Taxi fares are too high", "There is garbage everywhere in the park", "Need more social welfare programs"]
new_complaints_vectorized = vectorizer.transform(new_complaints)
predictions = model.predict(new_complaints_vectorized)

# 📌 9. 예측 결과 출력
for complaint, pred in zip(new_complaints, predictions):
    print(f"'{complaint}' → Predicted category: {pred}")


In [None]:
# 📌 1. 필요한 라이브러리 설치
!pip install scikit-learn pandas konlpy

# 📌 2. 라이브러리 불러오기
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from konlpy.tag import Okt

# 📌 3. 형태소 분석기 초기화 및 전처리 함수 정의
okt = Okt()

def preprocess_korean_text(text):
    tokens = okt.morphs(text, stem=True)  # 형태소 분석 + 어간 추출
    stopwords = ["에", "가", "이", "은", "는", "을", "를", "도", "다", "에서", "으로", "하고", "되다"]  # 불필요한 단어 줄이기
    return " ".join([word for word in tokens if word not in stopwords])

# 📌 4. 데이터셋 확장 (데이터 50개 이상 추가)
data = {
    "민원 내용": [
        "도로에 가로등이 고장났어요", "쓰레기 무단 투기 신고합니다", "노인 복지 혜택을 늘려주세요",
        "횡단보도에 신호등이 고장났어요", "공원에 쓰레기가 많아요", "버스 배차 간격이 너무 길어요",
        "공원 나무가 너무 많아 시야를 가립니다", "복지관 프로그램을 확대해 주세요",
        "도로가 너무 울퉁불퉁해서 운전하기 힘들어요", "지하철이 너무 자주 고장나요",
        "공원에서 담배를 피우는 사람이 많아요", "보육 시설을 더 많이 만들어 주세요",
        "신호등이 너무 짧아서 길을 건너기 어려워요", "버스 정류장이 너무 멀어요",
        "환경 보호 정책을 강화해 주세요", "노인 일자리 정책을 개선해 주세요",
        "쓰레기 분리수거가 잘 안 되고 있어요", "아이들 놀이터 시설이 부족해요",
        "택시 요금이 너무 비싸요", "주차 공간이 부족해서 불편해요",
        "도로 정체가 심해서 출근이 어렵습니다", "공원의 나무가 너무 많아서 벌레가 많이 생깁니다",
        "사회 복지 서비스가 부족합니다", "교차로에서 신호등이 너무 오래 걸립니다",
        "공사장 먼지가 너무 많아서 숨 쉬기 어렵습니다", "장애인을 위한 복지시설을 늘려주세요",
        "지하철 노선이 너무 적어서 이동이 불편합니다", "학교 주변에서 쓰레기가 많이 버려지고 있습니다",
        "어르신들을 위한 무료 의료 서비스를 확대해주세요", "택시 서비스가 너무 부족합니다",
        "공사장 소음이 심해서 밤에 잠을 못 잡니다", "어린이집이 부족해서 대기자가 너무 많아요",
        "주차장이 너무 부족해서 불법 주차가 많습니다", "버스 요금이 너무 비쌉니다",
        "공원의 화장실이 너무 더러워요", "청소년을 위한 문화센터를 더 만들어 주세요",
        "출퇴근 시간에 버스가 너무 붐빕니다", "쓰레기 처리장이 너무 멀어서 불편합니다",
        "장애인을 위한 대중교통 시설을 개선해 주세요", "전기차 충전소가 부족해서 불편합니다",
        "도시가스 요금이 너무 비쌉니다", "산책로에 가로등이 없어서 위험합니다",
        "노숙자를 위한 쉼터를 더 만들어 주세요", "지하철 환승 거리가 너무 멉니다",
        "소음 공해가 너무 심합니다", "육아 휴직 정책을 더 강화해 주세요",
        "택배 분실 문제가 심각합니다", "학교 급식 질이 너무 낮습니다"
    ],
    "카테고리": [
        "교통", "환경", "복지", "교통", "환경", "교통", "환경", "복지",
        "교통", "교통", "환경", "복지", "교통", "교통", "환경", "복지",
        "환경", "복지", "교통", "교통", "교통", "환경", "복지", "교통",
        "환경", "복지", "교통", "환경", "복지", "교통", "환경", "복지",
        "교통", "교통", "환경", "복지", "교통", "환경", "복지", "교통",
        "환경", "복지", "교통", "환경", "복지", "환경", "환경", "복지"
    ]
}

# 📌 5. 형태소 분석 적용하여 데이터 전처리
df = pd.DataFrame(data)
df["민원 내용"] = df["민원 내용"].apply(preprocess_korean_text)

# 📌 6. TF-IDF 벡터화 (Bigram 적용)
vectorizer = TfidfVectorizer(ngram_range=(1, 2))  # 단어 1~2개 조합(Bigram) 적용
X_vectorized = vectorizer.fit_transform(df["민원 내용"])

# 📌 7. 데이터를 학습용과 테스트용으로 나누기
X_train, X_test, y_train, y_test = train_test_split(X_vectorized, df["카테고리"], test_size=0.2, random_state=10)

# 📌 8. 로지스틱 회귀 모델 학습
model = LogisticRegression(max_iter=300)
model.fit(X_train, y_train)

# 📌 9. 모델 평가 (정확도 측정)
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"모델 정확도: {accuracy * 100:.2f}%")

# 📌 10. 새로운 민원 예측하기
new_complaints = ["택시 요금이 너무 비싸요.", "공원에서 담배를 피우는 사람이 많아요.", "보육 시설을 더 많이 만들어 주세요."]
new_complaints = [preprocess_korean_text(text) for text in new_complaints]
new_complaints_vectorized = vectorizer.transform(new_complaints)
predictions = model.predict(new_complaints_vectorized)

# 예측 결과 출력
for complaint, pred in zip(new_complaints, predictions):
    print(f"'{complaint}' → 예측 결과: {pred}")


In [None]:
# 📌 1. 필요한 라이브러리 불러오기
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 📌 2. 데이터 준비 (공부 시간 vs 합격 여부)
data = {
    "공부 시간": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    "합격 여부": [0, 0, 0, 0, 1, 1, 1, 1, 1, 1]  # 5시간 이상이면 합격(1), 아니면 불합격(0)
}

df = pd.DataFrame(data)

# 📌 3. 입력 데이터(X)와 출력 데이터(y) 설정
X = df[["공부 시간"]]  # 공부 시간을 입력 변수로 사용
y = df["합격 여부"]  # 합격 여부가 목표 값

# 📌 4. 훈련 데이터와 테스트 데이터 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 📌 5. 로지스틱 회귀 모델 생성 및 학습
model = LogisticRegression()
model.fit(X_train, y_train)

# 📌 6. 모델 예측 및 정확도 평가
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"모델 정확도: {accuracy * 100:.2f}%")

# 📌 7. 새로운 학생의 공부 시간을 입력하면 합격 여부 예측하기 (DataFrame 사용)
new_students = [[3], [6], [8]]  # 예측할 새로운 데이터
new_students_df = pd.DataFrame(new_students, columns=["공부 시간"])  # 학습 데이터와 같은 형식 유지

# 📌 8. 예측 결과 출력
predictions = model.predict(new_students_df)
for study_time, result in zip(new_students, predictions):
    status = "합격 ✅" if result == 1 else "불합격 ❌"
    print(f"공부 시간: {study_time[0]}시간 → 예측 결과: {status}")


#예제2)	로지스틱 회귀로 합격 예측하기


In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score


In [None]:
data = {
    "공부 시간": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    "합격 여부": [0, 0, 0, 0, 1, 1, 1, 1, 1, 1]  # 5시간 이상이면 합격(1)
}
df = pd.DataFrame(data)
df


In [None]:
# 📌 1. 필요한 라이브러리 불러오기
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 📌 2. 데이터 준비 (공부 시간 vs 합격 여부)
data = {
    "공부 시간": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    "합격 여부": [0, 0, 0, 0, 1, 1, 1, 1, 1, 1]  # 5시간 이상이면 합격(1), 아니면 불합격(0)
}

df = pd.DataFrame(data)

# 📌 3. 입력 데이터(X)와 출력 데이터(y) 설정
X = df[["공부 시간"]]  # 공부 시간을 입력 변수로 사용
y = df["합격 여부"]  # 합격 여부가 목표 값

# 📌 4. 훈련 데이터와 테스트 데이터 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 📌 5. 로지스틱 회귀 모델 생성 및 학습
model = LogisticRegression()
model.fit(X_train, y_train)

# 📌 6. 모델 예측 및 정확도 평가
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"모델 정확도: {accuracy * 100:.2f}%")

# 📌 7. 새로운 학생의 공부 시간을 입력하면 합격 여부 예측하기 (DataFrame 사용)
new_students = [[3], [6], [8]]  # 예측할 새로운 데이터
new_students_df = pd.DataFrame(new_students, columns=["공부 시간"])  # 학습 데이터와 같은 형식 유지

# 📌 8. 예측 결과 출력
predictions = model.predict(new_students_df)
for study_time, result in zip(new_students, predictions):
    status = "합격" if result == 1 else "불합격"
    print(f"공부 시간: {study_time[0]}시간 → 예측 결과: {status}")



In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import euclidean_distances

# 문장 리스트
sentences = [
    "나는 차를 좋아한다.",
    "나는 커피를 좋아한다."
]

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(sentences).toarray()  # 문장을 벡터로 변환

# 유클리드 거리 계산
distance = euclidean_distances([X[0]], [X[1]])[0][0]  # 문장 1 vs 문장 2

# 결과 출력
print(distance)
