In [2]:
import pandas as pd

train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

In [3]:
train = train.sample(frac=1).reset_index(drop=True)
test = test.sample(frac=1).reset_index(drop=True)

In [4]:
train = train.dropna()
test = test.dropna()

In [5]:
train.shape

(23384, 2)

In [6]:
test.shape

(5849, 2)

In [7]:
X_train_corpus = []
for words in train['x']:
    sentence = ""
    for word in words.split(","):
        sentence += word + " "
    sentence = sentence[:len(sentence)-1]

    X_train_corpus.append(sentence)

In [8]:
X_test_corpus = []
for words in test['x']:
    sentence = ""
    for word in words.split(","):
        sentence += word + " "
    sentence = sentence[:len(sentence)-1]

    X_test_corpus.append(sentence)

In [9]:
X_train_corpus

['배송 편 재구매 펄 색감좋으네요',
 '평소 아벤느 라로슈포제 꺼 스킨 제품 여드 민감성 피부 용',
 '색상 케이스 압도 맘',
 '옷 향수 대용 예전 향 유지력 편',
 '생각 배송 일만 오래 상품 재구매 쌤플이',
 '양',
 '색상 맘',
 '이향 넘 남 향 때적극',
 '색 맘',
 '향',
 '배송 가격 색상 완전 색상 네요 라벤더 완존 각질 쪼금 부각 한데 이것 쪼금 데이 션 삿어요 안쪽 핑크 사진 어반 정글',
 '애굣살 핑쿠색 색 좋음요',
 '펄감 색상 핑크 색',
 '제품 롯데 닷컴 샘플 용량 가격 제품 배송',
 '넘이뻐요',
 '가격 곳 정품 샘플 조금',
 '향 케이스',
 '백화점 입자 향도 디잔 집 완전 조아',
 '밤',
 '오프라인 가격 저렴 온라인 오프라인 때 샘플 상품',
 '이름값 맘 디쟌',
 '발림',
 '언젠가 립스틱 욕심 색 디자인 마음 듬',
 '겉보기 진저 발색 눈 색 기분 때 가루 날림 편 진저 꼬냑 팔레트 데일리',
 '가격 구입 양',
 '마음 색상 샤넬 진리',
 '인생템 블랙 브라운 다음 버건디 컬링력',
 '상품 배송 용량',
 '건성 피부 보습력 신경 편 제품 중 보습력 편이 보습력 향기 신경 제품 향기 넘 만족',
 '제품 지에스 피부 표면 쫀쫀 해지 느 느낌',
 '미샤 매장 피부 번째',
 '향 배송',
 '이번 여름 넘 화이트 라인',
 '좋은 상품 저렴히 미백 기능',
 '가격 싼편 배송 감 양 진정 효과 재구매 의사 지경',
 '때 샘플 샘플 아이 젤 피부 다음 제품 가격',
 '사용 중 수 언제 붙 점을 사용 중',
 '색깔 광택 값',
 '느낌 생각 보담 흡수력 분정 지금 흡수 진뜩진뜩한 느낌',
 '배송 양 한참 때',
 '로드샵 몇차레 용량큰 거사 꿀 트러블 없 조아',
 '손 여름 핸드 크림 바이오 더마 향 보습 재구매 의사',
 '샘플두 넘 효과 가격',
 '비욘드 바디 제품 짱인거 세럼 오일 향 생각 용량 이번 용량',
 '가격',
 '에 랑 제품 이것 가격 백화점 색상 노

In [10]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer()

In [11]:
X_train_vectors = tfidf_vectorizer.fit_transform(X_train_corpus)
X_test_vectors = tfidf_vectorizer.transform(X_test_corpus)

In [None]:
print(X_train_vectors.shape)
print(X_test_vectors.shape)

In [None]:
X_train_df = pd.DataFrame(X_train_vectors.toarray(), columns=tfidf_vectorizer.get_feature_names())
X_test_df = pd.DataFrame(X_test_vectors.toarray(), columns=tfidf_vectorizer.get_feature_names())
y_train_df = pd.DataFrame(train['y'].values, columns=['target'])
y_test_df = pd.DataFrame(test['y'].values, columns=['target'])

In [None]:
target_names = list(set(train['y']))
target_mapping_table = {}
for idx, names in enumerate(target_names):
    target_mapping_table[names] = idx

In [None]:
X_train_df.head()

In [None]:
y_train_df['target'] = y_train_df['target'].map(target_mapping_table)
y_test_df['target'] = y_test_df['target'].map(target_mapping_table)

In [None]:
train_df = pd.concat([X_train_df, y_train_df], axis=1)
test_df = pd.concat([X_test_df, y_test_df], axis=1)

In [None]:
X_train_vectors.toarray().shape

In [None]:
X_test_vectors.toarray().shape

In [None]:
train_df.head()

In [None]:
test_df.head()

In [None]:
from sklearn.decomposition import PCA

# PCA 모델을 생성
before_pca = PCA(n_components=2) # 주성분 갯수
before_pca_train_result = before_pca.fit_transform(X_train_vectors.toarray()) # PCA 적용

In [None]:
before_pca_train_df = pd.DataFrame(before_pca_train_result, columns=['r0', 'r1'])
before_pca_train_df = pd.concat([before_pca_train_df, y_train_df], axis=1)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(20, 15))
sns.scatterplot(x='r0',
                y='r1',
                hue='target',
                s=100,
                palette=['red','orange','yellow','green','blue','purple'],
                data=before_pca_train_df)

plt.show()

In [12]:
from scipy.sparse import isspmatrix
isspmatrix(X_train_vectors)

True