https://www.kaggle.com/code/thiagopanini/e-commerce-sentiment-analysis-eda-viz-nlp

해당 링크를 필사한 코드입니다.

이 notebook의 목적은 브라질의 전자상거래 관계의 분석적인 시각을 제시하기 위함입니다. 이를 위해 우리는 브라질 온라인 구매 이면에 무엇이 있는지 잘 이해하기 위한 탐색적 그래프를 만들기 위해 그래픽 도구를 사용하여 탐색적 데이터 분석(EDA)을 할 것입니다. 결국 우리는 NLP 도구를 이용해 텍스트 분류를 하기 위해 소비자 후기를 보고 감정 분석을 구현할 것입니다.

우리는 데이터를 이해하고 데이터로부터 개념을 명확히 하고 통찰력을 얻기 위한 유용한 차트를 그리는 광범위한 여정을 할 것입니다. 결국엔 온라인 플랫폼의 소비자로부터 남겨진 리뷰를 사용해 텍스트 준비와 감정 분류에 대한 단계별 코드를 진행할 것입니다.


In [1]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
from matplotlib.gridspec import GridSpec
pd.set_option("display.max_columns", 100)
import plotly.offline as py
import plotly.express as px
import plotly.graph_objs as go
import json
import requests
import folium
from folium.plugins import FastMarkerCluster, Fullscreen, MiniMap, HeatMap, HeatMapWithTime, LocateControl
from wordcloud import WordCloud
from collections import Counter
from PIL import Image

import re
from nltk.corpus import stopwords
from nltk.stem import RSLPStemmer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline
import joblib

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
import lightgbm as lgb

C:\Users\User\anaconda3\lib\site-packages\numpy\.libs\libopenblas.XWYDX2IKJW2NMTWSFYNGFUWKQU3LYTCZ.gfortran-win_amd64.dll
C:\Users\User\anaconda3\lib\site-packages\numpy\.libs\libopenblas64__v0.3.21-gcc_10_3_0.dll
  stacklevel=1)


In [2]:
raw_path = "C:/Users/User/OneDrive/바탕 화면/프로그래밍/자연어처리/Kaggle 필사/데이터/Brazilian E-commerce Pulic Data/"
olist_customer = pd.read_csv(raw_path + "olist_customers_dataset.csv")
olist_geolocation = pd.read_csv(raw_path + "olist_geolocation_dataset.csv")
olist_orders = pd.read_csv(raw_path + "olist_orders_dataset.csv")
olist_order_items = pd.read_csv(raw_path + "olist_order_items_dataset.csv")
olist_order_payments = pd.read_csv(raw_path + "olist_order_payments_dataset.csv")
olist_order_reviews = pd.read_csv(raw_path + "olist_order_reviews_dataset.csv")
olist_products = pd.read_csv(raw_path + "olist_products_dataset.csv")
olist_sellers = pd.read_csv(raw_path + "olist_sellers_dataset.csv")

# 데이터 이해

In [3]:
# review_socre, review_comment_message 두개의 열만 선택한다.
df_comments = olist_order_reviews.loc[:, ["review_score", "review_comment_message"]]
# 결측값을 제거한다.
df_comments = df_comments.dropna(subset = ["review_comment_message"])
# 인덱스를 재정렬한다(결측값 제거하면 중간에 빈자리 생김).
df_comments = df_comments.reset_index(drop = True)
print(f"Dataset shape : {df_comments.shape}")
# 열 이름 score, comment로 바꾼디.
df_comments.columns = ["score", "comment"]
df_comments.head()

Dataset shape : (40977, 2)


Unnamed: 0,score,comment
0,5,Recebi bem antes do prazo estipulado.
1,5,Parabéns lojas lannister adorei comprar pela I...
2,4,aparelho eficiente. no site a marca do aparelh...
3,4,"Mas um pouco ,travando...pelo valor ta Boa.\r\n"
4,5,"Vendedor confiável, produto ok e entrega antes..."


감정 분석 모델을 훈련시키는데 사용될 수 있는 약 41,000개의 리뷰가 있다. 하지만 이를 실현하려면 리뷰 입력을 **머신러닝 모델이 해석할 수 있는 벡터로 변환**하는 텍스트 준비를 거쳐야 한다.

# 정규표현식
인터넷을 우리의 comment의 출처로 간주하는 한, 데이터셋의 일부가 될 수 있는 HTML 태그, break line, 특수 문자를 다룰 줄 알아야한다. 이러한 패턴을 검색하기 위해 정규식에 대해 알아보자.

먼저 적용된 정규식의 결과를 분석하는데 사용되는 함수를 정의하자. 이를 사용하면 우리는 텍스트 전처리를 훨씬 쉽게 할 수 있다.

In [4]:
# Breakline and Carriage Return
def re_breakline(text_list) :
    # 대상 문자열 r에 대해서 엔터와 개행문자를 공백문자로 대체
    # text_list가 문자열로 이루어진 리스트이면 리스트의 원소 r은 문자열
    # text_list가 문자열이면 r은 문자가 된다.
    return [re.sub('[\n\r]', ' ', r) for r in text_list]

In [5]:
text = ["안녕하세요\n 나는 유상원입니다. ", "안녕하세요\n 나는\r 오꼬노미야끼입니다."]
print(re_breakline(text))
text = "안녕하세요\n 나는 유상원입니다. "
print(re_breakline(text))

['안녕하세요  나는 유상원입니다. ', '안녕하세요  나는  오꼬노미야끼입니다.']
['안', '녕', '하', '세', '요', ' ', ' ', '나', '는', ' ', '유', '상', '원', '입', '니', '다', '.', ' ']


In [6]:
reviews = list(df_comments["comment"].values)
reviews # 리뷰들을 리스트에 저장

['Recebi bem antes do prazo estipulado.',
 'Parabéns lojas lannister adorei comprar pela Internet seguro e prático Parabéns a todos feliz Páscoa',
 'aparelho eficiente. no site a marca do aparelho esta impresso como 3desinfector e ao chegar esta com outro nome...atualizar com a marca correta uma vez que é o mesmo aparelho',
 'Mas um pouco ,travando...pelo valor ta Boa.\r\n',
 'Vendedor confiável, produto ok e entrega antes do prazo.',
 'GOSTARIA DE SABER O QUE HOUVE, SEMPRE RECEBI E ESSA COMPRA AGORA ME DECPCIONOU',
 'Péssimo',
 'Loja nota 10',
 'obrigado pela atençao amim dispensada',
 'A compra foi realizada facilmente.\r\nA entrega foi efetuada muito antes do prazo dado.\r\nO produto já começou a ser usado e até o presente,\r\nsem problemas.',
 'relógio muito bonito e barato.',
 'Não gostei ! Comprei gato por lebre',
 'Sempre compro pela Internet e a entrega ocorre antes do prazo combinado, que acredito ser o prazo máximo. No stark o prazo máximo já se esgotou e ainda não recebi o p

In [7]:
reviews_breakline = re_breakline(reviews)
# 엔터, 개행 문자를 제거한 문자열들을 데이터프레임의 새로운 열에 추가한다.
df_comments["re_breakline"] = reviews_breakline

In [8]:
df_comments

Unnamed: 0,score,comment,re_breakline
0,5,Recebi bem antes do prazo estipulado.,Recebi bem antes do prazo estipulado.
1,5,Parabéns lojas lannister adorei comprar pela I...,Parabéns lojas lannister adorei comprar pela I...
2,4,aparelho eficiente. no site a marca do aparelh...,aparelho eficiente. no site a marca do aparelh...
3,4,"Mas um pouco ,travando...pelo valor ta Boa.\r\n","Mas um pouco ,travando...pelo valor ta Boa."
4,5,"Vendedor confiável, produto ok e entrega antes...","Vendedor confiável, produto ok e entrega antes..."
...,...,...,...
40972,4,para este produto recebi de acordo com a compr...,para este produto recebi de acordo com a compr...
40973,5,Entregou dentro do prazo. O produto chegou em ...,Entregou dentro do prazo. O produto chegou em ...
40974,3,"O produto não foi enviado com NF, não existe v...","O produto não foi enviado com NF, não existe v..."
40975,5,"Excelente mochila, entrega super rápida. Super...","Excelente mochila, entrega super rápida. Super..."


In [9]:
print(reviews)

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



# 사이트와 하이퍼링크

In [10]:
pattern = "http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+"
# 1. http[s]? : s 뒤에 ?가 있으므로 s는 선택적이다.
# 2. :// : URL에서 프로토콜과 나머지 부분을 구분하는 역할을 한다.
# 3. (?: ...) : 이 그룹 안에 있는 패턴은 그룹화만 하고 캡쳐는 하지 않는다.
# (http|https) (?:http|https) 비교
# 전자는 http, https 둘중 하나에 매치된다.
# 후자는 전자와 마찬가지이지만 추가적으로 매치된 부분은 그룹으로 기억되지 않는다. 즉, 추후에 이 부분을 얻어올 수 없다.

# 4. [a-zA-Z0-9$-_@.&+] : 알파벳 대소문자, 숫자, 특정 기호
# 5. [!*\(\),] : 특수기호 중 일부가 매치
# 6. (?:%[0-9a-fA-F][0-9a-fA-F]) : URL 인코딩 문자열을 나타낸다. "%20"과 같은 형식의 인코딩된 문자를 찾는다.
# 7. + : 앞의 패턴이 최소 한번 이상 반복됨을 의미한다.

In [11]:
def re_hiperlinks(text_list) :
    pattern = "http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+"
    return [re.sub(pattern, ' link ', r) for r in text_list]

In [12]:
reviews_hiperlinks = re_hiperlinks(reviews_breakline)
df_comments["re_hiperlinks"] = reviews_hiperlinks
reviews_hiperlinks

['Recebi bem antes do prazo estipulado.',
 'Parabéns lojas lannister adorei comprar pela Internet seguro e prático Parabéns a todos feliz Páscoa',
 'aparelho eficiente. no site a marca do aparelho esta impresso como 3desinfector e ao chegar esta com outro nome...atualizar com a marca correta uma vez que é o mesmo aparelho',
 'Mas um pouco ,travando...pelo valor ta Boa.  ',
 'Vendedor confiável, produto ok e entrega antes do prazo.',
 'GOSTARIA DE SABER O QUE HOUVE, SEMPRE RECEBI E ESSA COMPRA AGORA ME DECPCIONOU',
 'Péssimo',
 'Loja nota 10',
 'obrigado pela atençao amim dispensada',
 'A compra foi realizada facilmente.  A entrega foi efetuada muito antes do prazo dado.  O produto já começou a ser usado e até o presente,  sem problemas.',
 'relógio muito bonito e barato.',
 'Não gostei ! Comprei gato por lebre',
 'Sempre compro pela Internet e a entrega ocorre antes do prazo combinado, que acredito ser o prazo máximo. No stark o prazo máximo já se esgotou e ainda não recebi o produto.'

# 날짜
온라인에서 구매한 물건의 소비자의 리뷰를 다루는 한 날짜 언급은 매우 흔하다. 예제를 살펴보고 정규표현식을 적용해 날짜를 "data"로 바꿔보자.

In [13]:
def re_dates(text_list) :
    pattern = "([0-2][0-9]|(3)[0-1])(\/|\.)(((0)[0-9])|((1)[0-2]))(\/|\.)\d{2,4}"
    return [re.sub(pattern, " data ", r) for r in text_list]

In [14]:
# 하이퍼링크를 전처리한 데이터들을 추가로 날짜 전처리
reviews_dates = re_dates(reviews_hiperlinks) 

# 날짜 전처리한 열을 데이터프레임에 추가
df_comments["re_dates"] = reviews_dates

In [15]:
df_comments

Unnamed: 0,score,comment,re_breakline,re_hiperlinks,re_dates
0,5,Recebi bem antes do prazo estipulado.,Recebi bem antes do prazo estipulado.,Recebi bem antes do prazo estipulado.,Recebi bem antes do prazo estipulado.
1,5,Parabéns lojas lannister adorei comprar pela I...,Parabéns lojas lannister adorei comprar pela I...,Parabéns lojas lannister adorei comprar pela I...,Parabéns lojas lannister adorei comprar pela I...
2,4,aparelho eficiente. no site a marca do aparelh...,aparelho eficiente. no site a marca do aparelh...,aparelho eficiente. no site a marca do aparelh...,aparelho eficiente. no site a marca do aparelh...
3,4,"Mas um pouco ,travando...pelo valor ta Boa.\r\n","Mas um pouco ,travando...pelo valor ta Boa.","Mas um pouco ,travando...pelo valor ta Boa.","Mas um pouco ,travando...pelo valor ta Boa."
4,5,"Vendedor confiável, produto ok e entrega antes...","Vendedor confiável, produto ok e entrega antes...","Vendedor confiável, produto ok e entrega antes...","Vendedor confiável, produto ok e entrega antes..."
...,...,...,...,...,...
40972,4,para este produto recebi de acordo com a compr...,para este produto recebi de acordo com a compr...,para este produto recebi de acordo com a compr...,para este produto recebi de acordo com a compr...
40973,5,Entregou dentro do prazo. O produto chegou em ...,Entregou dentro do prazo. O produto chegou em ...,Entregou dentro do prazo. O produto chegou em ...,Entregou dentro do prazo. O produto chegou em ...
40974,3,"O produto não foi enviado com NF, não existe v...","O produto não foi enviado com NF, não existe v...","O produto não foi enviado com NF, não existe v...","O produto não foi enviado com NF, não existe v..."
40975,5,"Excelente mochila, entrega super rápida. Super...","Excelente mochila, entrega super rápida. Super...","Excelente mochila, entrega super rápida. Super...","Excelente mochila, entrega super rápida. Super..."


# 돈
이러한 소스에서 다른 매우 흔한 패턴은 돈에관한 표현이다($_,_). 모델을 향상시키기 위해 이러한 패턴을 valor(영어로 돈을 의미한다.) 같은 단어로 바꾸는 것은 매우 좋은 생각이다.

In [16]:
def re_money(text_list) :
    pattern = '[R]{0,1}\$[ ]{0,}\d+(,|\.)\d+'
    return [re.sub(pattern, " dinheiro ", r) for r in text_list]

In [17]:
reviews_money = re_money(reviews_dates)
df_comments["re_money"] = reviews_money

# 숫자
리뷰에서 숫자를 찾고 이를 다른 문자열 "numero"(영어로 number)로 대체할 것이다. 숫자를 단순히 공백으로 대체할 수 있지만 이는 정보 손실을 가져온다.

In [18]:
def re_numbers(text_list) :
    return [re.sub("[0-9]+", " numero ", r) for r in text_list]

In [19]:
reviews_numbers = re_numbers(reviews_money)
df_comments["re_numbers"] = reviews_numbers

# 부정어
이번 세션은 특별한 방법으로 생각하고 의논한다. 문제가 되는 문장은 불용어를 제거하면 예를 들어 nao(not)과 같은 부정어를 제거함으로써 어떤 절은 의미를 잃을 것이다. 따라서 부정어를 부정적인 의미를 가리키는 보편적인 단어로 대체하는 것이 좋을 것이다.

In [20]:
def re_negation(text_list) :
    return [re.sub("([nN][ãÃaA][oO]|[ñÑ]|[nN])", " negação ", r) for r in text_list]

In [21]:
reviews_negation = re_negation(reviews_numbers)
df_comments["re_negation"] = reviews_negation

# 특수문자
특수 문자를 검색하는 것은 특별하다. 왜냐하면 온라인 댓글에서 이러한 패턴을 많이 보기 때문이다.

In [22]:
def re_special_chars(text_list) :
    return [re.sub("\W", ' ', r) for r in text_list]

In [23]:
reviews_special_chars = re_special_chars(reviews_negation)
df_comments["re_special_chars"] = reviews_special_chars

# 추가적인 공백문자
앞선 과정을 모두 거친 후, 불필요한 공백문자를 제거함으로써 텍스트를 정제하는 것은 매우 중요하다.

In [24]:
def re_whitespaces(text_list) :
    white_spaces = [re.sub('\s+', ' ', r) for r in text_list]
    white_spaces_end = [re.sub('[ \t]+$', '', r) for r in white_spaces]
    return white_spaces_end

In [25]:
reviews_whitespaces = re_whitespaces(reviews_special_chars)
df_comments["re_whitespaces"] = reviews_whitespaces

# 불용어
현재 우리는 방해되는 패턴 그리고 구두점이 없는 텍스트 데이터를 얻었다. 다른 말로, 다양한 변환을 적용한 반쯤 정제된 텍스트를 얻었다는 뜻이다.

우리는 불용어 제거, stemming, TF-IDF 행렬 절차와 같은 향상된 텍스트 변환을 적용할 준비가 되었다.

In [26]:
pt_stopwords = stopwords.words("portuguese")
print(f"Total portuguese stopwords in the nltk.corpus module : {len(pt_stopwords)}")
pt_stopwords[:10]

Total portuguese stopwords in the nltk.corpus module : 207


['a',
 'à',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as']

In [27]:
def stopwords_removal(text, cached_stopwords = stopwords.words("portuguese")) :
    return [c.lower() for c in text.split() if c.lower() not in cached_stopwords]

In [28]:
reviews_stopwords = [" ".join(stopwords_removal(review)) for review in reviews_whitespaces]
df_comments["stopwords_removed"] = reviews_stopwords

# Stemming(어간추출)
댓글에 스테밍 과정을 적용하기 위한 함수를 정의해보자.

RSLPStemmer : 포르투갈어 형태소 분석을 위한 스테머이다. 이는 포르투갈어 텍스트에서 단어의 원형을 찾는데 사용된다. RSLPStemmer는 문법적 규칙을 사용하여 포르투갈어 단어의 접미사를 제거하여 어간을 찾는다.

In [29]:
def stemming_process(text, stemmer = RSLPStemmer()) :
    return [stemmer.stem(c) for c in text.split()]

In [30]:
reviews_stemmer = [" ".join(stemming_process(review)) for review in reviews_stopwords]
df_comments["stemming"] = reviews_stemmer

# 특징 추출
정규표현식, 불용어 제거와 어간추출 거치고 우리가 분석하는 텍스트에 더 많은 의미를 주기 위해 우리는 BoW, TF-IDF, Word2Vec과 같은 접근법을 사용할 수 있다. 우리 분석을 쉽게하기 위해서 텍스트와 vectorizer 객체를 받고 특징추출을 적용하는 함수를 정의해보자

# CountVectorizer
BoW 접근에서 모든 유일한 단어들을 딕셔너리로 만들고 각 문자열의 각 단어에서 우리는 발생한 단어를 1, 아니면 0으로 표시해 단어를 벡터로 바꾼다. 이것이 bag of words(딕셔너리)를 고려한 텍스트를 빈도 벡터로 바꾸는 방법이다.

# TF-IDF
BoW 접근에서 각 단어는 같은 가중치를 가친다. 이는 말뭉치에서 낮은 빈도를 가진 단어에서 항상 참은 아니다.

$$ 
TF = \frac{문서 내 단어 빈도}{문서 내 총 단어 수}
$$

$$
IDF = log(\frac{문서의 총 개수}{단어를 포함한 문서의 개수})
$$

# 데이터 라벨링
감정 분석 모델을 훈련하기 위해서 우리는 지도학습 머신러닝 접근방식을 적용하기 위해 라벨이 필요하다. 우리 데이터셋에서 어떤 댓글이 긍정/부정적인지 알려주는 라벨이 없다. 라벨링을 하기 위해 가장 좋은 방법은 개인의 댓글을 보고 긍정적인 경우 1, 아니면 0을 손수 라벨링한다. 하지만 빠른 구현을 위해서 review_score 열을 이용해 두가지 클래스로 ㅔ이터를 라벨링한다.

이러한 접근법에서 1, 2, 3점을 받은 댓글은 부정적인 댓글로 간주한다. 한편 4, 5점은 긍정적인 댓글로 간주한다. 이는 아마 감정 분석 모델을 훈련하기 위한 가장 좋은 방법은 아니지만 속도를 위해 이러한 추정을 수행하고 그로부터 값을 추출할 수 있는지 살펴볼 것이다.

# 파이프라인
텍스트 준비 파이프라인에서 고려되는 모든 단계를 자세히 설명한 후, 이를 처리하기 위해 전체 파이프라인을 자동적으로 적용하는 코드를 작성해보자. 이는 프로젝트에서 중요한 단계이다 왜냐하면 파이프라인이 있으면 텍스트 입력을 받을 수 있고 모든 변경사항을 적용하여 감정 라벨을 훈련하거나 예측할 수 있기 때문이다.

In [31]:
regex_transformers = {
    "break_line" : re_breakline,
    "hiperlinks" : re_hiperlinks,
    "dates" : re_dates,
    "money" : re_money,
    "numbers" : re_numbers,
    "negation" : re_negation,
    "special_chars" : re_special_chars,
    "whitespaces" : re_whitespaces
}

# max_features : TF-IDF로 변횐된 행렬에서 사용할 최대 특징의 수를 지정한다.
# min_df : 단어가 문서에서 나타나는 최소 빈도를 나타낸다. 이 값보다 낮은 빈도로 나타나는 단어는 무시된다. 
# 여기에서, 7개 이하의 문서에서 나타나는 단어들은 무시된다.
# max_df : 단어가 문서에서 나타나는 최대 빈도를 나타낸다. 이 값보다 높은 빈도로 나타나는 단어는 무시된다.
# 여기에서, 80% 이상의 문서에서 나타나는 단어들은 무시된다.
# stop_words : 불용어로 처리할 단어 목록을 지정한다.
# 여기서는 pt_stopwords 가 사용된다.
vectorizer = TfidfVectorizer(max_features = 300, min_df = 7, max_df = 0.8, stop_words = pt_stopwords)

text_pipeline = Pipeline([
    ("regex", ApplyRegex(regex_transformers)),
    ("stopwords", StopWordsRemoval(stopwords.words("portuguese"))),
    ("stemming", StemmingProcess(RSLPStemmer())),
    ("text_features", TextFeatureExtraction(vectorizer))
])

NameError: name 'ApplyRegex' is not defined

# 감정 분류
앞서 많은 과정들을 거쳐왔고 이는 마지막 단계이다! 모든 텍스트 준비과정이 끝난 후에 말뭉치로부터 추출한 특징을 기반으로 문자열이 긍정적/부정적 느낌을 이해하는 알고리즘을 훈련하기 위해 텍스트를 분류 모델에 집어넣을 차례이다.

# 최종 구현
마침내 우리는 감정 분석 모델을 제공하기 위한 마지막 단계를 구축할 수 있다. 우리는 전체 준비 파이프라인, 머신러닝 모델이 있고 지금 이를 개선하기 위해 우리가 할 수 있는 것은 입력 문자열을 받고 그 감정을 리턴하는 해결책을 만드는 것이다.

In [32]:
model = clf_tool.classifiers_info["LogisticRegression"]["estimator"]
prod_pipeline = Pipeline([
    ("regex", ApplyRegex(regex_transformers)),
    ("stopwords", StopWordsRemoval(stopwords.words("portuguese"))),
    ("stemming", StemmingProcess(RSLPStemmer()))
])
vectorizer = text_pipeline.named_steps["text_features"]
vectorizer

NameError: name 'clf_tool' is not defined

아마 저자가 ApplyRegex와 같은 함수를 직접 만들어서 사용한 것 같아 더이상 실행할 수 없어 나머지는 읽어보고 끝내겠다.

end