# <올리스트 데이터 분석 전처리 - 리뷰데이터_구글번역apis>

## 라이브러리 로드

In [1]:
# 핑크색 warning 안내문 방지 
import warnings
warnings.filterwarnings('ignore')

In [2]:
# 데이터 분석에 사용할 라이브러리를 불러옵니다
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
import datetime as dt

## 폰트 로드

In [3]:
def get_font_family():
    """
    시스템 환경에 따른 기본 폰트명을 반환하는 함수
    """
    import platform
    system_name = platform.system()

    if system_name == "Darwin" :
        font_family = "AppleGothic"
    elif system_name == "Windows":
        font_family = "Malgun Gothic"
    else:
        # Linux(Colab)
        !apt-get install fonts-nanum -qq  > /dev/null
        !fc-cache -fv

        import matplotlib as mpl
        mpl.font_manager._rebuild()
        findfont = mpl.font_manager.fontManager.findfont
        mpl.font_manager.findfont = findfont
        mpl.backends.backend_agg.findfont = findfont
        
        font_family = "NanumBarunGothic"
    return font_family

plt.rc("font", family=get_font_family())
plt.rc("axes", unicode_minus=False)

## 데이터로드

In [4]:
import glob

In [5]:
path = glob.glob('data/*.csv')
path

['data\\olist_customers_dataset.csv',
 'data\\olist_geolocation_dataset.csv',
 'data\\olist_orders_dataset.csv',
 'data\\olist_order_items_dataset.csv',
 'data\\olist_order_payments_dataset.csv',
 'data\\olist_order_reviews_dataset.csv',
 'data\\olist_products_dataset.csv',
 'data\\olist_sellers_dataset.csv',
 'data\\product_category_name_translation.csv']

## 리뷰데이터 병합해서 각 구간별 리뷰, 점수 보기

In [22]:
# 리뷰데이터 가져와서 각 canceled 해당하는 리뷰에 뭐라 적혀있는지 보기 
review = pd.read_csv(path[5])
review

Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,7bc2406110b926393aa56f80a40eba40,73fc7af87114b39712e6da79b0a377eb,4,,,2018-01-18 00:00:00,2018-01-18 21:46:59
1,80e641a11e56f04c1ad469d5645fdfde,a548910a1c6147796b98fdf73dbeba33,5,,,2018-03-10 00:00:00,2018-03-11 03:05:13
2,228ce5500dc1d8e020d8d1322874b6f0,f9e4b658b201a9f2ecdecbb34bed034b,5,,,2018-02-17 00:00:00,2018-02-18 14:36:24
3,e64fb393e7b32834bb789ff8bb30750e,658677c97b385a9be170737859d3511b,5,,Recebi bem antes do prazo estipulado.,2017-04-21 00:00:00,2017-04-21 22:02:06
4,f7c4243c7fe1938f181bec41a392bdeb,8e6bfb81e283fa7e4f11123a3fb894f1,5,,Parabéns lojas lannister adorei comprar pela I...,2018-03-01 00:00:00,2018-03-02 10:26:53
...,...,...,...,...,...,...,...
99219,574ed12dd733e5fa530cfd4bbf39d7c9,2a8c23fee101d4d5662fa670396eb8da,5,,,2018-07-07 00:00:00,2018-07-14 17:18:30
99220,f3897127253a9592a73be9bdfdf4ed7a,22ec9f0669f784db00fa86d035cf8602,5,,,2017-12-09 00:00:00,2017-12-11 20:06:42
99221,b3de70c89b1510c4cd3d0649fd302472,55d4004744368f5571d1f590031933e4,5,,"Excelente mochila, entrega super rápida. Super...",2018-03-22 00:00:00,2018-03-23 09:10:43
99222,1adeb9d84d72fe4e337617733eb85149,7725825d039fc1f0ceb7635e3f7d9206,4,,,2018-07-01 00:00:00,2018-07-02 12:59:13


In [23]:
df = order.merge(review, on = 'order_id', how = 'left')
df

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,review_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18,a54f0611adc9ed256b57ede6b6eb5114,4.0,,"Não testei o produto ainda, mas ele veio corre...",2017-10-11 00:00:00,2017-10-12 03:43:48
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13,8d5266042046a06655c8db133d120ba5,4.0,Muito boa a loja,Muito bom o produto.,2018-08-08 00:00:00,2018-08-08 18:37:50
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04,e73b67b67587f7644d5bd1a52deb1b01,5.0,,,2018-08-18 00:00:00,2018-08-22 19:07:58
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15,359d03e676b3c069f62cadba8dd3f6e8,5.0,,O produto foi exatamente o que eu esperava e e...,2017-12-03 00:00:00,2017-12-05 19:21:58
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26,e50934924e227544ba8246aeb3770dd4,5.0,,,2018-02-17 00:00:00,2018-02-18 13:02:51
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99987,9c5dedf39a927c1b2549525ed64a053c,39bd1228ee8140590ac3aca26f2dfe00,delivered,2017-03-09 09:54:05,2017-03-09 09:54:05,2017-03-10 11:18:03,2017-03-17 15:08:01,2017-03-28,e262b3f92d1ce917aa412a9406cf61a6,5.0,,,2017-03-22 00:00:00,2017-03-23 11:02:08
99988,63943bddc261676b46f01ca7ac2f7bd8,1fca14ff2861355f6e5f14306ff977a7,delivered,2018-02-06 12:58:58,2018-02-06 13:10:37,2018-02-07 23:22:42,2018-02-28 17:37:56,2018-03-02,29bb71b2760d0f876dfa178a76bc4734,4.0,,So uma peça que veio rachado mas tudo bem rs,2018-03-01 00:00:00,2018-03-02 17:50:01
99989,83c1379a015df1e13d02aae0204711ab,1aa71eb042121263aafbe80c1b562c9c,delivered,2017-08-27 14:46:43,2017-08-27 15:04:16,2017-08-28 20:52:26,2017-09-21 11:24:17,2017-09-27,371579771219f6db2d830d50805977bb,5.0,,Foi entregue antes do prazo.,2017-09-22 00:00:00,2017-09-22 23:10:57
99990,11c177c8e97725db2631073c19f07b62,b331b74b18dc79bcdf6532d51e1637c1,delivered,2018-01-08 21:28:27,2018-01-08 21:36:21,2018-01-12 15:35:03,2018-01-25 23:32:54,2018-02-15,8ab6855b9fe9b812cd03a480a25058a1,2.0,,Foi entregue somente 1. Quero saber do outro p...,2018-01-26 00:00:00,2018-01-27 09:16:56


In [24]:
# 리뷰 null 아닌 canceled 갖고오기
# translate 하는거 은지한테 물어보자 
# for문 돌려야함 
df[(df['order_status'].str.contains('canceled')) & (df['review_comment_message'].notnull())]

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,review_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
615,714fb133a6730ab81fa1d3c1b2007291,e3fe72696c4713d64d3c10afe71e75ed,canceled,2018-01-26 21:34:08,2018-01-26 21:58:39,2018-01-29 22:33:25,NaT,2018-02-22,f242ce44c6572a94907a446b8fda32c8,1.0,,Olá!\r\nMinha queixa é a não entrega na residê...,2018-03-02 00:00:00,2018-03-05 01:28:24
616,714fb133a6730ab81fa1d3c1b2007291,e3fe72696c4713d64d3c10afe71e75ed,canceled,2018-01-26 21:34:08,2018-01-26 21:58:39,2018-01-29 22:33:25,NaT,2018-02-22,105facb42b5b9147996f0b1b6fbf7b80,1.0,,Holá!\r\nNão recebi o produto é nem um telefon...,2018-02-24 00:00:00,2018-02-27 00:13:54
1063,3a129877493c8189c59c60eb71d97c29,0913cdce793684e52bbfac69d87e91fd,canceled,2018-01-25 13:34:24,2018-01-25 13:50:20,2018-01-26 21:42:18,NaT,2018-02-23,15c8f3b3ff412d0f8d6b72053335fd0b,1.0,,Não recebi o produto e também não tive reembolso,2018-02-25 00:00:00,2018-02-25 11:02:38
1136,00b1cb0320190ca0daa2c88b35206009,3532ba38a3fd242259a514ac2b6ae6b6,canceled,2018-08-28 15:26:39,NaT,NaT,NaT,2018-09-12,9c0d840dfe562debfa52a1792bd64bff,1.0,Entregaram produto errado,Comprei dois fones de ouvido com valor de R$ 5...,2018-08-28 00:00:00,2018-08-28 18:25:55
1811,ed3efbd3a87bea76c2812c66a0b32219,191984a8ba4cbb2145acb4fe35b69664,canceled,2018-09-20 13:54:16,NaT,NaT,NaT,2018-10-17,6e4344680dbd30c75f78394e0dcfffdf,2.0,,O produto veio com defeito ele não liga não fu...,2018-07-28 00:00:00,2018-07-30 11:06:16
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
98942,affcfd3067c168967157abe801a3c4ec,5f40f0d1ada169f5b00ec600e563826a,canceled,2018-02-17 22:18:30,2018-02-17 22:35:29,2018-02-19 20:08:21,NaT,2018-03-06,0b616ec02228c8cc779c8ce8fad9440a,2.0,,Estou aguardando o produto ate hoje desde o di...,2018-03-08 00:00:00,2018-03-08 15:56:39
98960,227c804e2a44760671a6a5697ea549e4,62e7477e75e542243ee62a0ba73f410f,canceled,2017-09-28 15:02:56,NaT,NaT,NaT,2017-10-16,c00b1a92c8643de86fef532ea9f244e9,1.0,,acredito que a compra tenha sido cancelada.,2017-10-18 00:00:00,2017-10-18 13:56:27
99041,2be6c8b958e16856397259974d4abee9,ccbce7bcb13ee88adcf78890cae0ea42,canceled,2018-04-02 18:20:00,2018-04-02 18:30:38,NaT,NaT,2018-04-19,60a43f2ae6645ae3c49a96bac275680b,1.0,,"Meu produto não foi entregue, estava previsto ...",2018-04-21 00:00:00,2018-04-23 15:57:19
99456,e49e7ce1471b4693482d40c2bd3ad196,e4e7ab3f449aeb401f0216f86c2104db,canceled,2018-08-07 11:16:28,NaT,NaT,NaT,2018-08-10,68c3385b4bb41af5847346c3552ba744,2.0,Troca de produto.,Preciso trocar os copos pois vieram errados. O...,2018-08-04 00:00:00,2018-08-04 13:57:25


In [25]:
c_review = df[(df['order_status'].str.contains('canceled')) & (df['review_comment_message'].notnull())]

In [26]:
c_review['review_comment_message'].tolist()

['Olá!\r\nMinha queixa é a não entrega na residência. Tive que buscar no correio. Tenho um produto que foi devolvido, e ainda nem sei o que fazer. Talvez um telefonema ajudasse. ',
 'Holá!\r\nNão recebi o produto é nem um telefonema referente ao que comprei.',
 'Não recebi o produto e também não tive reembolso',
 'Comprei dois fones de ouvido com valor de R$ 50, 32 e entregaram o cabo para para iPhone no valor de r$ 10',
 'O produto veio com defeito ele não liga não funciona quero trocar',
 'Comprei o produto e depois eles informaram que não tinham no estoque, mas no site da lannister ele continuava disponível para venda. Já solicitei o cancelamento da compra, porém não obtive resposta.',
 'Não recebi e espero receber',
 'Razoável ',
 'Comprei o produto e não foi entregue, o prazo de entrega era até dia 30/03/17, liguei pra fazer a reclamação, e ficaram de me retornar a ligação e até hoje dia 03/04/2017 não entraram em contato! ',
 'Ainda aguardando entrega do pedido. Necessito solução

# Googletranslator 참고문헌
## 1) https://anaconda.org/conda-forge/googletrans
## 2) https://ardentdays.tistory.com/36
## 3) https://blockdmask.tistory.com/540

* translator.translate(번역하고자 하는 문자 , dest = '변경하고자 하는 언어 키') 

* src : 원본 문자의 언어 키 (번역 전 언어)
* dest : 번역할 언어 키 (번역 후 언어)
* text : 실제로 번역 완료한 스트링 (번역 결과)
* pronunciation : 발음 (영어로 표기) 

In [27]:
pip install googletrans

Note: you may need to restart the kernel to use updated packages.




In [28]:
pip install googletrans==3.1.0a0 --user

Note: you may need to restart the kernel to use updated packages.




In [29]:
# 포르투갈어로 작성된 리뷰를 영문으로 번역하기 위해 Translator 라이브러리를 불러옴
from googletrans import Translator

In [30]:
from googletrans import Translator
str1 = '나는 한국인 입니다'
translator = Translator()
result = translator.translate('안녕하세요.', src='ko')
# 설치가 안된거니 ..???? 
print(result.text)

hello.


In [31]:
#잘 불러왔는지 확인을 위해 실험해보기 
#인덱싱 
#1번 데이터로 실험 
translator.translate(df['review_comment_message'][1],  dest='en').text

'The product is very good.'

In [32]:
r_list = c_review['review_comment_message'].tolist()

In [33]:
r_list[0]

'Olá!\r\nMinha queixa é a não entrega na residência. Tive que buscar no correio. Tenho um produto que foi devolvido, e ainda nem sei o que fazer. Talvez um telefonema ajudasse. '

In [34]:
translator.translate(r_list[0]).text

"Hi!\r\nMy complaint is the non-delivery at home. I had to look for it in the mail. I have a product that was returned, and I still don't know what to do. Maybe a phone call would help."

In [35]:
len(r_list)

406

In [36]:
translations = []
for i in range(len(r_list)):
    translations.append(translator.translate(r_list[i]).text) 
translations                            

["Hi!\r\nMy complaint is the non-delivery at home. I had to look for it in the mail. I have a product that was returned, and I still don't know what to do. Maybe a phone call would help.",
 "Hola!\r\nI didn't receive the product or even a phone call regarding what I bought.",
 "I didn't receive the product and I didn't get a refund either.",
 'I bought two headphones worth R$ 50, 32 and they delivered the cable for iPhone worth R$ 10',
 'The product came defective it does not turn on does not work I want to exchange',
 "I bought the product and then they said they didn't have it in stock, but on the lannister website it was still available for sale. I have already requested to cancel the purchase, but have not received a response.",
 'I did not receive and I hope to receive',
 'Reasonable',
 'I bought the product and it was not delivered, the delivery deadline was until 03/30/17, I called to make the complaint, and they kept returning the call and until today 04/03/2017 they have not c

In [39]:
translations = []
for i in range(len(r_list)):
    translations.append(translator.translate(r_list[i],  dest='ko').text) 
translations      

['안녕!\r\n내 불만은 집에서 배달되지 않습니다. 메일에서 찾아봐야겠네요. 반품된 제품이 있는데 어떻게 해야 할지 모르겠습니다. 전화가 도움이 될 수도 있습니다.',
 '헐!\r\n상품을 받지 못했으며 구매한 제품에 대한 전화도 받지 못했습니다.',
 '상품을 받지 못했으며 환불도 받지 못했습니다.',
 'R$ 50, 32 상당의 헤드폰 2개를 샀고 R$ 10 상당의 iPhone용 케이블을 배달했습니다.',
 '상품불량으로 왔어요 전원이 안켜져요 교환하고 싶어요',
 '제품을 샀는데 재고가 없다고 해서 라니스터 홈페이지에 가보니 아직 품절이네요. 이미 구매 취소를 요청했지만 응답을 받지 못했습니다.',
 '받지 못했는데 받고 싶습니다',
 '합리적인',
 '상품을 구매했는데 배송이 안되고 배송마감일이 17.03.30까지 였는데 항의하려고 전화했는데 계속 연락이오더니 2017.04.03까지 연락이없네요!',
 '아직 주문 배송을 기다리고 있습니다. 긴급한 해결책이 필요합니다.',
 '집번호 입력을 잘못해서 상품이 배송되지 않았습니다',
 '제품이 도착하지 않았고, 변명을 하고 값을 계곡과 교환했습니다.',
 '요청한 것과 다른 제품의 배송\r\n전환을 기대합니다',
 '콘택트렌즈는 원시에 양성이고 근시에는 음성입니다. 나는 원시가 있어서 긍정적인 렌즈가 필요합니다.\r\n네거티브 렌즈가 배송되었습니다. 아무도 나에게 대답하지 않는다.',
 '이 라니스터 파트너 스토어에서 두 개의 제품을 구매했는데 배송되지 않았습니다. 두 달이 넘었지만 Dao는 돌아오지 않았습니다...',
 '03=02-2018에 구매\r\n나는 나의 구매를 기다리고 있다\r\n속도를 내라고 합니다\r\n고마워요 루이스',
 '오랜 기다림 끝에 잘못된 제품(다른 색상)을 받았고 취급자국(중고 제품처럼 보임)이 있고 포장이 개봉되지 않고 구겨져 있습니다. Marketplace = 판매에 함께, 문제에는 없습니다.',
 '상품이 다 깨져서 도착했는데 같은 상품으로 교환하고 싶어요',
 '나는 제

In [40]:
#이 리스트를 데이터프레임으로 만들기
translations1 = pd.DataFrame(translations)
translations1

Unnamed: 0,0
0,안녕!\r\n내 불만은 집에서 배달되지 않습니다. 메일에서 찾아봐야겠네요. 반품된 ...
1,헐!\r\n상품을 받지 못했으며 구매한 제품에 대한 전화도 받지 못했습니다.
2,상품을 받지 못했으며 환불도 받지 못했습니다.
3,"R$ 50, 32 상당의 헤드폰 2개를 샀고 R$ 10 상당의 iPhone용 케이블..."
4,상품불량으로 왔어요 전원이 안켜져요 교환하고 싶어요
...,...
401,17/02일부터 오늘까지 제품을 기다리고 있는데 아직 도착하지 않았습니다. 상담원과...
402,구매가 취소된 것 같아요.
403,내 제품이 배달되지 않았고 04/19로 예정되어 있었는데 여전히 아무것도 없습니다....
404,안경이 잘못 왔으니까 바꿔야 해요. 제가 주문한 제품은 BLACK 색상의 Phili...


In [41]:
# csv파일로저장 
translations1.to_csv('canceled_review.csv', index=False, encoding="utf-8")

In [42]:
# 저장된거 불러와보자
pd.read_csv("canceled_review.csv", encoding="utf-8")

Unnamed: 0,0
0,안녕!\r\n내 불만은 집에서 배달되지 않습니다. 메일에서 찾아봐야겠네요. 반품된 ...
1,헐!\r\n상품을 받지 못했으며 구매한 제품에 대한 전화도 받지 못했습니다.
2,상품을 받지 못했으며 환불도 받지 못했습니다.
3,"R$ 50, 32 상당의 헤드폰 2개를 샀고 R$ 10 상당의 iPhone용 케이블..."
4,상품불량으로 왔어요 전원이 안켜져요 교환하고 싶어요
...,...
401,17/02일부터 오늘까지 제품을 기다리고 있는데 아직 도착하지 않았습니다. 상담원과...
402,구매가 취소된 것 같아요.
403,내 제품이 배달되지 않았고 04/19로 예정되어 있었는데 여전히 아무것도 없습니다....
404,안경이 잘못 왔으니까 바꿔야 해요. 제가 주문한 제품은 BLACK 색상의 Phili...


Achei que era inox, mas é cromado e não é dos melhores, mas pelo preço serve🤔'
리뷰에 이모지가 있음... 제거 
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=gyeongbly_park&logNo=221792412978

In [None]:
#이모지제거하는 함수 
def rmEmoji_ascii(inputString): 
    return inputString.encode('ascii', 'ignore').decode('ascii')

In [None]:
# 함수 잘 적용되었는지 확인
print(rmEmoji_ascii('Achei que era inox, mas é cromado e não é dos melhores, mas pelo preço serve🤔'))