In [None]:
import numpy as np 
import pandas as pd 

In [None]:
df = pd.read_csv('amazon_phone_dataset.csv')
df.head()

### 데이터 전처리

0. (Optional) column 이름이 대문자 소문자 섞여있는 것들을 다 소문자로 바꾸자 
1. Product_url, Product_img, prod_des, feature 필요 없으니까 지우자 
2. Product_name, Product_price, by_info 가 NaN 인 행 지우기 
3. Product_price, rating, total_review, ans_ask

### 전처리 후에 하고 싶은 것 
1. 회사(by_info)별로 rating, price, total_review, ans_ask 보기 
2. 그리고 그림을 그려보자

In [None]:
df.columns = [x.lower() for x in df.columns]
df = df[['product_name', 'by_info', 'product_price', 
         'rating', 'total_review','ans_ask', 'cust_review']] 
df = df.dropna()
df = df.reset_index(drop=True)
df.head(3)

In [None]:
df.shape

In [None]:
df = df.rename(columns={'product_name': 'name',
                        'by_info': 'company', 
                        'product_price': 'price',
                        'ans_ask': 'num_answered',
                        'cust_review': 'review_text'})
df.head(3)

## 정규표현식, 정규식, regular expression, regex

- 문자열에서 무언가를 추출하거나, 찾거나, 바꾸거나 하고 싶을 때가 있습니다 
- 내가 찾고 싶은 무언가를 **패턴**으로 나타내서 그 패턴과 일치하면 다 찾아주는 뭐 그런겁니다 (문법)
- 파이썬에서만 되는건 아니고, 자바에서도 되고 등등 정규식을 지원한다 라고 하면 그 언어에서 사용할 수 있음
- python built-in library로는 re 가 있어요
- 규칙
    - \d: digit, 숫자 하나, 0에서 9까지
    - \w: word character, a-z까지, A-Z까지, 0-9까지, underscore(\_) 포함
    - \d+: digit인데 숫자가 여러개 있을 수 있다 
    - \w+: character인데 여러개 있을 수 있다 
- 재밌으면 하세요 
- 재미없으면 하지 마세여 -> stackoverflow 같은 질의응답 사이트에서 은둔고수들이 물어보면 알려줍니다

In [None]:
df['company'].nunique()

In [None]:
company_rows = df['company'].value_counts()
only_one = company_rows[company_rows == 1].index
only_one

In [None]:
# ~: not
df = df[~df['company'].isin(only_one)]
df.shape

In [None]:
df.head(3)

In [None]:
df['rating'][0], type(df['rating'][0])

In [None]:
# text에서 숫자만 빼내보기 version 1 - string replace로 숫자만 남기고 남은 숫자를 float로 타입 변환
df['rating_num1'] = df['rating'].str.replace(' out of 5 stars', '')
df['rating_num1'] = df['rating_num1'].str.strip() # 호오오옥시 모르니까 스트링 앞뒤 공백 없애주자
df['rating_num1'] = df['rating_num1'].astype(float)
df['rating_num1'][0], type(df['rating_num1'][0])

In [None]:
df.head(3)

## 함수
1. 그냥 함수
    ```Python
    def 함수이름(param1, ... ):
        return 리턴값
    ```
2. 익명함수
    ```Python
    lambda param1, ... , paramN : 리턴값
    ```
    
3. 차이점
    - 그냥 함수
        1. 선언: def
        2. return: 없어도 됨
        3. namespace: 저장됨
    - 익명 함수
        1. 선언: lambda
        2. return: 무조건 명시해줘야 함 
        3. namespace: 저장 안됨
    
4. 용도
    - def: 여러번 쓸거, **namespace에 저장이 되니까 다시 호출이 가능함**
    - lambda: 한번 쓸거, **namespace에 저장이 안되니까 다시 호출이 불가능함**

In [None]:
# text에서 숫자만 뽑아보자 ver 2 - 공백 기준으로 자르고, 그 리스트에서 0번째를 뽑은 다음에 그걸 float로 바꾸자
df['rating_num2'] = df['rating'].str.split() # 자른다

# apply 메소드는 함수를 인풋으로 받습니다
# 우리가 함수를 짜고, 그 함수를 apply 안에다가 넣어주면 됩니다 
# 익명함수 lambda를 써도 상관 없어용

# 이 때의 x: ['4.0', 'out', 'of', '5', 'stars']
df['rating_num2'] = df['rating_num2'].apply(lambda x: float(x[0])) # apply-lambda 조합
df.head(3)

In [None]:
df['rating_num2'][0], type(df['rating_num2'][0])

In [None]:
# dataframe에서 값 for문으로 처리하고 새로운 컬럼으로 추가하기
rating_num2 = []
# df.iterrows로 for문을 돈다 하면 튜플이 나와요 
# 나오는 튜플은 (인덱스, 행)
# 그래서 행만 잘 쓰고 싶다 하면 idx, row로 for문의 변수를 두개 지정하면 됩니다
for idx, row in df.iterrows():
    #print(row['rating']) # row에서 원하는 컬럼 이름으로 값 가져오기 
    #print(row['rating'].split()) # rating 컬럼 값을 공백 기준으로 자르기
    #print(row['rating'].split()[0]) # 공백 기준으로 자른거에서 0번째 가져오기
    #print(float(row['rating'].split()[0])) # 0번째 원소 float 처리하기 
    #print()
    value = float(row['rating'].split()[0])
    rating_num2.append(value)
    
df['rating_num2'] = rating_num2
df.head()

In [None]:
# 막간 지식 
# '': 그냥 string
# f'' : formatting string
# r'' : regular expression string
# b'' : byte string
df['rating_num3'] = df['rating'].str.extract(r'(\d.\d)')
df['rating_num3'] = df['rating_num3'].astype(float)
df['rating_num3'][0], type(df['rating_num3'][0])

In [None]:
import re
re.findall('[amk]+', 'amamamamaasdflkjwelkjamama')
# re.search('[amk]+', 'amamamamaasdflkjwelkjamama').group(0)

In [None]:
# goal: total_review 컬럼에서 숫자 뽑아서 int 처리하고 싶음
# 문제점: 콤마
# 해결책: 콤마를 없앤다 -> replace

df['num_review1'] = df['total_review'].str.replace(',', '')
df['num_review1'] = df['num_review1'].apply(lambda x: int(x.split()[0]))

df['num_review2'] = df['total_review'].apply(lambda x: int(x.replace(',', '').split()[0]))

# split -> 원소 뽑기 -> replace -> 타입변환
df['num_review3_split'] = df['total_review'].str.split()
df['num_review3_str'] = df['num_review3_split'].apply(lambda x: x[0])
df['num_review3'] = df['num_review3_str'].str.replace(',', '').astype(int)
df[['total_review', 'num_review3_split', 'num_review3_str', 'num_review3']].head()

# replace -> split -> 원소 뽑고 -> 타입변환 
df['num_review4'] = df['total_review'].str.replace(',', '') #=> 7353 customer reviews
df['num_review4'] = df['num_review4'].str.split() #=> ['7353', 'customer', 'reviews']
df['num_review4'] = df['num_review4'].apply(lambda x: x[0]) #=> '7353'
df['num_review4'] = df['num_review4'].astype(int) #=> 7353

In [None]:
# []: 대괄호 안에 있는 패턴 중 하나
# ex, [amk]: a나 m이나 k
# []+: 대괄호 안에 있는 패턴 중 하나 이상이 한번 이상 나온다
# ex, [amk]+: a나 m이나 k가 한번 이상 나온다, aaa, aam, amakam 등등
df['num_review4'] = df['total_review'].str.extract(r'([\d,]+)')
df['num_review4'] = df['num_review4'].str.replace(',', '').astype(int)
df[['total_review', 'num_review4']]

In [None]:
df = df[['name', 'company', 'rating_num1', 'num_review1']]
df.head()

In [None]:
# 다시 타입 확인하기
df.dtypes

In [None]:
# company 별로 rating의 평균을 알고 싶어요 
# 그래서, company별로 rating의 차이가 있는지를 한번 보고 싶습니다 
# groupby 를 쓰면 쉽게 할 수 있습니다

In [None]:
# groupby를 모른다 ㅠㅠ 
# 1. unique한 company 뽑고 
# 2. 그 company각각에 대해서 df에서 row들을 뽑고  -> for문
# 3. mean과 std를 구한 다음에 
# 4. 빈 리스트에다가 그걸 넣어 주고
# 5. 그 리스트를 데이터프레임으로 만들어 준다
companies = df['company'].unique().tolist() # 
# companies => ['Samsung', 'Xifo', 'Coolpad', .... ]
rating_info = []
for company in companies: # company = 'Samsung', 'Xifo', 'Coolpad', ... 
    temp = df[df['company'] == company]
    temp_mean = temp['rating_num1'].mean()
    temp_std = temp['rating_num1'].std()
    temp_dict = {'company': company,
                 'rating_mean': temp_mean,
                 'rating_std': temp_std}
    rating_info.append(temp_dict)
    
df_rating = pd.DataFrame(rating_info)
df_rating

In [None]:
rating_mean = df.groupby('company')['rating_num1'].mean()
rating_mean.name = 'rating_mean'
rating_mean

In [None]:
rating_std = df.groupby('company')['rating_num1'].std()
rating_std.name = 'rating_std'
rating_std

In [None]:
rating = pd.DataFrame([rating_mean, rating_std]).transpose()
rating

### 시간 있으면 하세요 
1. 각 브랜드별로 price의 mean, std 구하기 
2. name에서 괄호 지우고 duplicate을 없애보자 (hint: drop_duplicates)
3. num_answered 여기에서 숫자만 뽑아내보기 (+는 제거)
4. 숫자인 컬럼들에 대해서, 각 브랜드별로, 기초통계량 뽑아보기 