# **Lesson 6. 카시트 판매량 분석 및 예측**

* 실습 배경
    * 카시트 전문 기업의 영업팀장 A씨는 최근 계속해서 하락하는 매출 감소로 고민 중입니다.
    * 경쟁사들의 가격 경쟁력으로 인해 마케팅과 광고 비용을 줄이는 등의 노력으로도 매출 회복이 쉽지 않은 상황입니다.
    * 더불어 자국내 시장에서의 매출 증대에 한계를 느끼고 있는데,
    * 그 이유 중 하나는 지역별 영업이익의 차이와 지역별 소비력 파악의 어려움 때문입니다.
    * 이에 영업팀장 A씨는 매출 감소의 주요 원인을 찾고, 매출 회복을 위한 전략을 수립하고자 합니다.

* 데이터 분석 목표
    * ① 문제 정의 및 요인 파악을 위한 가설 확인
    * ② 중요 변수 발견
        * 어떤 변수가 카시트 판매 매출에 영향을 미치는지 변수를 확인
    * ③ 매출과 매출에 영향을 주는 변수 간의 관계 분석
        * 매출에 영향을 주는 변수(독립 변수)가 카시트 판매 매출에 어떠한 영향을 미치는지 분석


## **1.환경준비**

### **(1) 라이브러리 로딩**

In [None]:
# jupyter lite에서 패키지 설치
import piplite
await piplite.install("seaborn")

In [None]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

### **(2) 데이터 로딩**

|	변수명	|	설명	|	구분	|  데이터 유형 |
|----|----|----|----|
|	Sales 	|	 각 지역 판매량(단위 : 1000개)	|	target	| 수치형 |
|	CompPrice 	|	지역별 경쟁사 판매가격(달러)	|	feature	| 수치형 |
|	Price 	|	 자사 지역별 판매가격(달러)	|	feature	| 수치형 |
|	ShelveLoc 	|	 진열상태(범주 : Bad, Medium, Good) 	|	feature	| 범주형 |
|	US 	|	 매장이 미국에 있는지 여부(범주 : Yes, No)	|	feature	| 범주형 |
|	Income 	|	 지역 주민 평균 소득(천 달러)	|	feature	| 수치형 |
|	Urban 	|	 매장이 도시에 있는지 여부(범주 : Yes, No)	|	feature	| 범주형 |



In [None]:
path = 'carseat.csv'
data = pd.read_csv(path)

## **2.기본 탐색**

### **(1) 상위, 하위 5개의 정보 확인**
* .head()
* .tail()

### **(2) 데이터프레임 정보 확인**
* .info()

## **3.단변량 분석**

### **(1) 수치형 변수**

* 기초통계량 : .describe()
* 그래프 : 히스토그램, 박스플롯 등

#### **1)  Sales**

* 기초통계량

In [None]:
var = 'Sales'
data[var].describe()

* 그래프

In [None]:
plt.figure(figsize = (8,6))
plt.subplot(2,1,1)
sns.histplot(x = var, data = data, bins = 30, kde = True)
plt.grid()

plt.subplot(2,1,2)
sns.boxplot(x = var, data = data)
plt.grid()

plt.tight_layout()
plt.show()

* 파악한 내용을 적어 봅시다.

#### **2)  CompPrice**

* 기초통계량

* 그래프

* 파악한 내용을 적어 봅시다.

#### **3) Income**

* 기초통계량

* 그래프

* 파악한 내용을 적어 봅시다.

#### **4) Price**

* 기초통계량

* 그래프

* 파악한 내용을 적어 봅시다.

### **(2) 범주형 변수**
* 기초통계량 : 범주별 빈도수/비율
* 그래프 : 막대 그래프(sns.countplot)

#### **1)  ShelveLoc**

* 기초통계량

In [None]:
var = 'ShelveLoc'
print(data[var].value_counts())
print(data[var].value_counts(normalize = True))

* 그래프

In [None]:
plt.figure(figsize = (8,4))
plt.subplot(1,2,1)
sns.countplot(x = var, data = data)
plt.grid()

plt.subplot(1,2,2)
temp = data[var].value_counts()
plt.pie(temp.values, labels = temp.index, autopct = '%.1f%%')

plt.tight_layout()
plt.show()

* 파악한 내용을 적어 봅시다.

#### **2) Urban**

* 기초통계량

* 그래프

* 파악한 내용을 적어 봅시다.

#### **3) US**

* 기초통계량

* 그래프

* 파악한 내용을 적어 봅시다.

## **4.이변량분석**

* 그래프 : scatter


In [None]:
target = 'Sales'

### **(1) 숫자형 X --> Y**

#### **1) CompPrice -> Sales**

* 그래프

In [None]:
var = 'CompPrice'
sns.scatterplot(x=var, y = target, data = data)
plt.grid()
plt.show()

 * 파악한 내용을 적어 봅시다.

#### **2) Income -> Sales**

* 그래프

 * 파악한 내용을 적어 봅시다.

#### **3) Price -> Sales**

* 그래프

 * 파악한 내용을 적어 봅시다.

### **(2) 범주형 X --> Y**

* 그래프 : 평균비교 막대그래프

#### **1) ShelveLoc-> Sales**

* 그래프

In [None]:
var = 'ShelveLoc'
sns.barplot(x=var, y=target, data = data)
plt.grid()
plt.show()

 * 파악한 내용을 적어 봅시다.

#### **2) Urban -> Sales**

* 그래프

 * 파악한 내용을 적어 봅시다.

#### **3) US-> Sales**

* 그래프

 * 파악한 내용을 적어 봅시다.

### **(3) 관계 정리하기**

* 강한관계

* 중간관계

* 관계없음

## **5.예측 모델링**

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import *

### **(1) 데이터 준비**
* 모델링을 위해서는 데이터가 특별한 형태로 준비되어야 합니다.
    * 본 실습에서는 준비에 대한 세세한 내용을 다루지는 않습니다.
    * 가변수화 : 범주형 --> 수치형 변환
    * 데이터 분할 : 학습용과 검증용 분할
        * 학습용 : 모델링 용도
        * 검증용 : 모델 성능 측정(검증)

In [None]:
# 데이터 분할1 : x, y 분할
x = data.drop(target, axis = 1)
y = data[target]

In [None]:
# 가변수화
def dummy_var(x):
    x['ShelveLoc'] = pd.Categorical(x['ShelveLoc'], categories=['Good','Medium','Bad'])
    x['Urban'] = pd.Categorical(x['Urban'], categories=['Yes','No'])
    x['US'] = pd.Categorical(x['US'], categories=['Yes','No'])

    category_cols = ['ShelveLoc', 'Urban', 'US']
    x = pd.get_dummies(x, columns = category_cols, drop_first = True)
    return x

x = dummy_var(x)

In [None]:
# 데이터 분할2 : 학습용 : 검증용
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size = 0.2, random_state = 20)

### **(2) 모델링 및 평가**

* 모델링 절차
    * 선언
    * 학습(모델링) : x_train, y_train
    * 예측 : x_val
    * 평가 : y_val, 예측값

* 아래 주석으로 되어 있는 코드를 그대로 작성해 봅시다.

In [None]:
# 선언 : model = LinearRegression()



In [None]:
# 학습 : model.fit(x_train, y_train)



In [None]:
# 예측 : pred = model.predict(x_val)



In [None]:
# 평가(평균오차) : mean_absolute_error(y_val, pred)



### **(3) 모델 사용**

* 아래와 같은 새로운 정보에 대해서 판매량을 예측해 봅시다.
|CompPrice|Income|Price|ShelveLoc|US|Urban|
|----|----|----|----|----|----|
|120(달러)|30(천 달러)|100(달러)|Good|Yes|No|


In [None]:
# 새로운 데이터 준비
new_data = pd.DataFrame({'CompPrice':[120], 'Income':[30], 'Price':[100],
                        'ShelveLoc':['Good'], 'Urban':['Yes'], 'US':['No']})

# 전처리
new_data = dummy_var(new_data)

# 판매량 예측
model.predict(new_data)[0]