# **과제1 : 수치형 변수 단변량 분석**

## **1.비즈니스 시나리오**

![](https://cdn.images.express.co.uk/img/dynamic/24/590x/child-car-seat-986556.jpg?r=1532946857754)

* 고객사는 카시트를 판매하는 회사 입니다.
* 최근 매출 하락에 대해 각 부서가 파악한 원인 다음과 같습니다.
    * 최근에 경쟁사와의 가격 경쟁력이 하락하고 있고, 광고비용이 적절하게 집행되지 않음
    * 너무 국내 시장에 집중됨.
    * 지역마다의 구매력을 제대로 파악하지 못하고 있음.
>
* 그러나 이러한 분석은 데이터에 근거하고 있는지 의문이 듭니다.
* 이 문제를 해결하고자 프로젝트 팀이 빌딩되었습니다.
* 여러분은 이 프로젝트팀에 데이터 분석가로 참여하고 있습니다.
* 자, 이제 단변량 분석을 통해 비즈니스 인사이트를 도출해 봅시다!


## **2.환경준비**

### **(1) 라이브러리 불러오기**

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

### **(2) 데이터 로딩 : 카시트 판매량 데이터**

|	변수명	|	설명	|	구분	|
|----|----|----|
|	**Sales** 	|	 각 지역 판매량(단위 : 1000개)	|	Target	|
|	**CompPrice** 	|	 경쟁사 가격(단위 : 달러)	|	feature	|
|	**Income** 	|	 지역 평균 소득(단위 : 1000달러)	|	feature	|
|	**Advertising** 	|	 각 지역, 회사의 광고 예산(단위 : 1000달러)	|	feature	|
|	**Population** 	|	 지역 인구수(단위 : 1000명)	|	feature	|
|	**Price** 	|	 자사 지역별 판매가격	|	feature	|
|	**ShelveLoc** 	|	 진열상태	|	feature	|
|	**Age** 	|	 지역 인구의 평균 연령	|	feature	|
|	**Urban** 	|	 도심 지역 여부(Yes,No)	|	feature	|
|	**US** 	|	 매장이 미국에 있는지 여부(Yes,No)	|	feature	|


In [2]:
path = 'https://raw.githubusercontent.com/DA4BAM/dataset/master/Carseats2.csv'
data = pd.read_csv(path)
data.head()

Unnamed: 0,Sales,CompPrice,Income,Advertising,Population,Price,ShelveLoc,Age,Urban,US
0,9.5,138,73,11,276,120,Bad,42,Yes,Yes
1,11.22,111,48,16,260,83,Good,65,Yes,Yes
2,10.06,113,35,10,269,80,Medium,59,Yes,Yes
3,7.4,117,100,4,466,97,Medium,55,Yes,Yes
4,4.15,141,64,3,340,128,Bad,38,Yes,No


## **3.단변량분석 : 숫자형 변수**

### **(1) Sales (Target)**

① 변수의 비즈니스 의미

In [None]:
#각 지역 판매량(단위 : 1000개) : 한 지역에서 카시트를 얼마나 판매했는지 알려주는 정보

② 기초통계량 및 분포확인

In [8]:
data['Sales'].describe()


Unnamed: 0,Sales
count,400.0
mean,7.496325
std,2.824115
min,0.0
25%,5.39
50%,7.49
75%,9.32
max,16.27


③ 기초통계량과 분포를 통해서 파악한 내용을 적어 봅시다.
- 먼저 보이는 그대로 적어 보고
- 그 안에 담긴 비즈니스 관점도 적어 봅시다.

In [None]:
# 평균 74,964개의 카시트가 판매되고, 최소 0개 부터, 최대 16,270개의 카시트가 판매된다.
# 지역별로 차이가 크지만 대략적으로 지역별로 7,490개의 카시트가 판매된다. 그리고 이는 평균의 값과 유사한 수치를 보인다.
# 지역별 카시트의 편차가 그리 크지 않으며 비슷한 경향을 보인다.
# 따라서 한 지역에서의 카시트에 대한 한 변화를 주었을 때, 변화가 효과가 다른 지역도 유사한 경향을 보일 경우가 크다.

④ 추가 분석해 볼 만한 사항이 있으면 적어 봅시다.  
(추가 분석을 하는게 아니라, 위 ③을 적으며 추가로 궁금한 항목을 적으세요.)

In [None]:
# 각각의 max와 min의 수치(이상치)값들은 어떻게 생각해야할지 궁금합니다. 그냥 큰 의미없이 무시하는지 아니면 따로 모아 분석하는지 궁금합니다.

### **(2) CompPrice**

① 변수의 비즈니스 의미

In [9]:
#경쟁사 가격(단위 : 달러) : 다른 경쟁사의 가격을 통해 우리의 가격에 어떤 변화를 주어야할지 알려준다.

Unnamed: 0,CompPrice
count,400.0
mean,124.975
std,15.334512
min,77.0
25%,115.0
50%,125.0
75%,135.0
max,175.0


② 기초통계량 및 분포확인

In [15]:
data['CompPrice'].describe()

Unnamed: 0,CompPrice
count,400.0
mean,124.975
std,15.334512
min,77.0
25%,115.0
50%,125.0
75%,135.0
max,175.0


③ 기초통계량과 분포를 통해서 파악한 내용을 적어 봅시다.
- 먼저 보이는 그대로 적어 보고
- 그 안에 담긴 비즈니스 관점도 적어 봅시다.

In [None]:
# 경쟁사의 가격은 평균 125달러 이지만, 최소 77달러 부터, 최대 175달러의 카시트가 판매된다. 그중 125달러가 가장 많았다.
# 평균의 가격과 2분위수의 가격이 거의 동일 하므로, 실제 경재사의 가격이 125달러로 집중되어있다.
# 따라서 125달러 이하의 가격을 설정하여 가격 경쟁의 우위를 차지하는 것이 중요하다.

④ 추가 분석해 볼 만한 사항이 있으면 적어 봅시다.  
(추가 분석을 하는게 아니라, 위 ③을 적으며 추가로 궁금한 항목을 적으세요.)

In [None]:
# 최소 가격인 77달러의 경쟁사의 카시트를 우선적으로 확인해보는 것이 좋다.
# 가격이 싼 만큼의 품질이 떨어지는 지, 아니면 가격은 낮더라도 품질은 비슷한지를 파악하여, 가격이 가장 낮게 책정한 경쟁사와의 우위 경쟁을 대비해야한다.

### **(3) Income**

① 변수의 비즈니스 의미

In [17]:
# 지역 평균 소득(단위 : 1000달러) : 각 지역별 구매력을 알아볼 수 있는 지표이다.

② 기초통계량 및 분포확인

In [16]:
data['Income'].describe()

Unnamed: 0,Income
count,400.0
mean,68.6575
std,27.986037
min,21.0
25%,42.75
50%,69.0
75%,91.0
max,120.0


③ 기초통계량과 분포를 통해서 파악한 내용을 적어 봅시다.
- 먼저 보이는 그대로 적어 보고
- 그 안에 담긴 비즈니스 관점도 적어 봅시다.

In [None]:
# 지역별 소득의 수준의 평균은 68,658달러이고, 대부분이 69,000달러의 소득 수준을 갖는다. 최대 최소의 편차는 크지만 평균과 2분위수의 수치는 거의 동일하다.
# 소득 수준이 높은 지역일 수록, 카시트를 구매할 경우가 높다. 소득 수준이 높다면, 사람들이 많거나, 고소득의 사람들이 살 경우가 많고,
# 그들의 차량 이용률은 매우 높기 때문이다. 따라서 카시트의 판매점은 소득 수준이 높은 지역에 많이 설치하고 상대적으로 낮은 지역은 판매점을 적게 설치하는 것이 좋다.

④ 추가 분석해 볼 만한 사항이 있으면 적어 봅시다.  
(추가 분석을 하는게 아니라, 위 ③을 적으며 추가로 궁금한 항목을 적으세요.)

In [None]:
# 소득 수준이 판매와 꼭 연결되는가? 다른 변수는 없을까?

### **(4) Advertising**

① 변수의 비즈니스 의미

In [13]:
	# 각 지역, 회사의 광고 예산(단위 : 1000달러) : 각 지역의 회사의 광고 예산으로, 예산이 높을 수록 홍보의 효과가 높다.

Unnamed: 0,Advertising
count,400.0
mean,6.635
std,6.650364
min,0.0
25%,0.0
50%,5.0
75%,12.0
max,29.0


② 기초통계량 및 분포확인

In [18]:
data['Advertising'].describe()

Unnamed: 0,Advertising
count,400.0
mean,6.635
std,6.650364
min,0.0
25%,0.0
50%,5.0
75%,12.0
max,29.0


③ 기초통계량과 분포를 통해서 파악한 내용을 적어 봅시다.
- 먼저 보이는 그대로 적어 보고
- 그 안에 담긴 비즈니스 관점도 적어 봅시다.

In [None]:
# 지역별 회사 광고 예산은 평균 6,635달러이고, 대부분이 5,000달러이지만, 최대 29,000달러인 경우도 있다.
# 광고 예산이 높은 지역일수록, 수익을 높이기 위한 기대는 어렵다. 예산이 많을 수록, 다른 회사의 홍보가 많이 이루어졌고, 많은 사람들은 새로운 재품을 구매하기 보단, 홍보된 익숙한 제품을 사용하려 할 것이다.
# 따라서 상대적으로 홍보 예산이 적은, 홍보가 적게 되었을 가능성이 높은 지역에 홍보하여 제품에 대한 사람들의 관심을 끄는것이 좋다.

④ 추가 분석해 볼 만한 사항이 있으면 적어 봅시다.  
(추가 분석을 하는게 아니라, 위 ③을 적으며 추가로 궁금한 항목을 적으세요.)

In [None]:
# 특히 앞서 말한 소득이 높은 지역일수록, 홍보 효과가 높을 것이다. 그들의 구매력을 바탕으로 카시트를 홍보하면 높은 수익률을 기대할 수 있을 것이다.

### **(5) Population**

① 변수의 비즈니스 의미

In [20]:
# 지역 인구수(단위 : 1000명) : 지역별로 사람들의 수를 나타낸 지표이다.

② 기초통계량 및 분포확인

In [19]:
data['Population'].describe()

Unnamed: 0,Population
count,400.0
mean,264.84
std,147.376436
min,10.0
25%,139.0
50%,272.0
75%,398.5
max,509.0


③ 기초통계량과 분포를 통해서 파악한 내용을 적어 봅시다.
- 먼저 보이는 그대로 적어 보고
- 그 안에 담긴 비즈니스 관점도 적어 봅시다.

In [None]:
# 지역별 사람들은 평균은 264,840명이지만, 대부분은 272,000명으로 몰려있다.
# 카시트의 판매를 하기 위해선 사람들이 많은 지역을 선점하는 것이 중요하다. 사람들이 많은 지역일수록, 교통이 발달하고, 차량의 이용률도 높을 것이다.
# 자연스럽게 카시트의 판매할 수 있는 경우도 많아지므로, 인구가 많은 지역을 우선적으로 판매한다.

④ 추가 분석해 볼 만한 사항이 있으면 적어 봅시다.  
(추가 분석을 하는게 아니라, 위 ③을 적으며 추가로 궁금한 항목을 적으세요.)

In [None]:
# 특히 지역별 소득 수준과 연계하여, 인구가 많으며, 소득 수준이 높은 지역을 우선적으로 선점한다.
# 인구가 많아도, 소득 수준이 낮다면, 사람들의 차량이용이 저조할 수 있고, 반대로 소득 수준이 높아도 인구가 적다면, 사람들에게 판매할 수 있는 카시트의 갯수가 한정적일 것이다.

### **(6) Price**

① 변수의 비즈니스 의미

In [22]:
# 자사 지역별 판매가격 : 지역별 카시트의 판매가격에 대한 차이를 나타내준다.

② 기초통계량 및 분포확인

In [21]:
data['Price'].describe()

Unnamed: 0,Price
count,400.0
mean,115.795
std,23.676664
min,24.0
25%,100.0
50%,117.0
75%,131.0
max,191.0


③ 기초통계량과 분포를 통해서 파악한 내용을 적어 봅시다.
- 먼저 보이는 그대로 적어 보고
- 그 안에 담긴 비즈니스 관점도 적어 봅시다.

In [None]:
# 지역별 카시트의 편차를 나타내주며, 평균적으로 115.78이지만, 최소 24 최대 191이다.
# 카시트의 가격이 높은 지역일수록, 인건비가 높거나, 다른 경쟁회사와의 가격 경쟁에서 우위또는 경쟁이 심하지 않다는 뜻이다.
# 반대로 가격이 낮은 지역일 경우 경쟁이 심한 경우일 수 있기에, 회사에서 손해를 보면서까지 가격 경쟁을 할 상황이 아니면 그 지역에 대한 판매 계획은 철수하는 편이 좋다.

④ 추가 분석해 볼 만한 사항이 있으면 적어 봅시다.  
(추가 분석을 하는게 아니라, 위 ③을 적으며 추가로 궁금한 항목을 적으세요.)

In [None]:
# 자사의 지역별 가격외에도, 그 지역에 대한 경쟁사의 가격과 비교하여, 가격을 높일지 낮출지를 결정해야한다.
# 또한 자사의 가격이 낮은 지역에는 홍보 예산을 늘려, 사람들에게 자사의 제품에 대한 관심과 새로운 인식을 심어주어 제품에 대한 흥미를 이끌어야 한다.

### **(7) Age**

① 변수의 비즈니스 의미

In [10]:
#	지역 인구의 평균 연령 : 지역인구의 평균이 무슨 연령인지를 알려준다.

Unnamed: 0,Age
count,400.0
mean,53.3225
std,16.200297
min,25.0
25%,39.75
50%,54.5
75%,66.0
max,80.0


② 기초통계량 및 분포확인

In [23]:
data['Age'].describe()

Unnamed: 0,Age
count,400.0
mean,53.3225
std,16.200297
min,25.0
25%,39.75
50%,54.5
75%,66.0
max,80.0


③ 기초통계량과 분포를 통해서 파악한 내용을 적어 봅시다.
- 먼저 보이는 그대로 적어 보고
- 그 안에 담긴 비즈니스 관점도 적어 봅시다.

In [None]:
# 지역의 평균 연령은 대략 54세이고 대부분이 55세이다. 카시트의 판매 대상에는 최소 25세부터 80세까지가 타켓이다.
# 젊은 사람들에게 카시트 판매를 집중해야한다. 젊은 사람들일수록, 후에 새로운 차나, 카시트를 구매할 가능성이 높기 때문에 그들에게 좋은 인식을 심어 자사의 카시트를 재구매할 의향을 높인다.
# 또한 젊은 사람들일 수록 SNS를 통해 홍보할 경우가 높다. 따라서 젊은 사람들을 경향하는 것이 홍보 예산도 줄이고, 추가적인 판매율을 높일 수 있다.

④ 추가 분석해 볼 만한 사항이 있으면 적어 봅시다.  
(추가 분석을 하는게 아니라, 위 ③을 적으며 추가로 궁금한 항목을 적으세요.)

In [None]:
# 연령이 높은 사람들의 경우에 소득 수준이 어느정도 되는지 같이 고려한다. 그들의 경우 차량의 이용율과 카시트를 재구매할 경우가 젊은이 보단 낮겠지만,
# 소득이 높은 경우 많은 카시트를 한 번에 구매할 가능성이 있다.(여러대의 차량을 동시에 보유한 사람들)