# 과제1. car seat 매출 분석

* 카시트에 대해서 지역 매장 별 매출액을 살펴보고자 합니다.
* 행은 자사 매장이 있는 각 지역별 데이터 입니다.

![](https://cdn.images.express.co.uk/img/dynamic/24/590x/child-car-seat-986556.jpg?r=1532946857754)

## 0.환경설정

* 필요한 라이브러리 로딩, 데이터셋 가져오기

### 1) 라이브러리 로딩

In [1]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

### 2) 데이터 불러오기

In [2]:
path = 'https://raw.githubusercontent.com/JunhoYu/Data-Analysis/main/Carseats.csv'
data = pd.read_csv(path)
data.head()

Unnamed: 0,Sales,CompPrice,Income,Advertising,Population,Price,ShelveLoc,Age,Education,Urban,US
0,9.5,138,73,11,276,120,Bad,42,17,Yes,Yes
1,11.22,111,48,16,260,83,Good,65,10,Yes,Yes
2,10.06,113,35,10,269,80,Medium,59,12,Yes,Yes
3,7.4,117,100,4,466,97,Medium,55,14,Yes,Yes
4,4.15,141,64,3,340,128,Bad,38,13,Yes,No


|	변수명	|	설명	|	구분	|
|	----	|	----	|	----	|
|	Sales 	|	 각 지역 판매량(단위 : 1000개)	|	Target	|
|	CompPrice 	|	 각 지역 경쟁사 가격(단위 : 달러)	|	feature	|
|	Income 	|	 각 지역 소득수준(단위 : 천달러)	|	feature	|
|	Advertising 	|	 각 지역, 회사의 광고 예산(단위 : 1000달러)	|	feature	|
|	Population 	|	 지역 인구수(단위 : 1000명)	|	feature	|
|	Price 	|	 자사 지역별 판매가격(달러)	|	feature	|
|	Education 	|	 교육수준(10~18), 범주	|	feature	|
|	ShelveLoc 	|	 진열상태(Good, Medium, Bad)	|	feature	|
|	Age 	|	 지역 인구의 평균 연령	|	feature	|
|	US 	|	 매장이 미국에 있는지 여부(Yes, No)	|	feature	|
|	Urban 	|	 매장이 도심에 있는지 여부(Yes, No)	|	feature	|


## 1.데이터 살펴보기

* 주어진 데이터로부터 다양한 조회 방법을 통해 비즈니스 사항을 파악해 봅시다.
* 데이터와 비즈니스를 파악하기 위한 질문을 10개 이상 도출하고, 조회해 봅시다.

In [7]:
#판매량이 가장 많은 순으로 정렬하기
data.sort_values('Sales', ascending=False)

Unnamed: 0,Sales,CompPrice,Income,Advertising,Population,Price,ShelveLoc,Age,Education,Urban,US
376,16.27,141,60,19,319,92,Good,44,11,Yes,Yes
316,15.63,122,36,5,369,72,Good,35,10,Yes,Yes
25,14.90,139,32,0,176,82,Good,54,11,No,No
367,14.37,95,106,0,256,53,Good,52,17,Yes,No
18,13.91,110,110,0,408,68,Good,46,17,No,Yes
...,...,...,...,...,...,...,...,...,...,...,...
57,0.91,93,91,0,22,117,Bad,75,11,Yes,No
143,0.53,122,88,7,36,159,Bad,28,17,Yes,Yes
165,0.37,147,58,7,100,191,Bad,27,15,Yes,Yes
106,0.16,102,33,0,217,139,Medium,70,18,No,No


In [9]:
#평균연령과 가격이 가장 많은 순으로 정렬하기
data.sort_values(['Age', 'Price'], ascending=False)

Unnamed: 0,Sales,CompPrice,Income,Advertising,Population,Price,ShelveLoc,Age,Education,Urban,US
317,6.41,142,30,0,472,136,Good,80,15,No,No
116,5.08,135,75,0,202,128,Medium,80,10,No,No
137,6.52,128,42,0,436,118,Medium,80,11,Yes,No
283,5.36,135,110,0,112,117,Medium,80,16,No,No
59,5.21,118,71,4,148,114,Medium,80,13,Yes,No
...,...,...,...,...,...,...,...,...,...,...,...
218,9.70,138,61,12,156,120,Medium,25,14,Yes,Yes
72,5.52,115,45,0,432,116,Medium,25,15,Yes,No
263,7.77,116,26,6,434,115,Medium,25,17,Yes,Yes
363,10.26,111,75,1,377,108,Good,25,12,Yes,No


In [10]:
#교육수준이 가장 많은 순으로 정렬하기
data.sort_values('Education', ascending=False)

Unnamed: 0,Sales,CompPrice,Income,Advertising,Population,Price,ShelveLoc,Age,Education,Urban,US
77,7.70,118,71,12,44,89,Medium,67,18,No,Yes
229,11.19,98,104,0,404,72,Medium,27,18,No,No
159,9.32,119,60,0,372,70,Bad,30,18,No,No
31,8.25,136,58,16,241,131,Medium,44,18,Yes,Yes
320,5.86,136,70,12,171,152,Medium,44,18,Yes,Yes
...,...,...,...,...,...,...,...,...,...,...,...
1,11.22,111,48,16,260,83,Good,65,10,Yes,Yes
198,3.62,112,80,5,500,128,Medium,69,10,Yes,Yes
88,6.56,117,42,7,144,111,Medium,62,10,Yes,Yes
293,11.28,123,84,0,74,89,Good,59,10,Yes,No


In [38]:
#각 지역의 경쟁사 가격과 판매량 비교
temp = data
temp['Sub'] = temp['CompPrice'] - temp['Price']

print('경쟁사보다 가격이 적은 곳의 판매량', temp[temp['Sub'] > 0]['Sales'].mean())
print('경쟁사보다 가격이 높은 곳의 판매량',temp[temp['Sub'] <= 0]['Sales'].mean())

경쟁사보다 가격이 적은 곳의 판매량 8.284343065693431
경쟁사보다 가격이 높은 곳의 판매량 5.782698412698414


In [35]:
#진열 상태에 따른 판매량 비교
for i in data['ShelveLoc'].unique():
    print(i, data[data['ShelveLoc'] == i]['Sales'].mean())

Bad 5.522916666666667
Good 10.214
Medium 7.306575342465752


In [40]:
# 인구수와 판매량 비교
data.sort_values('Population', ascending=False)

Unnamed: 0,Sales,CompPrice,Income,Advertising,Population,Price,ShelveLoc,Age,Education,Urban,US,Sub
189,12.11,118,117,18,509,104,Medium,26,15,No,Yes,14
66,8.85,127,92,0,508,91,Medium,56,18,Yes,No,36
372,7.80,121,50,0,508,98,Medium,65,11,No,No,23
117,8.80,145,53,0,507,119,Medium,41,12,Yes,No,26
271,4.55,111,56,0,504,110,Medium,62,16,Yes,No,1
...,...,...,...,...,...,...,...,...,...,...,...,...
46,12.44,127,90,14,16,70,Medium,48,15,No,Yes,57
272,12.98,113,33,0,14,63,Good,38,12,Yes,No,50
307,5.90,138,92,0,13,120,Bad,61,12,Yes,No,18
248,5.36,111,52,0,12,101,Medium,61,11,Yes,Yes,10


In [42]:
#매장이 도심에 있는것과 판매량 비교 => 별로 상관 없음
print('매장이 도심에 있을 때 판매량 : ', data[data['Urban'] == 'Yes']['Sales'].mean())
print('매장이 도심에 없을 때 판매량 : ', data[data['Urban'] == 'No']['Sales'].mean())

매장이 도심에 있을 때 판매량 :  7.4681914893617
매장이 도심에 없을 때 판매량 :  7.563559322033901


In [51]:
#매장이 미국에 있는것과 판매량 비교
print('매장이 미국에 있을 때 판매량 : ', data[data['US'] == 'Yes']['Sales'].mean())
print('매장이 미국에 없을 때 판매량 : ', data[data['US'] == 'No']['Sales'].mean())

매장이 미국에 있을 때 판매량 :  7.866899224806206
매장이 미국에 없을 때 판매량 :  6.823028169014082


In [49]:
#지역 소득 수준이 평균 이상일 때 판매량
print('지역 소득 수준이 평균이상일 때 판매량: ', data[data['Income'] >= data['Income'].mean()]['Sales'].mean())
print('지역 소득 수준이 평균미만일 때 판매량: ', data[data['Income'] < data['Income'].mean()]['Sales'].mean())

지역 소득 수준이 평균이상일 때 판매량:  7.907268292682928
지역 소득 수준이 평균미만일 때 판매량:  7.064307692307693


In [50]:
#광고 예산이 평균 이상일 때 판매량
print('광고 예산이 평균이상일 때 판매량: ', data[data['Advertising'] >= data['Advertising'].mean()]['Sales'].mean())
print('광고 예산이 평균미만일 때 판매량: ', data[data['Advertising'] < data['Advertising'].mean()]['Sales'].mean())

광고 예산이 평균이상일 때 판매량:  8.267165775401073
광고 예산이 평균미만일 때 판매량:  6.819577464788731
