### [Chipotle의 주문데이터(01-chipotle-eda.ipynb)에 대해서 총판매액수가 가장 높은 상위 10개의 품목을 출력]

In [1]:
# -*- coding: utf-8 -*-

%matplotlib inline

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import ttest_ind

import warnings
warnings.filterwarnings("ignore")


In [2]:

file_path = '../data/chipotle.tsv'
df = pd.read_csv(file_path, sep='\t')

# 문자열을 숫자형으로 변환
df['item_price'] = df['item_price'].apply(lambda x: float(x[1:-1]))

# 총 판매액 계산
df['revenue'] = df['item_price'] * df['quantity']

# 상위 10개 품목 출력
top_items = df.groupby('item_name')['revenue'].sum().sort_values(ascending=False).head(10)
print(top_items)

item_name
Chicken Bowl                    8044.63
Chicken Burrito                 6387.06
Steak Burrito                   4236.13
Steak Bowl                      2479.81
Chips and Guacamole             2475.62
Chicken Salad Bowl              1506.25
Chicken Soft Tacos              1199.01
Chips and Fresh Tomato Salsa    1033.96
Veggie Burrito                  1002.27
Veggie Bowl                      901.95
Name: revenue, dtype: float64


### [유럽국가들에 대해서는 맥주와 와인간의 상관관계는 얼마나 되는지 피어슨상관값(Pearson Correlation)을 구하기.]

In [3]:
file_paths = '../data/drinks.csv'
drinks = pd.read_csv(file_paths)

# 유럽 국가만 포함하도록 데이터 집합 필터링
europe = drinks[drinks['continent'] == 'EU']

# 맥주와 와인 소비량 사이의 Pearson 상관 계수 계산
beer_wine_corr = europe['beer_servings'].corr(europe['wine_servings'], method='pearson')

#  결과
print(f"Pearson correlation between beer and wine consumption for European countries: {beer_wine_corr:.2f}")

Pearson correlation between beer and wine consumption for European countries: 0.30


### [한화팀과 SK팀간의 2017년 연봉의 평균간에는 유의미한 차이가 존재하는지 t-test로 검정하기.]

In [4]:
# Data Source : http://www.statiz.co.kr/

picher_file_path = '../data/picher_stats_2017.csv'
batter_file_path = '../data/batter_stats_2017.csv'
picher = pd.read_csv(picher_file_path)
batter = pd.read_csv(batter_file_path)
salaries = pd.concat([picher, batter])

# 한화팀과 SK팀 데이터 나누기
HanWha = salaries.loc[salaries['팀명'] == '한화']
SK =  salaries.loc[salaries['팀명'] == 'SK']

# 각 팀의 연봉 평균 계산
HanWha_salary = HanWha['연봉(2017)'].mean()
SK_salary = SK['연봉(2017)'].mean()

# t-test로 두 팀 간의 차이 검정
t_stat, p_val = ttest_ind(HanWha['연봉(2017)'], SK['연봉(2017)'], equal_var=False)

print('한화 평균 연봉:', HanWha_salary)
print('SK 평균 연봉:', SK_salary)
print('t-test 통계량:', t_stat)
print('p-value:', p_val)

한화 평균 연봉: 22253.846153846152
SK 평균 연봉: 17736.842105263157
t-test 통계량: 0.6624041217840793
p-value: 0.5099280465043418
