In [None]:
# Q1
'''
- 분식집 주문 분석하기
pandas 로 음식점 주문 데이터를 분석하고, 인기 메뉴를 파악
'''
import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['font.family'] = 'Malgun Gothic'
mpl.rcParams['axes.unicode_minus'] = False

import pandas as pd

df_csv = pd.read_csv("dataset/orders.csv")
print(f"{df_csv}\n")

df = df_csv.groupby('메뉴')['수량'].sum().sort_values(ascending=False)
print(f"{df}\n")

print(f"가장 인기 있는 메뉴는 {df.idxmax()}(으)로 총 4개 판매되었습니다.")

plt.bar(df.index, df.values, width=0.6)
plt.title('메뉴별 판매 수량')
plt.xlabel('메뉴')
plt.ylabel('판매 수량')
plt.xlim(-0.7, 2.7)
plt.grid(axis='y', ls='--')
plt.show()

In [None]:
# Q2
'''
- 학생 성적 분석
시험 성적 데이터를 pandas 로 분석하고 반 평균, 최고점, 최저점 학생을 파악
'''
import pandas as pd

df = pd.DataFrame({
  '이름': ['영희', '철수', '민수'],
  '국어': [80, 90, 85],
  '영어': [70, 95, 88],
  '수학': [85, 80, 90]
})
# df['평균'] = df.mean(axis=1, numeric_only=True)
df['평균'] = df[['국어', '영어', '수학']].mean(axis=1).round(2)

print(f"{df}\n")

# df.iloc, df.loc [행, 열]
print(f"최고 평균 점수 학생: {df.loc[df['평균'].idxmax(), '이름']}")
print(f"최저 평균 점수 학생: {df.loc[df['평균'].idxmin(), '이름']}")

In [None]:
# Q3
'''
- 출석부 결측치 처리
출석/결석 데이터를 pandas 로 처리, 결석 횟수를 분석
'''
import pandas as pd

# data = {
#   '이름': ['영희', '철수', '민수'],
#   '1일차': ['출석', None, '출석'],
#   '2일차': ['출석', '결석', None]
# }
# df = pd.DataFrame(data)
# print(f"{df}\n")

# print(f"{df.isnull()}\n")
# df = df.fillna({'1일차': '결석', '2일차': '결석'})
# print(df)

# df['결석수'] = (df == '결석').sum(axis=1)
# df.sort_values(by='결석수', ascending=False)

df = (pd.DataFrame({
  '이름': ['영희', '철수', '민수'],
  '1일차': ['출석', None, '출석'],
  '2일차': ['출석', '결석', None]
})
.fillna('결석')
.assign(결석수 = lambda x: (x[['1일차', '2일차']] == '결석').sum(axis=1))
.sort_values(by='결석수', ascending=False)
)
df


In [None]:
# Q4
'''
주간 매출 분석
요일별 매출 데이터를 분석하고 평균 매출 및 최고 매출 요일을 파악
'''
import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['font.family'] = 'Malgun Gothic'
mpl.rcParams['axes.unicode_minus'] = False

import pandas as pd
df = pd.DataFrame({
  '요일': ['월', '화', '수', '목', '금'] * 2,
  '매출': [100, 200, 150, 130, 300, 120, 210, 160, 140, 310]
})
df = df.groupby('요일')['매출'].mean()
print(f"{df}\n")

print(f"가장 매출이 높은 요일: {df.idxmax()}요일")

plt.bar(df.index, df.values, width=0.6, label='평균 매출')
plt.title('요일별 평균 매출')
plt.xlabel('요일')
plt.ylabel('평균 매출')
plt.xlim(-0.7, 4.7)
plt.grid(axis='y', ls='--')
plt.legend()
plt.show()

In [None]:
# Q5
'''
- 도서 대출 기록 분석
도서관 장르별 대출 횟수를 분석하고 가장 인기 있는 장르를 시각화
'''
import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['font.family'] = 'Malgun Gothic'
mpl.rcParams['axes.unicode_minus'] = False

import pandas as pd

df = pd.DataFrame({
  '대출자': [
    '홍길동', '김영희', '이민수','박수현', '최정우', '김서연', '이민지', '유재석'
    ],
  '도서명': [
    '해리포터', '셜록홈즈', '반지의제왕', '삼국지', '해리포터', '셜록홈즈', '총균쇠', '반지의제왕'
    ],
  '장르': [
    '판타지', '추리', '판타지', '역사', '판타지', '추리', '인문', '판타지'
    ]
})

# df_count = df.groupby('장르').size()
# groupby 가 반환하는 값은 Series, DataFrame 아닌 groupby 객체
# 여러 개의 컬럼을 기준으로 그룹화 할 수 있음, 이 그룹화된 결과는 DataFrame처럼 보일 수 있음
# Series 전용 메서드인 value_counts() 와 다르게 오름차순이 기본 속성

df_genre_count = df['장르'].value_counts()
df_count = df.groupby(['장르', '도서명']).size().sort_values(ascending=False)
print(f"{df_count}\n")
popular_genre = df_count.groupby('장르').sum().idxmax() # 장르별 도서 수 합산 후 가장 큰 값 찾기
print(f"가장 인기 있는 장르는 '{popular_genre}'입니다.")

plt.pie(df_genre_count, labels=df_genre_count.index, autopct='%1.1f%%', counterclock=True)
plt.title("장르별 대출 비율")
plt.axis('equal')
plt.show()

In [None]:
# Q6
'''
- 여행 설문 결과 분석
여행 선호지 설문 데이터를 분석하여 선호 지역과 성별 간 차이를 파악
'''
import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['font.family'] = 'Malgun Gothic'
mpl.rcParams['axes.unicode_minus'] = False

import pandas as pd

df = pd.DataFrame({
  '이름': ['영희', '철수', '민수', '수진', '정우', '가영'],
  '성별': ['여', '남', '남', '여', '남', '여'],
  '선호 여행지': ['제주도', '부산', '강릉', '제주도', '제주도', '부산']
})

travel = df['선호 여행지'].value_counts()
print(f"{travel}\n")
cross = pd.crosstab(df['성별'], df['선호 여행지'])
print(f"{cross}\n")
cross.plot(kind='bar', title='성별에 따른 선호 여행지', stacked=True)
plt.xlabel('성별')
plt.xticks(rotation=0)
plt.ylabel('응답자 수')
plt.show()

In [None]:
# Q7
'''
- 반려동물 병원 내원 기록 분석
반려동물 병원의 진료 데이터를 분석하여 방문 빈도와 주요 질병 통계를 파악
'''

import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['font.family'] = 'Malgun Gothic'
mpl.rcParams['axes.unicode_minus'] = False

import pandas as pd

df = pd.DataFrame({
  '보호자': [
    '김철수', '이영희', '박민수', '최지훈', '조수진', '홍길동', '유재석'
    ],
  '동물': [
    '강아지', '고양이', '강아지', '강아지', '고양이', '강아지', '고양이'
    ],
  '진료 항목': [
    '피부병', '감기', '피부병', '설사', '구토', '감기', '감기'
  ]
})

visit_count = df['동물'].value_counts()
print(f"{visit_count}\n")
medical_list = df['진료 항목'].value_counts()
print(f"{medical_list}\n")
print(f"가장 흔한 진료 항목은 '{medical_list.idxmax()}'입니다\n")

medical_list.plot(kind='bar', title='진료 항목별 빈도', width=0.6)
plt.xlabel('질병명')
plt.xticks(rotation=0)
plt.ylabel('횟수', rotation=0)
plt.xlim(-0.7,3.7)
plt.yticks(range(0, 4, 1))
plt.grid(axis='y', ls='--')
plt.show()


In [None]:
# Q8
'''
- 유튜브 조회수 통계 분석
유튜브 영상의 조회수 및 좋아요 수 데이터를 분석하여 인기 영상과 상관관계를 확인
'''

import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['font.family'] = 'Malgun Gothic'
mpl.rcParams['axes.unicode_minus'] = False

import pandas as pd
import seaborn as sns

df = pd.DataFrame({
  '제목' : ['여행 브이로그', '먹방', '강아지 영상', '책 리뷰', '운동 루틴'],
  '조회수' : [15000, 22000, 18000, 8000, 12000],
  '좋아요' : [350, 500, 420, 210, 310]
})

avg_visit = df['조회수'].mean()
print(f"평균 조회수: {avg_visit}\n")

top_video = df.sort_values(by='조회수', ascending=False).head(3)[['제목', '조회수']]
print(f"조회수 TOP 3 영상:\n{top_video}")

plt.figure(figsize=(8, 6))
sns.scatterplot(data=df, x='조회수', y='좋아요', hue='제목', s=80)
plt.title('조회수 vs 좋아요')
plt.xlabel('조회수')
plt.ylabel('좋아요 수')
plt.grid(True)
plt.show()

corr = df.corr(numeric_only=True)
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt='.10f')
plt.title('조회수와 좋아요의 상관관계')
plt.show()

In [None]:
# Q9
'''
- 도시간 교통량 분석
시간대별 교통량 데이터를 분석하여 혼잡 시간대를 파악하고 시각화
'''
import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['font.family'] = 'Malgun Gothic'
mpl.rcParams['axes.unicode_minus'] = False
import pandas as pd

df = pd.DataFrame({
  '시간대': [
    '06:00~07:00', '07:00~08:00', '08:00~09:00', '09:00~10:00', '17:00~18:00', '18:00~19:00', '19:00~20:00', '20:00~21:00'
  ],
  '교통량': [300, 500, 800, 650, 700, 900, 600, 400]
})
print(f"[전체 교통량 데이터]\n{df}\n")
rush_hour = df.groupby('시간대')['교통량'].mean().idxmax()
print(f"가장 혼잡한 시간대는 {rush_hour} 입니다")

fig, ax = plt.subplots(figsize=(10, 6))
df.plot(kind='line', x='시간대', y='교통량', color='blue', marker='o', legend=False, ax=ax)
plt.grid(True)
plt.xlabel('시간대')
plt.xticks(rotation=45)
plt.ylabel('교통량')
plt.show()

In [None]:
# Q10
'''
- 영화 리뷰 통계 분석
영화 평점 데이터를 분석하여 평균 평점, 분포, 특정 영화 조회 등을 수행
'''

import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['font.family'] = 'Malgun Gothic'
mpl.rcParams['axes.unicode_minus'] = False
import pandas as pd

df = pd.DataFrame({
  '영화제목': [
    '인터스텔라', '타이타닉', '라라랜드', '범죄도시', '베테랑', '인셉션', '어벤져스', '기생충'
  ],
  '평점': [9.1, 8.6, 8.2, 7.5, 7.8, 9.0, 8.5, 8.9]
})

df_avg = df['평점'].mean()
print(f"영화 평균 평점: {df_avg}")

df_high = df[df['평점']>= 8.5]
display(df_high)

plt.figure(figsize=(10, 6))
plt.hist(df['평점'], bins=5, color='orange', edgecolor='black')
plt.title('영화 평점 분포')
plt.xlabel('평점')
plt.ylabel('빈도수')
plt.grid(True)
plt.show()

In [None]:
# Q11
'''
- 타이타닉 생존자 분석
타이타닉 탑승자 데이터를 활용하여 생존율, 그룹별 통계, 시각화를 수행

Survived : 생존 여부 (0 : 사망 / 1 : 생존)
Pclass : ticket에 따른 객실 등급
Sex : 성별
Age : 나이
SibSp : 동반한 형제자매와 배우자의 수
Parch : 동반한 부모 자식의 수
Ticket : ticket number
Fare : ticket의 요금
Cabin : 객실 번호
Embarked : 탑승 지역(항) (C : Cherbourg / Q : Queenstown / S : Southampton
'''

import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['font.family'] = 'Malgun Gothic'
mpl.rcParams['axes.unicode_minus'] = False

import numpy as np
import pandas as pd

url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(url)

real_df = df.fillna({
  'Age': df['Age'].mean(),
  'Embarked': df['Embarked'].mode()[0]
})
real_df.drop(columns=['Cabin'], inplace=True)

survived_all = real_df['Survived'].mean().round(3)
print(f"전체 생존률: {survived_all * 100}%\n")

survived_sex = real_df.groupby('Sex', observed=True)['Survived'].mean().round(3).apply(lambda x: f"{x * 100}%")
print(f"{survived_sex}\n")

survived_pclass = real_df.groupby('Pclass', observed=True)['Survived'].mean().round(3).apply(lambda x: f"{x * 100}%")
print(f"{survived_pclass}\n")

pivot = pd.pivot_table(real_df, values='Survived', index='Sex', columns='Pclass', aggfunc='mean')
print(f"{pivot}")

real_df.groupby(
  pd.cut(
    real_df['Age'],
    bins=[0, 10, 20, 30, 40, 50, 60, 80],
    labels=['0~10', '10~20', '20~30', '30~40', '40~50', '50~60', '60~80'],
    right=False
  ),
  observed=True
)['Survived'].mean().plot(kind='bar', color='orange', title='연령대별 생존률')
plt.xlabel('Age_bin')
plt.xticks(rotation=0)
plt.xlim(-0.7, 6.7)
plt.ylabel('생존률')
plt.show()

bins = np.linspace(0, real_df['Fare'].max(), 6)
bins = np.delete(bins, 4)
bins[-1] += 0.0001
labels = [f"{round(bins[i], 3)} ~ {round(bins[i+1], 3)}" for i in range(4)]
real_df.groupby(
  pd.cut(
    real_df['Fare'], bins=bins, labels=labels, right=False
  ),
  observed=True
)['Survived'].mean().plot(kind='bar', color='orange', title='연령대별 생존률', width=0.7)
plt.xlabel('Fare_bin')
plt.xticks(rotation=45)
plt.xlim(-0.7, 3.7)
plt.ylabel('생존률')
plt.show()

In [None]:
# Q12
'''
- 시계열 기반 매출 전처리
일자별 매출 데이터를 월별로 집계하고 결측 구간을 처리하며 시계열 분석을 수행
'''

import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['font.family'] = 'Malgun Gothic'
mpl.rcParams['axes.unicode_minus'] = False

import pandas as pd

df = pd.DataFrame({
  '날짜': [
    '2023-01-01', '2023-01-10', '2023-02-05', '2023-03-15', '2023-05-20', '2023-07-01'
    ],
  '매출': [100, 120, 90, 140, 130, 150]
})
df['날짜'] = pd.to_datetime(df['날짜'])
df.set_index('날짜', inplace=True)
df_month = df.resample('ME').mean()
df_month['매출'] = df_month['매출'].fillna(0)
print(f"[월별 매출]\n{df_month}")

df_month.plot(kind='line', marker='o')
plt.grid(axis='y')
plt.xlabel('월')
plt.ylabel('매출')
plt.show()


In [None]:
# Q13
'''
- 온라인 쇼핑몰 장바구니 분석
장바구니 데이터를 분석하여 고객별 구매 패턴, 제품군별 인기 상품, 교차표 분석 수행
'''

import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['font.family'] = 'Malgun Gothic'
mpl.rcParams['axes.unicode_minus'] = False

import pandas as pd

df = pd.DataFrame({
  '고객ID': [
    'C001', 'C002', 'C001', 'C003', 'C002', 'C004', 'C001', 'C003'
  ],
  '제품군': [
    '식품', '식품', '생활용품', '의류', '식품', '식품', '의류', '생활용품'
  ],
  '상품명': [
    '라면', '김치', '휴지', '티셔츠', '라면', '초콜릿', '양말', '세제'
  ],
  '수량': [2, 1, 3, 1, 1, 2, 2, 1]
})

mean_buy = df.groupby('고객ID')['수량'].mean().round(2)
print(f"고객별 평균 구매 건수:\n{mean_buy}\n")

popular_product = df.groupby(['제품군', '상품명'])['수량'].sum().reset_index()
idx = popular_product.groupby('제품군')['수량'].idxmax()
top_items = popular_product.loc[idx].set_index('제품군')
print(f"제품군별 인기 상품:\n{top_items}\n")

cross = pd.crosstab(df['고객ID'], df['제품군'])
print(f"고객별 제품군 구매 교차표:\n{cross}")

In [None]:
# Q14
'''
- 영화 장르별 평점 분석
영화 데이터에서 장르별로 평균 평점을 분석하고 시각화 
'''

import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['font.family'] = 'Malgun Gothic'
mpl.rcParams['axes.unicode_minus'] = False
import pandas as pd

df = pd.DataFrame({
  '제목': [
    '인셉션', '타이타닉', '기생충', '어벤져스', '노트북', '인터스텔라'
  ],
  '평점': [9.0, 8.6, 8.9, 8.5, 8.0, 9.1],
  '장르': [
    'SF, 액션', '드라마, 로맨스', '드라마, 스릴러', '액션, SF', '로맨스', 'SF, 드라마'
  ]
})
display(df)

# 장르를 쉼표 기준으로 분리 (문자열 >> 리스트)
df['장르'] = df['장르'].str.split(', ')

# explode()로 각 장르를 분리 (행이 추가됨)
# ex) 인셉션, 장르: SF, 액션
# 인셉션, 장르: SF
# 인셉션, 장르: 액션
df_exploded = df.explode('장르')

genre_avg = df_exploded.groupby('장르')['평점'].mean().sort_values(ascending=False)

display(genre_avg)

plt.figure(figsize=(10, 6))
genre_avg.plot(kind='bar')
plt.title('장르별 평균 평점')
plt.ylabel('평점')
plt.xticks(rotation=0)
plt.grid(True)
plt.show()