# (A) 주제: Series vs DataFrame, index/columns

In [50]:
import pandas as pd

df = pd.DataFrame({
  "menu": ["Americano", "Latte", "Latte", "Mocha"],
  "price": [4500, 5000, 5000, 5500],
  "qty": [2, 1, 3, 1]
})

## [문제 1: 난이도 하] 데이터의 차원 확인하기
- df 변수에서 menu 컬럼 하나만 선택하여 그 결과를 출력하고, 해당 데이터의 **타입(type)**이 무엇인지 확인하세요.

### Hints

- DataFrame에서 특정 컬럼 하나를 선택할 때는 ['컬럼명'] 또는 .컬럼명 방식을 사용합니다.

- 파이썬 내장 함수인 type() 안에 선택한 데이터를 넣으면 객체의 종류(Series인지 DataFrame인지)를 알 수 있습니다.

- 핵심 개념: DataFrame은 여러 개의 무엇으로 구성되어 있을까요?

In [51]:
df["menu"]

0    Americano
1        Latte
2        Latte
3        Mocha
Name: menu, dtype: object

In [52]:
type(df["menu"])

pandas.core.series.Series

## [문제 2: 난이도 중] 형태가 다른 추출 (Series vs DataFrame)
- df에서 price 데이터를 가져오되, 한 번은 Series 형태로, 다른 한 번은 DataFrame 형태로 각각 추출하여 출력하세요. (총 2번 출력)

### Hints

- 대괄호 []를 한 번 감싸면 1차원 데이터인 Series가 반환됩니다.

- 대괄호 [[]]를 두 번 겹쳐서 감싸면 2차원 데이터인 DataFrame이 유지됩니다.

- 출력된 결과의 모양(행/열 구조 및 헤더 유무)이 어떻게 다른지 눈으로 비교해 보세요.

In [53]:
df["price"]

0    4500
1    5000
2    5000
3    5500
Name: price, dtype: int64

In [54]:
df[["price"]]

Unnamed: 0,price
0,4500
1,5000
2,5000
3,5500


## [문제 3: 난이도 상] DataFrame의 3대 요소 해부하기 (Anatomy)
- 우리가 만든 df는 크게 행(Index), 열(Columns), 그리고 **실제 값(Values)**의 3가지 요소로 이루어져 있습니다.

- df의 인덱스(Index), 컬럼명(Columns), **데이터 값(Values)**을 각각 따로 추출하여 출력해 보세요. (총 3번 출력)

### Hints

- 학습 자료의 '2-3. 데이터 타입(dtype) 등을 엿보기'  파트에서 df.columns를 확인했던 것을 떠올려보세요. 괄호 ()가 없는 **속성(Attribute)**을 사용해야 합니다.

- 행 번호는 .index, 열 이름은 .columns, 그리고 그 안의 알맹이(배열)는 .values 속성에 담겨 있습니다.

- 핵심 개념: 출력된 values의 결과가 리스트가 아닌 numpy array(배열) 형태라는 점에 주목하세요. 이것이 Pandas가 고속 연산을 할 수 있는 이유입니다.

In [55]:
df.index

RangeIndex(start=0, stop=4, step=1)

In [56]:
df.columns

Index(['menu', 'price', 'qty'], dtype='object')

In [57]:
df.values

array([['Americano', 4500, 2],
       ['Latte', 5000, 1],
       ['Latte', 5000, 3],
       ['Mocha', 5500, 1]], dtype=object)

# (B) 주제: dtype 확인 & 변환(to_numeric / astype / to_datetime)

In [58]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
  "date": ["2026-01-01", "2026/01/02", "not_a_date"],
  "price": ["4,500원", "5000", None],
  "qty": ["2", 1, None]
})

## [문제 1: 난이도 하] 현황 파악하기 (dtype 확인)
- 데이터 전처리의 첫 단추는 "현재 상태"를 아는 것입니다. df의 각 컬럼이 현재 어떤 데이터 타입으로 인식되고 있는지 확인해 보세요.

### Hints

- DataFrame의 속성(Attribute) 중 d로 시작하는 것을 사용하면 각 컬럼의 타입을 목록으로 볼 수 있습니다.

- 또는 df.info() 메서드를 사용하면 결측치 개수와 타입을 한눈에 볼 수 있습니다.

- 체크 포인트: 겉보기엔 날짜와 숫자지만, Pandas는 현재 이들을 어떤 타입(object 등)으로 보고 있나요?

In [59]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    3 non-null      object
 1   price   2 non-null      object
 2   qty     2 non-null      object
dtypes: object(3)
memory usage: 204.0+ bytes


## [문제 2: 난이도 중] 숫자 만들기 (특수문자 제거 및 변환)
- price 컬럼을 계산 가능한 숫자(정수 또는 실수) 타입으로 변환하려고 합니다. 하지만 "4,500원" 같은 문자열 때문에 바로 변환되지 않습니다. 방해되는 글자들(',', '원')을 먼저 제거한 후 숫자로 변환해 보세요.

### Hints

- 컬럼의 문자열을 다룰 때는 .str 접근자(Accessor)를 먼저 호출해야 합니다.

- 문자를 다른 문자로 바꾸거나 없앨 때는 .replace('찾을값', '바꿀값')을 사용합니다. (팁: '바꿀값'에 빈 문자열 ""을 넣으면 삭제 효과가 납니다.)

- 청소가 끝난 후, .astype() 메서드나 pd.to_numeric() 함수를 사용해 타입을 확정 지으세요.

In [60]:
df["price"] = (
    df["price"]
    .astype("string")
    .str.replace(",", "")
    .str.replace("원", "")
)
df["price"] = pd.to_numeric(df["price"],errors="coerce")
df["price"] = df["price"].fillna(0)
df

Unnamed: 0,date,price,qty
0,2026-01-01,4500,2.0
1,2026/01/02,5000,1.0
2,not_a_date,0,


## [문제 3: 난이도 상] 날짜 만들기 (에러 데이터 처리)
- date 컬럼을 날짜(datetime) 타입으로 변환하세요. 단, "not_a_date"라는 이상한 값이 섞여 있어 일반적인 방법으로는 에러가 발생합니다. 이 값을 **강제로 'NaT'(Not a Time, 날짜형 결측치)**로 처리하여 에러 없이 변환해 보세요.

### Hints

- 날짜 변환에는 pd.to_datetime() 함수가 가장 강력합니다. 2. 변환 불가능한 값(예: "not_a_date")을 만났을 때, 멈추지 않고 '무시'하거나 '결측치로 강제 변환'하게 만드는 옵션(errors=...)이 있습니다. 


- 공유해주신 학습 자료 3페이지의 '문제 있는 데이터를 문자 가능하게 고치기' 코드를 참고하면 힌트를 얻을 수 있습니다.

In [61]:
df["date"]=pd.to_datetime(df["date"],errors="coerce", format="mixed")
df["date"]=df["date"].ffill().bfill()
df

Unnamed: 0,date,price,qty
0,2026-01-01,4500,2.0
1,2026-01-02,5000,1.0
2,2026-01-02,0,


In [62]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
  "menu": ["Americano", "Latte", "Latte", "Mocha", "Tea"],
  "price": [4500, 5000, None, 5500, 4000],
  "qty": [2, None, 3, 1, 1]
})

## [문제 1: 난이도 하] 결측치 탐지 (범인 찾기)
- 데이터프레임 전체에서 각 컬럼별로 결측치(NaN)가 몇 개씩 있는지 확인하세요.

### Hints   
- 1. 값이 비어있는지 확인하는 함수는 .isnull() 또는 .isna()입니다.  
- 2. True(1)와 False(0)로 변환된 결과에 합계 함수 .sum()을 붙이면 개수를 셀 수 있습니다.  
- 3. 체크 포인트: price와 qty 컬럼에 각각 1개씩 결측치가 나와야 정답입니다.

In [63]:
df.isna().sum()

menu     0
price    1
qty      1
dtype: int64

In [64]:
df["price"].isna().sum()

np.int64(1)

## [문제 2: 난이도 중] 전략 1: 제거(Drop) 후 통계 확인
- "불완전한 데이터는 아예 쓰지 않겠다"는 전략입니다. 결측치가 **하나라도 포함된 행(Row)**을 모두 삭제한 뒤, 살아남은 데이터들의 price 평균을 구하세요.

### Hints

- 결측치를 삭제(Drop)하는 메서드는 .dropna()입니다. (기본 설정이 how='any'라 하나만 비어도 삭제됩니다.)

- 삭제 후 .mean()을 사용하여 평균을 구하세요.

- 생각해 볼 점: 총 5개의 데이터 중 몇 개가 남았나요? 데이터 손실이 분석에 어떤 영향을 줄지 고민해 보세요.

In [65]:
df_dropped=df.dropna()
print(df_dropped)
print(df_dropped["price"].mean())

        menu   price  qty
0  Americano  4500.0  2.0
3      Mocha  5500.0  1.0
4        Tea  4000.0  1.0
4666.666666666667


## [문제 3: 난이도 상] 전략 2: 대체(Imputation) 후 통계 비교
- 이번에는 "데이터를 살려서 써보자"는 전략입니다.

- price의 결측치는 현재 존재하는 값들의 평균으로 채우고,

- qty의 결측치는 0으로 채우세요.

- 그 후, 보정된 데이터의 price 평균을 구하여 문제 2번(삭제 전략)의 결과와 값이 어떻게 다른지 비교해 보세요.

### Hints 
- 1. 결측치를 특정 값으로 채우는 메서드는 .fillna()입니다. 
- 2. price 평균을 채울 때는 df["price"].mean() 값을 .fillna() 안에 넣어주면 됩니다. 
- 3. 핵심 비교: 문제 2번(삭제 시 평균)과 문제 3번(채움 시 평균) 중 어떤 값이 더 전체 데이터를 잘 대변한다고 생각하시나요?

In [66]:
df_imputated=df.copy()
df_imputated["price"]=df_imputated["price"].fillna(df_imputated["price"].mean())
df_imputated["qty"]=df_imputated["qty"].fillna(0)
print(df_imputated)
print(df_imputated["price"].mean())

        menu   price  qty
0  Americano  4500.0  2.0
1      Latte  5000.0  0.0
2      Latte  4750.0  3.0
3      Mocha  5500.0  1.0
4        Tea  4000.0  1.0
4750.0


In [67]:
import pandas as pd

df = pd.DataFrame({
  "date": ["2026-01-01", "2026-01-01", "2026-01-02", "2026-01-03"],
  "menu": ["Americano", "Latte", "Latte", "Mocha"],
  "price": [4500, 5000, 5000, 5500],
  "qty": [2, 1, 2, 1]
})

[문제 1: 난이도 하] 파생 피처(Sales) 만들기
현재 데이터에는 단가(price)와 판매량(qty)만 있고, 총 매출액 정보가 없습니다. 두 컬럼을 곱하여 sales라는 새로운 컬럼(파생 피처)을 생성하고, df를 출력하여 잘 만들어졌는지 확인하세요.

Hints

새로운 컬럼을 만들 때는 df['새컬럼명'] = ... 형식을 사용합니다.

Pandas에서는 df['A'] * df['B']처럼 컬럼끼리 사칙연산을 하면 같은 행(Row)끼리 알아서 계산해 줍니다. (벡터화 연산)

핵심: 이 sales 컬럼이 있어야 뒤에서 '매출' 관련 집계를 할 수 있습니다.

In [68]:
df["sales"]=df["price"]*df["qty"]
print(df["sales"])

0     9000
1     5000
2    10000
3     5500
Name: sales, dtype: int64


[문제 2: 난이도 중] 일별 매출액 집계 (날짜별 묶기)
카페 사장님이 "날짜별로 총 얼마치 팔렸는지(일 매출)" 궁금해하십니다. date 컬럼을 기준으로 데이터를 묶은 뒤, 각 날짜의 sales 합계(sum)를 구하세요.

Hints

특정 기준(여기서는 date)으로 데이터를 뭉칠 때는 .groupby('기준컬럼명')을 사용합니다.

묶은 그룹 객체에서 우리가 계산하고 싶은 건 오직 sales 컬럼입니다. (groupby(...)[['sales']])

마지막에 합계를 구하는 집계 함수 .sum()을 붙여주세요.

In [70]:
df.groupby("date")[["sales"]].sum()

Unnamed: 0_level_0,sales
date,Unnamed: 1_level_1
2026-01-01,14000
2026-01-02,10000
2026-01-03,5500


[문제 3: 난이도 상] 메뉴별 매출 순위 확인 (메뉴별 묶기 + 정렬)
이번에는 "어떤 메뉴가 효자 상품인지" 파악하려고 합니다. menu 컬럼을 기준으로 묶어서 sales의 합계를 구하고, 매출액이 높은 순서대로(내림차순) 정렬하여 출력하세요.

Hints

이번에는 묶는 기준(Key)이 menu가 되어야 합니다.

집계가 끝난 결과(Series 또는 DataFrame)에 .sort_values()를 연결하여 정렬할 수 있습니다.

핵심 옵션: 오름차순(작은 것부터)이 기본값이므로, 큰 값이 위로 오게 하려면 ascending=False 옵션을 추가해야 합니다.

In [75]:
df.groupby("menu")[["sales"]].sum().sort_values(by="sales", ascending=False)

Unnamed: 0_level_0,sales
menu,Unnamed: 1_level_1
Latte,15000
Americano,9000
Mocha,5500


In [76]:
import pandas as pd

df = pd.DataFrame({
  "menu": ["아메리카노", "라떼"],
  "sales": [9000, 5000]
})

[문제 1: 난이도 하] CSV 저장과 '한글 깨짐' 방지
df를 cafe.csv라는 이름으로 저장하려고 합니다. 단, 두 가지 조건을 만족해야 합니다.

조건 A: 엑셀에서 열었을 때 한글("아메리카노")이 깨지지 않아야 합니다.

조건 B: 저장된 파일을 열었을 때, 불필요한 **행 번호(0, 1)**가 파일에 포함되지 않아야 합니다.

Hints

CSV로 저장하는 함수는 .to_csv()입니다.

한글 방어: encoding 옵션에 "cp949" (윈도우 전용) 또는 "utf-8-sig" (범용) 중 하나를 설정해야 합니다.

번호 삭제: DataFrame의 인덱스를 파일에 쓸지 말지 결정하는 index 옵션을 False로 꺼야 합니다.

In [84]:
df.to_csv("cafe.csv",index=False, encoding = "utf-8-sig")
df_csv = pd.read_csv("cafe.csv")
df_csv

Unnamed: 0,menu,sales
0,아메리카노,9000
1,라떼,5000


[문제 2: 난이도 중] JSON 저장과 '구조(Format)' 변경
이번에는 웹 개발자에게 데이터를 전달하기 위해 cafe.json 파일로 저장하려 합니다. 기본 설정대로 저장하면 개발자가 보기 힘든 구조가 됩니다. 데이터가 [{"menu": "아메리카노", ...}, {"menu": "라떼", ...}] 처럼 리스트 안에 딕셔너리(Key:Value)가 들어있는 형태로 저장되도록 옵션을 설정하세요.

(추가로, JSON 파일 안에서도 한글이 \u... 처럼 보이지 않고 그대로 보이게 설정해 보세요.)

Hints

JSON으로 저장하는 함수는 .to_json()입니다.

구조 변경: 데이터의 방향(가로/세로/레코드 단위 등)을 결정하는 orient 옵션에 **"records"**를 지정해 보세요.

한글 유지: 아스키코드(ASCII) 강제 변환을 막는 force_ascii 옵션을 False로 설정해야 합니다.

In [89]:
df.to_json("cafe.json",index=False,orient="records",force_ascii=False)
df_json=pd.read_json("cafe.json")
df_json

Unnamed: 0,menu,sales
0,아메리카노,9000
1,라떼,5000


[문제 3: 난이도 상] "옵션은 왜 설정해야 할까?" (불러오기 비교)
이 문제는 코드를 작성하고 이유를 서술하는 문제입니다.

df를 index=False 옵션 없이 그냥 test.csv로 저장하세요.

저장된 test.csv를 pd.read_csv()로 다시 불러와서 출력해 보세요.

[질문] 불러온 데이터에 **원래 없던 이상한 컬럼(Unnamed: 0)**이 하나 생겼을 겁니다.

이 컬럼은 왜 생겼으며, 이를 방지하기 위해 저장할 때 혹은 불러올 때 어떤 조치를 취해야 할까요?

Hints

to_csv의 기본값은 index=True입니다. 즉, 현재 DataFrame의 행 번호(0, 1)를 굳이 파일에 적어서 보냅니다.

read_csv는 파일에 적힌 모든 콤마(,) 구분자를 데이터로 인식합니다.

해결책: 저장할 때 인덱스를 끄거나(index=False), 불러올 때 "첫 번째 기둥은 인덱스로 써!"라고 알려주는 옵션(index_col=0)이 필요합니다.

In [94]:
df.to_csv("test.csv",encoding="utf-8-sig")
df_test=pd.read_csv("test.csv",index_col=0)
df_test

## 저장할 때 Unnamed 인덱스 열을 제외하기 위해 index=False를 기입해야 한다.
## 또는, 불러올 때, 인덱스 열을 지정하기 위해 index_col=0을 기입한다.

Unnamed: 0,menu,sales
0,아메리카노,9000
1,라떼,5000
