In [1]:
# 데이터 준비
import pandas as pd

df = pd.DataFrame({
    "메뉴": ['아메리카노', '카페라떼', '카페모카', '카푸치노', '에스프레소', '밀크티', '녹차'],
    "가격": [4500, 5000, 5500, 5000, 4000, 5900, 5300],
    "칼로리": [10, 110, 250, 110, 20, 210, 0],
})
df

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500,10
1,카페라떼,5000,110
2,카페모카,5500,250
3,카푸치노,5000,110
4,에스프레소,4000,20
5,밀크티,5900,210
6,녹차,5300,0


In [3]:
# CSV 파일(인덱스 포함)
df.to_csv("cafe_index.csv") # CSV파일로 내보내기
temp = pd.read_csv("cafe_index.csv") # CSV파일 가져오기
temp.head()

Unnamed: 0.1,Unnamed: 0,메뉴,가격,칼로리
0,0,아메리카노,4500,10
1,1,카페라떼,5000,110
2,2,카페모카,5500,250
3,3,카푸치노,5000,110
4,4,에스프레소,4000,20


In [6]:
# CSV 파일(인덱스 제외)
df.to_csv("cafe2.csv", index=False)
df2 = pd.read_csv("cafe2.csv")
df2.head()

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500,10
1,카페라떼,5000,110
2,카페모카,5500,250
3,카푸치노,5000,110
4,에스프레소,4000,20


In [7]:
# CSV 파일(구분자 지정)
df.to_csv("cafe_semicolon.csv", sep=";", index=False)
df3 = pd.read_csv("cafe_semicolon.csv", sep=";")
df3.head()

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500,10
1,카페라떼,5000,110
2,카페모카,5500,250
3,카푸치노,5000,110
4,에스프레소,4000,20


In [None]:
# CSV 파일(특정 컬럼만 저장)
df.to_csv("cafe_menu_price.csv", columns=["메뉴", "가격"], index=False)
pd.read_csv("cafe_menu_price.csv").head()

In [8]:
# CSV 파일(인코딩 옵션-한글깨짐 방지)
# 윈도우 환경에서 한글을 Excel로 열 경우 utf-8-sig 권장
df.to_csv("cafe_utf8.csv", index=False, encoding="utf-8-sig")

In [11]:
# Excel로 저장
df.to_excel("cafe.xlsx", index=False, sheet_name="메뉴판")

# Excel 불러오기
df_xls = pd.read_excel("cafe.xlsx", sheet_name="메뉴판")
df_xls.head()

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500,10
1,카페라떼,5000,110
2,카페모카,5500,250
3,카푸치노,5000,110
4,에스프레소,4000,20


In [13]:
# Json으로 저장
# force_ascii=True -> 아스키코드기준 값 ( False로 해야 한글 인식가능)
# orient="values" -> 배열 안에 배열 형태 [["", "", ...], [], ...]
df.to_json("cafe.json", orient="records", force_ascii=False)

# Json 불러오기
df_json = pd.read_json("cafe.json")
df_json.head()

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500,10
1,카페라떼,5000,110
2,카페모카,5500,250
3,카푸치노,5000,110
4,에스프레소,4000,20


In [15]:
# Pickle 파일 - 메모장으로 열려고 하면 보이지 않음 -> Pandas 전용 포맷
df.to_pickle("cafe.pkl")

df_pkl = pd.read_pickle("cafe.pkl")
df_pkl.head()

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500,10
1,카페라떼,5000,110
2,카페모카,5500,250
3,카푸치노,5000,110
4,에스프레소,4000,20


In [18]:
# 헤더 제거하고 저장
df.to_csv("cafe_noheader.csv", index=False, header=False)
# 첫번째 행을 헤더로 사용하지 X
df_noheader = pd.read_csv("cafe_noheader.csv", header=None)
df_noheader.head()

Unnamed: 0,0,1,2
0,아메리카노,4500,10
1,카페라떼,5000,110
2,카페모카,5500,250
3,카푸치노,5000,110
4,에스프레소,4000,20


In [19]:
# 특정 컬럼을 인덱스로 저장 후 불러오기
# 인덱스 컬럼 대신 메뉴로 
df.to_csv("cafe_index_menu.csv", index=False)
df_indexed = pd.read_csv("cafe_index_menu.csv", index_col="메뉴")
df_indexed.head()

Unnamed: 0_level_0,가격,칼로리
메뉴,Unnamed: 1_level_1,Unnamed: 2_level_1
아메리카노,4500,10
카페라떼,5000,110
카페모카,5500,250
카푸치노,5000,110
에스프레소,4000,20


In [46]:
# 문제1
df.to_csv("cafe_basic.csv")
df_basic = pd.read_csv("cafe_basic.csv")
# 문제2
df.to_csv("cafe_no_index.csv", index=False)
df_no_index = pd.read_csv("cafe_no_index.csv")
# 문제3
df.to_csv("cafe_menu_price.csv", columns=['메뉴','가격'], index=False)

# 문제4
df_sc = df.to_csv("cafe_sc.csv", sep=";")

# 문제5
df.to_csv("cafe_utf8.csv", encoding="utf-8-sig")

# 문제6
df_noheader = df.to_csv("cafe_noheader.csv", header=None)

In [29]:
# 문제7
df_named = pd.read_csv("cafe_noheader.csv", header=None, names=['메뉴', '가격', '칼로리'])
df_named.head()

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500,10
1,카페라떼,5000,110
2,카페모카,5500,250
3,카푸치노,5000,110
4,에스프레소,4000,20


In [31]:
# 문제8
df_idx = pd.read_csv("cafe_no_index.csv", index_col="메뉴")
df_idx.head()

Unnamed: 0_level_0,가격,칼로리
메뉴,Unnamed: 1_level_1,Unnamed: 2_level_1
아메리카노,4500,10
카페라떼,5000,110
카페모카,5500,250
카푸치노,5000,110
에스프레소,4000,20


In [50]:
# 문제9 - 자료형 지정한 후 읽기
df = pd.DataFrame({
    "메뉴": ['아메리카노', '카페라떼', '카페모카', '카푸치노', '에스프레소', '밀크티', '녹차'],
    "가격": ['4500', '5000', '5500', '5000', '4000', '5900', '5300'],
    "칼로리": [10, 110, 250, 110, 20, 210, 0],
})
# 가격 -> 문자열형태로
df.info() # 가격 : object 확인
# 파일 자체에 자료형을 바꾸기 위해서는 dtype
# df_types = pd.read_csv("cafe_basic.csv", dtype={"가격": "int64", "칼로리": "float64"})
# 현재 csv로 저장한 cafe_basic의 info를 살펴보면 가격이 이미 int로 변경되어있음
# --> df 자료형 자체를 변경
df['가격'] = df['가격'].astype('int64')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   메뉴      7 non-null      object
 1   가격      7 non-null      object
 2   칼로리     7 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 300.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   메뉴      7 non-null      object
 1   가격      7 non-null      int64 
 2   칼로리     7 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 300.0+ bytes


In [55]:
# 문제10 - 결측치 기호 지정
# 임의로 데이터 결측치 생성해주기
df = pd.DataFrame({
    "메뉴": ['아메리카노', '카페라떼', '카페모카', '카푸치노', '에스프레소', '밀크티', '녹차'],
    "가격": ['4500', 'NA', '5500', '5000', '-', '5900', '-'],
    "칼로리": [10, 110, 250, 110, 20, 210, 0],
})
# df # 확인
df.to_csv("cafe_test.csv", index=False)
cafe_test_df = pd.read_csv("cafe_test.csv", na_values=['NA', '-']) # NA, - : 결측치로 처리
cafe_test_df # 결측치가 NaN 처리된 것 확인


Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500.0,10
1,카페라떼,,110
2,카페모카,5500.0,250
3,카푸치노,5000.0,110
4,에스프레소,,20
5,밀크티,5900.0,210
6,녹차,,0


In [56]:
# 문제11 - gzip 압축 저장 후 불러오기
df = pd.DataFrame({
    "메뉴": ['아메리카노', '카페라떼', '카페모카', '카푸치노', '에스프레소', '밀크티', '녹차'],
    "가격": [4500, 5000, 5500, 5000, 4000, 5900, 5300],
    "칼로리": [10, 110, 250, 110, 20, 210, 0],
})
df.to_csv("cafe.csv.gz", index=False, compression="gzip")
df_gz = pd.read_csv("cafe.csv.gz", compression="gzip")

In [32]:
# 문제12
df.to_excel("cafe_book.xlsx", sheet_name="메뉴판")

In [34]:
# 문제13 - 다중시트 저장
with pd.ExcelWriter("cafe_multi.xlsx") as writer:
    print(writer)
    df.to_excel(writer, sheet_name="전체", index=False)
    low_cal = df[df['칼로리'] <= 100] # 전체 컬럼 나오도록 열지정은 X
    low_cal.to_excel(writer, sheet_name="저칼로리", index=False)

# with 구문 없이 사용
writer = pd.ExcelWriter("cafe_multi.xlsx")
df.to_excel(writer, sheet_name="전체", index=False)
low_cal = df[df['칼로리'] <= 100] # 전체 컬럼 나오도록 열지정은 X
low_cal.to_excel(writer, sheet_name="저칼로리", index=False)
writer.close()

In [35]:
# 문제14
df_low = pd.read_excel("cafe_multi.xlsx", sheet_name="저칼로리")
df_low

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500,10
1,에스프레소,4000,20
2,녹차,5300,0


In [37]:
# 문제 15
df.to_json("cafe.json", orient="records", force_ascii=False)

# 문제 16
df_json = pd.read_json("cafe.json")
df_json

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500,10
1,카페라떼,5000,110
2,카페모카,5500,250
3,카푸치노,5000,110
4,에스프레소,4000,20
5,밀크티,5900,210
6,녹차,5300,0


In [38]:
# 문제 17
df.to_pickle("cafe.pkl")
df_pkl = pd.read_pickle("cafe.pkl")
df_pkl

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500,10
1,카페라떼,5000,110
2,카페모카,5500,250
3,카푸치노,5000,110
4,에스프레소,4000,20
5,밀크티,5900,210
6,녹차,5300,0


In [41]:
# 문제18 - 행 부분 저장
df.iloc[:3].to_csv("cafe_top3.csv", index=False)
df_top3 = pd.read_csv("cafe_top3.csv")
df_top3

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500,10
1,카페라떼,5000,110
2,카페모카,5500,250


In [43]:
# 문제19
df.rename(columns={'가격':'price', '칼로리':'kcal'}).to_csv("cafe_renamed.csv", index=False)

In [44]:
# 문제20
df[df['칼로리'] > 100].to_csv("cafe_high_kcal.csv", index=False)