# Pandas
-----
## 03. 데이터 로딩 및 저장

### CSV 파일
- CSV (Comma Separated Values)
    - 데이터를 쉼표(,)로 구분하여 저장하는 간단한 텍스트 파일 형식
    - 각 줄은 데이터 레코드를 나타내며, 각 열은 해당 레코드의 속성을 의미
    - 첫 번째 줄은 열 이름(헤더)으로 사용됩니다.
    - 데이터 교환과 공유를 위해 널리 사용되며 스프레드시트 프로그램에서도 지원


### CSV 파일 다루기
- CSV 파일 불러오기 : read_csv

In [2]:
import pandas as pd

# CSV 파일을 읽어와서 DataFrame 객체로 만들기
# thieves_df = pd.read_csv("../data/thieves.txt")
# thieves_df = pd.read_csv("../data/thieves.txt", sep="\t")
# thieves_df = pd.read_csv("../data/thieves.txt", sep="\t", header=None)
thieves_df = pd.read_csv("../data/thieves.txt", sep="\t", header=None, index_col=0)

# 데이터 프레임의 컬럼 명을 바꿔봅니다.
thieves_df.columns  = ["Height", "Weight"]
# 데이터프레임 인덱스의 이름을 바꿔 봅니다.
thieves_df.index.name = "Name"

print(thieves_df)

      Height  Weight
Name                
홍길동    175.8    73.2
전우치    170.2    66.3
임꺽정    186.7    88.2
장길산    188.3    90.0


- CSV 파일로 저장하기 : to_csv

In [3]:
import pandas as pd
import os
if not os.path.exists("../generated"):
    os.makedirs("../generated")
thieves_df.to_csv("../generated/thieves.csv", encoding="utf-8")

### Excel 파일
- Excel 파일 다루기
    - Excel 파일 불러오기 : read_excel
    - Excel 파일로 저장하기 : to_excel

In [4]:
import pandas as pd

# Excel 파일을 읽어와서 DataFrame 객체로 만들기
xl_df = pd.read_excel("../data/mtcars.xlsx")
xl_df

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
7,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
8,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
9,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


In [5]:
import os

if not os.path.exists("../generated"):
    os.makedirs("../generated")

xl_df.to_excel("../generated/mtcars2.xlsx", sheet_name="엑셀 저장 테스트")

### 데이터베이스 다루기
- 데이터베이스에 데이터프레임 저장하기 : to_sql

In [6]:
import pandas as pd
import sqlite3
import os

mtcars = pd.read_excel("../data/mtcars.xlsx")

dbdir = "../database"

if not os.path.exists(dbdir):
    os.makedirs(dbdir)
    
# sqlite 데이터베이스 파일 생성 또는 연결
conn = sqlite3.connect("../database/example.db")

# 데이터프레임을 SQLite 데이터베이스의 테이블로 저장하기
mtcars.to_sql("mtcars", conn, if_exists="replace")

# SQLite 데이터베이스 접속 종료
conn.close()


- 데이터베이스에서 데이터프레임 읽어오기 : read_sql

In [7]:
import pandas as pd
import sqlite3

# 데이터베이스에 접속
conn = sqlite3.connect("../database/example.db")

# SQL 쿼리 결과를 데이터프레임으로 설정
query = "SELECT * FROM mtcars"
dataframe = pd.read_sql(query, conn)

dataframe

Unnamed: 0,index,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
5,5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
6,6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
7,7,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
8,8,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
9,9,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4
