# Reading and writing CSVs
> CSV란 

- 콤마로 분리된 값 일반적인 데이터 저장소 파일 유형 

- 판다스 df 처럼 데이블 형식 데이터를 저장하도록 설계

- 데이터의 각행에 자체 줄이 있고 각 값이 쉼표로 구분되는 텍스트 파일이다. 

- 거의 모든 데이터베이스 프로그래밍 언어 및 데이터 분석 소프트웨어가 csv 파일을 읽고 쓸 수 있다. 

In [1]:
import pandas as pd

### pd.read_csv - csv파일 불러오기

In [None]:
pd.read_csv("파일위치/파일경로") # sep 구분자 , na_valeues NA/NaN 로 인식되는 값을 문자열 Nothing으로 가져옴 

### df.to_csv -  데이터프레임을 csv에 저장 

In [None]:
df.to_csv("저장할 csv파일 경로")

### Reading a text file

In [None]:
filename = '.txt '
file = open(filename , mode = 'r') # r은 읽기만 하겠다. 
text = file.read() # read method를 적용하여 텍스트를 가변 텍스트에 할당 
file.close() # 파일에 대한 연결을 닫는다.
print(text)

In [None]:
filename = '.txt '
file = open(filename , mode = 'w') # w는 순서대로 파일을 열기  
text = file.read() # read method를 적용하여 텍스트를 가변 텍스트에 할당 
file.close() # 파일에 대한 연결을 닫는다.
print(text)

In [None]:
#파일이 열린 상태에서 명령을 실행할 수 있는 컨텍스트를 만들 수 있다. 이 절에서 벗어나면 파일은 열리지 않는다.

with open('.txt', 'r') as file :
    print(file.read()) 

### Importing Flat file using NumPy

Flat files 란 구조화된 관계가 없는 레코드 즉 테이블 데이터를 포함하는 기본 텍스트 파일   
숫자열과 문자열이 모두 포함된 플랫파일을 가져오기 (numpy,pandas)

In [None]:
# 모든 데이터가 숫자인 경우 numpy를 이용해 데이터를 numpy배열로 가져올 수 있다.

filename = '.txt'
df = np.loadtxt(filename , delimiter = ', ' , skiprows = 1 
                ,usecols = [0,2] ,dtype = str) # skiprow 1행을 건너뜀, usecols 원하는 열만 가져옴 

In [None]:
# 데이터가 숫자,문자 혼합되있을때 
np.genfromtxt('.csv', delimiter=',', names=True, dtype=None)
np.recfromcsv()

### Other files 

### Pickle 
pickle은 텍스트 상태의 데이터가 아닌 파이썬 객체 자체를 바이너리 파일로 저장하는 것이라고 한다.  


즉, 텍스트 형태로 파일을 저장하는 것이 아니라 dictionary, list, tuple과 같은 형태로 필요한 부분을 저장하는 것이다. 하지만 문자열이 아닌 객체를 파일에 쓸 수 없기 때문에 pickle 모듈을 활용해 그 객체 자체를 바이너리로 저장하는 것이라고 한다

In [None]:
import pickle 
with open ('pkl' ,'rb') as file : # rb 읽기전용과 바이너리를 모두 지정 
    df = pickle.load(file)
print(df)

### excel 

In [None]:
file = 'xlsx'
df = pd.ExcelFile(file)

# 엑셀파일은 시트로 구성되어 있으므로 가장 중요한 일은 시트가 무엇인지 파악 
print(df.sheet_names) # sheet 확인 

# 특정 시트를 데이터 프레임로드 , parsing method를 개체에 적용
df1 = df.parse()

# 예시 
# Parse the first sheet and rename the columns: df1
df1 = xls.parse(0, skiprows=[0], names=['Country', 'AAM due to War (2002)'])

# Print the head of the DataFrame df1
print(df1.head())

# Parse the first column of the second sheet and rename the column: df2
df2 = xls.parse(1, usecols=[0], skiprows=[0], names=['Country'])

# Print the head of the DataFrame df2
print(df2.head())

### Importing SAS/Stata files using pandas

In [None]:
from sas7bat import SAS7BDT 
with SAS7BAT('.sas7bat') as file :  # .sas7bat 각각 데이터세트 파일 및 카탈로그 파일 
    df_sas = file.to_data_frame() 

In [None]:
# stata 컨텍스트 관리자 초기화 없이 판다스로 바로 가져올수 있다.
df =  pd.read_stata(' .dta')

### Importing HDF5 files(Hierarchical Data Format version 5 )
대량의 수치 데이터를 저장하기 위한 표준 메커니즘 

In [None]:
import h5py
filename = '  .hdf5'
data = h5py.file(filename , 'r')

### Importing MATLAB files

In [None]:
# scipy 사용
import scipy.io
filename = ' .mat'
mat = scipy.io.loadmat(filename)

### Working with relational databases in Python

In [None]:
from sqlalchemy import create_engine # create_engine 쿼리를 데이터베이스에 전달하는 SQL엔진을 실행 
engine = create_engine('sqlite://   .sqlite') # sqlite를 예시로 사용

In [None]:
# getting table names
table_names = engine.table_names()
print(table_names)

In [None]:
#  Querying relational databases in Python

from sqlalchemy import create_engine # create_engine 쿼리를 데이터베이스에 전달하는 SQL엔진을 실행 
engine = create_engine('sqlite://   .sqlite') # sqlite를 예시로 사용
con  = engine.connect() # 엔진 생성후 데이터베이스에 연결
rs = con.execute("SELECT * FROM ORDERS") # 데이터베이스 연결 후 쿼리를 수행하기 위해 con에 execute method 적용하고 단일 인수 전달 
df = pd.DataFrame(rs.fetchall() ) # 결과 개체 rs를 DF로 전환 , fetchall 모든행을 가져옴 
df.colmns = rs.keys() # DF의 컬럼명을 일치 시켜줌 

con.close()

In [None]:
engine = create_engine('sqlite:///.sqlite')

with engine.connect() as con:
    rs = con.execute("SELECT OrderID, OrderDate, FROM Orders")
    df = pd.DataFrame(rs.fetchmany(size=5))
    df.columns = rs.keys()

In [None]:
# Querying relational databases directly with pandas

df = pd.read_sql_query("SELECT * FROM Orders" , engine) # 첫번째 인수는 쿼리 , 두번째 인수는 연결하려는 엔진 

df = pd.read_sql_query(
    "SELECT * FROM Employee WHERE EmployeeId >= 6 ORDER BY BirthDate",
    engine)

In [None]:
# Advanced querying: exploiting table relationships

with engine.connect() as con :
    rs = con.excute("SELECT Title, Name FROM Album INNER JOIN Arist on Album.Artist_ID = Artist.Artist_ID")
    df = pd.DataFrame(rs.fetchall())
    df.columns = rs.keys()

In [None]:
df = pd.read_sql_query(
    "SELECT * FROM PlaylistTrack INNER JOIN Track ON PlaylistTrack.TrackId = Track.TrackId WHERE Milliseconds < 250000",
    engine)