# [ CSV 데이터 파일 다루기 ]
##### 1. csv
- csv 파일 : 쉼표로 구분한 파일
- TSV, SSV : Tab, Space로 구분한 파일
<hr>

In [43]:
# 기본 세팅
import pandas as pd

- 파일 이름 => 경로 + 파일명
- 경로 => 2가지 종류
    * 절대 경로 : 드라이브부터 파일까지의 전체 경로 (ex: C:\...\data.csv)
    * 상대 경로 : 현재 파일 기준으로 경로 설정
        - ./ : 현재 위치            (ex. ./a.txt)        => 동일한 폴더
        - ../ : 한 단계 상위 위치    (ex. ../Data/b.txt)  => 현재 폴더 밖에 존재   
- 상대 경로 사용을 권장

In [44]:
file = 'path_test.csv'
file = './path_test.csv'   # 두 가지가 사용 가능하고, ./ 을 권장

In [45]:
file2 = '../DATA/movies.csv'   # ../ : 상위 폴더로 올라가기 > 다른 폴더/파일 선택

In [46]:
movieDF = pd.read_csv(file2)
movieDF.info()  # 782행, 5열

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 782 entries, 0 to 781
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Rank    782 non-null    int64 
 1   Title   782 non-null    object
 2   Studio  782 non-null    object
 3   Gross   782 non-null    object
 4   Year    782 non-null    int64 
dtypes: int64(2), object(3)
memory usage: 30.7+ KB


In [47]:
# 데이터 확인
print(movieDF.head(), movieDF.tail(), sep='\n\n') 

# => 판단: Year가 int이고 Rank를 index로 쓰면 되겠다

   Rank                         Title       Studio       Gross  Year
0     1             Avengers: Endgame  Buena Vista  $2,796.30   2019
1     2                        Avatar          Fox  $2,789.70   2009
2     3                       Titanic    Paramount  $2,187.50   1997
3     4  Star Wars: The Force Awakens  Buena Vista  $2,068.20   2015
4     5        Avengers: Infinity War  Buena Vista  $2,048.40   2018

     Rank                     Title           Studio     Gross  Year
777   778                 Yogi Bear  Warner Brothers  $201.60   2010
778   779       Garfield: The Movie              Fox  $200.80   2004
779   780               Cats & Dogs  Warner Brothers  $200.70   2001
780   781  The Hunt for Red October        Paramount  $200.50   1990
781   782                  Valkyrie              MGM  $200.30   2008


### (5) read_csv의 변수 사용하기

In [48]:
# [header] 파라미터 : DataFrame의 컬럼명 설정하는 파라미터
#   * 기본값 : csv 파일의 첫번째 라인의 데이터를 컬럼명으로 지정
#   * None  : csv 파일의 첫번째 라인이 컬럼명 아님을 의미 => 제목행이 없을 때
#   * int   : 번호 지정 시 해당 행 번호가 컬럼명으로 설정
#           => 해당 인덱스 윗열 모두가 사라짐!

pd.read_csv(file2, header=None)    # header 를 사용하지 않는다

Unnamed: 0,0,1,2,3,4
0,Rank,Title,Studio,Gross,Year
1,1,Avengers: Endgame,Buena Vista,"$2,796.30",2019
2,2,Avatar,Fox,"$2,789.70",2009
3,3,Titanic,Paramount,"$2,187.50",1997
4,4,Star Wars: The Force Awakens,Buena Vista,"$2,068.20",2015
...,...,...,...,...,...
778,778,Yogi Bear,Warner Brothers,$201.60,2010
779,779,Garfield: The Movie,Fox,$200.80,2004
780,780,Cats & Dogs,Warner Brothers,$200.70,2001
781,781,The Hunt for Red October,Paramount,$200.50,1990


In [49]:
# [index_col] 파라미터 : 컬럼 중에서 행 인덱스로 설정
#   * set_index( )와 동일
#   * index 는 unique 한 열로 해야한다 (중복X)

pd.read_csv(file2, index_col='Rank')
pd.read_csv(file2, index_col=['Rank', 'Title'])  # 멀티 인덱스로 가능하다

Unnamed: 0_level_0,Unnamed: 1_level_0,Studio,Gross,Year
Rank,Title,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Avengers: Endgame,Buena Vista,"$2,796.30",2019
2,Avatar,Fox,"$2,789.70",2009
3,Titanic,Paramount,"$2,187.50",1997
4,Star Wars: The Force Awakens,Buena Vista,"$2,068.20",2015
5,Avengers: Infinity War,Buena Vista,"$2,048.40",2018
...,...,...,...,...
778,Yogi Bear,Warner Brothers,$201.60,2010
779,Garfield: The Movie,Fox,$200.80,2004
780,Cats & Dogs,Warner Brothers,$200.70,2001
781,The Hunt for Red October,Paramount,$200.50,1990


In [51]:
# [ sep / delimiter ] : csv 파일에서 데이터 구분자 설정
#   * 기본값 : 쉼표
#   * sep='구분자'      (예: sep=';')

pd.read_csv(file, header=None, sep=';')

Unnamed: 0,0,1,2,3
0,10,20,30,40
1,1,2,3,4
2,5,6,7,8


In [63]:
# [ skiprows ] : csv 파일에 읽어 들이지 않을 행 번호를 지정
#   * 예: 파일 내 제목, 개요 등이 있을 때

pd.read_csv('title_example.csv', skiprows=2, skipfooter=2, header=None, engine='python')
# skiprows=2 로 2행까지 무시
# header=None 으로 제목행 되는 걸 방지

# [ skipfooter ] : 읽어들이지 않을 행 번호를 지정
# skipfooter=2 로 끝에서 2행을 무시 => 공백도 포함!
#    * engine=python = warning, 메시지따라 파라미터로 적어주면 좋음

Unnamed: 0,0,1,2,3,4
0,12,123,122,543,234
1,4567,67,56,45,345


In [66]:
# [ usecols ] : 지정된 열만 가져옴
pd.read_csv(file2, usecols=['Rank', 'Year'])
pd.read_csv(file2, usecols=[0,4])        # 컬럼명, 컬럼 위치 모두 사용 가능

Unnamed: 0,Rank,Year
0,1,2019
1,2,2009
2,3,1997
3,4,2015
4,5,2018
...,...,...
777,778,2010
778,779,2004
779,780,2001
780,781,1990


In [None]:
# Fin