# [CSV 데이터 파일 다루기]

(1) 모듈 로딩 <hr>

In [1]:
import pandas as pd

(2) 데이터 준비 <hr>

- 파일 이름 => 경로 + 파일명
- 경로 => 2가지 종류
    * 절대경로 : 드라이브로부터 파일까지의 전체 경로 (e.g., C:\Uers\data\a.txt)
    * 상대경로 : 현재 파일을 기준으로 경로 설정
        - ./  : 현재 위치한 폴더      (e.g., ./a.csv, a.csv)
        - ../ : 한 단계 위의 디렉토리 (e.g., ../Data/b.csv)

In [21]:
file = 'test.csv'    # file = './test.csv' 동일 의미

In [10]:
file2 = '../../DATA/movies.csv'

(3) 데이터 저장 (csv -> DataFrame) <hr>

In [11]:
movieDF = pd.read_csv(file2)

(4) 데이터 확인 <hr>

In [12]:
# 전체적인 데이터 정보
movieDF.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 782 entries, 0 to 781
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Rank    782 non-null    int64 
 1   Title   782 non-null    object
 2   Studio  782 non-null    object
 3   Gross   782 non-null    object
 4   Year    782 non-null    int64 
dtypes: int64(2), object(3)
memory usage: 30.7+ KB


In [13]:
movieDF.head()

Unnamed: 0,Rank,Title,Studio,Gross,Year
0,1,Avengers: Endgame,Buena Vista,"$2,796.30",2019
1,2,Avatar,Fox,"$2,789.70",2009
2,3,Titanic,Paramount,"$2,187.50",1997
3,4,Star Wars: The Force Awakens,Buena Vista,"$2,068.20",2015
4,5,Avengers: Infinity War,Buena Vista,"$2,048.40",2018


(5) read_csv 파일 매개변수 살펴보기 <hr>

* header 파라미터 : DataFrame의 컬럼명 설정하는 파라미터
    * 기본값 : csv 파일의 첫 번째 라인의 데이터를 컬컴용로 설정
    * Name : csv 파일의 첫 번째 라인이 컬럼명 아님 의미 => 컬럼명 미지정)
    * 행번호 : csv 파일의 행번로 라인이 컬럼명으로 설정, 그 이전 행 번호 데이터는 사라짐!

# pd.read_csv(file2, header=0)

- index_col 파라미터 : 컬럼 중에서 행 인덱스로 설정, set_index()와 동일 역할

In [17]:
pd.read_csv(file2, index_col='Rank')    # 단일 인덱스

Unnamed: 0_level_0,Title,Studio,Gross,Year
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Avengers: Endgame,Buena Vista,"$2,796.30",2019
2,Avatar,Fox,"$2,789.70",2009
3,Titanic,Paramount,"$2,187.50",1997
4,Star Wars: The Force Awakens,Buena Vista,"$2,068.20",2015
5,Avengers: Infinity War,Buena Vista,"$2,048.40",2018
...,...,...,...,...
778,Yogi Bear,Warner Brothers,$201.60,2010
779,Garfield: The Movie,Fox,$200.80,2004
780,Cats & Dogs,Warner Brothers,$200.70,2001
781,The Hunt for Red October,Paramount,$200.50,1990


In [18]:
pd.read_csv(file2, index_col=['Rank', 'Title'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Studio,Gross,Year
Rank,Title,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Avengers: Endgame,Buena Vista,"$2,796.30",2019
2,Avatar,Fox,"$2,789.70",2009
3,Titanic,Paramount,"$2,187.50",1997
4,Star Wars: The Force Awakens,Buena Vista,"$2,068.20",2015
5,Avengers: Infinity War,Buena Vista,"$2,048.40",2018
...,...,...,...,...
778,Yogi Bear,Warner Brothers,$201.60,2010
779,Garfield: The Movie,Fox,$200.80,2004
780,Cats & Dogs,Warner Brothers,$200.70,2001
781,The Hunt for Red October,Paramount,$200.50,1990


* sep/delimiter : CSV 파일에서 데이터 구분자 지정

In [20]:
pd.read_csv(file2, sep=';').head()

Unnamed: 0,"Rank,Title,Studio,Gross,Year"
0,"1,Avengers: Endgame,Buena Vista,""$2,796.30 "",2019"
1,"2,Avatar,Fox,""$2,789.70 "",2009"
2,"3,Titanic,Paramount,""$2,187.50 "",1997"
3,"4,Star Wars: The Force Awakens,Buena Vista,""$2..."
4,"5,Avengers: Infinity War,Buena Vista,""$2,048.4..."


* skiprows : csv 파일에서 읽어 들이지 않을 행 개수를 지정하기 (앞부분)
* skipfooter : csv 파일에서 읽어 들이지 않을 행 개수를 지정하기 (끝부분)

In [24]:
# pd.read_csv(file, sep=';')    # ParserError

In [31]:
pd.read_csv(file, sep=';', skiprows=3)

Unnamed: 0,1,2,3,4
0,10,20,30,40
1,11,22,33,44


In [30]:
pd.read_csv(file, sep=';', skiprows=3, header=None, skipfooter=2, engine='python')

Unnamed: 0,0,1,2,3
0,1,2,3,4


- usecols : 컬럼에서 특정 컬럼만 선택해서 로딩함  
    * usecols=[0, 2, ...]

In [37]:
pd.read_csv(file2, usecols=['Rank', 'Year'])

Unnamed: 0,Rank,Year
0,1,2019
1,2,2009
2,3,1997
3,4,2015
4,5,2018
...,...,...
777,778,2010
778,779,2004
779,780,2001
780,781,1990
