## [ CSV 데이터 파일 다루기 ]

(1) 모듈 로딩 <hr>

In [75]:
import pandas as pd

(2) 데이터 준비 <hr>

- 파일 이름 => 경로 + 파일명
- 경로 => 2가지 종류
    * 절대 경로 : 드라이브부터 파일까지의 전체 경로 (ex: C:\Users\data\a.txt)
    * 상대 경로 : 현재 파일을 기준으로 경로 설정
        - ./ : 현재 위치 (예: ./a.csv, a.csv => 현재 파일과 동일한 폴더/위치에 존재 )
        - ../ : 한 단계 위로 의미 (예: ../Data/b.csv => 현재 파일이 존재하는 폴더 밖에 존재하는 파일)

In [76]:
file='./test.csv'      # file = 'test.txt'   동일 의미

In [77]:
file2='../DATA/movies.csv'

(3) 데이터 저장 : CSV => DataFrame

In [78]:
movieDF=pd.read_csv(file2)

(4) 데이터 확인

In [79]:
# 전체적인 데이터 정보 확인 => info() 메서드
movieDF.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 782 entries, 0 to 781
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Rank    782 non-null    int64 
 1   Title   782 non-null    object
 2   Studio  782 non-null    object
 3   Gross   782 non-null    object
 4   Year    782 non-null    int64 
dtypes: int64(2), object(3)
memory usage: 30.7+ KB


In [80]:
# 실제 저장된 데이터 확인 => head(), tail()
print(movieDF.head(), movieDF.tail(), sep='\n\n')

   Rank                         Title       Studio       Gross  Year
0     1             Avengers: Endgame  Buena Vista  $2,796.30   2019
1     2                        Avatar          Fox  $2,789.70   2009
2     3                       Titanic    Paramount  $2,187.50   1997
3     4  Star Wars: The Force Awakens  Buena Vista  $2,068.20   2015
4     5        Avengers: Infinity War  Buena Vista  $2,048.40   2018

     Rank                     Title           Studio     Gross  Year
777   778                 Yogi Bear  Warner Brothers  $201.60   2010
778   779       Garfield: The Movie              Fox  $200.80   2004
779   780               Cats & Dogs  Warner Brothers  $200.70   2001
780   781  The Hunt for Red October        Paramount  $200.50   1990
781   782                  Valkyrie              MGM  $200.30   2008


(5) read_csv 파일 매개변수 살펴보기 <hr>

- header 파라미터 : DataFrame의 컬럼명 설정하는 파라미터
    * 기본값 : csv 파일의 첫번째 라인의 데이터를 컬럼명으로 설정
    * None : csv 파일의 첫번째 라인이 컬럼명 아님 의미 => 컬럼명 미지정
    * 행번호 : csv 파일의 행번호 라인이 컬럼명으로 설정, 그 이전 행 번호 데이터는 사라짐!

In [81]:
pd.read_csv(file2, header=3)

Unnamed: 0,3,Titanic,Paramount,"$2,187.50",1997
0,4,Star Wars: The Force Awakens,Buena Vista,"$2,068.20",2015
1,5,Avengers: Infinity War,Buena Vista,"$2,048.40",2018
2,6,Jurassic World,Universal,"$1,671.70",2015
3,7,Marvel's The Avengers,Buena Vista,"$1,518.80",2012
4,8,Furious 7,Universal,"$1,516.00",2015
...,...,...,...,...,...
774,778,Yogi Bear,Warner Brothers,$201.60,2010
775,779,Garfield: The Movie,Fox,$200.80,2004
776,780,Cats & Dogs,Warner Brothers,$200.70,2001
777,781,The Hunt for Red October,Paramount,$200.50,1990


- index_col 파라미터 : 컬럼 중에서 행 인덱스로 설정, set_index()와 동일 역할

In [82]:
#pd.read_csv(file2, index_col=['Rank', 'Title'])    # 멀티 인덱스
pd.read_csv(file2, index_col='Rank')               # 단일 인덱스

Unnamed: 0_level_0,Title,Studio,Gross,Year
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Avengers: Endgame,Buena Vista,"$2,796.30",2019
2,Avatar,Fox,"$2,789.70",2009
3,Titanic,Paramount,"$2,187.50",1997
4,Star Wars: The Force Awakens,Buena Vista,"$2,068.20",2015
5,Avengers: Infinity War,Buena Vista,"$2,048.40",2018
...,...,...,...,...
778,Yogi Bear,Warner Brothers,$201.60,2010
779,Garfield: The Movie,Fox,$200.80,2004
780,Cats & Dogs,Warner Brothers,$200.70,2001
781,The Hunt for Red October,Paramount,$200.50,1990


- sep/ delimiter : CSV 파일에서 데이터 구분자 설정
    * 기본값 : 쉼표(,)

In [83]:
pd.read_csv(file2, sep=';').info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 782 entries, 0 to 781
Data columns (total 1 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Rank,Title,Studio,Gross,Year  782 non-null    object
dtypes: object(1)
memory usage: 6.2+ KB


In [84]:
pd.read_csv(file, header=None, sep=';')

ParserError: Error tokenizing data. C error: Expected 1 fields in line 4, saw 4


- skip_rows: csv 파일에 읽어 들이지 않을 행 개수를 지정하기 => 앞부분
- skipfooter : csv 파일에 읽어 들이지 않을 행 개수를 지정하기 => 뒷부분

In [97]:
pd.read_csv(file, sep=';', skiprows=3, header=None)

Unnamed: 0,0,1,2,3
0,10,20,30,40
1,1,2,3,4
2,11,22,33,44


In [98]:
pd.read_csv(file, sep=';', skiprows=3, header=None, skipfooter=2, engine='python')

Unnamed: 0,0,1,2,3
0,10,20,30,40


- usecols : 컬럼에서 특정 컬럼만 선택해서 로딩함
    * usecols=[0,2, ...]
    * usecols=['컬럼명1', '컬럼명n']

In [105]:
pd.read_csv(file, sep=';', skiprows=3, header=None, usecols=[0,2])

Unnamed: 0,0,2
0,10,30
1,1,3
2,11,33


In [106]:
pd.read_csv(file2, usecols=['Rank', 'Year'])
#pd.read_csv(file2, usecols=[0, 4])

Unnamed: 0,Rank,Year
0,1,2019
1,2,2009
2,3,1997
3,4,2015
4,5,2018
...,...,...
777,778,2010
778,779,2004
779,780,2001
780,781,1990
