In [2]:
import pandas as pd

# CSV 파일을 불러와 pd.DataFrame으로 만들기
* **`pd.read_csv()` 함수** : csv 파일을 DataFrame으로 변경

In [3]:
file_path = 'https://github.com/wesm/pydata-book/raw/2nd-edition/examples/ex1.csv'
ex1_df = pd.read_csv(file_path)

In [4]:
ex1_df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


# DataFrame의 구조 파악하기

In [5]:
type(ex1_df)

pandas.core.frame.DataFrame

In [6]:
ex1_df.shape

(3, 5)

In [7]:
ex1_df.columns

Index(['a', 'b', 'c', 'd', 'message'], dtype='object')

In [8]:
ex1_df.index

RangeIndex(start=0, stop=3, step=1)

In [9]:
# pd.read_csv()가 파일의 데이터들을 스스로 적절한 데이터 타입으로 변환했음을 알 수 있다.
ex1_df.dtypes

a           int64
b           int64
c           int64
d           int64
message    object
dtype: object

# 컬럼 이름이 없는 CSV 파일을 불러오는 경우
* `pd.read_csv()` 함수는 csv 파일의 첫째 행을 컬럼 이름으로 생각함
* 만약 컬럼 이름이 없는 csv 파일인 경우, **header=None** 인수를 추가해 주어야 함
* **header=None** 인수 추가 시 : 임의의 컬럼 이름이 생겨나게 됨

## header=None

In [10]:
file_path = 'https://github.com/wesm/pydata-book/raw/2nd-edition/examples/ex2.csv'
ex2 = pd.read_csv(file_path, header = None)
ex2

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


## header=None으로 만든 컬럼이름을 개별 지정

In [11]:
ex2 = pd.read_csv(file_path, header = None,
               names = ['a', 'b', 'c', 'd', 'msg'])
ex2

Unnamed: 0,a,b,c,d,msg
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [12]:
# ex2 데이터프레임에서 msg 컬럼(변수)만 선택 시
ex2['msg']

0    hello
1    world
2      foo
Name: msg, dtype: object

# 공백으로 구분된 .txt 파일 불러오기
* **`\n`**: 줄바꿈(new line), **`\t`**: 탭(tab), **`\s`**: 공백(space)

In [17]:
file_path = 'https://github.com/wesm/pydata-book/raw/2nd-edition/examples/ex3.txt'
ex3 = pd.read_csv(file_path, sep = r'\s+') #> sep=r'\s+' : 한 개 이상의 공백을 value들의 구분자로 사용함
ex3

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [18]:
# 파일에서 컬럼이름이 없는 컬럼은 row의 index로 사용된다.
ex3.shape

(4, 3)

# 데이터 이외에 파일에 대한 설명(주석)을 가지고 있는 csv 파일
* **skiprows** 인수를 사용하여, 주석이 있는 줄을 건너 뛴다.

In [19]:
file_path = 'https://github.com/wesm/pydata-book/raw/2nd-edition/examples/ex4.csv'
ex4 = pd.read_csv(file_path, skiprows = (0, 2, 3))
ex4

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


# 파일 value들이 따옴표("")로 묶여있는 CSV 파일 불러오기

In [20]:
file_path = 'https://github.com/wesm/pydata-book/raw/2nd-edition/examples/ex7.csv'
ex7 = pd.read_csv(file_path)
ex7

Unnamed: 0,a,b,c
0,1,2,3
1,1,2,3


In [21]:
ex7.dtypes

a    int64
b    int64
c    int64
dtype: object

# DataFrame을 CSV파일로 저장하기.
* **`DataFrame.to_csv()` 메서드**

## 그냥 이 상태로 저장하기

In [22]:
# 디렉토리에 ex7.csv 파일이 저장됨
ex7.to_csv('ex7.csv')

## 컬럼 이름(header)을 지정하여 CSV 파일로 저장하기

In [23]:
ex7.to_csv('ex7_2.csv', header = ['col_1', 'col_2', 'col_3'])