# 파일을 읽고 DataFrame 생성

*   csv(comma-separated values), tsv(tab-seperated values)
*   txt
*   xls, xlsx


In [None]:
import pandas as pd

# csv 파일의 첫번쨰 행이 컬럼 이름 (인덱스)인 경우

In [None]:
ex1_path = 'https://raw.githubusercontent.com/wesm/pydata-book/refs/heads/3rd-edition/examples/ex1.csv'

In [None]:
ex1_df = pd.read_csv(ex1_path)

In [None]:
ex1_df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [None]:
ex1_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   a        3 non-null      int64 
 1   b        3 non-null      int64 
 2   c        3 non-null      int64 
 3   d        3 non-null      int64 
 4   message  3 non-null      object
dtypes: int64(4), object(1)
memory usage: 252.0+ bytes


In [None]:
ex1_df.describe()

Unnamed: 0,a,b,c,d
count,3.0,3.0,3.0,3.0
mean,5.0,6.0,7.0,8.0
std,4.0,4.0,4.0,4.0
min,1.0,2.0,3.0,4.0
25%,3.0,4.0,5.0,6.0
50%,5.0,6.0,7.0,8.0
75%,7.0,8.0,9.0,10.0
max,9.0,10.0,11.0,12.0


## csv 파일의 첫번째 행부터 데이터인 경우

csv 파일에 컬럼 이름에 대한 정보가 없는 경우

In [None]:
ex2_path = 'https://raw.githubusercontent.com/wesm/pydata-book/refs/heads/3rd-edition/examples/ex2.csv'

In [None]:
ex2_df = pd.read_csv(ex2_path, names = ['A','B','C','D','MSG'])

In [None]:
ex2_df

Unnamed: 0,A,B,C,D,MSG
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [None]:
ex2_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   1       2 non-null      int64 
 1   2       2 non-null      int64 
 2   3       2 non-null      int64 
 3   4       2 non-null      int64 
 4   hello   2 non-null      object
dtypes: int64(4), object(1)
memory usage: 212.0+ bytes


In [None]:
# csv 파일에 컬럼 이름(헤더)가 있지만, 컬럼 이름들을 재지정할 때
ex1_df = pd.read_csv(ex1_path, names = ['kor','eng','math','sci','msg'], header = 0)
ex1_df

Unnamed: 0,kor,eng,math,sci,msg
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


# 값들이 공백('\s', '\t')으로 구분된 파일

In [None]:
ex3_path = 'https://raw.githubusercontent.com/wesm/pydata-book/refs/heads/3rd-edition/examples/ex3.txt'

In [None]:
ex3_df =  pd.read_csv(ex3_path, sep = '\s+')

In [None]:
ex3_df      #>행 인덱스도 잘 찾고 있다.

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [39]:
ex3_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, aaa to ddd
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       4 non-null      float64
 1   B       4 non-null      float64
 2   C       4 non-null      float64
dtypes: float64(3)
memory usage: 300.0+ bytes


In [41]:
ex3_df.loc['aaa':'ccc']

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601


# 컬럼 헤더와 데이터 이외의 주석 등을 포함한 csv

In [42]:
ex4_path = 'https://raw.githubusercontent.com/wesm/pydata-book/refs/heads/3rd-edition/examples/ex4.csv'


In [45]:
ex4_df = pd.read_csv(ex4_path, skiprows = [0, 2, 3])
# skiprows: int, list of int. 읽지 않고 건너 뛸 줄(들)의 번호(들의 리스트)

In [46]:
ex4_df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


# NA 또는 빈 문자열이 포함된 csv 파일

In [47]:
ex5_path = 'https://raw.githubusercontent.com/wesm/pydata-book/refs/heads/3rd-edition/examples/ex5.csv'

In [48]:
ex5_df = pd.read_csv(ex5_path)

In [49]:
ex5_df

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


`read_csv` 함수는 csv 파일에서 'NA','na','NAN','nan'등의 문자열을 Null(값 없음)로 취급함.
비어있는 값(comma 사이에 아무 문자열도 없는 경우)도 Null로 취급함.


In [51]:
ex5_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   something  3 non-null      object 
 1   a          3 non-null      int64  
 2   b          3 non-null      int64  
 3   c          2 non-null      float64
 4   d          3 non-null      int64  
 5   message    2 non-null      object 
dtypes: float64(1), int64(3), object(2)
memory usage: 276.0+ bytes


# 값들이 따옴표("")로 감싸여져 있는 csv 파일

In [52]:
ex7_path = 'https://raw.githubusercontent.com/wesm/pydata-book/refs/heads/3rd-edition/examples/ex7.csv'

In [53]:
ex7_df = pd.read_csv(ex7_path)

In [56]:
ex7_df

Unnamed: 0,a,b,c
0,1,2,3
1,1,2,3


In [59]:
ex7_df.info()
#> 따옴표(인용부호) 안의 문자열이 숫자(int, float)로 변환 가능한 경우에는 자동으로 타입 변환을 수행

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   a       2 non-null      int64
 1   b       2 non-null      int64
 2   c       2 non-null      int64
dtypes: int64(3)
memory usage: 180.0 bytes


*   csv 파일 읽기 -->   DataFrame: `pd.read_csv()`
*   DataFrame     -->   csv파일 쓰기: `pd.DataFrame.to_csv()`

In [61]:
df = pd.DataFrame(data = {
    'day' : [1,2,3],
    'price' : [0.5,1.1,0.9]
})
df

Unnamed: 0,day,price
0,1,0.5
1,2,1.1
2,3,0.9


In [71]:
df.to_csv('test_df.csv')

엑셀 파일 읽기

In [63]:
file_path = 'https://github.com/wesm/pydata-book/raw/refs/heads/3rd-edition/examples/ex1.xlsx'

In [65]:
excel_df = pd.read_excel(file_path)
excel_df

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [67]:
excel_df2 = pd.read_excel(file_path, index_col= 0)
excel_df2

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo
