In [2]:
import pandas as pd
import numpy as np

### 3) 외부 데이터 읽기

- Pandas는 CSV, 텍스트, Excel, SQL, HTML, JSON 등 다양한 데이터 파일을 읽어 데이터프레임 생성이 가능

In [6]:
df = pd.read_csv('RegularSeasonCompactResults.csv')
print(df)

        Season  DayNum  WTeamID  WScore  LTeamID  LScore WLoc  NumOT
0         1985      20     1228      81     1328      64    N      0
1         1985      25     1106      77     1354      70    H      0
2         1985      25     1112      63     1223      56    H      0
3         1985      25     1165      70     1432      54    H      0
4         1985      25     1192      86     1447      74    H      0
...        ...     ...      ...     ...      ...     ...  ...    ...
156084    2018     132     1153      56     1222      55    N      0
156085    2018     132     1172      58     1348      57    N      0
156086    2018     132     1209      74     1426      61    N      0
156087    2018     132     1246      77     1397      72    N      0
156088    2018     132     1335      68     1217      65    N      0

[156089 rows x 8 columns]


In [8]:
# 인덱스 자동 부여
print(df.index)

RangeIndex(start=0, stop=156089, step=1)


#### 3-1) CSV 파일 입력 및 %%writefile 명령
- 셀에 서술한 내용대로 텍스트 파일을 만드는 명령

In [15]:
%%writefile sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample1.csv


In [17]:
pd.read_csv('sample1.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [25]:
# 데이터 파일에 열 인덱스 정보가 없는 경우에는 read_csv 명령의 names 인수로 설정 가능
# CSV 파일에 열 이름이 포함되어 있지 않거나, 기본 열 이름을 사용자 정의 이름으로 바꾸고 싶을 때 유용.
pd.read_csv('sample1.csv', names=['c1', 'c2', 'c3'])

Unnamed: 0,c1,c2,c3
0,c1,c2,c3
1,1,1.11,one
2,2,2.22,two
3,3,3.33,three


In [29]:
# 데이터 파일에 열 인덱스 정보가 없는 경우에는 read_csv 명령의 names 인수로 설정 가능
# header=0을 설정하여 기존의 열 이름을 그대로 사용하거나, names와 함께 사용하여 열 이름을 교체 가능
pd.read_csv('sample1.csv', header=0)

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [31]:
pd.read_csv('sample1.csv', index_col='c1')
#테이블 내의 특정한 열을 행 인덱스로 지정하고 싶으면 index_col 인수 사용

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [37]:
pd.read_csv('sample1.csv', index_col='c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [43]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample4.txt


In [45]:
# 자료 파일 중에 건너 뛰어야 할 행이 있으면 skiprows 인수 사용
pd.read_csv('sample4.txt', skiprows=[0, 1, 4])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,3,3.33,three


#### skiprows 인수
- 목적: CSV 파일에서 특정 행들을 건너뛰어 데이터를 읽을 때 사용합니다.
- 형식: skiprows는 정수, 정수 리스트, 또는 함수로 지정할 수 있습니다.
    - 정수: 첫 번째 N개의 행을 건너뛰기 (예: skiprows=2는 파일의 첫 두 행을 건너뜁니다).
    - 리스트: 지정된 행 번호들을 건너뛰기 (예: skiprows=[0, 1, 4]는 첫 번째, 두 번째, 다섯 번째 행을 건너뜁니다).
    - 함수: 특정 조건을 만족하는 행을 건너뛰기 (예: skiprows=lambda x: x.startswith('#')는 주석이 있는 행을 건너뜁니다).

In [51]:
%%writefile sample5.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three

Writing sample5.csv


In [53]:
df = pd.read_csv('sample5.csv', na_values=['누락'])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [57]:
# na_values=[]
# 리스트 안에 포함된 값을 누락값(NaN)으로 처리한다.
df = pd.read_csv('sample5.csv', na_values=['누락', ' '])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


#### 5-2) CSV 파일 출력
데이터프레임 값을 CSV 파일로 출력하고 싶으면 to_csv 메서드 사용

In [61]:
df.to_csv('sample6.csv')

In [63]:
# !type 함수를 사용해서 파일의 내용을 확인할 수 있음/ 정확한 저장 확인
!type sample6.csv

,c1, c2, c3
0,1.0,1.11, one
1,2.0,, two
2,,3.33, three


#### 5-3) 인터넷 상의 CSV 파일 입력
read_csv 명령 사용시 파일 패스 대신 URL을 지정하면 Pandas가 직접 해당 파일을 다운로드하여 읽음

In [68]:
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")

In [70]:
pd.set_option("display.max_rows", 20)  # 앞뒤로 모두 20행만 보여준다.
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C
