# 04.02 데이터 입출력

Pandas는 데이터 파일을 읽어 데이터프레임을 만들 수 있다. 다음처럼 여러가지 포맷을 지원한다.

* CSV
* Excel
* HTML
* JSON
* HDF5
* SAS
* STATA
* SQL

여기에서는 가장 단순하지만 널리 사용되는 CSV(Comman Separated Value) 포맷 입출력에 대해 살펴본다. CSV 파일 포맷은 데이터 값이 쉽표(comma)로 구분되는 텍스트 파일이다. 

## `%%writefile` 명령

샘플 데이터로 사용할 CSV 파일을 **`%%writefile` 매직(magic) 명령**으로 만들어보자. 이 명령은 셀에 서술한 내용대로 텍스트 파일을 만드는 명령이다.

In [1]:
import warnings
warnings.filterwarnings(action='ignore')
# warnings.filterwarnings(action='default')

In [2]:
import pandas as pd

In [3]:
## DataFrame을 csv파일로 쓰기
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["지민", "호석", "석진", "태형"]

df = pd.DataFrame(data, index=index, columns=columns)
df.to_csv("bts.csv")

In [None]:
# !pip install openpyxl

In [4]:
df.to_excel('bts.xlsx')

In [5]:
pd.read_excel('bts.xlsx')

Unnamed: 0.1,Unnamed: 0,국어,영어,수학
0,지민,80,90,90
1,호석,90,70,60
2,석진,70,60,80
3,태형,30,40,70


## CSV 파일 입력

CSV 파일로부터 데이터를 읽어 데이터프레임을 만들 때는 `pandas.read_csv()` 명령을 사용한다. 

In [6]:
import pandas as pd
import numpy as np
data = pd.read_csv('bts.csv')
data

Unnamed: 0.1,Unnamed: 0,국어,영어,수학
0,지민,80,90,90
1,호석,90,70,60
2,석진,70,60,80
3,태형,30,40,70


위에서 읽은 데이터에는 **열 인덱스는 있지만 행 인덱스 정보가 없으므로** **0부터 시작하는 정수 인덱스가 자동으로 추가**되었다. 만약, 위의 경우와 달리, 데이터 파일에 열 인덱스 정보가 없는 경우에는 `read_csv` 명령의 `names` 인수로 설정할 수 있다.

In [7]:
data.columns = ['이름', '국어', '영어', '수학']
data

Unnamed: 0,이름,국어,영어,수학
0,지민,80,90,90
1,호석,90,70,60
2,석진,70,60,80
3,태형,30,40,70


In [8]:
data = data.set_index("이름")
data

Unnamed: 0_level_0,국어,영어,수학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
지민,80,90,90
호석,90,70,60
석진,70,60,80
태형,30,40,70


만약 테이블 내의 **특정한 열을 행 인덱스로 지정**하고 싶으면 `index_col` 인수를 사용한다.

In [None]:
# !chcp 65001

In [10]:
# !dir

 D 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 02F5-4EE7

 D:\workspace\python-1204\데이터 분석 디렉터리

2025-12-08  오후 01:51    <DIR>          .
2025-12-08  오후 01:51    <DIR>          ..
2025-12-08  오후 12:09    <DIR>          .ipynb_checkpoints
2025-12-08  오후 01:46                91 bts.csv
2025-12-08  오후 01:46             5,089 bts.xlsx
2025-12-05  오전 10:35           206,466 [Numpy] 03.01 NumPy 배열.ipynb
2025-12-05  오전 10:35           434,685 [Numpy] 03.02 배열의 생성과 변형.ipynb
2025-12-04  오후 04:55            32,117 [Numpy] 03.03 배열의 연산.ipynb
2025-12-05  오전 11:08            52,042 [Numpy] 03.04 기술통계.ipynb
2025-12-05  오후 12:08           414,996 [Numpy] 03.05 난수 발생과 카운팅.ipynb
2025-12-05  오전 10:24           223,513 [Numpy실습] 03.01 NumPy 배열.ipynb
2025-12-04  오후 05:04           363,517 [Numpy실습] 03.02 배열의 생성과 변형.ipynb
2025-12-04  오전 11:44            28,333 [Numpy실습] 03.03 배열의 연산.ipynb
2025-12-04  오전 11:44            50,668 [Numpy실습] 03.04 기술통계.ipynb
2025-12-04  오전 11:44           407,320 [Numpy실습] 03.05 난수 발생과 카운팅

In [11]:
# !del -rf ./data/sample?.*

스위치가 틀립니다 - "data".


In [13]:
!mkdir data

In [14]:
%%writefile ./data/sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing ./data/sample1.csv


In [None]:
pd.read_csv('./data/sample1.csv')

In [15]:
pd.read_csv('./data/sample1.csv', index_col='c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


확장자가 CSV가 아닌 파일 즉, 데이터를 구분하는 구분자(separator)가 쉼표(comma)가 아니면 `sep` 인수를 써서 구분자를 사용자가 지정해준다. 만약 구분자가 **길이가 정해지지 않은 공백**인 경우에는 **`\s+`** 라는 정규식(regular expression) 문자열을 사용한다.

In [16]:
%%writefile ./data/sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing ./data/sample3.txt


In [18]:
df = pd.read_csv('./data/sample3.txt')
df

Unnamed: 0,c1 c2 c3 c4
0,0.179181 -1.538472 1.347553 0.43381
1,1.024209 0.087307 -1.281997 0.49265
2,0.417899 -2.002308 0.255245 -1.10515


In [19]:
df = pd.read_table('./data/sample3.txt')
df.shape

(3, 1)

In [20]:
df.shape

(3, 1)

In [21]:
df = pd.read_table('./data/sample3.txt', sep='\s+')  # 구분자가 길이가 정해지지 않은 공백
df

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


In [None]:
df.shape

특정한 값을 NaN으로 취급하고 싶으면 `na_values` 인수에 NaN 값으로 취급할 값을 넣는다.

In [22]:
%%writefile data/sample5.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three

Writing data/sample5.csv


In [23]:
df = pd.read_csv('data/sample5.csv')
df

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


In [24]:
df = pd.read_csv('data/sample5.csv', na_values=['누락'])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


## CSV 파일 출력

지금까지와 반대로 파이썬의 데이터프레임 값을 CSV 파일로 출력하고 싶으면 `to_csv()` 메서드를 사용한다.

In [25]:
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [26]:
df.to_csv('data/sample6.csv')

리눅스나 맥에서는 `cat` 셸 명령으로 파일의 내용을 확인할 수 있다. 윈도우에서는 `type` 명령을 사용한다. 느낌표(!)는 셸 명령을 사용하기 위한 IPython 매직 명령이다.

In [27]:
!type .\data\sample6.csv  

,c1, c2, c3
0,1.0, 1.11, one
1,2.0, , two
2,, 3.33, three


In [28]:
pd.read_csv('./data/sample6.csv')

Unnamed: 0.1,Unnamed: 0,c1,c2,c3
0,0,1.0,1.11,one
1,1,2.0,,two
2,2,,3.33,three


파일을 읽을 때와 마찬가지로 출력할 때도 `sep` 인수로 구분자를 바꿀 수 있다.

In [29]:
df.to_csv('data/sample7.txt', sep='|')

In [30]:
!type .\data\sample7.txt

|c1| c2| c3
0|1.0| 1.11| one
1|2.0| | two
2|| 3.33| three


또 `na_rep` 인수로 NaN 표시값을 바꿀 수도 있다.

In [31]:
df.to_csv('data/sample8.csv', na_rep='missing')  # read_csv에서는 na_values=['누락']

In [32]:
!type .\data\sample8.csv

,c1, c2, c3
0,1.0, 1.11, one
1,2.0, , two
2,missing, 3.33, three


`index`, `header` 인수를 지정하여 인덱스 및 헤더 출력 여부를 지정하는 것도 가능하다.

In [33]:
df.index = ["a", "b", "c"]
df

Unnamed: 0,c1,c2,c3
a,1.0,1.11,one
b,2.0,,two
c,,3.33,three


In [34]:
df.to_csv('data/sample9.csv', index=False, header=False) 
# DataFrame만들때는 columns, read_csv에서는 name, to_csv에서는 header

In [35]:
!type .\data\sample9.csv  

1.0, 1.11, one
2.0, , two
, 3.33, three


## 인터넷 상의 CSV 파일 입력

웹상에는 다양한 데이터 파일이 CSV 파일 형태로 제공된다. `read_csv` 명령 사용시 파일 패스 대신 URL을 지정하면 Pandas가 직접 해당 파일을 다운로드하여 읽어들인다. 다음은 저자의 github 웹사이트에 저장되어 있는 데이터 파일을 원격으로 읽는 명령이다.

In [36]:
# df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")
df = pd.read_csv("https://raw.githubusercontent.com/pandas-dev/pandas/master/doc/data/titanic.csv")

이 데이터프레임은 실제로 데이터 갯수, 즉 행(row)의 수가 890개가 넘는 대량의 데이터이다. 이렇게 데이터의 수가 많을 경우, 데이터프레임의 표현(representation)은 데이터 앞, 뒤의 일부분만 보여준다. 보여줄 행의 수는 `display.max_rows` 옵션으로 정할 수 있다.

In [37]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [38]:
pd.set_option("display.max_rows", 10)  # 보여줄 행의 개수
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


만약 앞이나 뒤의 특정 갯수만 보고 싶다면 `head` 메서드나 `tail` 메서드를 이용한다. 메서드 인수로 출력할 행의 수를 넣을 수도 있다.

In [39]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


df.tail(3)

---
### 웹 크롤링

* User-Agent 정보
    * whatismybrowser.com/detect/what-is-my-user-agent/
    * https://www.whatismyuseragent.com/

In [49]:
## (1) 판다스 크롤링

import pandas as pd

url = 'https://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%9D%B8%EA%B5%AC'

# 헤더 정보는 storage_options에 딕셔너리로 전달합니다. 
user_agent = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"}

# header=0 : 테이블의 첫 번째 행을 컬럼 이름으로 사용하겠다는 의미
df_list = pd.read_html(url, header=0, storage_options=user_agent)

# 결과 확인 (첫 번째 테이블)
df_list

[   Unnamed: 0    2016 2016.1    2017 2017.1   2018 2018.1   2019 2019.1  \
 0         NaN      인구   인구밀도      인구   인구밀도     인구   인구밀도     인구   인구밀도   
 1           계   51218    510   51362    512  51607    514  51709    515   
 2          서울    9843  16263    9766  16136   9705  16034   9662  15964   
 3          부산  약3,500   4477  약3,100   4447   3400   4416   3300   4380   
 4          대구    2461   2786    2458   2782   2450   2773   2432   2753   
 ..        ...     ...    ...     ...    ...    ...    ...    ...    ...   
 15         전남    1798    146    1795    146   1790    145   1773    144   
 16         경북    2683    141    2675    141   2674    141   2665    140   
 17         경남    3338    317    3339    317   3356    318   3350    318   
 18         제주     618    334     635    343    653    353    660    356   
 19        수도권   25350   2139   25476   2149  25675   2165  25844   2179   
 
      2020 2020.1  
 0      인구   인구밀도  
 1   51781    516  
 2    9602  15865  
 3    

In [54]:
df_list[4]

Unnamed: 0,연도 (년),추계인구(명),출생자수(명),사망자수(명),자연증가수(명),조출생률 (1000명당),조사망률 (1000명당),자연증가율 (1000명당),합계출산율
0,1925,12997611,558897,359042,199855,43.0,27.6,15.4,6.59
1,1926,13052741,511667,337948,173719,39.2,25.9,13.3,
2,1927,13037169,534524,353818,180706,41.0,27.1,13.9,
3,1928,13105131,566142,357701,208441,43.2,27.3,15.9,
4,1929,13124279,566969,414366,152603,43.2,31.6,11.6,
...,...,...,...,...,...,...,...,...,...
15,1940,15559741,527964,358496,169468,33.9,23.0,10.9,6.56
16,1941,15745478,553690,366239,187451,35.2,23.3,11.9,
17,1942,16013742,533768,376003,157765,33.3,23.5,9.8,
18,1943,16239721,513846,384881,128965,31.6,23.7,7.9,


In [55]:
import pandas as pd # Pandas 라이브러리를 사용하였습니다.
import requests # Requests 라이브러리를 사용하였습니다.

df = pd.DataFrame() # 데이터를 삽입할 비어있는 데이터프레임 객체를 생성하였습니다.

for page in range(1, 6): # 페이지 수를 의미하는 1부터 5까지의 숫자에 대해 반복하였습니다.

  url_005930 = "http://finance.naver.com/item/sise_day.nhn?code=005930" + "&page=" + str(page)
  # 네이버 금융의 삼성전자의 주식 정보가 있는 페이지에서 페이지 번호(&page=)를 str(page) 파라미터로 추가하였습니다.

  headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"}
  # 웹 서버가 웹 크롤링 요청을 웹 브라우저에서 온 것으로 인식하게 하기 위해 User-Agent 헤더 정보를 작성하였습니다.
  # 참고로 User-Agent 정보는 'https://useragentstring.com/'에서 획득할 수 있으며 이는 사용자의 웹 환경 등의 정보입니다.

  response = requests.get(url_005930, headers=headers)
  # 설정한 url에 HTTP GET 요청을 보낸 후 response 변수에 해당 응답을 저장하게 설정하였습니다.

  df = pd.concat([df, pd.read_html(response.text, header=0)[0]], ignore_index=True)
  # response에 저장된 HTML 내용 중 테이블을 pandas 데이터프레임으로 변환하였습니다.
  # 그리고 변환된 데이터프레임을 비어있는 기존 데이터프레임과 결합(concat)시켰습니다.
  # 새로운 데이터프레임의 인덱스값에 중복이 없도록 설정(ignore_index=True)하였습니다.

  # <참고 코드 : append 메소드>
  # df = df.append(pd.read_html(response.text, header=0)[0], ignore_index=True)
  # append 메소드는 concat과 비슷한 역할을 합니다.
  # append 메소드는 다른 데이터프레임을 행 방향(상-하)으로 결합시키는 기능을 수행합니다.
  # concat 메소드는 다른 데이터프레임을 행 방향 또는 열 방향(좌-우)으로 결합시킵니다.
  # 그러므로 데이터프레임을 더 유연하게 다루려면 concat 메소드를 사용하는 것이 더 바람직합니다.
  # 한편 Pandas 개발자들이 append 기능을 언젠가 라이브러리에서 제외시킬 예정이라고 합니다.

df = df.dropna() # 결측값이 있는 행을 삭제하였습니다.
df
# 데이터프레임을 출력하였습니다.
# 참고로 print(df)를 입력하면 데이터프레임이 출력되기는 하지만 시각화 정도가 좋지 않습니다.
# 단 두 글자뿐인 'df'를 입력하지 않으면 데이터프레임이 출력되지 않습니다.

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
1,2025.12.08,109000.0,상승 600,109700.0,110000.0,108000.0,12426289.0
2,2025.12.05,108400.0,"상승 3,300",105300.0,108400.0,104600.0,19755571.0
3,2025.12.04,105100.0,상승 600,103900.0,105100.0,103200.0,11931145.0
4,2025.12.03,104500.0,"상승 1,100",104700.0,105500.0,104000.0,14697927.0
5,2025.12.02,103400.0,"상승 2,600",101200.0,103500.0,101000.0,13649487.0
...,...,...,...,...,...,...,...
69,2025.09.29,84200.0,상승 900,83300.0,85000.0,83200.0,13069094.0
70,2025.09.26,83300.0,"하락 2,800",85000.0,85300.0,82400.0,24071193.0
71,2025.09.25,86100.0,상승 700,84400.0,86200.0,84100.0,19665151.0
72,2025.09.24,85400.0,상승 700,84200.0,85500.0,83700.0,18300997.0
