In [1]:
import pandas as pd

## 데이터 불러오기

In [2]:
df = pd.read_csv("week1_1.csv")
display (df.head())
print (df.shape)

### nrows

In [3]:
# 데이터의 일부만 가져오고 싶을 때 (데이터의 크기가 너무 커서 일부만 가져온 뒤 빠르게 데이터 확인하고 싶을 때 사용.)
df = pd.read_csv("week1_1.csv", nrows=5)
display (df.head())
print (df.shape)

### sep

In [4]:
df = pd.read_csv("week1_1.tsv")  # tsv 파일 불러오기 (tab seqerated )
df.head()

In [5]:
df = pd.read_csv("week1_1.tsv", sep='\t')
df.head()

## COLUMN

### header=None

In [6]:
df = pd.read_csv("week1_1.csv", header=None)  # 첫 행이 컬럼명이 아니고, 컬럼명 없이 데이터로만 이뤄져 있을 때. 
df.head()

### names

In [7]:
df = pd.read_csv("week1_1.csv", names=['c1', 'c2', 'c3', 'c4', 'c5', 'c6'])  # 위와 같은 상황에서 따로 컬럼명을 지정해주고 싶을 때.
df.head()

### header=None & names

In [8]:
df = pd.read_csv("week1_1.csv", header=None, names=['c1', 'c2', 'c3', 'c4', 'c5', 'c6'])  # 첫 행이 컬럼명이 맞는데, 컬럼명을 새로 지정해주고 싶을 때.
df.head()

### header=1

In [9]:
df = pd.read_csv("week1_1.csv", header=1) # 두번 째 행을 컬럼명으로 하고 싶을 때 (주로 엑셀 형태로 관리되었던 파일에서 사용.)
df.head()

# INDEX

In [10]:
df = pd.read_csv("week1_1.csv")
df.head()

In [11]:
df = pd.read_csv("week1_1.csv", index_col=0)  # 첫번째 열을 index로 사용하고 싶을 때.
df.head()

In [12]:
df = pd.read_csv("week1_1.csv", index_col=0)  # 첫번째 열을 index로 사용하고 싶을 때.
df.index.name = None  # index name 을 없애고 싶을 때.
print (df.index.dtype)
df.head()

### parse_dates

In [13]:
# 첫 번째 열을 날짜 형태의 인덱스로 사용
df = pd.read_csv("week1_1.csv", index_col=0, parse_dates=True)  # parse_dates=True면 index를 dates 형태로 파싱.
df.index.name = None  # index name 을 없애고 싶을 때.
print (df.index.dtype)
df.head()

In [14]:
# 좋은 점
df[df.index.month == 10]

In [15]:
from datetime import datetime

In [16]:
# datetime 객체를 사용하여 2023년 10월 1일 이후의 데이터만 선택
cutoff_date = datetime(2023, 10, 1)  # 조건으로 사용할 날짜
df[df.index > cutoff_date]

In [17]:
# 첫 번째 열을 날짜 형태의 인덱스로 사용
df = pd.read_csv("week1_1.csv", index_col=0, parse_dates=True)  # parse_dates=True면 index를 dates 형태로 파싱.
df.index.name = None  # index name 을 없애고 싶을 때.
print (df.index.dtype)
df.head()

In [18]:
df = pd.read_csv("week1_1.csv")
df.dtypes

In [19]:
df = pd.read_csv("week1_1.csv")
df['datetime'] = pd.to_datetime(df['datetime'])
df.head()

In [20]:
df.dtypes

### dtype

In [21]:
df = pd.read_csv("week1_1.csv", dtype={'number':'object'})
df.dtypes

# XML Data 파싱

In [22]:
# ! pip install requests

In [23]:
import requests

serviceKey = ""  # 일반 인증키 (Decoding)

url = 'http://apis.data.go.kr/B551182/yadmOpCloInfoService1/getHospPharmacyOpCloList'
params ={'serviceKey' : serviceKey, 'numOfRows' : '10', 'pageNo' : '1', 'crtrYm' : '202401', 'yadmTp' : '1', 'opCloTp' : '1' }

response = requests.get(url, params=params)
# print(response.content)  # bytes 형태여서 보기 힘듦.
content = response.content.decode('utf-8')  # utf-8로 디코딩함. 
print(content)

In [24]:
# ! pip install lxml

In [25]:
df = pd.read_xml(response.content, xpath=".//item")  # 추가된 코드
df

# to_csv

In [26]:
df.to_csv("file_name.csv")  # 가장 일반적인 형태

###  encoding

In [27]:
df.to_csv("file_name.csv", encoding='cp949')  # encoding의 default는 utf-8.

### index, header

In [28]:
df.to_csv("file_name.csv", index=False)  # index를 저장하고 싶지 않을 때.

In [29]:
df.to_csv("file_name.csv", header=False)  # header를 저장하고 싶지 않을 때. (자주 사용X)

### mode

In [30]:
df.to_csv("file_name.csv", mode='w')  # 파일이 이미 있을 경우 덮어 쓰기.

In [31]:
df.to_csv("file_name.csv", mode='a')  # 파일이 이미 있을 경우 append하기 (모델 성능을 csv파일로 저장할 때.)

In [32]:
df.to_csv("file_name.csv", mode='x')  # 파일이 이미 있을 경우 생성 안 함.

In [33]:
df.to_csv("file_name.tsv", sep='\t')  # tsv로 저장 (자주 사용X)