### pandas를 이용해서 외부의 데이터파일을 로드 
- csv, tsv
    - 가장 단순한 형태의 데이터 파일
    - pandas 안에 있는 read_csv()를 이용
    - csv 데이터를 ','를 기준으로 나눠준다. 
        - read_csv()는 기본적으로 데이터를 ',' 잘라준다. 
    - tsv 데이터는 '\t'을 기준으로 나눠준다. 
        - read_csv() 함수를 호출할때 매개변수 sep의 값을 '\t' 대입하여 실행
- json
    - python으로 생각하면 dict 형태의 데이터파일
    - pandas 안에 있는 read_json()을 이용
- xml
    - html 구조 언어와 같이 tag 데이터 구성
    - pandas 안에 있는 read_xml()을 이용
- 공통적으로 사용되는 매개변수 
    - encoding 매개변수
        - 기본값은 'UTF-8'
        - 데이터 파일을 로드하는데 해당하는 파일에서 한글이 존재할때 종종 에러 발생( decode error )
            - 'CP949', 'EUC-KR'로 변경하면 에러가 발생하지 않는다. 
- excel (xls, xlsx)
    - 엑셀 데이터 파일 
    - read_excel() 함수를 이용
    - 특정 엑셀파일을 로드할때는 추가적인 라이브러리(openpyxl) 설치가 필요한 경우가 존재 
    - encoding이라는 매개변수가 존재하지 않는다. 

In [1]:
# pandas 라이브러리 로드(부착)
import pandas as pd

In [3]:
# read_csv(파일의 경로)
# 경로 (절대 경로, 상대 경로 모두 사용 가능)
# csv 폴더 안에 있는 AAPL.csv 파일을 로드 
# 절대 경로 사용
df1 = pd.read_csv("C:\\ubion_2025_2\\csv\\AAPL.csv")

In [4]:
df2 = pd.read_csv("C:/ubion_2025_2/csv/AAPL.csv")

In [7]:
df1 = pd.read_csv(
    r"C:\ubion_2025_2\csv\AAPL.csv"
    )

In [8]:
# 상대 경로
# 상위 폴더 이동 -> 상위 폴더 이동 -> csv 폴더로 이동 -> AAPL.csv
df3 = pd.read_csv("../../csv/AAPL.csv")

In [10]:
# 데이터프레임의 상위의 데이터만 추출하여 출력 
# head() 함수가 위치하는 곳은 DataFrame 내부
# 상위의 5개의 데이터를 확인 
print(df3.head())

         Date      Open      High       Low     Close  Adj Close       Volume
0  1980-12-12  0.513393  0.515625  0.513393  0.513393   0.410525  117258400.0
1  1980-12-15  0.488839  0.488839  0.486607  0.486607   0.389106   43971200.0
2  1980-12-16  0.453125  0.453125  0.450893  0.450893   0.360548   26432000.0
3  1980-12-17  0.462054  0.464286  0.462054  0.462054   0.369472   21610400.0
4  1980-12-18  0.475446  0.477679  0.475446  0.475446   0.380182   18362400.0


In [11]:
# 상위 데이터 3개 출력 
df3.head(3)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,1980-12-12,0.513393,0.515625,0.513393,0.513393,0.410525,117258400.0
1,1980-12-15,0.488839,0.488839,0.486607,0.486607,0.389106,43971200.0
2,1980-12-16,0.453125,0.453125,0.450893,0.450893,0.360548,26432000.0


In [None]:
# json파일 로드
pd.read_json("../../csv/2021/202101_expense_list.json")

In [None]:
pd.read_excel("../../csv/2021/202101_expense_list.xlsx")

In [None]:
# excel 파일 로드시 모듈 에러 발생시 (openpyxl)
# openpyxl 모듈을 설치 -> pip install openpyxl
!pip install openpyxl

In [None]:
# 데이터 파일에 한글이 존재할때 종종 에러 발생 
# 해결 방법은 encoding을 cp949, euc-kr 변경
pd.read_csv("../../csv/주민등록.csv", encoding='cp949')

In [19]:
xml_df = \
    pd.read_xml("../../csv/2021/202101_expense_list.xml")

In [None]:
!pip install lxml

### 결측치 
- 데이터프레임에서 value가 존재하지 않는 경우 
- NaN 표시

In [20]:
import numpy as np

In [21]:
data = [
    [1, 2, np.nan, 4, 5], 
    [1, np.nan, 3, 4, 5], 
    [1, 2, 3, np.nan, 5]
]
cols = ['s1', 's2', 's3', 's4', 's5']
df = pd.DataFrame(data, columns=cols)

In [None]:
df

In [23]:
np.nan == np.nan

False

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   s1      3 non-null      int64  
 1   s2      2 non-null      float64
 2   s3      2 non-null      float64
 3   s4      2 non-null      float64
 4   s5      3 non-null      int64  
dtypes: float64(3), int64(2)
memory usage: 248.0 bytes


In [None]:
# 결측치의 존재 유무 판단하는 함수 
# 데이터프레임 클래스 안에 있는 isna() 함수를 호출출
df.isna()

Unnamed: 0,s1,s2,s3,s4,s5
0,False,False,True,False,False
1,False,True,False,False,False
2,False,False,False,True,False


In [27]:
df['s2'].isna()

0    False
1     True
2    False
Name: s2, dtype: bool

In [29]:
# 결측치의 개수를 확인 -> isna()호출한뒤 결과중 True의 개수를 확인
sum(df.isna().values)

array([0, 1, 1, 1, 0])

In [32]:
# DataFrame 안에 sum 함수는 매개변수 axis존재
# 0(rows) | 1(columns)
df.isna().sum(axis=1)

0    1
1    1
2    1
dtype: int64

In [None]:
# 결측치를 포함하는 행인가? 열인가?
# '~', '-' 해당 연산자들은 스리즈 데이터에서 부정 연산자의 의미로 사용이 가능
~df.isna().any()

In [None]:
# 결측치를 제거 
# 결측치 -> na
# 제거 -> drop
# dropna() -> 
# axis 매개변수 -> 0이면 결측치가 포함된 행을 제거, 
# 1이면 결측치가 포함된 열을 제거
df.dropna(axis=1)

Unnamed: 0,s1,s5
0,1,5
1,1,5
2,1,5


In [43]:
# 결측치에 특정 데이터를 대입
# 결측치 -> na
# 결측치들에 값을 채워준다. -> fill
# fillna(data) : 결측치에 data를 채워준다. 
    # method 매개변수
        # "ffill" -> 결측치를 앞 데이터로 채워준다. 
        # "bfill" -> 결측치를 뒤 데이터로 채워준다.

df.fillna(10)

Unnamed: 0,s1,s2,s3,s4,s5
0,1,2.0,10.0,4.0,5
1,1,10.0,3.0,4.0,5
2,1,2.0,3.0,10.0,5


In [44]:
df.fillna(method='ffill')

  df.fillna(method='ffill')


Unnamed: 0,s1,s2,s3,s4,s5
0,1,2.0,,4.0,5
1,1,2.0,3.0,4.0,5
2,1,2.0,3.0,4.0,5


In [45]:
df.fillna(method='bfill')

  df.fillna(method='bfill')


Unnamed: 0,s1,s2,s3,s4,s5
0,1,2.0,3.0,4.0,5
1,1,2.0,3.0,4.0,5
2,1,2.0,3.0,,5


### 데이터프레임의 필터링

- 데이터프레임명.loc[인덱스의 조건식, 컬럼의 조건식]
    - 인덱스의 값을 기준으로 필터링 
    - 인덱스가 T / F 필터
    - 컬럼의 값을 기준으로 필터링 
    - 시작:끝 --> 시작값부터 끝의 값까지

- 데이터프레임명.iloc[인덱스의 위치, 컬럼의 위치]
    - 인덱스의 위치를 기준으로 필터링
    - 컬럼의 위치를 기준으로 필터링
    - 시작:끝 --> 시작 위치부터 끝의 전 위치까지

- 데이터프레임명[ 컬럼명 ]
    - 특정 컬럼의 데이터를 출력 
    - 결과의 타입이 Series

- 데이터프레임명[ [컬럼명] ]
    - 특정 컬럼의 데이터를 출력 
    - 결과의 타입이 DataFrame


In [46]:
data = [
    [1,2,3], 
    [4,5,6], 
    [7,8,9]
]
idx = [1, 4, 7]
cols = ['a', 'b', 'c']

df = pd.DataFrame(data, index=idx, columns=cols)

In [47]:
df

Unnamed: 0,a,b,c
1,1,2,3
4,4,5,6
7,7,8,9


In [48]:
# loc[인덱스의 조건, 컬럼의 조건]
df.loc[4, ]

a    4
b    5
c    6
Name: 4, dtype: int64

In [49]:
df.loc[ [4],  ]

Unnamed: 0,a,b,c
4,4,5,6


In [51]:
df.loc[ : , 'a']

1    1
4    4
7    7
Name: a, dtype: int64

In [52]:
df.loc[:, ['b']]

Unnamed: 0,b
1,2
4,5
7,8


In [53]:
df['b']

1    2
4    5
7    8
Name: b, dtype: int64

In [54]:
df[ ['b'] ]

Unnamed: 0,b
1,2
4,5
7,8


In [55]:
# iloc[인덱스의 위치, 컬럼의 위치]
df.iloc[ 1, ]

a    4
b    5
c    6
Name: 4, dtype: int64

In [56]:
df.iloc[ [1],  ]

Unnamed: 0,a,b,c
4,4,5,6


In [57]:
df.loc[ :7,  ]

Unnamed: 0,a,b,c
1,1,2,3
4,4,5,6
7,7,8,9


In [58]:
df.iloc[:2, ]

Unnamed: 0,a,b,c
1,1,2,3
4,4,5,6
