### <pandas를 이용해 외부의 데이터파일 로드>
- csv, tsv
    - 가장 단순한 형태의 데이터 파일
    - pandas 안에 있는 read_csv() 이용
    - csv 데이터를 ','를 기준으로 나눠준다.
        - read_csv()는 기본적으로 데이터를 ',' 기준으로 잘라준다.
    - tsv 데이터는 '\t'을 기준으로 나눠준다.
        - read_csv() 함수를 호출할 때 매개변수 sep의 값을 '\t'를 대입하여 실행

- json
    - python으로 생각하면 dict 형태의 데이터 파일
    - pandas 안에 있는 read_json() 이용

- xml
    - html 구조 언어와 같이 tag 데이터 구성
    - pandas 안에 있는 read_xml() 이용

- 공통적으로 사용되는 매개변수
    - encoding 매개변수 
        - 기본값은 'UTF-8'
        - 데이터 파일을 로드하는데 해당하는 파일에서 한글이 존재할 때 종종 에러 발생(decode error)
            - encoding 매개변수를 'CP949', 'EUC-KR'로 변경하여 해결

- excel파일 (.xls / .xlsx)
    - 엑셀 데이터 파일
    - read_excel() 함수 이용
    - 특정 엑셀 파일을 로드할 때는 추가적인 라이브러리(openpyxl) 설치가 필요한 경우가 존재
    - encoding이라는 매개변수가 존재하지 않음



In [1]:
# pandas 라이브러리 로드(부착)
import pandas as pd

In [None]:
# read_csv(파일의 경로)
# 경로 (절대경로, 상대경로 모두 사용 가능)
# ccv 폴더 안의 AAPL.csv 파일을 로드
# 절대 경로 사용
# df1 = pd.read_csv('C:\ubion\csv\AAPL.csv')     => 오류발생(\ 이스케이프 문자 처리되는 문제)
df1 = pd.read_csv("C:\\ubion\\csv\\AAPL.csv")       # 1. \ 하나더 추가

In [None]:
df2 = pd.read_csv("C:/ubion/csv/AAPL.csv")      # 2. 혹은 /(슬래쉬)로 변경해 사용

In [None]:
df1 = pd.read_csv(
    # 3. r : raw string => \(역슬래쉬)를 이스케이프 문자로 처리하지 않아 문제 해결
    r"C:\ubion\csv\AAPL.csv"                    
)

In [6]:
# 상대 경로 사용
# 상위 폴더 이동 -> 상위 폴더 이동 -> csv 폴더로 이동 -> 해당 파일 name
df3 = pd.read_csv("../../csv/AAPL.csv")

In [None]:
# 데이터프레임의 상위의 데이터만 추출하여 출력
# head() 함수가 위치하는 곳은 DataFrame ㅐ부
# 상위의 5개 데이터를 확인  => 디폴트가 5개
print(df3.head())

         Date      Open      High       Low     Close  Adj Close       Volume
0  1980-12-12  0.513393  0.515625  0.513393  0.513393   0.410525  117258400.0
1  1980-12-15  0.488839  0.488839  0.486607  0.486607   0.389106   43971200.0
2  1980-12-16  0.453125  0.453125  0.450893  0.450893   0.360548   26432000.0
3  1980-12-17  0.462054  0.464286  0.462054  0.462054   0.369472   21610400.0
4  1980-12-18  0.475446  0.477679  0.475446  0.475446   0.380182   18362400.0


In [9]:
# 상위 3개 데이터 확인
df3.head(3)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,1980-12-12,0.513393,0.515625,0.513393,0.513393,0.410525,117258400.0
1,1980-12-15,0.488839,0.488839,0.486607,0.486607,0.389106,43971200.0
2,1980-12-16,0.453125,0.453125,0.450893,0.450893,0.360548,26432000.0


In [None]:
# json 파일 로드
pd.read_json("../../csv/2021/202101_expense_list.json")

In [None]:
pd.read_excel("../../csv/2021/202101_expense_list.xlsx")
# openpyxl 모듈 없으면 실행 실패(에러)

ImportError: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.

In [14]:
# excel 파일 로드시 모듈 에러 발생시(openpyxl)
# openpyxl 모듈을 설치 => pip install openpyxl

pd.read_excel("../../csv/2021/202101_expense_list.xlsx")

Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,...,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount,bimok
0,22249566,2021년 1월 사업소 물재생센터 중랑물재생센터 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22249566,사업소,물재생센터,중랑물재생센터,,,2021,1,...,,,중랑물재생센터 관리과,2021-01-25 00:00,,소속직원 경조사비,"김광옥, 김용성",현금,100000,
1,22249566,2021년 1월 사업소 물재생센터 중랑물재생센터 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22249566,사업소,물재생센터,중랑물재생센터,,,2021,1,...,,,중랑물재생센터 운영과,2021-01-22 00:00,복시루,운영과 다과구매-전출직원선물,,카드,90000,
2,22249566,2021년 1월 사업소 물재생센터 중랑물재생센터 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22249566,사업소,물재생센터,중랑물재생센터,,,2021,1,...,,,중랑물재생센터 시설보수과,2021-01-21 00:00,떡시루,소속직원 송별떡,시설보수과장외 27명,카드,80000,
3,22249566,2021년 1월 사업소 물재생센터 중랑물재생센터 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22249566,사업소,물재생센터,중랑물재생센터,,,2021,1,...,,,중랑물재생센터 운영과,2021-01-21 00:00,서울시청매점,운영과 다과구매-전출직원선물,,제로페이,48000,
4,22249566,2021년 1월 사업소 물재생센터 중랑물재생센터 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22249566,사업소,물재생센터,중랑물재생센터,,,2021,1,...,,,중랑물재생센터 운영과,2021-01-21 00:00,복시루,운영과 다과구매-전출직원선물,,카드,75000,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4873,22241154,2021년 1월 서울시본청 주택건축본부 지역건축안전센터 업무추진비 - 시책추진,http://opengov.seoul.go.kr/public/22241154,서울시본청,주택건축본부,지역건축안전센터,,,2021,1,...,,,주택건축본부 지역건축안전센터,2021-01-06 12:33,곰비임비(중구 세종대로11길 45),중소형 민간건축공사장 안전대책 관련 간담회 비용 지급,지역건축안전센터장 외 2명,제로페이,35000,
4874,22241154,2021년 1월 서울시본청 주택건축본부 지역건축안전센터 업무추진비 - 시책추진,http://opengov.seoul.go.kr/public/22241154,서울시본청,주택건축본부,지역건축안전센터,,,2021,1,...,,,주택건축본부 지역건축안전센터,2021-01-05 18:25,본죽&비빔밥(중구 세종대로 80),소규모 노후 건축물 안전점검 관련 간담회 비용 지급,지역건축안전센터장 외 2명,제로페이,21000,
4875,22241154,2021년 1월 서울시본청 주택건축본부 지역건축안전센터 업무추진비 - 시책추진,http://opengov.seoul.go.kr/public/22241154,서울시본청,주택건축본부,지역건축안전센터,,,2021,1,...,,,주택건축본부 지역건축안전센터,2021-01-04 12:35,크레이지후라이(중구 서소문로 124),겨울방학 아르바이트 대학생 격려 간담회 비용 지급,지역건축안전센터장 외 2명,제로페이,40000,
4876,22241159,2021년 1월 사업소 상수도사업본부 중부수도사업소 요금과 업무추진비 - 부서운영,http://opengov.seoul.go.kr/public/22241159,사업소,상수도사업본부,중부수도사업소,요금과,,2021,1,...,,,중부수도 요금과,2021-01-27 15:19,가메골에프엔비㈜(중구 남대문시장4길 42),부서 직원 교육 및 신년간담회,요금과 직원 20명,카드,64000,


In [16]:
# 데이터 파일명에 한글이 존재할 때 종종 에러 발생
# 해결 방법은 encoding을 cp949 / euc-kr 로 변경
pd.read_csv("../../csv/주민등록.csv", encoding='cp949')

Unnamed: 0,자치구코드(atdrc_code_se),자치구명(atdrc_nm),년월(년월),총인구수(tot_popltn_co),세대수(tot_hshld_co),세대당인구(hshld_popltn_avrg_co),남자인구수(male_popltn_co),여자인구수(female_popltn_co),적재일시(ldadng_dt)
0,금천구,11110,201907,228755,171426,2.44,319062,118352,2018-01-05 16:52:25
1,서대문구,11290,201607,153780,186744,2.12,75614,116393,2018-12-05 10:20:57
2,양천구,11740,201804,594315,61091,2.22,192817,307237,2020-11-03 10:50:11
3,은평구,11200,202004,345156,168865,2.13,229690,204108,2018-01-05 16:52:25
4,마포구,11260,201902,394788,168482,2.52,61714,146951,2018-01-05 16:52:25
5,도봉구,11350,201704,150732,61069,2.39,60735,199831,2018-01-05 16:52:25
6,강북구,11410,202008,404501,174263,2.25,184053,172995,2018-01-05 16:52:25
7,용산구,11620,201407,433658,173943,1.85,252383,198754,2018-01-05 16:52:25
8,관악구,11140,201710,308087,180747,2.01,192923,245902,2021-01-21 15:43:29
9,동대문구,11470,201806,447667,162606,2.49,215440,64221,2020-07-22 20:11:55


In [17]:
pd.read_xml('../../csv/2021/202101_expense_list.xml')

ImportError: lxml not found, please install or use the etree parser.

In [None]:
# xml 파일 로드시 모듈 에러 발생시(lxml)
# lxml 모듈을 설치 => pip install lxml
pd.read_xml('../../csv/2021/202101_expense_list.xml')

Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,...,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount,bimok
0,22249566,2021년 1월 사업소 물재생센터 중랑물재생센터 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22249566,사업소,물재생센터,중랑물재생센터,,,2021,1,...,,,중랑물재생센터 관리과,2021-01-25 00:00,,소속직원 경조사비,"김광옥, 김용성",현금,100000,
1,22249566,2021년 1월 사업소 물재생센터 중랑물재생센터 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22249566,사업소,물재생센터,중랑물재생센터,,,2021,1,...,,,중랑물재생센터 운영과,2021-01-22 00:00,복시루,운영과 다과구매-전출직원선물,,카드,90000,
2,22249566,2021년 1월 사업소 물재생센터 중랑물재생센터 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22249566,사업소,물재생센터,중랑물재생센터,,,2021,1,...,,,중랑물재생센터 시설보수과,2021-01-21 00:00,떡시루,소속직원 송별떡,시설보수과장외 27명,카드,80000,
3,22249566,2021년 1월 사업소 물재생센터 중랑물재생센터 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22249566,사업소,물재생센터,중랑물재생센터,,,2021,1,...,,,중랑물재생센터 운영과,2021-01-21 00:00,서울시청매점,운영과 다과구매-전출직원선물,,제로페이,48000,
4,22249566,2021년 1월 사업소 물재생센터 중랑물재생센터 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22249566,사업소,물재생센터,중랑물재생센터,,,2021,1,...,,,중랑물재생센터 운영과,2021-01-21 00:00,복시루,운영과 다과구매-전출직원선물,,카드,75000,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4873,22241154,2021년 1월 서울시본청 주택건축본부 지역건축안전센터 업무추진비 - 시책추진,http://opengov.seoul.go.kr/public/22241154,서울시본청,주택건축본부,지역건축안전센터,,,2021,1,...,,,주택건축본부 지역건축안전센터,2021-01-06 12:33,곰비임비(중구 세종대로11길 45),중소형 민간건축공사장 안전대책 관련 간담회 비용 지급,지역건축안전센터장 외 2명,제로페이,35000,
4874,22241154,2021년 1월 서울시본청 주택건축본부 지역건축안전센터 업무추진비 - 시책추진,http://opengov.seoul.go.kr/public/22241154,서울시본청,주택건축본부,지역건축안전센터,,,2021,1,...,,,주택건축본부 지역건축안전센터,2021-01-05 18:25,본죽&비빔밥(중구 세종대로 80),소규모 노후 건축물 안전점검 관련 간담회 비용 지급,지역건축안전센터장 외 2명,제로페이,21000,
4875,22241154,2021년 1월 서울시본청 주택건축본부 지역건축안전센터 업무추진비 - 시책추진,http://opengov.seoul.go.kr/public/22241154,서울시본청,주택건축본부,지역건축안전센터,,,2021,1,...,,,주택건축본부 지역건축안전센터,2021-01-04 12:35,크레이지후라이(중구 서소문로 124),겨울방학 아르바이트 대학생 격려 간담회 비용 지급,지역건축안전센터장 외 2명,제로페이,40000,
4876,22241159,2021년 1월 사업소 상수도사업본부 중부수도사업소 요금과 업무추진비 - 부서운영,http://opengov.seoul.go.kr/public/22241159,사업소,상수도사업본부,중부수도사업소,요금과,,2021,1,...,,,중부수도 요금과,2021-01-27 15:19,가메골에프엔비㈜(중구 남대문시장4길 42),부서 직원 교육 및 신년간담회,요금과 직원 20명,카드,64000,


### <결측치>
- 데이터프레임에서 value가 존재하지 않는 경우
- NaN 표시

In [19]:
import numpy as np

In [20]:
data = [
    [1, 2, np.nan, 4, 5],
    [1, np.nan, 3, 4, 5],
    [1, 2, 3, np.nan, 5]
]
cols = ['s1', 's2', 's3', 's4', 's5']
df = pd.DataFrame(data, columns=cols)

In [21]:
df

Unnamed: 0,s1,s2,s3,s4,s5
0,1,2.0,,4.0,5
1,1,,3.0,4.0,5
2,1,2.0,3.0,,5


In [22]:
np.nan == np.nan

False

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   s1      3 non-null      int64  
 1   s2      2 non-null      float64
 2   s3      2 non-null      float64
 3   s4      2 non-null      float64
 4   s5      3 non-null      int64  
dtypes: float64(3), int64(2)
memory usage: 248.0 bytes


In [None]:
# 결측치의 존재 유무 판단 함수 : isna()
# 결측치 => True, 결측치X => False
# 데이터프레임 클래스 안에 있는 isna() 함수 호출
df.isna()

Unnamed: 0,s1,s2,s3,s4,s5
0,False,False,True,False,False
1,False,True,False,False,False
2,False,False,False,True,False


In [None]:
df['s2'].isna()
# df['s2']는 Series의 형태 => Series에서도 isna() 사용 가능

0    False
1     True
2    False
Name: s2, dtype: bool

In [48]:
# 결측치 개수 확인 
# isna() 호출한 뒤 -> 결과 중 True의 개수 확인
sum(df.isna().values)           # 파이썬의 sum

array([0, 1, 1, 1, 0])

In [42]:
sum(sum(df.isna().values))

np.int64(3)

In [None]:
# DataFrame 안에 sum 함수는 매개변수 axis 존재
# axis => 0(rows, 행): 각 열 별 NaN 개수 | 1(columns, 열): 각 행 별 NaN 개수
# 기본값은 0(열 기준)
df.isna().sum()             # 클래스 내의 sum() 함수

s1    0
s2    1
s3    1
s4    1
s5    0
dtype: int64

In [None]:
sum(df.isna().sum())

3

In [None]:
df.isna().sum(axis=1)

0    1
1    1
2    1
dtype: int64

In [None]:
# 결측치를 포함하는 행인가? 열인가?
df.isna().any()     # 결측치 포함 열 True 반환

s1    False
s2     True
s3     True
s4     True
s5    False
dtype: bool

In [None]:
df.isna().any(axis=1)       # 결측치 포함 행 True 반환

0    True
1    True
2    True
dtype: bool

In [None]:
~df.isna().any()
# 결측치X => True
# '~', '-' 연산자 : 스리즈 데이터에서 부정 연산자의 의미로 사용 가능

s1     True
s2    False
s3    False
s4    False
s5     True
dtype: bool

In [55]:
df

Unnamed: 0,s1,s2,s3,s4,s5
0,1,2.0,,4.0,5
1,1,,3.0,4.0,5
2,1,2.0,3.0,,5


In [None]:
# 결측치 제거
# 결측치 -> na
# 제거 -> drop
# dropna() 함수 -> axis 매개변수
# axis=0 : 결측치가 포함된 행 제거
# axis=1 : 결측치가 포함된 열 제거
df.dropna(axis=0)

Unnamed: 0,s1,s2,s3,s4,s5


In [58]:
df.dropna(axis=1)

Unnamed: 0,s1,s5
0,1,5
1,1,5
2,1,5


In [62]:
df

Unnamed: 0,s1,s2,s3,s4,s5
0,1,2.0,,4.0,5
1,1,,3.0,4.0,5
2,1,2.0,3.0,,5


In [65]:
# 결측치에 특정 데이터 대입
# 결측치 -> na
# 결측치들에 값을 채워준다. : fill
# fillna() 함수
    # method 매개변수
        # "ffill" : 결측치를 앞 데이터로 채워준다.
        # "bfill" : 결측치를 뒤 데이터로 채워준다.
        # 앞 데이터, 뒤 데이터가 없다면 NaN 그대로 남아있음

df.fillna(10)

Unnamed: 0,s1,s2,s3,s4,s5
0,1,2.0,10.0,4.0,5
1,1,10.0,3.0,4.0,5
2,1,2.0,3.0,10.0,5


In [67]:
df.fillna(method='ffill')

  df.fillna(method='ffill')


Unnamed: 0,s1,s2,s3,s4,s5
0,1,2.0,,4.0,5
1,1,2.0,3.0,4.0,5
2,1,2.0,3.0,4.0,5


In [68]:
df.fillna(method='bfill')

  df.fillna(method='bfill')


Unnamed: 0,s1,s2,s3,s4,s5
0,1,2.0,3.0,4.0,5
1,1,2.0,3.0,4.0,5
2,1,2.0,3.0,,5


### <데이터프레임의 필터링>

- 데이터프레임명.loc[인덱스의 조건식, 컬럼의 조건식]
    - 인덱스의 값을 기준으로 필터링
    - 인덱스가 T/F 필터
    - 컬럼의 값을 기준으로 필터링
    - 시작:끝 => 시작값부터 끝값까지 

- 데이터프레임명.iloc[인덱스의 위치, 컬럼의 위치]
    - 인덱스의 위치를 기준으로 필터링
    - 컬럼의 위치를 기준으로 필터링
    - 시작:끝 => 시작 위치부터 끝의 전 위치까지

- 데이터프레임명[ 컬럼명 ]
    - 특정 컬럼의 데이터를 출력
    - 결과의 타입이 Series(차원축소O)

- 데이터프레임명[ [컬럼명] ]
    - 특정 컬럼의 데이터를 출력
    - 결과의 타입이 DataFrame(차원축소X)

In [74]:
data = [
    [1,2,3],
    [4,5,6],
    [7,8,9]
]
idx = [1,4,7]
cols = ['a', 'b', 'c']

df = pd.DataFrame(data, index=idx, columns=cols)

In [None]:
# df

Unnamed: 0,a,b,c
1,1,2,3
4,4,5,6
7,7,8,9


In [76]:
# loc[인덱스의 조건, 컬럼의 조건]
df.loc[4, ]

a    4
b    5
c    6
Name: 4, dtype: int64

In [77]:
df.loc[ [4], ]

Unnamed: 0,a,b,c
4,4,5,6


In [None]:
df.loc[ :, 'a']
# 인덱스의 조건은 전체

1    1
4    4
7    7
Name: a, dtype: int64

In [82]:
df.loc[ : , ['a']]

Unnamed: 0,a
1,1
4,4
7,7


In [84]:
# 컬럼 선택 다른 방법
df['b']

1    2
4    5
7    8
Name: b, dtype: int64

In [85]:
df[['b']]

Unnamed: 0,b
1,2
4,5
7,8


In [None]:
# iloc[인덱스의 위치, 컬럼의 위치]
df.iloc[ 1, ]       # 두 번째 위치의 인덱스의 값

a    4
b    5
c    6
Name: 4, dtype: int64

In [87]:
df.iloc[ [1], ]

Unnamed: 0,a,b,c
4,4,5,6


In [None]:
df.loc[ :4, ]       # 인덱스=4인 위치까지 출력

Unnamed: 0,a,b,c
1,1,2,3
4,4,5,6


In [None]:
df.iloc[ :2, ]      # 첫 번째 인덱스까지 출력

Unnamed: 0,a,b,c
1,1,2,3
4,4,5,6
