라이브러리 로드
- import 라이브러리명 as 별칭
- from 라이브러리명 import 라이브러리 안에 특정 기능

In [4]:
import pandas as pd

### Series
- 1차원 데이터형

In [5]:
# Series 생성
series_1 = pd.Series(
    [5000, 6000, 6500, 6500],
    index=['아메리카노','카페라떼','카페모카','카푸치노']
    # 인덱스 값을 정하지 않으면 0,1,2,3,4로 지정됨
)

series_1

아메리카노    5000
카페라떼     6000
카페모카     6500
카푸치노     6500
dtype: int64

In [6]:
# 값, 인덱스 따로 출력 가능
print(series_1.values)
print(series_1.index)

[5000 6000 6500 6500]
Index(['아메리카노', '카페라떼', '카페모카', '카푸치노'], dtype='object')


In [7]:
# Series 원소들의 타입이 다를 때, dtype은?
series_2 = pd.Series(
    ['A', 10, True]
    # str, int bool
)

series_2
# ⇒ dtype: object
# 하나의 feature에서 각각 타입이 다르면 일괄적인 연산이나 수정이 불편하므로
# 같은 타입이 됨

0       A
1      10
2    True
dtype: object

In [8]:
type(series_2[2])

bool

In [9]:
# Series라는 class에는 적어도 2개의 변수 존재
# 값들이 저장되어있는 values
# values의 키 값인 index

print("Series에서 values는 ", series_1.values)
print("Series에서 index는 ", series_1.index)

Series에서 values는  [5000 6000 6500 6500]
Series에서 index는  Index(['아메리카노', '카페라떼', '카페모카', '카푸치노'], dtype='object')


In [10]:
# Series 안의 index를 변경하는데 values의 길이와 맞지 않는 경우
series_1.index = [0,1,2,3,4]
# ValueError: Length mismatch: Expected axis has 4 elements, new values have 5 elements

ValueError: Length mismatch: Expected axis has 4 elements, new values have 5 elements

In [11]:
# 특정 인덱스만 변경하려고 한다.
print(series_1.index)

series_1.index[2] = 10
# TypeError: Index does not support mutable operations
# list 타입처럼 보여지지만 index 타입이므로 Error 발생.

# index 타입의 데이터에서 특정 데이터 변경은 함수를 이용하여야 가능.

Index(['아메리카노', '카페라떼', '카페모카', '카푸치노'], dtype='object')


TypeError: Index does not support mutable operations

### DataFrame
- 2차원 데이터형

In [12]:
_values = [
    [1,2,3],
    [4,5,6],
    [7,8,9]
]
_index = ['a', 'b', 'c']
_cols = ['A', 'B', 'C']

df = pd.DataFrame(_values, index=_index, columns=_cols)

df


Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6
c,7,8,9


In [13]:
# rename() 함수를 이용해서 특정 인덱스나 특정 컬럼 변경

# df는 데이터프레임이고, 데이터프레임은 class이다. class는 변수와 함수를 포함한다.
# df에는 인덱스, 컬럼이 있으므로 특정 인자값을 지정할 필요 없이 모두 바꿀 수 있다.
# pd에서 사용하면, 모듈에서 바로 가져온 함수이니 어떤 데이터를 변경할지에 대한 인자값을 넣어줘야 한다.

# df의 컬럼 중 B 컬럼의 이름을 F로 변경
# inplace 매개변수를 True로 변경하면, df의 데이터가 변경된다(변경되었으므로 출력은 되지 않는다.)
df.rename(
    columns= {
        # key에 대응되는 value의 이름이 바뀐다.
        'B' : 'F'
    },
    inplace= True
)

In [14]:
# 복사본 생성
df2 = df.copy()

In [15]:
df2 = df2.rename(
    columns= {
        'A':'C'
    }, inplace= True
)

In [16]:
df2
# 아무 결과도 출력되지 않음.
# inplace가 True -> return으로 되돌려주는 데이터가 존재하지 않으므로.
# 따라서 df2 = None 들어가는 형태로 df2의 데이터를 모두 제거.

In [17]:
# DataFrame 안에 있는 columns 변수의 데이터를 변경
df.columns = ['name', 'age', 'loc']
df

Unnamed: 0,name,age,loc
a,1,2,3
b,4,5,6
c,7,8,9


---

#### pandas 라이브러리를 이용하여 외부의 데이터파일 로드
- **csv, tsv**
    - 가장 단순한 형태의 데이터 파일
    - **pandas 안에 내장된 read_csv() 함수를 이용하여 로드**
    - csv는 데이터를 ',' 기준으로 나눠준다.
        - read_csv()를 기본값으로 사용
    - tsv는 데이터를 '\t' (Tap) 기준으로 나눠준다.
        - read_csv() 함수에서 sep 매개변수에 인자값 '\t' 대입
- **json**
    - 일반적으로 많이 사용하는 형태의 데이터 파일
    - python을 기준으로 생각하면, dict 형태와 비슷하다.
    - **pandas 안의 read_json() 함수를 이용하여 로드**
- **xml**
    - html 구조 언어와 같이 tag를 이용하여 구성되어 있는 데이터 파일
    - **pandas 안에 read_xml() 함수를 이용하여 로드**
- 공통적으로 사용되는 매개변수
    - **encoding 매개변수**
        - 기본값은 'UTF-8'
        - 한글이 존재하는 데이터 파일 로드 시 종종 에러 발생 (decode error)
            - 매개변수에 'CP949' 또는 'EUC-KR' 대입 시 에러 해결  *(소문자도 가능)*
        - <span style='color: #fff5b1'>*엑셀 파일을 로드하는 함수에는 encoding 매개변수가 존재하지 않는다.*</span>
            - 알아서 지정해서 되돌려주므로 우리가 지정해줄 필요 없음
- **excel** (확장자 xls, xlsx)
    - 엑셀 데이터 파일
    - **pandas 안의 read_excel() 함수를 이용하여 로드**
    - 특정 엑셀 파일을 로드할 때는 추가적인 라이브러리 설치 필요. </br>
    해당 라이브러리가 설치되지 않은 경우, 에러 발생 (모듈을 찾을 수 없다.)
        - openpyxl 라이브러리 설치 시 에러 해결

- read_xxx() 공통점
    - 첫 번째 인자: 파일의 경로


#### 경로
- 절대 경로
    - 환경이 변하더라도 언제나 같은 위치를 지정한다.
    - ex)
        - window -> c:/users/admin/document/a.txt
        - mac -> ~/Desktop/a.txt
        - url -> https://www.google.com
- 상대 경로
    - 환경이 변할 때 위치도 같이 변한다.
    - 종류
        - ./  -> 현재 작업중인 디렉토리
        - ../ -> 상위(부모) 디렉토리로 이동
        - 디렉토리명/ -> 하위(자식) 디렉토리 이동


In [None]:
# import pandas as pd

In [23]:
# 외부의 데이터파일 로드
# 절대 경로 사용 (Copy Path)

# 역슬래쉬(\)는 줄바꿈(\n), Tab(\t) 등 텍스트 안에서의 행동을 가능하게 할 때 사용하므로,
# 경로에서 \ 하나만 쓰면 Error 발생.
# 따라서 경로 앞에 'r' 붙이거나, \\로 바꾸거나, /로 바꿔줘야 한다.

df = pd.read_csv(
    r'C:\Users\student\Desktop\python\csv\example.csv'
)

df.head()

Unnamed: 0,Name,Gender,Phone
0,A,male,010-1234-5678
1,B,female,010-1234-5679
2,C,male,010-1234-5680
3,D,female,010-1234-5681
4,E,male,010-1234-5682


In [22]:
# 외부의 데이터파일 로드
# 상대 경로 사용 (Copy Relative Path)

# 현재 디렉토리(./) → 상위 디렉토리(../) → csv 하위 디렉토리 이동(csv/)
# → example.csv
df2 = pd.read_csv(
    './../csv/example.csv'
)

df2.head()

Unnamed: 0,Name,Gender,Phone
0,A,male,010-1234-5678
1,B,female,010-1234-5679
2,C,male,010-1234-5680
3,D,female,010-1234-5681
4,E,male,010-1234-5682


In [20]:
# tsv 파일을 로드
# read_csv() 함수 이용
# 상대경로
# 현재 디렉토리(./) → 상위 디렉토리(../) → csv 하위 디렉토리 이동(csv/)
# → 하위 num_1 디렉토리 이동(num_1/) → chipotle.csv
# csv는 , 로 나누고 tsv는 \t로 나누므로 sep='\t'
df3 = pd.read_csv(
    './../csv/num_1/chipotle.tsv', sep='\t'
)

df3.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98


In [18]:
# csv 폴더 안의 2021 폴더에서 json 데이터 로드
# read_json() 함수 이용
# # 현재 디렉토리(./) → 상위 디렉토리(../) → csv 하위 디렉토리 이동(csv/)
# → 하위 2021 디렉토리 이동(2021/) → 202101_expense_list.json
df4 = pd.read_json(
    './../csv/2021/202101_expense_list.json'
)

df4.head(1)

Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,...,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount,bimok
0,22249566,2021년 1월 사업소 물재생센터 중랑물재생센터 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22249566,사업소,물재생센터,중랑물재생센터,,,2021,1,...,,,중랑물재생센터 관리과,2021-01-25 00:00,,소속직원 경조사비,"김광옥, 김용성",현금,100000,


In [None]:
# csv 폴더 안의 2021 폴더에서 xml 데이터 로드
# read_xml() 함수 이용
# # 현재 디렉토리(./) → 상위 디렉토리(../) → csv 하위 디렉토리 이동(csv/)
# → 하위 2021 디렉토리 이동(2021/) → 202101_expense_list.xml
df5 = pd.read_xml(
    './../csv/2021/202101_expense_list.xml'
)

df5.head(1)

Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,...,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount,bimok
0,22249566,2021년 1월 사업소 물재생센터 중랑물재생센터 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22249566,사업소,물재생센터,중랑물재생센터,,,2021,1,...,,,중랑물재생센터 관리과,2021-01-25 00:00,,소속직원 경조사비,"김광옥, 김용성",현금,100000,


In [None]:
# !pip install lxml



In [None]:
# csv 폴더 안의 2021 폴더에서 excel 데이터 로드
# read_excel() 함수 이용
# # 현재 디렉토리(./) → 상위 디렉토리(../) → csv 하위 디렉토리 이동(csv/)
# → 하위 2021 디렉토리 이동(2021/) → 202101_expense_list.xlsx
df6 = pd.read_excel(
    './../csv/2021/202101_expense_list.xlsx'
)

df6.head(1)

Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,...,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount,bimok
0,22249566,2021년 1월 사업소 물재생센터 중랑물재생센터 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22249566,사업소,물재생센터,중랑물재생센터,,,2021,1,...,,,중랑물재생센터 관리과,2021-01-25 00:00,,소속직원 경조사비,"김광옥, 김용성",현금,100000,


In [8]:
# !pip install openpyxl

---
인코딩 에러

In [13]:
# data 파일에서 한글 때문에 error가 발생하는 경우
# csv 폴더 안의 '주민등록.csv' 파일 로드
# # 현재 디렉토리(./) → 상위 디렉토리(../) → csv 하위 디렉토리 이동(csv/)
# → 주민등록.csv

# df7 = pd.read_csv('./../csv/주민등록.csv')
# ⇒ error 발생 (UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 1: invalid start byte)
# 코덱(codec) 엔진을 

df6 = pd.read_csv(
    './../csv/주민등록.csv', encoding='CP949' # 소문자(cp949)도 됨
)

df6.head()

Unnamed: 0,자치구코드(atdrc_code_se),자치구명(atdrc_nm),년월(년월),총인구수(tot_popltn_co),세대수(tot_hshld_co),세대당인구(hshld_popltn_avrg_co),남자인구수(male_popltn_co),여자인구수(female_popltn_co),적재일시(ldadng_dt)
0,금천구,11110,201907,228755,171426,2.44,319062,118352,2018-01-05 16:52:25
1,서대문구,11290,201607,153780,186744,2.12,75614,116393,2018-12-05 10:20:57
2,양천구,11740,201804,594315,61091,2.22,192817,307237,2020-11-03 10:50:11
3,은평구,11200,202004,345156,168865,2.13,229690,204108,2018-01-05 16:52:25
4,마포구,11260,201902,394788,168482,2.52,61714,146951,2018-01-05 16:52:25
