In [1]:
# 라이브러리 로드 
# import 라이브러리명 as 별칭 
# from 라이브러리명 import 라이브러리안에 특정 기능
import pandas as pd

In [2]:
# 1차원 데이터형인 Series 생성 
series_1 = pd.Series(
    [5000, 6000, 6500, 6500]
)

In [3]:
series_1

0    5000
1    6000
2    6500
3    6500
dtype: int64

In [4]:
series_2 = pd.Series(
    ['A', 'B', 'C']
)

In [5]:
series_2

0    A
1    B
2    C
dtype: object

In [6]:
# 원소들의 타입이 다른 경우 Series 생성 할대 dtype은 어떻게 되는가?
series_3 = pd.Series(
    ['A', 10, True]
)

In [7]:
series_3

0       A
1      10
2    True
dtype: object

In [8]:
type(series_3[2])

bool

In [9]:
# Series 라는 class에는 적어도 2개의 변수가 존재
# 값들이 저장되어있는 values
# values의 키값인 index
print("Series에서 values는 ", series_1.values)
print("Series에서 index는 ", series_1.index)

Series에서 values는  [5000 6000 6500 6500]
Series에서 index는  RangeIndex(start=0, stop=4, step=1)


In [10]:
series_1[1] = 5500

In [11]:
series_1

0    5000
1    5500
2    6500
3    6500
dtype: int64

In [12]:
series_1[5] = 6000

In [13]:
series_1

0    5000
1    5500
2    6500
3    6500
5    6000
dtype: int64

In [14]:
# index의 값을 변경한다.-> 
# Series class 내부에 존재하는 index 변수의 데이터를 다른값으로 채워준다. 
series_1.index = [0, 1, 1, 2, 2]

In [15]:
series_1

0    5000
1    5500
1    6500
2    6500
2    6000
dtype: int64

In [16]:
# series 안에 index를 변경하는데 values의 길이와 맞지 않는 경우 
# 길이가 맞지 않는다면 에러 발생
# series_1.index = [0, 1, 2, 3, 4, 5]

In [17]:
# 특정 인덱스만 변경하려고 한다. 
# index 타입의 데이터에서 특정 데이터를 변경은 함수를 이용해서 가능
# series_1.index[2] = 10

In [18]:
# 데이터프레임 생성
_values = [
    [1,2,3], 
    [4,5,6], 
    [7,8,9]
]
_index = ['a', 'b', 'c']
_cols = ['A', 'B', 'C']

df = pd.DataFrame(_values, index = _index, columns = _cols)

In [19]:
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6
c,7,8,9


In [20]:
print(df)

   A  B  C
a  1  2  3
b  4  5  6
c  7  8  9


In [21]:
# rename() 함수를 이용해서 특정 인덱스나 특정 컬럼을 변경 
# df 의 컬럼 중 B 컬럼의 이름을 F변경 
# inplace 매개변수를 True 변경하면 df의 데이터가 변경되고 출력 X
df.rename(
    columns = {
        'B' : 'F'
    }, 
    inplace = True
)

In [22]:
# 복사본 생성 
df2 = df.copy()

In [23]:
df2 = df2.rename(
    columns ={
        'A' : 'C'
    } , inplace = True
)

In [24]:
df2
# inplace가 True이면 return으로 되돌려주는 데이터가 존재하지 않는다. 
# df2 = None 들어가는 형태로 df2의 데이터를 모두 제거 

In [25]:
# DataFrame 안에 있는 columns 변수의 데이터를 변경
df.columns = ['name', 'age', 'loc']

In [26]:
df

Unnamed: 0,name,age,loc
a,1,2,3
b,4,5,6
c,7,8,9


#### pandas 라이브러리를 이용하여 외부의 데이터파일 로드 
- csv, tsv
    - 가장 단순한 형태의 데이터 파일 
    - pandas 안에 내장된 read_csv() 함수를 이용하여 로드 
    - csv는 데이터를 ',' 기준으로 나눠준다. 
        - read_csv()를 기본값으로 사용 
    - tsv는 데이터를 '\t' 기준으로 나눠준다. 
        - read_csv() 함수에서 sep 매개변수에 인자값을 '\t' 대입
- json
    - 많이 사용하는 데이터의 파일
    - python을 기준으로 생각하면 dict 형태와 같다
    - pandas 안에 read_json() 함수를 이용하여 로드 
- xml 
    - html 구조 언어와 같이 tag를 이용하여 데이터 구성 
    - pandas 안에 read_xml() 함수를 이용하여 로드 
- 공통적으로 사용이되는 매개변수 
    - encoding 매개변수 
        - 기본값은 'UTF-8'
        - 데이터 파일을 로드 하는데 해당 데이터에 한글이 존재할때 종종 에러가 발생 ( decode error )
            - 'CP949', 'EUC-KR'로 매개변수에 대입 에러가 해결
        - 엑셀파일을 로드하는 함수에서는 encoding 매개변수가 존재하지 않는다. 
- excel ( xls, xlsx )
    - 엑셀 데이터 파일 
    - pandas 안에 read_excel() 함수를 이용
    - 특정 엑셀 파일을 로드 할때는 추가적인 라이브러리 설치 필요한 경우가 발생 
        - 해당 라이브러리가 설치가 되지 않은 경우에는 에러 발생 (모듈을 찾을수 없다.)
        - openpyxl 라이브러리를 설치하면 에러 해결 

- read_xxx() 공통적인 부분 
    - 첫번째 인자 : 파일의 경로

#### 경로 
- 절대 경로
    - 절대적인 주소값
    - 환경이 변하더라도 같은 위치를 언제나 지정 
    - ex)
        - window -> c:/users/admin/document/a.txt
        - mac -> ~/Desktop/a.txt
        - url -> https://www.google.com
- 상대 경로
    - 상대적인 주소값
    - 환경이 변할때 위치도 같이 변한다. 
    - 종류
        - ./ -> 현재 작업중인 디렉토리
        - ../ -> 상위(부모) 디렉토리 이동
        - 디렉토리명/ -> 하위(자식) 디렉토리 이동


In [27]:
# 외부의 데이터파일 로드 
# 절대 경로 사용
df = pd.read_csv(
    r"C:\Users\ekfla\Documents\GitHub\multicam_2025\csv\example.csv"
)

In [28]:
df

Unnamed: 0,Name,Gender,Phone
0,A,male,010-1234-5678
1,B,female,010-1234-5679
2,C,male,010-1234-5680
3,D,female,010-1234-5681
4,E,male,010-1234-5682
5,F,female,010-1234-5683
6,G,male,010-1234-5684
7,H,female,010-1234-5685
8,I,male,010-1234-5686
9,J,female,010-1234-5687


In [29]:
# 상대 경로 이용
# 현재 디렉토리(./) -> 상위 디렉토리(../) -> csv 하위 디렉토리 이동(csv/)
# -> example.csv
df2 = pd.read_csv(
    "./../csv/example.csv"
)


In [30]:
df2

Unnamed: 0,Name,Gender,Phone
0,A,male,010-1234-5678
1,B,female,010-1234-5679
2,C,male,010-1234-5680
3,D,female,010-1234-5681
4,E,male,010-1234-5682
5,F,female,010-1234-5683
6,G,male,010-1234-5684
7,H,female,010-1234-5685
8,I,male,010-1234-5686
9,J,female,010-1234-5687


In [32]:
# tsv 파일을 로드 
# read_csv() 함수를 이용
# 상대경로 
# 현재 경로(./) -> 상위 디렉토리 이동(../) -> 하위 csv 디렉토리 이동(csv/)
# -> 하위 num_1 디렉토리 이동(num_1/) -> chipotle.tsv
df3 = pd.read_csv(
    "./../csv/num_1/chipotle.tsv", sep = '\t'
)

In [33]:
# csv 폴더 안에 있는 2021 폴더에서 json 데이터 로드 
# read_json() 함수 이용 
# 현재 경로(./) -> 상위 디렉토리 이동(../) -> 하위 csv 디렉토리 이동(csv/)
# -> 하위 2021 디렉토리 이동 -> 202101_xxxxx.json
df4 = pd.read_json(
    "./../csv/2021/202101_expense_list.json"
)

In [None]:
df4.head(1)

In [38]:
# 같은 경로에 있는 xml 파일을 로드 
df5 = pd.read_xml(
    "./../csv/2021/202101_expense_list.xml"
)

In [None]:
# !pip install lxml

In [41]:
# 같은 경로에 있는 excel 파일을 로드 
df6 = pd.read_excel(
    "./../csv/2021/202101_expense_list.xlsx"
)

In [None]:
# !pip install openpyxl

In [46]:
# data 파일에서 한글때문에 에러가 발생하는 경우 
# csv 폴더 안에 '주민등록.csv' 파일을 로드 
# 현재 경로("./") -> 상위 디렉토리 이동("../") -> 하위 csv 디렉토리 이동(csv/)
# 주민등록.csv 
df7 = pd.read_csv(
    "./../csv/주민등록.csv", encoding='CP949'
)

In [47]:
df7.head()

Unnamed: 0,자치구코드(atdrc_code_se),자치구명(atdrc_nm),년월(년월),총인구수(tot_popltn_co),세대수(tot_hshld_co),세대당인구(hshld_popltn_avrg_co),남자인구수(male_popltn_co),여자인구수(female_popltn_co),적재일시(ldadng_dt)
0,금천구,11110,201907,228755,171426,2.44,319062,118352,2018-01-05 16:52:25
1,서대문구,11290,201607,153780,186744,2.12,75614,116393,2018-12-05 10:20:57
2,양천구,11740,201804,594315,61091,2.22,192817,307237,2020-11-03 10:50:11
3,은평구,11200,202004,345156,168865,2.13,229690,204108,2018-01-05 16:52:25
4,마포구,11260,201902,394788,168482,2.52,61714,146951,2018-01-05 16:52:25


#### 결측치 
- 데이터프레임에서 특정 부분에 데이터가 존재하지 않는 경우
- NaN 표시 