In [1]:
from IPython.display import display, HTML
display(HTML("""
<style>
div.container{width:90% !important;}
div.cell.code_cell.rendered{width:100%;}
div.input_prompt{padding:0px;}
div.CodeMirror {font-family:Consolas; font-size:12pt;}
div.text_cell_render.rendered_html{font size:12pt;}
div.output {font-size:12pt; font-weight:bold;}
div.input{font-family:Consolas; font-size:12pt;}
div.prompt {min width:70px;}
div#toc-wrapper {padding-top:120px;}
div.text_cell_render ul li{font-size:12pt;padding:5px;}
table.dataframe {font-size:12px;}
</style>
"""))

<b><font size='6' color='red'>ch11. 데이터 프레임과 시리즈(Pandas)</font></b>
- pip install pandas (판다스 설치 방법)

# 1절 판다스 패키지
- 데이터 분석을 위해 반드시 알아야할 패키지. 넘파이를 기반으로 하며, 다른 많은 라이브러리와 잘 통합디도록 설계
- 2차원 구조를 갖는 데이터프레임, 1차원 구조를 갖는 시리즈를 제공
- 판다스 장점: 데이터 프레임 생성, 파일 io, 레이블링, 부분데이터 추출, 크기변경(행이나 열 삽입, 삭제), 데이터 분할 및 병합, 데이터구조 변경, 결측치 처리

- https://pypi.org/project/pandas/ (package index)
- https://pandas.pydata.org/pandas-docs/stable/reference/index.html (API reference)

In [2]:
import pandas as pd
pd.__version__

'1.5.3'

In [7]:
data = pd.read_json('data/ch09_member1.json', encoding='cp949') # 기본 encoding은 utf-8
display(data)
print(type(data))

Unnamed: 0,name,age,email,address
0,신길동,30,sg@hong.com,서울
1,홍길동,20,ho@hong.com,수원
2,마길동,25,ma@hong.com,안양


<class 'pandas.core.frame.DataFrame'>


In [8]:
member4 = pd.read_csv('data/ch09_member4.csv')
member4

Unnamed: 0,name,age,email,address
0,신길동,30,sg@hong.com,서울
1,홍길동,20,ho@hong.com,수원
2,마길동,25,ma@hong.com,안양


In [11]:
member1 = pd.read_csv('data/ch09_member1.csv', header=None, names=['name', 'age', 'email', 'address'])
member1

Unnamed: 0,name,age,email,address
0,홍길동,20,kildong@hong.com,서울시 관악구
1,김길동,40,kimdong@hong.com,서울시 영등포구
2,신길동,30,sindong@hong.com,서울시 동작구


# 2절 데이터 프레임 만들기
## 2.1 딕셔너리 리스트를 이용해서 데이터 프레임 만들기

In [12]:
d = [{'kor':100, 'mat':95},{'kor':90, 'mat':99}]
df = pd.DataFrame(data=d)
df

Unnamed: 0,kor,mat
0,100,95
1,90,99


In [13]:
df.to_dict() # 데이터프레임을 디셔너리로

{'kor': {0: 100, 1: 90}, 'mat': {0: 95, 1: 99}}

In [15]:
df.to_numpy() # 데이터프레임을 넘파이 배열로
df.values # 데이터프레임을 넘파이 배열로(이걸 더 자주 사용)

array([[100,  95],
       [ 90,  99]], dtype=int64)

In [16]:
df.dtypes # 열의 타입

kor    int64
mat    int64
dtype: object

In [17]:
df.info() # ★

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   kor     2 non-null      int64
 1   mat     2 non-null      int64
dtypes: int64(2)
memory usage: 160.0 bytes


In [18]:
df['kor'].dtype

dtype('int64')

In [20]:
# 타입변경 (열마다)
import numpy as np
df['kor'].astype(np.float64)
df['kor'] = df['kor'].astype(np.float64) # kor 열의 타입을 float 64로

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   kor     2 non-null      float64
 1   mat     2 non-null      int64  
dtypes: float64(1), int64(1)
memory usage: 160.0 bytes


In [22]:
d = [{'kor':100, 'mat':95},{'kor':90, 'mat':99},{'kor':92, 'eng':99}]
df = pd.DataFrame(data=d)
df

Unnamed: 0,kor,mat,eng
0,100,95.0,
1,90,99.0,
2,92,,99.0


In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   kor     3 non-null      int64  
 1   mat     2 non-null      float64
 2   eng     1 non-null      float64
dtypes: float64(2), int64(1)
memory usage: 200.0 bytes


In [24]:
type(np.nan) # np.nan은 결측치

float

In [26]:
df['kor'] = df['kor'].astype(np.int32)
df

Unnamed: 0,kor,mat,eng
0,100,95.0,
1,90,99.0,
2,92,,99.0


In [28]:
# 결측치는 int로 형변환 불가 (결측치를 대체값으로 치완 후 변환)
#df['mat'] = df['mat'].astype(np.int32)

## 2.2 리스트를 이용해서 데이터프레임 만들기

In [31]:
kor = [100, 90, 95, 90, 65]
mat = [99, 100, 95, 98, 94]
df = pd.DataFrame({'kor':kor, 'mat':mat})
df.head(2) # 상위 2행만 출력

Unnamed: 0,kor,mat
0,100,99
1,90,100


In [32]:
np.c_[kor, mat]

array([[100,  99],
       [ 90, 100],
       [ 95,  95],
       [ 90,  98],
       [ 65,  94]])

In [34]:
df = pd.DataFrame(data=np.c_[kor, mat], columns=['국어', '수학']) #columns에는 특수문자 왠만하면 사용 x
df

Unnamed: 0,국어,수학
0,100,99
1,90,100
2,95,95
3,90,98
4,65,94


In [35]:
df.shape

(5, 2)

In [38]:
l = [['트렌드 코리아 2026', '김난도', 18000, 10],
     ['사탄탱고', '라슬로', 17820, 10],
     ['미술관 여행자', '카미유주노', 29700, 10]]
df = pd.DataFrame(l, columns=['책이름', '저자', '가격', '할인율'])
df

Unnamed: 0,책이름,저자,가격,할인율
0,트렌드 코리아 2026,김난도,18000,10
1,사탄탱고,라슬로,17820,10
2,미술관 여행자,카미유주노,29700,10


In [39]:
# %ls : ipython 매직명령어

In [44]:
%ls "C:\ai\downloads\shareData\상가정보\상가정보\"

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: A014-DCD6

 C:\ai\downloads\shareData\상가정보\상가정보 디렉터리

2025-10-12  오후 03:33    <DIR>          .
2025-10-12  오후 03:33    <DIR>          ..
2025-04-27  오후 11:07             1,011 [필독]파일열람방법.txt
2025-04-27  오후 11:07        61,227,944 소상공인시장진흥공단_상가(상권)정보_강원_202503.csv
2025-04-27  오후 11:07       356,572,082 소상공인시장진흥공단_상가(상권)정보_경기_202503.csv
2025-04-27  오후 11:07        93,472,559 소상공인시장진흥공단_상가(상권)정보_경남_202503.csv
2025-04-27  오후 11:07        76,425,275 소상공인시장진흥공단_상가(상권)정보_경북_202503.csv
2025-04-27  오후 11:07        40,070,868 소상공인시장진흥공단_상가(상권)정보_광주_202503.csv
2025-04-27  오후 11:07        61,715,005 소상공인시장진흥공단_상가(상권)정보_대구_202503.csv
2025-04-27  오후 11:07        41,491,092 소상공인시장진흥공단_상가(상권)정보_대전_202503.csv
2025-04-27  오후 11:07        84,550,600 소상공인시장진흥공단_상가(상권)정보_부산_202503.csv
2025-04-27  오후 11:07       294,549,483 소상공인시장진흥공단_상가(상권)정보_서울_202503.csv
2025-04-27  오후 11:07         9,303,432 소상공인시장진흥공단_상가(상권)정보_세종_202503.csv
2025-04-27  오후 11:07        28,457,489 소상공인시

In [48]:
df = pd.read_csv(r'C:\ai\downloads\shareData\상가정보\상가정보\소상공인시장진흥공단_상가(상권)정보_서울_202503.csv',
                encoding='utf-8', sep=',', #기본값 생략 가능
                nrows=70) # 처음 70행만 가져오기
print(df.shape)
df

(70, 39)


Unnamed: 0,상가업소번호,상호명,지점명,상권업종대분류코드,상권업종대분류명,상권업종중분류코드,상권업종중분류명,상권업종소분류코드,상권업종소분류명,표준산업분류코드,...,건물관리번호,건물명,도로명주소,구우편번호,신우편번호,동정보,층정보,호정보,경도,위도
0,MA010120220800000033,부동산임대김은숙,,I2,음식,I212,비알코올,I21201,카페,I56229,...,1111014000100280021026727,,서울특별시 종로구 삼청로 122-1,110230,3053,,,,126.981840,37.586250
1,MA010120220800000036,한국황토건축연구소,,L1,부동산,L102,부동산 서비스,L10203,부동산 중개/대리업,L68221,...,1165010800113080025020133,강남오피스텔,서울특별시 서초구 서초대로73길 40,137856,6612,,11.0,,127.024563,37.500924
2,MA010120220800000077,소망공인중개사사무소,,L1,부동산,L102,부동산 서비스,L10203,부동산 중개/대리업,L68221,...,1120012200100040011000899,,서울특별시 성동구 용답중앙15길 18,133847,4805,,1.0,,127.054262,37.564786
3,MA010120220800000084,고향집,,I2,음식,I201,한식,I20101,백반/한정식,I56111,...,1111015400100800000000001,,서울특별시 종로구 돈화문로4길 30,110430,3193,,,,126.993820,37.570025
4,MA010120220800000090,보석나라,,G2,소매,G217,시계·귀금속 소매,G21701,시계/귀금속 소매업,G47830,...,1153010700103590008007958,,서울특별시 구로구 개봉로3길 23,152815,8353,,1.0,,126.855046,37.486242
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
65,MA010120220800001555,미래디자인,,M1,과학·기술,M114,인쇄·제품제작,M11401,명함/간판/광고물 제작,C33910,...,1111015500100210002017522,유덕빌딩,서울특별시 종로구 수표로18길 15,110420,3192,,2.0,,126.990424,37.569511
66,MA010120220800001558,화동커피,,I2,음식,I212,비알코올,I21201,카페,I56221,...,1111014300101380021026977,,서울특별시 종로구 율곡로3길 82,110230,3061,,,,126.982271,37.579313
67,MA010120220800001579,포트폴리오,,M1,과학·기술,M113,사진 촬영,M11301,사진촬영업,M73301,...,1111012400100800006017957,석탄회관,서울특별시 종로구 종로5길 58,110727,3151,,1.0,,126.980337,37.572906
68,MA010120220800001312,멋쟁이,,G2,소매,G209,섬유·의복·신발 소매,G20902,여성 의류 소매업,G47412,...,1111013600100340031013750,,서울특별시 종로구 인사동길 20-14,110290,3163,,,,126.987299,37.572502


In [49]:
df.head(1)

Unnamed: 0,상가업소번호,상호명,지점명,상권업종대분류코드,상권업종대분류명,상권업종중분류코드,상권업종중분류명,상권업종소분류코드,상권업종소분류명,표준산업분류코드,...,건물관리번호,건물명,도로명주소,구우편번호,신우편번호,동정보,층정보,호정보,경도,위도
0,MA010120220800000033,부동산임대김은숙,,I2,음식,I212,비알코올,I21201,카페,I56229,...,1111014000100280021026727,,서울특별시 종로구 삼청로 122-1,110230,3053,,,,126.98184,37.58625


In [57]:
# 판다스 디스플레이 옵션
pd.options.display.max_columns = 20 # 최대열 디스플레이 설정

In [53]:
df.head(1).T

Unnamed: 0,0
상가업소번호,MA010120220800000033
상호명,부동산임대김은숙
지점명,
상권업종대분류코드,I2
상권업종대분류명,음식
상권업종중분류코드,I212
상권업종중분류명,비알코올
상권업종소분류코드,I21201
상권업종소분류명,카페
표준산업분류코드,I56229


## 2.3 read_csv

In [55]:
#help(pd.read_csv)
#pd.read_csv() #함수 안에서 shift+tab+tab
pd.read_csv?

In [61]:
# (1) CSV 파일 불러오기(기본값)
member = pd.read_csv('data/ch11_member.csv',
                    #, encoding='utf-8', sep=',', comment주석처리X
                    )
member

Unnamed: 0,Name,Age,Email,Address,Birth
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
1,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
2,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
3,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
4,홍길중,23,mid@hong.com,부산시 중구,1999-01-30
5,#홍길뜽,24,non@not.com,없는구,2000-01-01


In [64]:
# 문자형으로 읽어들인 Birth를 datetime형으로
# 형변환 : astype('타입')
#        to_datetime()함수
#member['Birth'].astype('datetime64') #비추
member['Birth'] = pd.to_datetime(member['Birth'])
member.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   Name     6 non-null      object        
 1   Age      6 non-null      int64         
 2   Email    6 non-null      object        
 3   Address  6 non-null      object        
 4   Birth    6 non-null      datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 368.0+ bytes


In [65]:
member['Age'] = member['Age'].astype(np.int16)
member.dtypes

Name               object
Age                 int16
Email              object
Address            object
Birth      datetime64[ns]
dtype: object

In [73]:
# (2) 특정 행을 제외하고 csv 파일 읽어오기
member = pd.read_csv('data/ch11_membercp949.csv',
                    encoding='cp949',
                    skiprows=[1,6]) # 1,6번째 행 제외하고 읽어오기(시작은 1부터)
member

Unnamed: 0,Name,Age,Email,Address,Birth
0,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
1,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
2,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
3,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [69]:
# (3) 상위 몇행만 sep문자는 ,아닌 csv 파일 읽어오기
member = pd.read_csv('data/ch11_membersep.csv',
                    nrows=5, # 상위 5행만
                    sep='|')
member

Unnamed: 0,Name,Age,Email,Address,Birth
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
1,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
2,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
3,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
4,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [79]:
# (4) 주석(#) 제외, datetime형 필드를 지정하여 csv 파일 읽어오기
member = pd.read_csv('data/ch11_membertab.csv',
                    sep = '\t',  # 구분자 설정
                    comment='#', # 주석제외
                    parse_dates=['Birth']) # datetime64형으로 읽어올 필드 지정
member.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   Name     5 non-null      object        
 1   Age      5 non-null      int64         
 2   Email    5 non-null      object        
 3   Address  5 non-null      object        
 4   Birth    5 non-null      datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 328.0+ bytes


## 2.4  패키지에서 가져오기 : iris 데이터
- iris 가져오기 방법1 : sklearn(머신러닝 패키지)
- iris 가져오기 방법2 : statsmodels (R 데이터)
- iris 가져오기 방법3 : seaborn(시각화 패키지)

### 2.4.1 iris 방법1 : sklearn
- sklearn.datasets 모듈 데이터(iris)를 데이터 프레임으로 변환

In [84]:
from sklearn import datasets # 머신러닝을 공부하기 위한 학습 데이터셋 제공
# sklearn 패키지에서 제공되는 데이터셋은 데이터프래임이 아님
iris = datasets.load_iris()
print(type(iris)) # Bunch타입 (딕셔너리를 상속받은 타입) 딕셔너리처럼 동작
#print(iris.DESCR) # iris 데이터 셋의 설명
print(iris.keys())

<class 'sklearn.utils._bunch.Bunch'>
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [85]:
iris.data #독립변수
iris['data'][:3] # 상위 3행

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2]])

In [86]:
# 데이터프레임의 열이름(비추)
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [88]:
# 데이터프레임의 열이름(강추)
[col[:-5].replace(' ', '_') for col in iris.feature_names]

['sepal_length', 'sepal_width', 'petal_length', 'petal_width']

In [89]:
iris.target # ML/DL 학습시 타겟변수(종속변수)
iris['target']

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [91]:
iris.target_names[iris.target] # 데이터 프레임에 쓸 타겟변수(가장 오른쪽 열)

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolo

In [94]:
# 독립변수
data = iris.data
# 타겟변수
target = iris.target_names[iris.target].reshape(-1,1)
print(data[:3], target[:3])

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]] [['setosa']
 ['setosa']
 ['setosa']]


In [95]:
print('독립변수 shape :', data.shape)
print('타겟변수 shape :', target.shape)

독립변수 shape : (150, 4)
타겟변수 shape : (150, 1)


In [103]:
# 1. 독립변수와 종속변수를 stack한 후 데이터 프레임으로
df = pd.DataFrame(np.hstack((data,target)), 
                  columns=[col[:-5].replace(' ', '_') for col in iris.feature_names] + ['species'])
df.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa


In [105]:
df.sepal_length

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepal_length, Length: 150, dtype: object

In [106]:
# 2. 독립변수, 종속변수를 따로 데이터프레임 생성 -> 두 데이터프레임 합치기
X = pd.DataFrame(iris.data, 
                  columns=[col[:-5].replace(' ', '_') for col in iris.feature_names])
X.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


In [107]:
y = pd.DataFrame(iris.target_names[iris.target], columns=['species'])
y.head(3)

Unnamed: 0,species
0,setosa
1,setosa
2,setosa


In [109]:
print('X의 shape :', X.shape)
print('y의 shape :', y.shape)
print('X의 index :', X.shape)
print('y의 index :', y.shape)

X의 shape : (150, 4)
y의 shape : (150, 1)
X의 index : (150, 4)
y의 index : (150, 1)


In [110]:
iris_df = pd.concat( [X,y], axis=1)
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB
