In [1]:
from IPython.display import display, HTML
display(HTML("""
<style>
div.container{width:90% !important;}
div.cell.code_cell.rendered{width:90%;}
div.input_prompt{padding:0px;}
div.CodeMirror {font-family:Consolas; font-size:10pt;}
div.text_cell_render.rendered_html{font-size:10pt;}
div.output {font-size:10pt; font-weight:bold;}
div.input {font-family:Consolas; font-size:10pt;}
div.prompt {min-width:70px;}
div#toc-wrapper{padding-top:120px;}
div.text_cell_render ul li{font-size:10pt;padding:5px;}
table.dataframe{font-size:10px;}
</style>
"""))

<b><font size="6" color="red">Ch 11. 데이터프레임과 시리즈 (Pandas)</font><b>

# 1. Pandas 패키지
- 데이터 분석을 위해 반드시 알아야 할 패키지. NumPy 기반
- 다른 많은 라이브러리와 잘 통합되도록 설계됨.
- 2차원 구조를 갖는 데이터프레임, 1차원 구조를 갖는 시리즈를 제공
- Pandas 장점: 
    - 데이터프레임 생성, 파일io, 레이블링, 부분데이터 추출
    - 크기 변경(행이나 열 삽입, 삭제), 데이터 분할, 병합, 데이터 구조 변경, 결측치 처리
- https://pypi.python.org/pypi/pandas (package index)
- http://pandas.pydata.org/pandas-docs/stable/api.html (API reference)

In [2]:
import pandas as pd
pd.__version__

'1.5.3'

In [4]:
data = pd.read_json('data/ch09_member1.json', encoding='cp949') #기본 encoding utf-8
print(type(data))
display(data)

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,name,age,email,address
0,홍길동,20,hong@gd.com,서울
1,고길동,25,go@gd.com,부산
2,신길동,30,shin@gd.com,대전


In [6]:
member4 = pd.read_csv('data/ch09_member4.csv')
member4

Unnamed: 0,Name,Age,Email,Address
0,홍길동,20,kildong@hong.com,서울시 관악구
1,김길동,40,kimdong@hong.com,서울시 영등포구
2,신길동,30,sindong@hong.com,서울시 동작구


In [9]:
member1 = pd.read_csv('data/ch09_member1.csv', header=None, names=['name', 'age', 'email', 'address'])
member1

Unnamed: 0,name,age,email,address
0,홍길동,20,kildong@hong.com,서울시 관악구
1,김길동,40,kimdong@hong.com,서울시 영등포구
2,신길동,30,sindong@hong.com,서울시 동작구


# 2. 데이터프레임 만들기
## 2.1. 딕셔너리 리스트를 이용해서 데이터 프레임 만들기

In [10]:
d = [{'kor':100, 'mat':95}, {'kor':90, 'mat':99}]
df = pd.DataFrame(data=d)
df

Unnamed: 0,kor,mat
0,100,95
1,90,99


In [12]:
df.to_dict() # 데이터프레임을 딕셔너리로 

{'kor': {0: 100, 1: 90}, 'mat': {0: 95, 1: 99}}

In [13]:
df.to_numpy() # 데이터프레임을 넘파이배열
df.values    # 데이터프레임을 넘파이배열

array([[100,  95],
       [ 90,  99]], dtype=int64)

In [14]:
df.dtypes # 열의 타입

kor    int64
mat    int64
dtype: object

In [15]:
df.info() # ★

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   kor     2 non-null      int64
 1   mat     2 non-null      int64
dtypes: int64(2)
memory usage: 160.0 bytes


In [16]:
df['kor'].dtype

dtype('int64')

In [17]:
# 타입변경(열마다)
import numpy as np
df['kor'].astype(np.float64)
df['kor'] = df['kor'].astype('float64') # kor열의 타입을 float64로

In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   kor     2 non-null      float64
 1   mat     2 non-null      int64  
dtypes: float64(1), int64(1)
memory usage: 160.0 bytes


In [23]:
d = [{'kor':100, 'mat':95}, {'kor':90, 'mat':99}, {'kor':92, 'eng':99 }]
df = pd.DataFrame(data=d)
df

Unnamed: 0,kor,mat,eng
0,100,95.0,
1,90,99.0,
2,92,,99.0


In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   kor     3 non-null      int64  
 1   mat     2 non-null      float64
 2   eng     1 non-null      float64
dtypes: float64(2), int64(1)
memory usage: 200.0 bytes


In [25]:
type(np.nan) # np.nan 결측치

float

In [27]:
df['kor'] = df['kor'].astype('int32')
df

Unnamed: 0,kor,mat,eng
0,100,95.0,
1,90,99.0,
2,92,,99.0


In [28]:
#결측치는 int로 형변환 불가(결측치를 대체 값으로 치환 후 변환)
#df['mat'] = df['mat'].astype('int32')

## 2.2. 리스트를 이용해서 데이터프레임 만들기

In [29]:
kor = [100, 90, 95, 90, 65]
mat = [99, 100, 95, 98, 94]
df = pd.DataFrame({'kor':kor, 'mat':mat})
df.head(2) #상위 2행만 출력

Unnamed: 0,kor,mat
0,100,99
1,90,100


In [30]:
df = pd.DataFrame(data=np.c_[kor, mat], columns=['국어', '수학'])
df

Unnamed: 0,국어,수학
0,100,99
1,90,100
2,95,95
3,90,98
4,65,94


In [31]:
df.shape

(5, 2)

In [35]:
l = [['트렌드 코리아 2026', '김난도', 18000, 10], 
    ['사탄탱고', '라슬로', 17820, 10],
    ['미술관 여행자', '카미유 주노', 29700, 10]]
df = pd.DataFrame(l, columns=['책이름', '저자', '가격', '할인율'])
df

Unnamed: 0,책이름,저자,가격,할인율
0,트렌드 코리아 2026,김난도,18000,10
1,사탄탱고,라슬로,17820,10
2,미술관 여행자,카미유 주노,29700,10


In [36]:
# %ls : ipython 매직명령어
# !dir : 쉘 명령어

In [39]:
%ls "C:\ai\downloads\상가정보\상가정보"

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: A014-DCD6

 C:\ai\downloads\상가정보\상가정보 디렉터리

2025-10-12  오후 03:33    <DIR>          .
2025-10-12  오후 03:33    <DIR>          ..
2025-04-27  오후 11:07             1,011 [필독]파일열람방법.txt
2025-04-27  오후 11:07        61,227,944 소상공인시장진흥공단_상가(상권)정보_강원_202503.csv
2025-04-27  오후 11:07       356,572,082 소상공인시장진흥공단_상가(상권)정보_경기_202503.csv
2025-04-27  오후 11:07        93,472,559 소상공인시장진흥공단_상가(상권)정보_경남_202503.csv
2025-04-27  오후 11:07        76,425,275 소상공인시장진흥공단_상가(상권)정보_경북_202503.csv
2025-04-27  오후 11:07        40,070,868 소상공인시장진흥공단_상가(상권)정보_광주_202503.csv
2025-04-27  오후 11:07        61,715,005 소상공인시장진흥공단_상가(상권)정보_대구_202503.csv
2025-04-27  오후 11:07        41,491,092 소상공인시장진흥공단_상가(상권)정보_대전_202503.csv
2025-04-27  오후 11:07        84,550,600 소상공인시장진흥공단_상가(상권)정보_부산_202503.csv
2025-04-27  오후 11:07       294,549,483 소상공인시장진흥공단_상가(상권)정보_서울_202503.csv
2025-04-27  오후 11:07         9,303,432 소상공인시장진흥공단_상가(상권)정보_세종_202503.csv
2025-04-27  오후 11:07        28,457,489 소상공인시장진흥공단_상가(상

In [43]:
df = pd.read_csv(r"C:\ai\downloads\상가정보\상가정보\소상공인시장진흥공단_상가(상권)정보_서울_202503.csv",
                encoding = 'utf-8', sep=',', #기본값, 생략 가능
                nrows=70) #처음 70행만 가져오기
df.shape

(70, 39)

In [44]:
df.head(1)

Unnamed: 0,상가업소번호,상호명,지점명,상권업종대분류코드,상권업종대분류명,상권업종중분류코드,상권업종중분류명,상권업종소분류코드,상권업종소분류명,표준산업분류코드,...,건물관리번호,건물명,도로명주소,구우편번호,신우편번호,동정보,층정보,호정보,경도,위도
0,MA010120220800000033,부동산임대김은숙,,I2,음식,I212,비알코올,I21201,카페,I56229,...,1111014000100280021026727,,서울특별시 종로구 삼청로 122-1,110230,3053,,,,126.98184,37.58625


In [48]:
#Pandas Display Option
pd.options.display.max_columns = 39 # 39열까지 디스플레이. 기본값 20
pd.options.display.max_rows = 70 # 70행까지 디스플레이. 기본값 60

In [50]:
df.head(1).T

Unnamed: 0,0
상가업소번호,MA010120220800000033
상호명,부동산임대김은숙
지점명,
상권업종대분류코드,I2
상권업종대분류명,음식
상권업종중분류코드,I212
상권업종중분류명,비알코올
상권업종소분류코드,I21201
상권업종소분류명,카페
표준산업분류코드,I56229


## 2.3. read_csv

In [52]:
#help(pd.read_csv)
pd.read_csv?

In [54]:
#(1) CSV 파일 불러오기(기본값)
member = pd.read_csv('data/ch11_member.csv'
                    #, encoding='utf-8', sep=',', comment주석처리X
                    )
member.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Name     6 non-null      object
 1   Age      6 non-null      int64 
 2   Email    6 non-null      object
 3   Address  6 non-null      object
 4   Birth    6 non-null      object
dtypes: int64(1), object(4)
memory usage: 368.0+ bytes


In [58]:
# 문자형으로 읽어들인 Birth를 datetime형으로
# 형변환 : astype('타입'), astype('datetime64')-비추, to_datetime()함수
# member['Birth'].astype('datetime64') 비추
member['Birth'] = pd.to_datetime(member['Birth'])
member.head(1)

Unnamed: 0,Name,Age,Email,Address,Birth
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01


In [59]:
member.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   Name     6 non-null      object        
 1   Age      6 non-null      int64         
 2   Email    6 non-null      object        
 3   Address  6 non-null      object        
 4   Birth    6 non-null      datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 368.0+ bytes


In [60]:
member['Age'] = member['Age'].astype(np.int16)
member.dtypes

Name               object
Age                 int16
Email              object
Address            object
Birth      datetime64[ns]
dtype: object

In [61]:
#(2) 특정행을 제외하고 csv 파일 읽어오기
member = pd.read_csv('data/ch11_membercp949.csv', encoding='cp949', skiprows=[1,6]) #1,6번째 행 제외하고 읽어오기
member

Unnamed: 0,Name,Age,Email,Address,Birth
0,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
1,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
2,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
3,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [62]:
#(3) 상위 몇 행만 sep 문자는 콤마(,) 아닌 csv 파일 읽어오기
member = pd.read_csv('data/ch11_membersep.csv', 
                     nrows = 5, #상위 5행만
                    sep='|')
member

Unnamed: 0,Name,Age,Email,Address,Birth
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
1,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
2,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
3,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
4,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [65]:
#(4) 주석(#) 제외, datetime형 필드를 지정하여 csv 파일 읽어오기
member = pd.read_csv('data/ch11_membertab.csv', 
                     sep='\t', #구분자
                     comment='#',#주석 제외 처리 
                     parse_dates=['Birth']) #datetime64형으로 읽어올 필드 지정
member.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   Name     5 non-null      object        
 1   Age      5 non-null      int64         
 2   Email    5 non-null      object        
 3   Address  5 non-null      object        
 4   Birth    5 non-null      datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 328.0+ bytes


## 2.4. 패키지에서 가져오기 : iris 데이터
- iris 가져오기 방법1: sklearn(머신러닝 패키지)
- 방법2: statsmodels (R 데이터)
- 방법3: seaborn(시각화 패키지)
### 2.4.1. iris 가져오는 방법 1 : sklearn
- sklearn.datasets 모듈 데이터(iris)를 데이터프레임으로 변환 (본래 데이터프레임x, 딕셔너리x)

In [71]:
from sklearn import datasets # 머신러닝을 공부하기 위한 학습 데이터셋 제공
#sklearn 패키지에서 제공되는 데이터셋은 딕셔너리형식으로 제공
iris = datasets.load_iris()
#iris.get('data')
#print(type(iris)) #Bunch 타입(딕셔너리로부터 상속받은 타입) 딕셔너리처럼 동작
#print(iris.DESCR) #iris 데이터셋의 설명
print(iris.keys())

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [72]:
iris.data #독립변수
iris['data'][:3] #상위 3행

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2]])

In [73]:
#데이터프레임의 열이름 (비추)
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [74]:
#데이터프레임의 열이름 (추천)
[col[:-5].replace(' ', '_') for col in iris.feature_names]

['sepal_length', 'sepal_width', 'petal_length', 'petal_width']

In [81]:
iris.target # ML/DL 학습 시 타겟변수(종속변수)
iris['target']

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [82]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [83]:
iris.target_names[iris.target] #데이터프레임에 쓸 타겟변수(대개 가장 오른쪽 열)

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolo

In [84]:
data = iris.data
target = iris.target_names[iris.target].reshape(-1, 1)
print(data[:3], target[:3])

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]] [['setosa']
 ['setosa']
 ['setosa']]


In [85]:
print('독립변수 shape :', data.shape)
print('타겟변수 shape :', target.shape)

독립변수 shape : (150, 4)
타겟변수 shape : (150, 1)


In [88]:
#1. 독립변수와 종속변수를 stack한 후 데이터프레임으로
df = pd.DataFrame(np.hstack((data, target)),
                 columns=iris.feature_names + ['species'])
df.head(1)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,setosa


In [94]:
#df.species # 가능
#df.sepal length (cm) # 사용 불가
#df['sepal length (cm)'] # 가능
df.columns = [col[:-5].replace(' ','_') for col in iris.feature_names] + ['species']
df.head(1)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa


In [95]:
df.sepal_length

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepal_length, Length: 150, dtype: object

In [96]:
#2. 독립변수, 종속변수를 따로 데이터프레임으로 생성 → 두 데이터프레임을 연결
X = pd.DataFrame(iris.data,
                columns = [col[:-5].replace(' ','_') for col in iris.feature_names])
X.head(1)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2


In [97]:
y = pd.DataFrame(iris.target_names[iris.target], columns=['species'])
y.head(1)

Unnamed: 0,species
0,setosa


In [98]:
print('X의 shape: ', X.shape)
print('y의 shape: ', y.shape)
print('X의 index: ', X.index)
print('y의 index: ', y.index)

X의 shape:  (150, 4)
y의 shape:  (150, 1)
X의 index:  RangeIndex(start=0, stop=150, step=1)
y의 index:  RangeIndex(start=0, stop=150, step=1)


In [101]:
iris_df = pd.concat( [X, y], axis=1 ) #두 데이터프레임을 열로 연결
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [102]:
iris_df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
