In [1]:
from IPython.display import display, HTML
display(HTML("""
<style>
div.container{width:90% !important;}
div.cell.code_cell.rendered{width:100%;}
div.input_prompt{padding:0px;}
div.CodeMirror {font-family:Consolas; font-size:12pt;}
div.text_cell_render.rendered_html{font size:12pt;}
div.output {font-size:12pt; font-weight:bold;}
div.input{font-family:Consolas; font-size:12pt;}
div.prompt {min width:70px;}
div#toc-wrapper {padding-top:120px;}
div.text_cell_render ul li{font-size:12pt;padding:5px;}
table.dataframe {font-size:12px;}
</style>
"""))

<b><font size='6' color='red'>ch11. 데이터 프레임과 시리즈(Pandas)</font></b>
- pip install pandas (판다스 설치 방법)

# 1절 판다스 패키지
- 데이터 분석을 위해 반드시 알아야할 패키지. 넘파이를 기반으로 하며, 다른 많은 라이브러리와 잘 통합디도록 설계
- 2차원 구조를 갖는 데이터프레임, 1차원 구조를 갖는 시리즈를 제공
- 판다스 장점: 데이터 프레임 생성, 파일 io, 레이블링, 부분데이터 추출, 크기변경(행이나 열 삽입, 삭제), 데이터 분할 및 병합, 데이터구조 변경, 결측치 처리

- https://pypi.org/project/pandas/ (package index)
- https://pandas.pydata.org/pandas-docs/stable/reference/index.html (API reference)

In [2]:
import pandas as pd
pd.__version__

'1.5.3'

In [7]:
data = pd.read_json('data/ch09_member1.json', encoding='cp949') # 기본 encoding은 utf-8
display(data)
print(type(data))

Unnamed: 0,name,age,email,address
0,신길동,30,sg@hong.com,서울
1,홍길동,20,ho@hong.com,수원
2,마길동,25,ma@hong.com,안양


<class 'pandas.core.frame.DataFrame'>


In [8]:
member4 = pd.read_csv('data/ch09_member4.csv')
member4

Unnamed: 0,name,age,email,address
0,신길동,30,sg@hong.com,서울
1,홍길동,20,ho@hong.com,수원
2,마길동,25,ma@hong.com,안양


In [11]:
member1 = pd.read_csv('data/ch09_member1.csv', header=None, names=['name', 'age', 'email', 'address'])
member1

Unnamed: 0,name,age,email,address
0,홍길동,20,kildong@hong.com,서울시 관악구
1,김길동,40,kimdong@hong.com,서울시 영등포구
2,신길동,30,sindong@hong.com,서울시 동작구


# 2절 데이터 프레임 만들기
## 2.1 딕셔너리 리스트를 이용해서 데이터 프레임 만들기

In [12]:
d = [{'kor':100, 'mat':95},{'kor':90, 'mat':99}]
df = pd.DataFrame(data=d)
df

Unnamed: 0,kor,mat
0,100,95
1,90,99


In [13]:
df.to_dict() # 데이터프레임을 디셔너리로

{'kor': {0: 100, 1: 90}, 'mat': {0: 95, 1: 99}}

In [15]:
df.to_numpy() # 데이터프레임을 넘파이 배열로
df.values # 데이터프레임을 넘파이 배열로(이걸 더 자주 사용)

array([[100,  95],
       [ 90,  99]], dtype=int64)

In [16]:
df.dtypes # 열의 타입

kor    int64
mat    int64
dtype: object

In [17]:
df.info() # ★

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   kor     2 non-null      int64
 1   mat     2 non-null      int64
dtypes: int64(2)
memory usage: 160.0 bytes


In [18]:
df['kor'].dtype

dtype('int64')

In [20]:
# 타입변경 (열마다)
import numpy as np
df['kor'].astype(np.float64)
df['kor'] = df['kor'].astype(np.float64) # kor 열의 타입을 float 64로

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   kor     2 non-null      float64
 1   mat     2 non-null      int64  
dtypes: float64(1), int64(1)
memory usage: 160.0 bytes


In [22]:
d = [{'kor':100, 'mat':95},{'kor':90, 'mat':99},{'kor':92, 'eng':99}]
df = pd.DataFrame(data=d)
df

Unnamed: 0,kor,mat,eng
0,100,95.0,
1,90,99.0,
2,92,,99.0


In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   kor     3 non-null      int64  
 1   mat     2 non-null      float64
 2   eng     1 non-null      float64
dtypes: float64(2), int64(1)
memory usage: 200.0 bytes


In [24]:
type(np.nan) # np.nan은 결측치

float

In [26]:
df['kor'] = df['kor'].astype(np.int32)
df

Unnamed: 0,kor,mat,eng
0,100,95.0,
1,90,99.0,
2,92,,99.0


In [28]:
# 결측치는 int로 형변환 불가 (결측치를 대체값으로 치완 후 변환)
#df['mat'] = df['mat'].astype(np.int32)

## 2.2 리스트를 이용해서 데이터프레임 만들기

In [31]:
kor = [100, 90, 95, 90, 65]
mat = [99, 100, 95, 98, 94]
df = pd.DataFrame({'kor':kor, 'mat':mat})
df.head(2) # 상위 2행만 출력

Unnamed: 0,kor,mat
0,100,99
1,90,100


In [32]:
np.c_[kor, mat]

array([[100,  99],
       [ 90, 100],
       [ 95,  95],
       [ 90,  98],
       [ 65,  94]])

In [34]:
df = pd.DataFrame(data=np.c_[kor, mat], columns=['국어', '수학']) #columns에는 특수문자 왠만하면 사용 x
df

Unnamed: 0,국어,수학
0,100,99
1,90,100
2,95,95
3,90,98
4,65,94


In [35]:
df.shape

(5, 2)

In [38]:
l = [['트렌드 코리아 2026', '김난도', 18000, 10],
     ['사탄탱고', '라슬로', 17820, 10],
     ['미술관 여행자', '카미유주노', 29700, 10]]
df = pd.DataFrame(l, columns=['책이름', '저자', '가격', '할인율'])
df

Unnamed: 0,책이름,저자,가격,할인율
0,트렌드 코리아 2026,김난도,18000,10
1,사탄탱고,라슬로,17820,10
2,미술관 여행자,카미유주노,29700,10


In [39]:
# %ls : ipython 매직명령어

In [44]:
%ls "C:\ai\downloads\shareData\상가정보\상가정보\"

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: A014-DCD6

 C:\ai\downloads\shareData\상가정보\상가정보 디렉터리

2025-10-12  오후 03:33    <DIR>          .
2025-10-12  오후 03:33    <DIR>          ..
2025-04-27  오후 11:07             1,011 [필독]파일열람방법.txt
2025-04-27  오후 11:07        61,227,944 소상공인시장진흥공단_상가(상권)정보_강원_202503.csv
2025-04-27  오후 11:07       356,572,082 소상공인시장진흥공단_상가(상권)정보_경기_202503.csv
2025-04-27  오후 11:07        93,472,559 소상공인시장진흥공단_상가(상권)정보_경남_202503.csv
2025-04-27  오후 11:07        76,425,275 소상공인시장진흥공단_상가(상권)정보_경북_202503.csv
2025-04-27  오후 11:07        40,070,868 소상공인시장진흥공단_상가(상권)정보_광주_202503.csv
2025-04-27  오후 11:07        61,715,005 소상공인시장진흥공단_상가(상권)정보_대구_202503.csv
2025-04-27  오후 11:07        41,491,092 소상공인시장진흥공단_상가(상권)정보_대전_202503.csv
2025-04-27  오후 11:07        84,550,600 소상공인시장진흥공단_상가(상권)정보_부산_202503.csv
2025-04-27  오후 11:07       294,549,483 소상공인시장진흥공단_상가(상권)정보_서울_202503.csv
2025-04-27  오후 11:07         9,303,432 소상공인시장진흥공단_상가(상권)정보_세종_202503.csv
2025-04-27  오후 11:07        28,457,489 소상공인시

In [48]:
df = pd.read_csv(r'C:\ai\downloads\shareData\상가정보\상가정보\소상공인시장진흥공단_상가(상권)정보_서울_202503.csv',
                encoding='utf-8', sep=',', #기본값 생략 가능
                nrows=70) # 처음 70행만 가져오기
print(df.shape)
df

(70, 39)


Unnamed: 0,상가업소번호,상호명,지점명,상권업종대분류코드,상권업종대분류명,상권업종중분류코드,상권업종중분류명,상권업종소분류코드,상권업종소분류명,표준산업분류코드,...,건물관리번호,건물명,도로명주소,구우편번호,신우편번호,동정보,층정보,호정보,경도,위도
0,MA010120220800000033,부동산임대김은숙,,I2,음식,I212,비알코올,I21201,카페,I56229,...,1111014000100280021026727,,서울특별시 종로구 삼청로 122-1,110230,3053,,,,126.981840,37.586250
1,MA010120220800000036,한국황토건축연구소,,L1,부동산,L102,부동산 서비스,L10203,부동산 중개/대리업,L68221,...,1165010800113080025020133,강남오피스텔,서울특별시 서초구 서초대로73길 40,137856,6612,,11.0,,127.024563,37.500924
2,MA010120220800000077,소망공인중개사사무소,,L1,부동산,L102,부동산 서비스,L10203,부동산 중개/대리업,L68221,...,1120012200100040011000899,,서울특별시 성동구 용답중앙15길 18,133847,4805,,1.0,,127.054262,37.564786
3,MA010120220800000084,고향집,,I2,음식,I201,한식,I20101,백반/한정식,I56111,...,1111015400100800000000001,,서울특별시 종로구 돈화문로4길 30,110430,3193,,,,126.993820,37.570025
4,MA010120220800000090,보석나라,,G2,소매,G217,시계·귀금속 소매,G21701,시계/귀금속 소매업,G47830,...,1153010700103590008007958,,서울특별시 구로구 개봉로3길 23,152815,8353,,1.0,,126.855046,37.486242
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
65,MA010120220800001555,미래디자인,,M1,과학·기술,M114,인쇄·제품제작,M11401,명함/간판/광고물 제작,C33910,...,1111015500100210002017522,유덕빌딩,서울특별시 종로구 수표로18길 15,110420,3192,,2.0,,126.990424,37.569511
66,MA010120220800001558,화동커피,,I2,음식,I212,비알코올,I21201,카페,I56221,...,1111014300101380021026977,,서울특별시 종로구 율곡로3길 82,110230,3061,,,,126.982271,37.579313
67,MA010120220800001579,포트폴리오,,M1,과학·기술,M113,사진 촬영,M11301,사진촬영업,M73301,...,1111012400100800006017957,석탄회관,서울특별시 종로구 종로5길 58,110727,3151,,1.0,,126.980337,37.572906
68,MA010120220800001312,멋쟁이,,G2,소매,G209,섬유·의복·신발 소매,G20902,여성 의류 소매업,G47412,...,1111013600100340031013750,,서울특별시 종로구 인사동길 20-14,110290,3163,,,,126.987299,37.572502


In [49]:
df.head(1)

Unnamed: 0,상가업소번호,상호명,지점명,상권업종대분류코드,상권업종대분류명,상권업종중분류코드,상권업종중분류명,상권업종소분류코드,상권업종소분류명,표준산업분류코드,...,건물관리번호,건물명,도로명주소,구우편번호,신우편번호,동정보,층정보,호정보,경도,위도
0,MA010120220800000033,부동산임대김은숙,,I2,음식,I212,비알코올,I21201,카페,I56229,...,1111014000100280021026727,,서울특별시 종로구 삼청로 122-1,110230,3053,,,,126.98184,37.58625


In [57]:
# 판다스 디스플레이 옵션
pd.options.display.max_columns = 20 # 최대열 디스플레이 설정

In [53]:
df.head(1).T

Unnamed: 0,0
상가업소번호,MA010120220800000033
상호명,부동산임대김은숙
지점명,
상권업종대분류코드,I2
상권업종대분류명,음식
상권업종중분류코드,I212
상권업종중분류명,비알코올
상권업종소분류코드,I21201
상권업종소분류명,카페
표준산업분류코드,I56229


## 2.3 read_csv

In [55]:
#help(pd.read_csv)
#pd.read_csv() #함수 안에서 shift+tab+tab
pd.read_csv?

In [61]:
# (1) CSV 파일 불러오기(기본값)
member = pd.read_csv('data/ch11_member.csv',
                    #, encoding='utf-8', sep=',', comment주석처리X
                    )
member

Unnamed: 0,Name,Age,Email,Address,Birth
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
1,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
2,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
3,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
4,홍길중,23,mid@hong.com,부산시 중구,1999-01-30
5,#홍길뜽,24,non@not.com,없는구,2000-01-01


In [64]:
# 문자형으로 읽어들인 Birth를 datetime형으로
# 형변환 : astype('타입')
#        to_datetime()함수
#member['Birth'].astype('datetime64') #비추
member['Birth'] = pd.to_datetime(member['Birth'])
member.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   Name     6 non-null      object        
 1   Age      6 non-null      int64         
 2   Email    6 non-null      object        
 3   Address  6 non-null      object        
 4   Birth    6 non-null      datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 368.0+ bytes


In [65]:
member['Age'] = member['Age'].astype(np.int16)
member.dtypes

Name               object
Age                 int16
Email              object
Address            object
Birth      datetime64[ns]
dtype: object

In [73]:
# (2) 특정 행을 제외하고 csv 파일 읽어오기
member = pd.read_csv('data/ch11_membercp949.csv',
                    encoding='cp949',
                    skiprows=[1,6]) # 1,6번째 행 제외하고 읽어오기(시작은 1부터)
member

Unnamed: 0,Name,Age,Email,Address,Birth
0,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
1,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
2,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
3,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [69]:
# (3) 상위 몇행만 sep문자는 ,아닌 csv 파일 읽어오기
member = pd.read_csv('data/ch11_membersep.csv',
                    nrows=5, # 상위 5행만
                    sep='|')
member

Unnamed: 0,Name,Age,Email,Address,Birth
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
1,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
2,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
3,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
4,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [79]:
# (4) 주석(#) 제외, datetime형 필드를 지정하여 csv 파일 읽어오기
member = pd.read_csv('data/ch11_membertab.csv',
                    sep = '\t',  # 구분자 설정
                    comment='#', # 주석제외
                    parse_dates=['Birth']) # datetime64형으로 읽어올 필드 지정
member.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   Name     5 non-null      object        
 1   Age      5 non-null      int64         
 2   Email    5 non-null      object        
 3   Address  5 non-null      object        
 4   Birth    5 non-null      datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 328.0+ bytes


## 2.4  패키지에서 가져오기 : iris 데이터
- iris 가져오기 방법1 : sklearn(머신러닝 패키지)
- iris 가져오기 방법2 : statsmodels (R 데이터)
- iris 가져오기 방법3 : seaborn(시각화 패키지)

### 2.4.1 iris 방법1 : sklearn
- sklearn.datasets 모듈 데이터(iris)를 데이터 프레임으로 변환

In [84]:
from sklearn import datasets # 머신러닝을 공부하기 위한 학습 데이터셋 제공
# sklearn 패키지에서 제공되는 데이터셋은 데이터프래임이 아님
iris = datasets.load_iris()
print(type(iris)) # Bunch타입 (딕셔너리를 상속받은 타입) 딕셔너리처럼 동작
#print(iris.DESCR) # iris 데이터 셋의 설명
print(iris.keys())

<class 'sklearn.utils._bunch.Bunch'>
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [85]:
iris.data #독립변수
iris['data'][:3] # 상위 3행

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2]])

In [86]:
# 데이터프레임의 열이름(비추)
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [88]:
# 데이터프레임의 열이름(강추)
[col[:-5].replace(' ', '_') for col in iris.feature_names]

['sepal_length', 'sepal_width', 'petal_length', 'petal_width']

In [89]:
iris.target # ML/DL 학습시 타겟변수(종속변수)
iris['target']

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [91]:
iris.target_names[iris.target] # 데이터 프레임에 쓸 타겟변수(가장 오른쪽 열)

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolo

In [94]:
# 독립변수
data = iris.data
# 타겟변수
target = iris.target_names[iris.target].reshape(-1,1)
print(data[:3], target[:3])

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]] [['setosa']
 ['setosa']
 ['setosa']]


In [95]:
print('독립변수 shape :', data.shape)
print('타겟변수 shape :', target.shape)

독립변수 shape : (150, 4)
타겟변수 shape : (150, 1)


In [103]:
# 1. 독립변수와 종속변수를 stack한 후 데이터 프레임으로
df = pd.DataFrame(np.hstack((data,target)), 
                  columns=[col[:-5].replace(' ', '_') for col in iris.feature_names] + ['species'])
df.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa


In [105]:
df.sepal_length

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepal_length, Length: 150, dtype: object

In [106]:
# 2. 독립변수, 종속변수를 따로 데이터프레임 생성 -> 두 데이터프레임 합치기
X = pd.DataFrame(iris.data, 
                  columns=[col[:-5].replace(' ', '_') for col in iris.feature_names])
X.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


In [107]:
y = pd.DataFrame(iris.target_names[iris.target], columns=['species'])
y.head(3)

Unnamed: 0,species
0,setosa
1,setosa
2,setosa


In [109]:
print('X의 shape :', X.shape)
print('y의 shape :', y.shape)
print('X의 index :', X.shape)
print('y의 index :', y.shape)

X의 shape : (150, 4)
y의 shape : (150, 1)
X의 index : (150, 4)
y의 index : (150, 1)


In [110]:
iris_df = pd.concat( [X,y], axis=1)
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


### 2.4.2 iris 방법 2 : statsmodels (R 데이터)

In [2]:
# R 패키지의 기본 데이터 가져오기
from statsmodels.api import datasets
iris_dataset = datasets.get_rdataset('iris',
                                    package='datasets',
                                    cache=True) # 한번 다운로드한 데이터를 PC에 저장
iris_dataset

<class 'statsmodels.datasets.utils.Dataset'>

In [3]:
iris = iris_dataset.data
iris.head() # 상위 5행

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [6]:
iris['Sepal.Length']
iris.Sepal.Length # 열이름에 .이 있으면 iris.Sepal.Length 접근불가

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: Species, Length: 150, dtype: object

In [11]:
iris.columns = [col.replace('.','_').lower() for col in iris.columns]
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


### 2.4.3 iris 방법 3 : seaborn

In [3]:
import seaborn as sns
iris = sns.load_dataset('iris')
iris.head(1)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa


In [7]:
# 데이터프레임을 파일로 출력
iris.to_csv('data/ch11_iris.csv',
            sep=',', encoding='utf-8', #기본값
           index=False) # 행이름 생략되서 파일 출력

In [10]:
iris.to_csv('data/ch11_iris.csv.gz',
           index=False,
           compression='infer') # compression='infer' 파일 확장자에 맞게 압축

In [15]:
import pandas as pd
#read_iris = pd.read_csv('data/ch11_iris.csv')
read_iris = pd.read_csv('data/ch11_iris.csv.gz', compression='infer')
read_iris.head(1)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa


# 3절 이름(열/행) 지정하기 
## 3.1 열이름 지정하기

In [35]:
member = pd.read_csv('data/ch11_member.csv',
                    comment='#',
                    parse_dates=['Birth'])
member.head(1)

Unnamed: 0,Name,Age,Email,Address,Birth
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01


In [37]:
member.columns = ['이름', '나이', '메일', '주소', '생일']
member

Unnamed: 0,이름,나이,메일,주소,생일
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
1,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
2,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
3,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
4,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


## 3.2 행이름 지정하기

In [16]:
member.index

RangeIndex(start=0, stop=5, step=1)

In [18]:
member.index = range(11, 16)
member

Unnamed: 0,이름,나이,메일,주소,생일
11,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
12,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
13,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
14,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
15,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [19]:
member.index = ['동', '서', '남', '북', '중']
member

Unnamed: 0,이름,나이,메일,주소,생일
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
북,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
중,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [26]:
#member['이름']['동'] 비추
print(member.loc['동', '이름']) # 행과 열이름으로 부분 데이터 조회 : loc
print(member.loc['북', '주소'])

홍길동
서울시 관악구


In [27]:
# index를 이름열로 (실행 결과가 출력되서 나오면 return 될뿐, member는 안 바뀜)
# member를 수정하려면  (1)할당 (2)inplace 매개변수 True(기본값 False)
member1 = member.set_index('이름')
member1

Unnamed: 0_level_0,나이,메일,주소,생일
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
홍길서,30,seo@hong.com,서울시 중구,1999-12-01
홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [38]:
member.set_index('이름', inplace=True)
member

Unnamed: 0_level_0,나이,메일,주소,생일
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
홍길서,30,seo@hong.com,서울시 중구,1999-12-01
홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [39]:
member.index

Index(['홍길동', '홍길서', '홍길남', '홍길북', '홍길중'], dtype='object', name='이름')

In [40]:
# 인덱스를 컬럼으로 편입시키기
member.reset_index(inplace=True)
member

Unnamed: 0,이름,나이,메일,주소,생일
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
1,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
2,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
3,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
4,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [44]:
member.index = [0, 1, 2, 0, 1] # index는 중복 가능
member

Unnamed: 0,이름,나이,메일,주소,생일
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
1,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
2,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
0,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
1,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [43]:
member.index = range(len(member)) #len(member)는 멤버의 행수 (비추)
member

Unnamed: 0,이름,나이,메일,주소,생일
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
1,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
2,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
3,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
4,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [47]:
#기존의 index를 새로운 열에 편입시키지 않고 제거한 후, 새로운 숫자 index로 초기화
member.reset_index(drop=True, inplace=True)
member

Unnamed: 0,이름,나이,메일,주소,생일
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
1,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
2,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
3,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
4,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [51]:
# datetime 열에서 날짜 및 시간에 관련된 정보를 추출 : 시리즈.dt
member['생일'].dt.year

0    1999
1    1999
2    1999
3    1999
4    1999
Name: 생일, dtype: int64

In [52]:
member['생일'].dt.month

0     1
1    12
2    11
3     5
4     1
Name: 생일, dtype: int64

In [54]:
member['생일'].dt.weekday #0:월, 1:화, ...., 5:토, 6:일

0    4
1    2
2    0
3    5
4    5
Name: 생일, dtype: int64

## 3.3 레벨 이름 지정하기

In [57]:
member

Unnamed: 0,이름,나이,메일,주소,생일
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
1,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
2,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
3,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
4,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [59]:
print(member.columns)
print(member.columns.name)

Index(['이름', '나이', '메일', '주소', '생일'], dtype='object')
None


In [61]:
member.columns.name = '정보'
member

정보,이름,나이,메일,주소,생일
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
1,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
2,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
3,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
4,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [62]:
member.columns = [['기본정보', '기본정보', '기본정보', '추가정보', '추가정보'],
                  ['이름', '나이', '메일', '주소', '생일']]
member.columns.names = ['대분류', '소분류']
member

대분류,기본정보,기본정보,기본정보,추가정보,추가정보
소분류,이름,나이,메일,주소,생일
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
1,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
2,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
3,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
4,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [63]:
member.index = [['좌우', '좌우', '상하', '상하', '상하'],
                ['동', '서', '남', '북', '중']]
member.index.names = ['레벨1', '레벨2']
member

Unnamed: 0_level_0,대분류,기본정보,기본정보,기본정보,추가정보,추가정보
Unnamed: 0_level_1,소분류,이름,나이,메일,주소,생일
레벨1,레벨2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
좌우,동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
좌우,서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
상하,남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
상하,북,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
상하,중,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [64]:
member.loc[('상하', '북'), ('기본정보','이름')]

'홍길북'

In [65]:
member.loc['상하', '기본정보']

소분류,이름,나이,메일
레벨2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
남,홍길남,21,nam@hong.com
북,홍길북,22,buk@hong.com
중,홍길중,23,mid@hong.com


In [66]:
member.loc[('상하', '중'), '기본정보'] # 1차원이라서 시리즈

소분류
이름             홍길중
나이              23
메일    mid@hong.com
Name: (상하, 중), dtype: object

# 4절 부분 데이터 조회

In [67]:
member = pd.read_csv('data/ch11_member.csv',
                    comment = '#',
                    parse_dates=['Birth'])
member

Unnamed: 0,Name,Age,Email,Address,Birth
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
1,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
2,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
3,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
4,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


## 4.1 단일 열 조회

In [68]:
member['Name']
member.Name

0    홍길동
1    홍길서
2    홍길남
3    홍길북
4    홍길중
Name: Name, dtype: object

In [69]:
#member[0] # 행이름으로 []로 조회할 경우 에러

In [70]:
member[['Name', 'Address']]

Unnamed: 0,Name,Address
0,홍길동,서울시 강동구
1,홍길서,서울시 중구
2,홍길남,서울시 강동구
3,홍길북,서울시 관악구
4,홍길중,부산시 중구


## 4.2 loc을 이용한 조회
- df.loc[행이름, 열이름] : 행이름, 열이름으로 조회
    - 행이름과 열이름 자리에 슬라이싱 from:to - from부터 to까지 (to 포함)
    - 행이름과 열이름 자리에 리스트 

In [73]:
member.loc[0:2]
member.loc[0:2,]
member.loc[0:2, :]
member.loc[0:2, :] #모든 열을 다 출력할 경우 열 생략 가능

Unnamed: 0,Name,Age,Email,Address,Birth
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
1,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
2,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01


In [74]:
member.index = ['동', '서', '남', '북', '중']
member

Unnamed: 0,Name,Age,Email,Address,Birth
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
북,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
중,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [75]:
member.loc['동':'남']

Unnamed: 0,Name,Age,Email,Address,Birth
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01


In [76]:
member.loc['동':'남', 'Name':'Address'] #동~남행, Name~Address열까지

Unnamed: 0,Name,Age,Email,Address
동,홍길동,20,hong@hong.com,서울시 강동구
서,홍길서,30,seo@hong.com,서울시 중구
남,홍길남,21,nam@hong.com,서울시 강동구


In [78]:
# 동,남행, Name, Email, Address 열
member.loc[['동', '남'],['Name', 'Email', 'Address']]

Unnamed: 0,Name,Email,Address
동,홍길동,hong@hong.com,서울시 강동구
남,홍길남,nam@hong.com,서울시 강동구


In [80]:
member.loc[:, 'Name']

동    홍길동
서    홍길서
남    홍길남
북    홍길북
중    홍길중
Name: Name, dtype: object

## 4.3 iloc을 이용한 조회
- df.iloc[행순번, 열순번] : 행순번, 열순번으로 조회
    - 행순번과 열순번 자리에 슬라이싱 from:to:by - from부터 to 앞까지 by씩 (to 미포함)
    - 행순번과 열순번 자리에 리스트 

In [81]:
member

Unnamed: 0,Name,Age,Email,Address,Birth
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
북,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
중,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [88]:
# 동(0)행 부터 남(2)행까지 모든 열
member.iloc[0:3]
member.iloc[0:3,]
member.iloc[0:3, :]
member.iloc[0:3, ...]

Unnamed: 0,Name,Age,Email,Address,Birth
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01


In [90]:
# 0번째 행
type(member.iloc[0])

pandas.core.series.Series

In [94]:
# 동행부터 남행까지 Name(0)열부터 Address(3)열까지
member.iloc[0:3, 0:4]
member.iloc[0:3, 0:-1]

Unnamed: 0,Name,Age,Email,Address
동,홍길동,20,hong@hong.com,서울시 강동구
서,홍길서,30,seo@hong.com,서울시 중구
남,홍길남,21,nam@hong.com,서울시 강동구


In [95]:
# 짝수번째 행의 마지막 열을 제외하고 출력
member.iloc[::2, :-1]

Unnamed: 0,Name,Age,Email,Address
동,홍길동,20,hong@hong.com,서울시 강동구
남,홍길남,21,nam@hong.com,서울시 강동구
중,홍길중,23,mid@hong.com,부산시 중구


In [96]:
# 마지막 행부터 첯음행까지 거꾸로 출력
member.iloc[::-1]

Unnamed: 0,Name,Age,Email,Address,Birth
중,홍길중,23,mid@hong.com,부산시 중구,1999-01-30
북,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01


In [91]:
#동행과 남행, Name(0)열, Email(2)열, Address(3)열
member.iloc[[0, 2], [0, 2, 3]]

Unnamed: 0,Name,Email,Address
동,홍길동,hong@hong.com,서울시 강동구
남,홍길남,nam@hong.com,서울시 강동구


In [93]:
# Name(0)열
member.iloc[:, 0]
member.iloc[..., 0]

동    홍길동
서    홍길서
남    홍길남
북    홍길북
중    홍길중
Name: Name, dtype: object

## 4.4 조건으로 조회하기

In [129]:
member

Unnamed: 0,Name,Age,Email,Address,Birth
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
북,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
중,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [100]:
member['Name']=='홍길남'

동    False
서    False
남     True
북    False
중    False
Name: Name, dtype: bool

In [104]:
# Name이 홍길남인 행을 모두
member[member['Name']=='홍길남']
member.loc[member['Name']=='홍길남']

Unnamed: 0,Name,Age,Email,Address,Birth
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01


In [107]:
# Name이 홍길남인 행의 Name, Age, Email 출력
member.loc[member['Name']=='홍길남', 'Name':'Email']

Unnamed: 0,Name,Age,Email
남,홍길남,21,nam@hong.com


In [108]:
# Name이 홍길남인 행의 Name,, Email 출력
member.loc[member['Name']=='홍길남', ['Name', 'Email']]

Unnamed: 0,Name,Email
남,홍길남,nam@hong.com


In [110]:
# 23세 이상 데이터 조회(모든 열)
member.loc[member['Age']>=23]

Unnamed: 0,Name,Age,Email,Address,Birth
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
중,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [111]:
# 23세 이상 Name, Age, Email
member.loc[member['Age']>=23, 'Name':'Email']

Unnamed: 0,Name,Age,Email
서,홍길서,30,seo@hong.com
중,홍길중,23,mid@hong.com


In [112]:
# 23세 이상 Name, Age, Address
member.loc[member['Age']>=23, ['Name', 'Age', 'Address']]

Unnamed: 0,Name,Age,Address
서,홍길서,30,서울시 중구
중,홍길중,23,부산시 중구


In [131]:
# ~ : 반대
member.loc[~(member['Age']>=23)]

Unnamed: 0,Name,Age,Email,Address,Birth
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
북,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01


In [140]:
address = '서울시 관악구'
print('서울시로 시작하는지 여부 :', address.startswith('서울시'))
print('중구 포함 여부 :', address.find('중구')!=-1)

서울시로 시작하는지 여부 : True
중구 포함 여부 : False


In [145]:
# member['Address'].startswith('서울시') # 에러 member['Address']는 시리즈 (문자가 아니기에 에러)

※ 시리즈에 문자함수를 쓰기 위해 참조 :
https://pandas.pydata.org/pandas-docs/stable/reference/series.html#string-handling

In [147]:
# 서울시로 시작하는 데이터
member['Address'].str.startswith('서울시')

동     True
서     True
남     True
북     True
중    False
Name: Address, dtype: bool

In [146]:
member[member['Address'].str.startswith('서울시')]

Unnamed: 0,Name,Age,Email,Address,Birth
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
북,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01


In [148]:
# Address에 중구를 포함하는 데이터 (방법1)
member[member['Address'].str.find('중구')!=-1]

Unnamed: 0,Name,Age,Email,Address,Birth
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
중,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [150]:
# Address에 중구를 포함하는 데이터 (방법2)
member[member['Address'].str.contains('중구')]

Unnamed: 0,Name,Age,Email,Address,Birth
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
중,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [155]:
# 시리즈.isin([])
# 이름이 홍길동이거나 홍길남인 데이터
member.loc[member['Name'].isin(['홍길동', '홍길남'])]
member[member['Name'].isin(['홍길동', '홍길남'])]

Unnamed: 0,Name,Age,Email,Address,Birth
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01


In [156]:
# 이름이 홍길동이거나 홍길남인 데이터의 이름, 주소, 생일
member.loc[member['Name'].isin(['홍길동', '홍길남']), ['Name', 'Address', 'Birth']]

Unnamed: 0,Name,Address,Birth
동,홍길동,서울시 강동구,1999-01-01
남,홍길남,서울시 강동구,1999-11-01


In [158]:
# 2000년 이전의 태어난 데이터
member[member['Birth'].dt.year < 2000]

Unnamed: 0,Name,Age,Email,Address,Birth
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
북,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
중,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [164]:
# 조건 연산자를 이용해서 추출(조건 2개)
import numpy as np
import pandas as pd
data = pd.DataFrame({'eng' : [np.nan, 80, np.nan, 85],
                     'kor' : [100, 80, 60, np.nan]})
display(data)
# 영어 80점 이상이고 국어 80점 이상인 데이터 추출
data[(data['eng'] >= 80) & (data['kor'] >= 80)]

Unnamed: 0,eng,kor
0,,100.0
1,80.0,80.0
2,,60.0
3,85.0,


Unnamed: 0,eng,kor
1,80.0,80.0


In [165]:
# 결측치 확인 방법1
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   eng     2 non-null      float64
 1   kor     3 non-null      float64
dtypes: float64(2)
memory usage: 192.0 bytes


In [166]:
# 결측치 확인 방법2
data.isna() #결측치 여부

Unnamed: 0,eng,kor
0,True,False
1,False,False
2,True,False
3,False,True


In [168]:
# True는 더할때 1로 False는 더할때 0으로 취급
data.isna().sum(axis=0) # 각 열의 결측치 갯수

eng    2
kor    1
dtype: int64

<font size='5'> ※ 데이터 프레임의 부분 데이터 조회방법 </font>
- df[열이름] : 특정열 조회
- df[조건] : 조건에 맞는 모든 행 조회
- df.loc[행이름, 열이름]
    - 행이름, 열이름 자리에 슬라이싱, 리스트 가능
    - 열이름 생략하면 모든 열 출력
    - 행이름 자리에 조건 가능
- df.iloc[행순번, 열순번]
    - 행순번, 열순번 자리에 슬라이싱, 리스트 가능
    - 열이름 생략시 모든 열

# 데이터 프레임 조건 추출 quiz

In [170]:
# iris 가져오기
import seaborn as sns
iris = sns.load_dataset('iris')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [193]:
# 1. sepal_length 열만 출력
iris.sepal_length

# 2. 0~10행까지 마지막 열을 제외한 데이터 (loc, iloc)
iris.loc[:10, :'petal_width']
iris.iloc[:11, :-1]

# 3. 3~10 행중에 'sepal_length'와 'petal_length' 열만 (loc, iloc)
iris.loc[3:10, ['sepal_length', 'petal_length']]
iris.iloc[3:11, [0, 2]]

# 4. 0번째, 50번째, 100번째 행의 모든 열 (loc, iloc)
iris.loc[[0, 50, 100]]
iris.iloc[0:101:50]

# 5. 0번째, 25, 50번째, 75번, 100번째, 125번째 행의 petal_length와 petal_width (loc, iloc)
iris.loc[[0, 25, 50, 76, 100, 125], 'petal_length':'petal_width']
iris.iloc[0:126:25, 2:4]

# 6. species가 versicolor인 데이터의 모든 열
iris[iris['species']=='versicolor']

# 7. species가 setosa인 데이터 최초 5개 행만 출력
iris[iris['species']=='setosa'].head(5)

# 8. sepal_length가 6.5이상인 데이터 최초 5개 행만 출력
iris[iris['sepal_length']>=6.5].head(5)

# 9. sepal_length가 7.2이상인 데이터의 'sepal_length'와 'sepal_width'와 'petal_length'
iris.loc[iris['sepal_length']>=7.2, ['sepal_length', 'sepal_width', 'petal_length']]

# 10. versicolor종중에서 sepal_length가 6.5보다 큰 데이터의 모든 열
iris.loc[(iris['species']=='versicolor') & (iris['sepal_length'] > 6.5)]


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
50,7.0,3.2,4.7,1.4,versicolor
52,6.9,3.1,4.9,1.5,versicolor
58,6.6,2.9,4.6,1.3,versicolor
65,6.7,3.1,4.4,1.4,versicolor
75,6.6,3.0,4.4,1.4,versicolor
76,6.8,2.8,4.8,1.4,versicolor
77,6.7,3.0,5.0,1.7,versicolor
86,6.7,3.1,4.7,1.5,versicolor


In [176]:
iris.iloc[3:11, [0, 2]]

Unnamed: 0,sepal_length,petal_length
3,4.6,1.5
4,5.0,1.4
5,5.4,1.7
6,4.6,1.4
7,5.0,1.5
8,4.4,1.4
9,4.9,1.5
10,5.4,1.5


# 5절 데이터 삭제 및 추가
## 5.1 데이터 프레임의 요소 삭제 
- df.drop(삭제할열이름이나행이름, axis) : axis=0일때는 행 삭제, axis=1일 때는 열 삭제
    - axix=0(기본값)일때는 행 삭제, axis=1일 때는 열삭제

In [194]:
member

Unnamed: 0,Name,Age,Email,Address,Birth
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
북,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
중,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [195]:
# 1) 단일 행 삭제
member.drop('중', axis=0)
# 삭제할 결과를 member 적용 (1) 할당 member = member.drop('중', axis=0)
#                        (2) member.drop('중', axis=0, inplace=True)

Unnamed: 0,Name,Age,Email,Address,Birth
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
북,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01


In [196]:
# 2) 복수 행 삭제
member.drop(['동', '서', '남'])

Unnamed: 0,Name,Age,Email,Address,Birth
북,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
중,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [197]:
# 3) 열 삭제
member.drop(['Name', 'Email'], axis=1)

Unnamed: 0,Age,Address,Birth
동,20,서울시 강동구,1999-01-01
서,30,서울시 중구,1999-12-01
남,21,서울시 강동구,1999-11-01
북,22,서울시 관악구,1999-05-01
중,23,부산시 중구,1999-01-30


## 5.2 데이터프레임의 요소 추가

In [204]:
# 1) 열 추가
member['nickname'] = '빼꼼이'
member

Unnamed: 0,Name,Age,Address,nickname
동,홍길동,20,서울시 강동구,빼꼼이
서,홍길서,30,서울시 중구,빼꼼이
남,홍길남,21,서울시 강동구,빼꼼이
북,홍길북,22,서울시 관악구,빼꼼이
중,홍길중,23,부산시 중구,빼꼼이


In [199]:
# 2) 리스트를 이용한 열 추가
member['favorite_no'] = [3, 2, 7, None, 12]
member

Unnamed: 0,Name,Age,Email,Address,Birth,nickname,favorite_no
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01,빼꼼이,3.0
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01,빼꼼이,2.0
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01,빼꼼이,7.0
북,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01,빼꼼이,
중,홍길중,23,mid@hong.com,부산시 중구,1999-01-30,빼꼼이,12.0


In [201]:
# 3) favorite_num 열에 결측치를 할당후, 원하는 데이터에 다시 할당
member['favorite_num'] = np.nan
member.iloc[::2, -1] = 7

In [205]:
member.drop(['Email', 'Birth', 'favorite_no', 'favorite_num'], axis=1, inplace=True)
member

Unnamed: 0,Name,Age,Address,nickname
동,홍길동,20,서울시 강동구,빼꼼이
서,홍길서,30,서울시 중구,빼꼼이
남,홍길남,21,서울시 강동구,빼꼼이
북,홍길북,22,서울시 관악구,빼꼼이
중,홍길중,23,부산시 중구,빼꼼이


In [213]:
# 4) 딕셔너리로 행추가
new_member = pd.DataFrame([
                {'Name':'홍길쑥', 'Age':30, 'Address':'서울시', 'nickname':'빠꼼이'}
        ])
display(new_member)
member = pd.concat([member, new_member]).reset_index(drop=True) # 두 데이터 프레임 연결
member

Unnamed: 0,Name,Age,Address,nickname
0,홍길쑥,30,서울시,빠꼼이


Unnamed: 0,Name,Age,Address,nickname
0,홍길동,20,서울시 강동구,빼꼼이
1,홍길서,30,서울시 중구,빼꼼이
2,홍길남,21,서울시 강동구,빼꼼이
3,홍길북,22,서울시 관악구,빼꼼이
4,홍길중,23,부산시 중구,빼꼼이
5,홍길쑥,30,서울시,빠꼼이


# 6절 병합과 연결
## 6.1 merge()를 이용한 데이터 프레임 병합

In [219]:
df1 = pd.DataFrame({'key':['a','b','c','d'],
                    'c1':[1,2,3,4]})
df2 = pd.DataFrame({'key':['a','b','c','f'],
                    'c2':[10,20,30,40]})
df1.merge(df2) # how = 'inner' 기본값 : 내부조인(양족이 일치하는 데이터만 병합)

Unnamed: 0,key,c1,c2
0,a,1,10
1,b,2,20
2,c,3,30


In [221]:
df1.merge(df2, how='left') # 왼쪽의 df1 데이터는 모두 남기고 오른쪽 df2가 매칭되도록

Unnamed: 0,key,c1,c2
0,a,1,10.0
1,b,2,20.0
2,c,3,30.0
3,d,4,


In [222]:
df1.merge(df2, how='right') # 오른쪽 df2 데이터는 모두 남기고 왼쪽 df1가 매칭되도록

Unnamed: 0,key,c1,c2
0,a,1.0,10
1,b,2.0,20
2,c,3.0,30
3,f,,40


In [223]:
df1.merge(df2, how='outer') # df1과 df2 둘다 모두 남기고 없는 데이터는 결측치로

Unnamed: 0,key,c1,c2
0,a,1.0,10.0
1,b,2.0,20.0
2,c,3.0,30.0
3,d,4.0,
4,f,,40.0


In [227]:
df3 = pd.DataFrame({'key3':['a','b','c','d'],
                    'c1':[1,2,3,4]})
df4 = pd.DataFrame({'key4':['a','b','c','f'],
                    'c2':[10,20,30,40]})
df3.merge(df4, left_on='key3', right_on='key4', how='outer')

Unnamed: 0,key3,c1,key4,c2
0,a,1.0,a,10.0
1,b,2.0,b,20.0
2,c,3.0,c,30.0
3,d,4.0,,
4,,,f,40.0


## 6.2 concat()을 이용한 데이터프레임 연결
- pd.concat( [df1, df2, df3, ...], axis)
    - axis=0 (기본값) : 위아래 연결
    - axis=1 : 좌우로 연결

In [229]:
df3 = pd.DataFrame({'key3':['a','b','c','d'],
                    'c1':[1,2,3,4]})
df4 = pd.DataFrame({'key4':['a','b','c','f'],
                    'c2':[10,20,30,40]})
pd.concat([df3, df4], axis=1) #좌우 연결

Unnamed: 0,key3,c1,key4,c2
0,a,1,a,10
1,b,2,b,20
2,c,3,c,30
3,d,4,f,40


In [230]:
df3 = pd.DataFrame({'key':['a','b','c','d'],
                    'c1':[1,2,3,4]})
df4 = pd.DataFrame({'key':['a','b','c','f'],
                    'c1':[10,20,30,40]})
pd.concat([df3, df4]).reset_index(drop=True)

Unnamed: 0,key,c1
0,a,1
1,b,2
2,c,3
3,d,4
4,a,10
5,b,20
6,c,30
7,f,40


# 7절 정렬(행이름, 열이름, 값에 의한 정렬)
- df.sort_index(axis) : 행 또는 열이름으로 정렬
- df_sort_values(by=[정렬기준이 될 열이름], ascending==T/F, inplace=T/F) : 특정 열 값에 의한 정렬

In [232]:
member = pd.read_csv('data/ch11_member.csv', comment='#')
member.index = ['동', '서', '남', '북', '중']
member

Unnamed: 0,Name,Age,Email,Address,Birth
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
북,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
중,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


## 7.1 행이름으로 정렬

In [233]:
member.sort_index(axis=0) #기본값 ascending=T (오름차순)

Unnamed: 0,Name,Age,Email,Address,Birth
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
북,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
중,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


## 7.2 열이름으로 정렬

In [234]:
member.sort_index(axis=1) # axis='columns'

Unnamed: 0,Address,Age,Birth,Email,Name
동,서울시 강동구,20,1999-01-01,hong@hong.com,홍길동
서,서울시 중구,30,1999-12-01,seo@hong.com,홍길서
남,서울시 강동구,21,1999-11-01,nam@hong.com,홍길남
북,서울시 관악구,22,1999-05-01,buk@hong.com,홍길북
중,부산시 중구,23,1999-01-30,mid@hong.com,홍길중


# 7.3 값에 의한 정렬

In [235]:
member.sort_values(by='Age') # Age 기준으로 오름차순 정렬(ascending=True)

Unnamed: 0,Name,Age,Email,Address,Birth
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
북,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
중,홍길중,23,mid@hong.com,부산시 중구,1999-01-30
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01


In [236]:
member.sort_values(by='Age', ascending=False)

Unnamed: 0,Name,Age,Email,Address,Birth
서,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
중,홍길중,23,mid@hong.com,부산시 중구,1999-01-30
북,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
남,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01


In [239]:
member.loc[:, 'Age'] = [20,20,30,30,30]
member

Unnamed: 0,Name,Age,Email,Address,Birth
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
서,홍길서,20,seo@hong.com,서울시 중구,1999-12-01
남,홍길남,30,nam@hong.com,서울시 강동구,1999-11-01
북,홍길북,30,buk@hong.com,서울시 관악구,1999-05-01
중,홍길중,30,mid@hong.com,부산시 중구,1999-01-30


In [240]:
# Age 기준으로 오름차순, Age 같으면 Eamil 기준 내림차순 정렬
member.sort_values(by=['Age', 'Email'], ascending=[True, False])

Unnamed: 0,Name,Age,Email,Address,Birth
서,홍길서,20,seo@hong.com,서울시 중구,1999-12-01
동,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
남,홍길남,30,nam@hong.com,서울시 강동구,1999-11-01
중,홍길중,30,mid@hong.com,부산시 중구,1999-01-30
북,홍길북,30,buk@hong.com,서울시 관악구,1999-05-01
