# 5장 데이터 처리와 분석을 위한 라이브러리

## 5.1 배열 데이터 연산에 효율적인 넘파이(NumPy)

### 5.1.1 배열 데이터 생성

#### 리스트 데이터로부터 배열을 생성

[5장: 146페이지]

In [1]:
import numpy as np

list_data = [0, 1, 2, 3, 4, 5.0]
a1 = np.array(list_data)
a1

array([0., 1., 2., 3., 4., 5.])

[5장: 147페이지]

In [2]:
type(a1)

numpy.ndarray

In [3]:
a2 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
a2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

#### 범위와 간격을 지정해 배열을 생성

[5장: 148페이지]

In [4]:
np.arange(0, 10, 1) # start, stop, step 모두 지정

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [5]:
np.arange(0, 10) # start, stop만 지정(step=1)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [6]:
np.arange(10) # stop만 지정(start=0. step=1)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]:
np.arange(0, 5, 0.5) # start, stop, step 모두 지정

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

#### 범위와 개수를 지정해 배열을 생성

[5장: 149페이지]

In [8]:
np.linspace(1, 10, 10) # start, stop, num 지정

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [9]:
np.linspace(0, np.pi, 20)

array([0.        , 0.16534698, 0.33069396, 0.49604095, 0.66138793,
       0.82673491, 0.99208189, 1.15742887, 1.32277585, 1.48812284,
       1.65346982, 1.8188168 , 1.98416378, 2.14951076, 2.31485774,
       2.48020473, 2.64555171, 2.81089869, 2.97624567, 3.14159265])

### 5.1.2 배열 데이터 선택

#### 배열의 인덱싱

[5장: 150페이지]

In [10]:
import numpy as np

a1 = np.array([0, 10, 20, 30, 40, 50]) # 1차원 배열 생성
[a1[0], a1[3], a1[5], a1[-1], a1[-2]]  # 배열 인덱싱의 다양한 예

[0, 30, 50, 50, 40]

In [11]:
a1[4] = 90
a1

array([ 0, 10, 20, 30, 90, 50])

In [12]:
a2 = np.array([0, 10, 20, 30, 40, 50]) # 1차원 배열 생성
a2[[4, 0, 5, -1, -2]]                  # 배열의 위치로 여러 개의 요소를 선택

array([40,  0, 50, 50, 40])

[5장: 151페이지]

In [13]:
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [14]:
a[a >= 5]

array([5, 6, 7, 8, 9])

In [15]:
a[(a % 2) == 0]

array([0, 2, 4, 6, 8])

In [16]:
a[ ((a % 2)==0) & (a > 5) ] # 두 조건을 동시에 만족하는 요소만 선택

array([6, 8])

In [17]:
a[ ((a % 2)==0) | (a > 5) ] # 두 조건 중 하나만 만족해도 요소 선택

array([0, 2, 4, 6, 7, 8, 9])

In [18]:
a[ ~((a % 2)==0) ] # 짝수를 찾는 조건의 논리 부정을 이용해 홀수 선택

array([1, 3, 5, 7, 9])

#### 배열의 슬라이싱

[5장: 152페이지]

In [19]:
import numpy as np

a1 = np.array([0, 10, 20, 30, 40, 50]) # 1차원 배열 생성

a1[1:4] # start, end를 모두 지정해 슬라이싱. 선택 범위: start ~ end-1

array([10, 20, 30])

In [20]:
a1[:3] # end만 지정해 슬라이싱. 선택 범위: 0 ~ end-1

array([ 0, 10, 20])

In [21]:
a1[2:] # start만 지정해 슬라이싱. 선택 범위: start ~ 배열의_마지막_위치

array([20, 30, 40, 50])

In [22]:
a1[:] # start, end 모두 지정하지 않으면 배열 전체가 선택됨

array([ 0, 10, 20, 30, 40, 50])

[5장: 153페이지]

In [23]:
a1[2:5] = np.array([25, 35, 45]) # 선택한 위치(2, 3, 4)의 요소를 새로운 배열로 변경
a1

array([ 0, 10, 25, 35, 45, 50])

In [24]:
a1[3:6] = 70 # 선택한 위치(3, 4, 5)의 요소를 모두 스칼라 값으로 변경
a1

array([ 0, 10, 25, 70, 70, 70])

In [25]:
a2 = np.array([0, 10, 20, 30, 40, 50, 60, 70, 80, 90]) # 1차원 배열 생성

a2[0:10:2] # 선택 범위: start~end-1, 증가폭(step): 2                             

array([ 0, 20, 40, 60, 80])

In [26]:
a2[2:8:3] # 선택 범위: start~end-1, 증가폭(step): 3

array([20, 50])

In [27]:
a2[0:10:] # 선택 범위: start ~ end-1, 증가폭(step): 1

array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

[5장: 154페이지]

In [28]:
a2[3::] # 선택 범위: start~배열의_마지막_위치, 증가폭(step): 1

array([30, 40, 50, 60, 70, 80, 90])

In [29]:
a2[:5:] # 선택 범위: 0~end-1, 증가폭(step): 1

array([ 0, 10, 20, 30, 40])

In [30]:
a2[::] # 선택 범위: 0 ~ 배열의_마지막_위치, 증가폭(step): 1

array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

In [31]:
a2[::-1] # 선택 범위: 배열의_마지막_위치~0, 증가폭(step): -1 -> 역순으로 선택

array([90, 80, 70, 60, 50, 40, 30, 20, 10,  0])

In [32]:
a2[8:2:-2] # 증가폭(step): -2 -> 역순으로 선택

array([80, 60, 40])

## 5.2 표 데이터 처리에 강한 판다스(pandas)

### 5.1.2 데이터 구조와 생성

#### Series 데이터의 구조와 생성

[5장: 156페이지]

In [33]:
import pandas as pd

s1 = pd.Series([10, 20, 30, 40, 50]) # 리스트로 Series 데이터 생성
s1

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [34]:
s1.index

RangeIndex(start=0, stop=5, step=1)

[5장: 157페이지]

In [35]:
s1.values

array([10, 20, 30, 40, 50], dtype=int64)

In [36]:
import numpy as np

index_data = ['2020-02-27','2020-02-28','2020-02-29','2020-03-01'] # 날짜 지정 
data = [3500, 3579, np.nan, 3782] # 데이터 지정

s2 = pd.Series(data, index=index_data) # Series 데이터 생성
s2

2020-02-27    3500.0
2020-02-28    3579.0
2020-02-29       NaN
2020-03-01    3782.0
dtype: float64

In [37]:
s3 = pd.Series({'국어': 100, '영어': 95, '수학': 90})
s3

국어    100
영어     95
수학     90
dtype: int64

[5장: 158페이지]

In [38]:
s4 = pd.Series({'B': 4.0, 'A': 5.0, 'D': 2.0, 'C': 3.0})
s4

B    4.0
A    5.0
D    2.0
C    3.0
dtype: float64

In [39]:
s4.reindex(['A', 'B', 'C', 'D'])

A    5.0
B    4.0
C    3.0
D    2.0
dtype: float64

#### 날짜 데이터 자동 생성

[5장: 160페이지]

In [40]:
index_data = pd.date_range(start='2020-02-27', end='2020-03-01') # 날짜 생성
data = [3500, 3579, np.nan, 3782] # 데이터 지정

pd.Series(data, index=index_data) # Series 데이터 생성

2020-02-27    3500.0
2020-02-28    3579.0
2020-02-29       NaN
2020-03-01    3782.0
Freq: D, dtype: float64

In [41]:
# 시작일 ~ 종료일 이틀 주기(freq='2D')로 날짜 생성
pd.date_range(start='2020-07-01', end='2020-07-10', freq='2D') 

DatetimeIndex(['2020-07-01', '2020-07-03', '2020-07-05', '2020-07-07',
               '2020-07-09'],
              dtype='datetime64[ns]', freq='2D')

In [42]:
# 시작일 기준으로 설정한 기간(periods=12) 동안 날짜 생성
pd.date_range(start='2020-07-01', periods=12) 

DatetimeIndex(['2020-07-01', '2020-07-02', '2020-07-03', '2020-07-04',
               '2020-07-05', '2020-07-06', '2020-07-07', '2020-07-08',
               '2020-07-09', '2020-07-10', '2020-07-11', '2020-07-12'],
              dtype='datetime64[ns]', freq='D')

In [43]:
# 시작일 기준으로 설정한 기간동안 업무일 기준(freq='B')으로 날짜 생성
pd.date_range(start='2020-07-01', periods=12, freq='B') 

DatetimeIndex(['2020-07-01', '2020-07-02', '2020-07-03', '2020-07-06',
               '2020-07-07', '2020-07-08', '2020-07-09', '2020-07-10',
               '2020-07-13', '2020-07-14', '2020-07-15', '2020-07-16'],
              dtype='datetime64[ns]', freq='B')

[5장: 161페이지]

In [44]:
# 시작일과 시각 기준으로 설정한 기간동안 날짜 및 시각 생성(freq='30min')
pd.date_range(start='2020-07-01 10:00', periods=5, freq='30min') 

DatetimeIndex(['2020-07-01 10:00:00', '2020-07-01 10:30:00',
               '2020-07-01 11:00:00', '2020-07-01 11:30:00',
               '2020-07-01 12:00:00'],
              dtype='datetime64[ns]', freq='30T')

#### DataFrame 데이터 구조와 생성 

[5장: 162페이지]

In [45]:
import pandas as pd

data = [[1,2,3], [4,5,6], [7,8,9]]
df = pd.DataFrame(data)
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


[5장: 163페이지]

In [46]:
import numpy as np
import pandas as pd

data = np.array([[1, 2, 3], [4, 5, 6], [7, 8 ,9], [10, 11, 12]]) # data 생성
index_data = pd.date_range('2023-01-11', periods=4) # index를 위한 날짜 데이터
columns_data = ['A', 'B', 'C'] # columns를 위한 리스트 데이터

pd.DataFrame(data, index=index_data, columns=columns_data) # DataFrame 데이터 생성

Unnamed: 0,A,B,C
2023-01-11,1,2,3
2023-01-12,4,5,6
2023-01-13,7,8,9
2023-01-14,10,11,12


In [47]:
dict_data = {'연도': [2021, 2021, 2022, 2022],
             '지사': ['한국', '미국', '한국','미국'],
             '고객 수': [200, np.nan, 250, 450]} # 딕셔너리 데이터

df = pd.DataFrame(dict_data) # 딕셔너리 데이터로부터 DataFrame 데이터 생성
df

Unnamed: 0,연도,지사,고객 수
0,2021,한국,200.0
1,2021,미국,
2,2022,한국,250.0
3,2022,미국,450.0


[5장: 164페이지]

In [48]:
df.index

RangeIndex(start=0, stop=4, step=1)

In [49]:
df.columns

Index(['연도', '지사', '고객 수'], dtype='object')

In [50]:
df.values

array([[2021, '한국', 200.0],
       [2021, '미국', nan],
       [2022, '한국', 250.0],
       [2022, '미국', 450.0]], dtype=object)

[5장: 165페이지]

In [51]:
df1 = df.set_index("연도")
df1

Unnamed: 0_level_0,지사,고객 수
연도,Unnamed: 1_level_1,Unnamed: 2_level_1
2021,한국,200.0
2021,미국,
2022,한국,250.0
2022,미국,450.0


In [52]:
dict_data = {'A': [10, 20, 30, 40,],
             'B': [0.1, 0.2, 0.3, 0.4],
             'C': [100, 200, 300, 400]} # 딕셔너리 데이터

df2 = pd.DataFrame(dict_data) # 딕셔너리 데이터로부터 DataFrame 데이터 생성
df2

Unnamed: 0,A,B,C
0,10,0.1,100
1,20,0.2,200
2,30,0.3,300
3,40,0.4,400


[5장: 166페이지]

In [53]:
df2.reindex([2, 0, 3, 1])

Unnamed: 0,A,B,C
2,30,0.3,300
0,10,0.1,100
3,40,0.4,400
1,20,0.2,200


In [54]:
df2.reindex(columns=['B', 'C', 'A'])

Unnamed: 0,B,C,A
0,0.1,100,10
1,0.2,200,20
2,0.3,300,30
3,0.4,400,40


### 5.2.2 표 형식의 데이터 파일 읽고 쓰기

#### CSV 파일 읽고 쓰기

[5장: 168페이지]

In [56]:
%%writefile C:/Users/shjo/Desktop/전공/Python-WebScraping-1/data/ch05/A_product_sales.csv
연도,1분기,2분기,3분기,4분기
2016,2412,4032,5183,1139
2017,2725,4986,6015,1242
2018,2925,5286,6497,1596
2019,2691,5813,7202,1358
2020,2523,6137,7497,1512


Overwriting C:/Users/shjo/Desktop/전공/Python-WebScraping-1/data/ch05/A_product_sales.csv


[5장: 169페이지]

In [57]:
import pandas as pd

#  CSV 파일 경로
folder = 'C:/Users/shjo/Desktop/전공/Python-WebScraping-1/data/ch05/' # 폴더 지정
csv_file = folder + 'A_product_sales.csv' # 파일 경로 지정

# CSV 파일을 읽어와서 DataFrame 데이터 생성
df = pd.read_csv(csv_file, encoding = "utf-8") 
df

Unnamed: 0,연도,1분기,2분기,3분기,4분기
0,2016,2412,4032,5183,1139
1,2017,2725,4986,6015,1242
2,2018,2925,5286,6497,1596
3,2019,2691,5813,7202,1358
4,2020,2523,6137,7497,1512


In [58]:
df = pd.read_csv(csv_file, index_col="연도")
df

Unnamed: 0_level_0,1분기,2분기,3분기,4분기
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016,2412,4032,5183,1139
2017,2725,4986,6015,1242
2018,2925,5286,6497,1596
2019,2691,5813,7202,1358
2020,2523,6137,7497,1512


[5장: 171페이지]

In [59]:
df = pd.DataFrame({ '고객ID': ['C5001', 'C5002', 'C5003', 'C5004'],
                     '국가':['한국', '미국', '영국', '독일'],
                      '주문금액':[1152000, 2507000, 3698000, 4504100] })
df

Unnamed: 0,고객ID,국가,주문금액
0,C5001,한국,1152000
1,C5002,미국,2507000
2,C5003,영국,3698000
3,C5004,독일,4504100


In [60]:
# CSV 파일 경로
folder = 'C:/Users/shjo/Desktop/전공/Python-WebScraping-1/data/ch05/'    # 폴더 지정
csv_file = folder + 'sales_info.csv'     # 파일 경로 지정

df.to_csv(csv_file)                      # DataFrame 데이터를 CSV 파일로 쓰기
print("생성한 CSV 파일:", csv_file)      # 생성한 파일 이름 출력

생성한 CSV 파일: C:/Users/shjo/Desktop/전공/Python-WebScraping-1/data/ch05/sales_info.csv


[5장: 172페이지]

In [61]:
# CSV 파일 경로
folder = 'C:/Users/shjo/Desktop/전공/Python-WebScraping-1/data/ch05/'
csv_file = folder + 'sales_info_cp949_encoding.csv'

# DataFrame 데이터를 CSV 파일로 쓰기(인코딩은 'cp949', index 포함 안 함)
df.to_csv(csv_file, encoding="cp949", index=False)
print("생성한 CSV 파일:", csv_file) # 생성한 파일 이름 출력

생성한 CSV 파일: C:/Users/shjo/Desktop/전공/Python-WebScraping-1/data/ch05/sales_info_cp949_encoding.csv


#### 엑셀 파일 읽고 쓰기

[5장: 174페이지]

In [62]:
import pandas as pd

# 엑셀 파일 경로
folder = 'C:/Users/shjo/Desktop/전공/Python-WebScraping-1/data/ch05/'
excel_file = folder + 'CES마켓_주문내역.xlsx'

# 엑셀 파일을 읽어서 DataFrame 데이터 생성
df = pd.read_excel(excel_file) 
df

Unnamed: 0,주문번호,주문지역,주문일자,제품유형,고객ID,고객등급
0,351291,서울,2022-07-04,의류,EeNMuRpdzG,A
1,351292,경기,2022-07-05,컴퓨터,H7o4KJizTE,B
2,351293,강원,2022-07-06,식료품,OEA4cDdkyg,A
3,351294,호남,2022-07-07,주방제품,GGe6nkrlnV,C
4,351295,영남,2022-07-08,여행,jTrJPdZA,B
5,351296,충청,2022-07-09,도서,Fjs00aZuo,C


[5장: 175페이지]

In [63]:
df = pd.read_excel(excel_file, index_col='주문번호') 
# df = pd.read_excel(excel_file, index_col=0) # 이 방법도 가능
df

Unnamed: 0_level_0,주문지역,주문일자,제품유형,고객ID,고객등급
주문번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
351291,서울,2022-07-04,의류,EeNMuRpdzG,A
351292,경기,2022-07-05,컴퓨터,H7o4KJizTE,B
351293,강원,2022-07-06,식료품,OEA4cDdkyg,A
351294,호남,2022-07-07,주방제품,GGe6nkrlnV,C
351295,영남,2022-07-08,여행,jTrJPdZA,B
351296,충청,2022-07-09,도서,Fjs00aZuo,C


[5장: 177페이지]

In [64]:
# 판다스 DataFrame 데이터 생성
df1 = pd.DataFrame({ '제품ID':['P1001', 'P1002', 'P1003', 'P1004'],
                     '판매가격':[5000, 7000, 8000, 10000],
                     '판매량':[50, 93, 70, 48]}  )

df2 = pd.DataFrame({ '제품ID':['P2001', 'P2002', 'P2003', 'P2004'],
                     '판매가격':[5200, 7200, 8200, 10200],
                     '판매량':[51, 94, 72, 58]}  )

df3 = pd.DataFrame({ '제품ID':['P3001', 'P3002', 'P3003', 'P3004'],
                     '판매가격':[5300, 7300, 8300, 10300],
                     '판매량':[52, 95, 74, 68]}  )

df4 = pd.DataFrame({ '제품ID':['P4001', 'P4002', 'P4003', 'P4004'],
                     '판매가격':[5400, 7400, 8400, 10400],
                     '판매량':[53, 96, 76, 78]}  )
df1

Unnamed: 0,제품ID,판매가격,판매량
0,P1001,5000,50
1,P1002,7000,93
2,P1003,8000,70
3,P1004,10000,48


[5장: 178페이지]

In [65]:
# 엑셀 파일 경로
folder = 'C:/Users/shjo/Desktop/전공/Python-WebScraping-1/data/ch05/'
excel_file = folder + '제품_판매현황_1.xlsx'

# DataFrame 데이터를 엑셀 파일로 쓰기
df1.to_excel(excel_file) 

print("생성한 엑셀 파일:", excel_file) # 생성한 파일 이름 출력

생성한 엑셀 파일: C:/Users/shjo/Desktop/전공/Python-WebScraping-1/data/ch05/제품_판매현황_1.xlsx


[5장: 179페이지]

In [66]:
# 엑셀 파일 경로
folder = 'C:/Users/shjo/Desktop/전공/Python-WebScraping-1/data/ch05/'
excel_file = folder + '제품_판매현황_2.xlsx'

# DataFrame 데이터를 엑셀로 쓰기(옵션 지정)
df1.to_excel(excel_file, sheet_name='제품_라인업1', index=False) 

print("생성한 엑셀 파일:", excel_file) # 생성한 파일 이름 출력

생성한 엑셀 파일: C:/Users/shjo/Desktop/전공/Python-WebScraping-1/data/ch05/제품_판매현황_2.xlsx


In [67]:
# 엑셀 파일 경로
folder = 'C:/Users/shjo/Desktop/전공/Python-WebScraping-1/data/ch05/' 
excel_file = folder + '제품_판매현황_two_sheets.xlsx' 

# DataFrame 데이터를 엑셀 파일의 '제품_라인업1'와 '제품_라인업2' 시트에 쓰기
with pd.ExcelWriter(excel_file, engine='xlsxwriter') as excel_writer:
    df1.to_excel(excel_writer, sheet_name='제품_라인업1', index=False)
    df2.to_excel(excel_writer, sheet_name='제품_라인업2', index=False)
    
print("생성한 엑셀 파일:", excel_file) # 생성한 파일 이름 출력

생성한 엑셀 파일: C:/Users/shjo/Desktop/전공/Python-WebScraping-1/data/ch05/제품_판매현황_two_sheets.xlsx


[5장: 180페이지]

In [68]:
# 출력할 엑셀 파일 경로
folder = 'C:/Users/shjo/Desktop/전공/Python-WebScraping-1/data/ch05/' 
excel_file = folder + '제품_판매현황_전체_one_worksheet.xlsx' 

# 1) 생성한 객체(excel_writer)를 이용해 DataFrame 데이터(df)를 쓰기
excel_writer = pd.ExcelWriter(excel_file, engine='xlsxwriter')

# 2) 여러 DataFrame 데이터를 하나의 엑셀 워크시트에 위치를 달리 해서 출력
df1.to_excel(excel_writer) # startrow=0, startcol=0 과 동일
df2.to_excel(excel_writer, startrow=0, startcol=5, index=False)
df3.to_excel(excel_writer, startrow=6, startcol=0)
df4.to_excel(excel_writer, startrow=6, startcol=5, index=False, header=False)

# 3) 객체를 닫고 엑셀 파일로 저장       
excel_writer.save()

print("생성한 엑셀 파일:", excel_file) # 생성한 파일 이름 출력

생성한 엑셀 파일: C:/Users/shjo/Desktop/전공/Python-WebScraping-1/data/ch05/제품_판매현황_전체_one_worksheet.xlsx


### 5.2.3 표 데이터 선택

#### 행 데이터 선택

[5장: 183페이지]

In [69]:
import pandas as pd
import numpy as np

index_data = ['a', 'b', 'c', 'd', 'e'] # index용 데이터
data = [0.0, 1.0, 2.0, 3.0, 4.0] # 데이터
s1 = pd.Series(data, index = index_data)
s1

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [70]:
s1.loc['a'] # index 라벨 지정으로 하나의 행 데이터 선택

0.0

In [71]:
s1.loc[['a', 'c', 'e']] # index 라벨 리스트 지정으로 여러 행의 데이터를 선택

a    0.0
c    2.0
e    4.0
dtype: float64

In [72]:
s1.loc[['e', 'b', 'a']] # index 라벨 리스트 지정으로 여러 행의 데이터를 선택

e    4.0
b    1.0
a    0.0
dtype: float64

[5장: 184페이지]

In [73]:
s1.loc['b':'d'] # index 라벨 슬라이싱으로 여러 행의 데이터를 선택

b    1.0
c    2.0
d    3.0
dtype: float64

In [74]:
s1.iloc[1] # index 위치 지정으로 하나의 행 데이터를 선택

1.0

In [75]:
s1.iloc[[0, 2, 4]] # index 위치 리스트 지정으로 여러 행의 데이터를 선택

a    0.0
c    2.0
e    4.0
dtype: float64

In [76]:
s1.iloc[1:4] # index 위치 슬라이싱으로 여러 행의 데이터를 선택

b    1.0
c    2.0
d    3.0
dtype: float64

In [77]:
s1.loc['a':'c'] = 10 # 여러 행의 데이터에 스칼라 값을 지정
s1

a    10.0
b    10.0
c    10.0
d     3.0
e     4.0
dtype: float64

[5장: 185페이지]

In [78]:
s1.iloc[3:5] = 20
s1

a    10.0
b    10.0
c    10.0
d    20.0
e    20.0
dtype: float64

In [79]:
dict_data = {'A': [0, 10, 20, 30, 40],
             'B': [0, 0.1, 0.2, 0.3, 0.4],
             'C': [0, 100, 200, 300, 400]} # 딕셔너리 데이터

index_data = ['a', 'b', 'c', 'd', 'e'] # index 지정용 데이터

df1 = pd.DataFrame(dict_data, index=index_data) # 딕셔너리 데이터로부터 DataFrame 데이터 생성
df1

Unnamed: 0,A,B,C
a,0,0.0,0
b,10,0.1,100
c,20,0.2,200
d,30,0.3,300
e,40,0.4,400


In [80]:
df1.loc['a'] # index 라벨 지정으로 하나의 행 데이터를 선택

A    0.0
B    0.0
C    0.0
Name: a, dtype: float64

[5장: 186페이지]

In [81]:
df1.loc[['a', 'c', 'e']] # index 라벨 리스트 지정으로 여러 행의 데이터를 선택

Unnamed: 0,A,B,C
a,0,0.0,0
c,20,0.2,200
e,40,0.4,400


In [82]:
df1.loc['b':'d'] # index 라벨 슬라이싱으로 여러 행의 데이터를 선택

Unnamed: 0,A,B,C
b,10,0.1,100
c,20,0.2,200
d,30,0.3,300


In [83]:
df1.iloc[2] # index 위치 지정으로 하나의 행 데이터를 선택

A     20.0
B      0.2
C    200.0
Name: c, dtype: float64

In [84]:
df1.iloc[[1, 3, 4]] # index 위치 리스트 지정으로 여러 행의 데이터를 선택

Unnamed: 0,A,B,C
b,10,0.1,100
d,30,0.3,300
e,40,0.4,400


[5장: 187페이지]

In [85]:
df1.iloc[1:3] # index 위치 슬라이싱으로 여러 행의 데이터를 선택

Unnamed: 0,A,B,C
b,10,0.1,100
c,20,0.2,200


In [86]:
df1.loc['a':'c'] = 50
df1

Unnamed: 0,A,B,C
a,50,50.0,50
b,50,50.0,50
c,50,50.0,50
d,30,0.3,300
e,40,0.4,400


[5장: 188페이지]

In [87]:
# Series 데이터 생성
s = pd.Series(range(-3, 6)) 
s

0   -3
1   -2
2   -1
3    0
4    1
5    2
6    3
7    4
8    5
dtype: int64

In [88]:
# DataFrame 데이터 생성
dict_data = {'지점': ['서울', '대전', '대구', '부산', '광주'],
             '1월': [558, 234, 340, 380, 213],
             '2월': [437, 216, 238, 290, 194], 
             '3월': [337, 196, 209, 272, 186]} # 딕셔너리 데이터

df = pd.DataFrame(dict_data) # 딕셔너리 데이터로부터 DataFrame 데이터 생성
df

Unnamed: 0,지점,1월,2월,3월
0,서울,558,437,337
1,대전,234,216,196
2,대구,340,238,209
3,부산,380,290,272
4,광주,213,194,186


In [89]:
s[s > 0] # 조건을 만족하는 행 데이터 가져오기

4    1
5    2
6    3
7    4
8    5
dtype: int64

[5장: 189페이지]

In [90]:
s[(s >= -2) & (s%2 == 0)] # 두 조건을 모두 만족하는 행 데이터 가져오기 

1   -2
3    0
5    2
7    4
dtype: int64

In [91]:
df[df['1월'] >= 300] # 조건을 만족하는 행 데이터 가져오기

Unnamed: 0,지점,1월,2월,3월
0,서울,558,437,337
2,대구,340,238,209
3,부산,380,290,272


In [92]:
df[(df['지점'] == '서울') | (df['지점'] == '부산')] # 둘 중 하나만 만족해도 행을 선택

Unnamed: 0,지점,1월,2월,3월
0,서울,558,437,337
3,부산,380,290,272


[5장: 190페이지]

In [93]:
df[df['지점'].isin(['서울','부산'])]

Unnamed: 0,지점,1월,2월,3월
0,서울,558,437,337
3,부산,380,290,272


In [94]:
dict_data = { '제품ID':['P501', 'P502', 'P503', 'P504', 'P505', 'P506', 'P507'],
              '판매가격':[6400, 5400, 9400, 10400, 9800, 1200, 3400],
              '판매량':[63, 56, 98, 48, 72, 59, 43],
              '이익률':[0.30, 0.21, 0.15, 0.25, 0.45, 0.47, 0.32]}  # 딕셔너리 데이터

df2 = pd.DataFrame(dict_data)
df2

Unnamed: 0,제품ID,판매가격,판매량,이익률
0,P501,6400,63,0.3
1,P502,5400,56,0.21
2,P503,9400,98,0.15
3,P504,10400,48,0.25
4,P505,9800,72,0.45
5,P506,1200,59,0.47
6,P507,3400,43,0.32


[5장: 191페이지]

In [95]:
df2.head() # 처음 5개의 행 데이터 선택

Unnamed: 0,제품ID,판매가격,판매량,이익률
0,P501,6400,63,0.3
1,P502,5400,56,0.21
2,P503,9400,98,0.15
3,P504,10400,48,0.25
4,P505,9800,72,0.45


In [96]:
df2.head(2) # 처음 2개의 행 데이터 선택

Unnamed: 0,제품ID,판매가격,판매량,이익률
0,P501,6400,63,0.3
1,P502,5400,56,0.21


[5장: 192페이지]

In [97]:
df2.tail() # 마지막 5개의 행 데이터 선택

Unnamed: 0,제품ID,판매가격,판매량,이익률
2,P503,9400,98,0.15
3,P504,10400,48,0.25
4,P505,9800,72,0.45
5,P506,1200,59,0.47
6,P507,3400,43,0.32


In [98]:
df2.tail(3) # 마지막 3개의 행 데이터 선택

Unnamed: 0,제품ID,판매가격,판매량,이익률
4,P505,9800,72,0.45
5,P506,1200,59,0.47
6,P507,3400,43,0.32


In [99]:
with pd.option_context('display.max_rows',4):
    pd.set_option("show_dimensions", False)
    display(df2)

Unnamed: 0,제품ID,판매가격,판매량,이익률
0,P501,6400,63,0.30
1,P502,5400,56,0.21
...,...,...,...,...
5,P506,1200,59,0.47
6,P507,3400,43,0.32


#### 열 데이터 선택

[5장: 193페이지]

In [100]:
df2['제품ID']

0    P501
1    P502
2    P503
3    P504
4    P505
5    P506
6    P507
Name: 제품ID, dtype: object

[5장: 194페이지]

In [101]:
df2[['제품ID']]

Unnamed: 0,제품ID
0,P501
1,P502
2,P503
3,P504
4,P505
5,P506
6,P507


In [102]:
df2[['제품ID', '이익률', '판매가격']]

Unnamed: 0,제품ID,이익률,판매가격
0,P501,0.3,6400
1,P502,0.21,5400
2,P503,0.15,9400
3,P504,0.25,10400
4,P505,0.45,9800
5,P506,0.47,1200
6,P507,0.32,3400


[5장: 195페이지]

In [103]:
# 지정한 열 데이터의 모든 값을 스칼라 값으로 변경
df2['이익률'] = 0.5 # '이익률' 열 데이터를 0.5로 변경
df2

Unnamed: 0,제품ID,판매가격,판매량,이익률
0,P501,6400,63,0.5
1,P502,5400,56,0.5
2,P503,9400,98,0.5
3,P504,10400,48,0.5
4,P505,9800,72,0.5
5,P506,1200,59,0.5
6,P507,3400,43,0.5


#### 행과 열 데이터 선택

In [104]:
dict_data = {'A': [0, 1, 2, 3, 4],
             'B': [10, 11, 12, 13, 14],
             'C': [20, 21, 22, 23, 24]} # 딕셔너리 데이터

index_data = ['a', 'b', 'c', 'd', 'e'] # index 지정용 데이터

df = pd.DataFrame(dict_data, index=index_data) # DataFrame 데이터 생성
df

Unnamed: 0,A,B,C
a,0,10,20
b,1,11,21
c,2,12,22
d,3,13,23
e,4,14,24


[5장: 196페이지]

In [105]:
df.loc['a', 'A'] # loc 이용

0

In [106]:
df.iloc[0, 0] # iloc 이용

0

In [107]:
df.loc['a':'c', ['A', 'B']] # loc 이용

Unnamed: 0,A,B
a,0,10
b,1,11
c,2,12


In [108]:
df.iloc[0:3, 0:2] # iloc 이용

Unnamed: 0,A,B
a,0,10
b,1,11
c,2,12


[5장: 197페이지]

In [109]:
df.loc[:, ['A', 'B']] # loc 이용

Unnamed: 0,A,B
a,0,10
b,1,11
c,2,12
d,3,13
e,4,14


In [110]:
df.iloc[:, 0:2] # iloc 이용

Unnamed: 0,A,B
a,0,10
b,1,11
c,2,12
d,3,13
e,4,14


In [111]:
df.loc[df['A']>2, ['A', 'B']] # loc 이용

Unnamed: 0,A,B
d,3,13
e,4,14


[5장: 198페이지]

In [112]:
df.loc['a':'c', ['A', 'B']] = 50 # 스칼라 값 지정
df

Unnamed: 0,A,B,C
a,50,50,20
b,50,50,21
c,50,50,22
d,3,13,23
e,4,14,24


In [113]:
df.iloc[3:5, 1:3] = 100 # 스칼라 값 지정
df

Unnamed: 0,A,B,C
a,50,50,20
b,50,50,21
c,50,50,22
d,3,100,100
e,4,100,100


In [114]:
df.loc[df['B']<70, 'B'] = 70 # 스칼라 값 지정
df

Unnamed: 0,A,B,C
a,50,70,20
b,50,70,21
c,50,70,22
d,3,100,100
e,4,100,100


[5장: 199페이지]

In [115]:
df.loc[df['C']<30, 'D'] = 40 # loc 이용. 스칼라 값 지정
df

Unnamed: 0,A,B,C,D
a,50,70,20,40.0
b,50,70,21,40.0
c,50,70,22,40.0
d,3,100,100,
e,4,100,100,


### 5.2.4 표 데이터 통합

[5장: 200페이지]

In [116]:
import pandas as pd

s1 = pd.Series([10, 20, 30])
s1

0    10
1    20
2    30
dtype: int64

In [117]:
s2 = pd.Series([40, 50, 60])
s2

0    40
1    50
2    60
dtype: int64

In [118]:
s3 = pd.Series([70, 80, 90])
s3

0    70
1    80
2    90
dtype: int64

In [119]:
# 세로 방향으로 연결
pd.concat([s1, s2])

0    10
1    20
2    30
0    40
1    50
2    60
dtype: int64

[5장: 201페이지]

In [120]:
# 기존 index를 무시하고 새로운 index를 생성
pd.concat([s1, s2], ignore_index=True) 

0    10
1    20
2    30
3    40
4    50
5    60
dtype: int64

In [121]:
# 기존 index를 무시하고 새로운 index를 생성
pd.concat([s1, s2, s3], ignore_index=True) 

0    10
1    20
2    30
3    40
4    50
5    60
6    70
7    80
8    90
dtype: int64

[5장: 202페이지]

In [122]:
df1 = pd.DataFrame({'물리':[95, 92, 98, 100],
                    '화학':[91, 93, 97, 99]})
df1

Unnamed: 0,물리,화학
0,95,91
1,92,93
2,98,97
3,100,99


In [123]:
df2 = pd.DataFrame({'물리':[87, 89],
                    '화학':[85, 90]})
df2

Unnamed: 0,물리,화학
0,87,85
1,89,90


In [124]:
df3 = pd.DataFrame({'물리':[72, 85]})
df3

Unnamed: 0,물리
0,72
1,85


In [125]:
df4 = pd.DataFrame({'생명과학':[94, 91, 94, 83],
                    '지구과학':[86, 94, 89, 93]})
df4

Unnamed: 0,생명과학,지구과학
0,94,86
1,91,94
2,94,89
3,83,93


[5장: 203페이지]

In [126]:
# 세로 방향으로 연결(기존 index를 무시)
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,물리,화학
0,95,91
1,92,93
2,98,97
3,100,99
4,87,85
5,89,90


In [127]:
# 세로 방향으로 연결(기존 index를 무시)
pd.concat([df2, df3], ignore_index=True) 

Unnamed: 0,물리,화학
0,87,85.0
1,89,90.0
2,72,
3,85,


[5장: 204페이지]

In [128]:
# 세로 방향으로 공통 데이터만 연결(기존 index를 무시)
pd.concat([df2, df3], ignore_index=True, join='inner')

Unnamed: 0,물리
0,87
1,89
2,72
3,85


In [129]:
# 가로 방향으로 연결
pd.concat([df1, df4], axis=1)

Unnamed: 0,물리,화학,생명과학,지구과학
0,95,91,94,86
1,92,93,91,94
2,98,97,94,89
3,100,99,83,93


In [130]:
# 가로 방향으로 모든 데이터 연결
pd.concat([df2, df4], axis=1) 

Unnamed: 0,물리,화학,생명과학,지구과학
0,87.0,85.0,94,86
1,89.0,90.0,91,94
2,,,94,89
3,,,83,93


[5장: 205페이지]

In [131]:
# 가로 방향으로 공통 데이터만 연결
pd.concat([df2, df4], axis=1, join='inner')

Unnamed: 0,물리,화학,생명과학,지구과학
0,87,85,94,86
1,89,90,91,94


## 5.3 정리