# 구조적 데이터 표시와 처리에 강한 pandas

## 1. 구조적 데이터 생성하기 : Series()

In [1]:
import pandas as pd # NumPy처럼 pandas도 사용하려면 먼저 pandas를 불러온다. 
s = pd.Series(seq_data)

NameError: name 'seq_data' is not defined

### Series를 활용한 데이터 생성

In [2]:
s1 = pd.Series([10, 20, 30, 40, 50]) 
s1

0    10
1    20
2    30
3    40
4    50
dtype: int64

### Series 데이터를 s1이라 할 때 index는 's1.index'로 values는 's1.values'로 가져올 수 있다. 

In [3]:
s1.index # RangeIndex는 index를 범위로 표시했음을 의미

RangeIndex(start=0, stop=5, step=1)

In [4]:
s1.values # 출력된 결과가 NumPy의 배열 형식과 같다. 

array([10, 20, 30, 40, 50], dtype=int64)

### NumPy의 경우 배열의 모든 원소의 데이터 타입이 같아야 했지만 pandas의 경우에는 원소의 데이터 타입이 달라도 된다. 

In [5]:
s2 = pd.Series(['a', 'b', 'c', 1, 2, 3]) # 리스트의 데이터 타입이 문자열과 숫자 타입이 혼합되어 있다. 
s2

0    a
1    b
2    c
3    1
4    2
5    3
dtype: object

### np.nan을 이용해 Series 데이터에 특정 원소가 없음을 표시한 예

In [6]:
import pandas as pd 
import numpy as np 
s3 = pd.Series([np.nan,10,30])            
s3 # 인덱스는 있지만 실제값은 없음

0     NaN
1    10.0
2    30.0
dtype: float64

### 예제) 어느 가게의 날짜별 판매량을 pandas의 Series 형식으로 입력한 것이다. 하루는 판매량 데이터가 없어서 np.nan를 입력했다. 출력 결과에index에는 입력 인자 index의 리스트 데이터가 지정되었다. 

In [7]:
index_date = ['2018-10-07','2018-10-08','2018-10-09','2018-10-10'] 
s4 = pd.Series([200, 195, np.nan, 205], index = index_date) 
s4

2018-10-07    200.0
2018-10-08    195.0
2018-10-09      NaN
2018-10-10    205.0
dtype: float64

### 입력 인자로 딕셔너리 데이터를 입력하면 딕셔너리 데이터의 키(keys)와 값(values)이 각각 Series 데이터의 index와 values로 들어간다. 

In [8]:
s5 = pd.Series({'국어': 100, '영어': 95, '수학': 90}) 
s5

국어    100
영어     95
수학     90
dtype: int64

## 2. 날짜 자동 생성 : date_range()

In [10]:
import pandas as pd 
pd.date_range(start='2019-01-01', end='2019-01-07')

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07'],
              dtype='datetime64[ns]', freq='D')

### 날짜를 입력할 때 yyyy-mm-dd 형식 외에도 yyyy/mm/dd, yyyy.mm.dd, mm-dd-yyyy, mm/dd/yyyy 와 같은 형식으로도 입력할 수 있다. 그러나 생성된 날짜 데이터의 형식은 모두 yyyy-mm-dd 형식이다. 

In [11]:
pd.date_range(start='2019/01/01',end='2019.01.07')

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07'],
              dtype='datetime64[ns]', freq='D')

In [12]:
pd.date_range(start='01-01-2019',end='01/07/2019')

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07'],
              dtype='datetime64[ns]', freq='D')

In [13]:
pd.date_range(start='2019-01-01',end='01.07.2019')

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07'],
              dtype='datetime64[ns]', freq='D')

### 날짜 생성 기간(periods)을 7로 입력하면 7일 간의 날짜 데이터가 생성된다. 

In [14]:
pd.date_range(start='2021-05-18', periods = 7)

DatetimeIndex(['2021-05-18', '2021-05-19', '2021-05-20', '2021-05-21',
               '2021-05-22', '2021-05-23', '2021-05-24'],
              dtype='datetime64[ns]', freq='D')

### 날짜 자동 생성 : date_range() 함수의 freq 옵션

In [15]:
pd.date_range(start='2021-05-20', periods = 4, freq = '2D') # 2일씩 증가

DatetimeIndex(['2021-05-20', '2021-05-22', '2021-05-24', '2021-05-26'], dtype='datetime64[ns]', freq='2D')

In [16]:
pd.date_range(start='2021-05-20', periods = 4, freq = 'W') # 시작 일자 이후 일요일 시작 기준 일주일

DatetimeIndex(['2021-05-23', '2021-05-30', '2021-06-06', '2021-06-13'], dtype='datetime64[ns]', freq='W-SUN')

In [17]:
pd.date_range(start='2021-05-20', periods = 12, freq = '2BM') # 2개월 월말 날짜 주기로 12개 날짜 생성

  pd.date_range(start='2021-05-20', periods = 12, freq = '2BM') # 2개월 월말 날짜 주기로 12개 날짜 생성


DatetimeIndex(['2021-05-31', '2021-07-30', '2021-09-30', '2021-11-30',
               '2022-01-31', '2022-03-31', '2022-05-31', '2022-07-29',
               '2022-09-30', '2022-11-30', '2023-01-31', '2023-03-31'],
              dtype='datetime64[ns]', freq='2BME')

In [19]:
pd.date_range(start='2021-05-20', periods = 4, freq = 'QS') # 분기 시작일 기준 주기로 4개 날짜 생성

DatetimeIndex(['2021-07-01', '2021-10-01', '2022-01-01', '2022-04-01'], dtype='datetime64[ns]', freq='QS-JAN')

In [20]:
pd.date_range(start='2021-05-20', periods = 3, freq = 'AS') # 다음 연도 첫 날을 기준으로 1년 주기

  pd.date_range(start='2021-05-20', periods = 3, freq = 'AS') # 다음 연도 첫 날을 기준으로 1년 주기


DatetimeIndex(['2022-01-01', '2023-01-01', '2024-01-01'], dtype='datetime64[ns]', freq='YS-JAN')

In [21]:
pd.date_range(start = '2021-05-20 14:00', periods = 10, freq='H') # 시작 시간으로부터 1시간 주기

  pd.date_range(start = '2021-05-20 14:00', periods = 10, freq='H') # 시작 시간으로부터 1시간 주기


DatetimeIndex(['2021-05-20 14:00:00', '2021-05-20 15:00:00',
               '2021-05-20 16:00:00', '2021-05-20 17:00:00',
               '2021-05-20 18:00:00', '2021-05-20 19:00:00',
               '2021-05-20 20:00:00', '2021-05-20 21:00:00',
               '2021-05-20 22:00:00', '2021-05-20 23:00:00'],
              dtype='datetime64[ns]', freq='h')

In [22]:
pd.date_range(start = '2021-05-20 14:30', periods = 10, freq='BH') # 업무 시간 기준으로 1시간 주기

  pd.date_range(start = '2021-05-20 14:30', periods = 10, freq='BH') # 업무 시간 기준으로 1시간 주기


DatetimeIndex(['2021-05-20 14:30:00', '2021-05-20 15:30:00',
               '2021-05-20 16:30:00', '2021-05-21 09:30:00',
               '2021-05-21 10:30:00', '2021-05-21 11:30:00',
               '2021-05-21 12:30:00', '2021-05-21 13:30:00',
               '2021-05-21 14:30:00', '2021-05-21 15:30:00'],
              dtype='datetime64[ns]', freq='bh')

In [23]:
pd.date_range(start = '2021-05-20 14:30', periods = 4, freq='30min') # 시작 시간 기준 30분 단위 주기

DatetimeIndex(['2021-05-20 14:30:00', '2021-05-20 15:00:00',
               '2021-05-20 15:30:00', '2021-05-20 16:00:00'],
              dtype='datetime64[ns]', freq='30min')

In [24]:
pd.date_range(start = '2021-05-20 14:30', periods = 4, freq='30T') # 30min을 30T로 입력해도 동일함

  pd.date_range(start = '2021-05-20 14:30', periods = 4, freq='30T') # 30min을 30T로 입력해도 동일함


DatetimeIndex(['2021-05-20 14:30:00', '2021-05-20 15:00:00',
               '2021-05-20 15:30:00', '2021-05-20 16:00:00'],
              dtype='datetime64[ns]', freq='30min')

In [25]:
pd.date_range(start = '2021-05-20 15:00:00', periods = 4, freq='10S') # 10초 단위로 증가

  pd.date_range(start = '2021-05-20 15:00:00', periods = 4, freq='10S') # 10초 단위로 증가


DatetimeIndex(['2021-05-20 15:00:00', '2021-05-20 15:00:10',
               '2021-05-20 15:00:20', '2021-05-20 15:00:30'],
              dtype='datetime64[ns]', freq='10s')

In [26]:
index_date = pd.date_range(start = '2021-05-20', periods = 5, freq='D') 
pd.Series([51, 62, 55, 49, 58], index = index_date ) # date_range()를 이용해 Series의 index를 지정

2021-05-20    51
2021-05-21    62
2021-05-22    55
2021-05-23    49
2021-05-24    58
Freq: D, dtype: int64

## 3. DataFrame을 활용한 데이터 생성 : DataFrame()

### 리스트를 이용해 DataFrame의 데이터를 생성하는 예

In [27]:
import pandas as pd 
pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


### NumPy의 배열 데이터를 입력해 DataFrame의 데이터를 생성하는 예

In [30]:
import numpy as np 
import pandas as pd 
data_list = np.array([[10, 20, 30], [40, 50, 60], [70, 80, 90]])
pd.DataFrame(data_list)

Unnamed: 0,0,1,2
0,10,20,30
1,40,50,60
2,70,80,90


In [31]:
import numpy as np 
import pandas as pd 
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8 ,9], [10, 11, 12]]) 
index_date = pd.date_range('2019-09-01', periods=4) 
columns_list = ['A', 'B', 'C'] 
pd.DataFrame(data, index=index_date, columns=columns_list)

Unnamed: 0,A,B,C
2019-09-01,1,2,3
2019-09-02,4,5,6
2019-09-03,7,8,9
2019-09-04,10,11,12


## 4. 딕셔너리 데이터를 이용해 DataFrame데이터를 생성하는 예

In [1]:
table_data = {'연도': [2015, 2016, 2016, 2017, 2017], 
              '지사': ['한국', '한국', '미국', '한국','미국'], 
              '고객 수': [200, 250, 450, 300, 500]} 
table_data

{'연도': [2015, 2016, 2016, 2017, 2017],
 '지사': ['한국', '한국', '미국', '한국', '미국'],
 '고객 수': [200, 250, 450, 300, 500]}

In [34]:
pd.DataFrame(table_data)

Unnamed: 0,연도,지사,고객 수
0,2015,한국,200
1,2016,한국,250
2,2016,미국,450
3,2017,한국,300
4,2017,미국,500


In [35]:
df = pd.DataFrame(table_data, columns=['연도', '지사', '고객 수']) # 키 순서를 지정할 수 있다. 
df

Unnamed: 0,연도,지사,고객 수
0,2015,한국,200
1,2016,한국,250
2,2016,미국,450
3,2017,한국,300
4,2017,미국,500


### DataFrame 데이터에서 index, columns, values를 각각 구한 예

In [36]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [37]:
df.columns 

Index(['연도', '지사', '고객 수'], dtype='object')

In [38]:
df.values

array([[2015, '한국', 200],
       [2016, '한국', 250],
       [2016, '미국', 450],
       [2017, '한국', 300],
       [2017, '미국', 500]], dtype=object)

## 5. 데이터 연산

### Series()로 생성한 Series 데이터의 예

In [39]:
s1 = pd.Series([1, 2, 3, 4, 5]) 
s2 = pd.Series([10, 20, 30, 40, 50]) 
s1 + s2 

0    11
1    22
2    33
3    44
4    55
dtype: int64

In [40]:
s2 - s1

0     9
1    18
2    27
3    36
4    45
dtype: int64

In [41]:
s1 * s2 

0     10
1     40
2     90
3    160
4    250
dtype: int64

In [42]:
s2 / s1 

0    10.0
1    10.0
2    10.0
3    10.0
4    10.0
dtype: float64

In [43]:
s3 = pd.Series([1, 2, 3, 4]) 
s4 = pd.Series([10, 20, 30, 40, 50]) 
s3 + s4 

0    11.0
1    22.0
2    33.0
3    44.0
4     NaN
dtype: float64

In [44]:
s4 - s3 

0     9.0
1    18.0
2    27.0
3    36.0
4     NaN
dtype: float64

In [45]:
s3 * s4 

0     10.0
1     40.0
2     90.0
3    160.0
4      NaN
dtype: float64

In [47]:
s4 / s3 

0    10.0
1    10.0
2    10.0
3    10.0
4     NaN
dtype: float64

### DataFrame()으로 생성한 DataFrame 데이터끼리도 사칙 연산을 할 수 있다. 

In [48]:
table_data1 = {'A': [1, 2, 3, 4, 5], 
                        'B': [10, 20, 30, 40, 50], 
                        'C': [100, 200, 300, 400, 500]} 
df1 = pd.DataFrame(table_data1) 
df1 

Unnamed: 0,A,B,C
0,1,10,100
1,2,20,200
2,3,30,300
3,4,40,400
4,5,50,500


In [49]:
table_data2 = {'A': [6, 7, 8], 
                        'B': [60, 70, 80], 
                        'C': [600, 700, 800]} 
df2 = pd.DataFrame(table_data2) 
df2 

Unnamed: 0,A,B,C
0,6,60,600
1,7,70,700
2,8,80,800


In [51]:
df1 + df2

Unnamed: 0,A,B,C
0,7.0,70.0,700.0
1,9.0,90.0,900.0
2,11.0,110.0,1100.0
3,,,
4,,,


In [53]:
df2 - df1

Unnamed: 0,A,B,C
0,5.0,50.0,500.0
1,5.0,50.0,500.0
2,5.0,50.0,500.0
3,,,
4,,,


## 6. 통계 분석을 위한 pandas 메소드

### 오른쪽 표는 2012년부터 2016까지 우리나라의 계절별 강수량(단위mm)이다. 이를 DataFrame 데이터로 입력하면 다음과 같다. 

In [55]:
table_data3 = {'봄':  [256.5, 264.3, 215.9, 223.2, 312.8], 
                        '여름': [770.6, 567.5, 599.8, 387.1, 446.2], 
                        '가을': [363.5, 231.2, 293.1, 247.7, 381.6], 
                        '겨울': [139.3, 59.9, 76.9, 109.1, 108.1]} 
columns_list = ['봄', '여름', '가을', '겨울'] 
index_list = ['2012', '2013', '2014', '2015', '2016'] 
df3 = pd.DataFrame(table_data3, columns = columns_list, index = index_list) 
df3 

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,770.6,363.5,139.3
2013,264.3,567.5,231.2,59.9
2014,215.9,599.8,293.1,76.9
2015,223.2,387.1,247.7,109.1
2016,312.8,446.2,381.6,108.1


### 앞의 DataFrame 데이터(df3)에서 2013년에서 2016년에 걸쳐 계절별로 강수량의 평균(mean)과 표준편차(std)는 다음과 같이 구할 수 있다. 

In [56]:
df3.mean() 

봄     254.54
여름    554.24
가을    303.42
겨울     98.66
dtype: float64

In [57]:
df3.std() 

봄      38.628267
여름    148.888895
가을     67.358496
겨울     30.925523
dtype: float64

###  mean()과 std()는 연산의 방향 설정을 위해 axis 인자를 추가할 수 있다. axis가0 이면DataFrame의values에서 열별로 연산을 수행하고, 1이면 행별로 연산을 수행한다. (기본값은axis = 0)

In [58]:
df3.mean(axis=1) 

2012    382.475
2013    280.725
2014    296.425
2015    241.775
2016    312.175
dtype: float64

In [59]:
df3.std(axis=1) 

2012    274.472128
2013    211.128782
2014    221.150739
2015    114.166760
2016    146.548658
dtype: float64

### 앞에서 평균과 표준편차를 개별적으로 구했으나 다음과 같이 describe()를 이용하면 평균, 표준편차, 최소값, 최대값 등을 한번에 구할 수 있다. 

In [60]:
df3.describe() 

Unnamed: 0,봄,여름,가을,겨울
count,5.0,5.0,5.0,5.0
mean,254.54,554.24,303.42,98.66
std,38.628267,148.888895,67.358496,30.925523
min,215.9,387.1,231.2,59.9
25%,223.2,446.2,247.7,76.9
50%,256.5,567.5,293.1,108.1
75%,264.3,599.8,363.5,109.1
max,312.8,770.6,381.6,139.3


## 7. 데이터를 원하는 대로 선택하기

### 표 [2011년부터 2017년까지 노선별 KTX 이용자수]에 있는 데이터를 이용해 다음과 같이 DataFrame 데이터를 생성한다. 

In [61]:
import pandas as pd 
import numpy as np 
KTX_data = {'경부선KTX': [39060, 39896, 42005, 43621, 41702, 41266, 32427], 
                    '호남선KTX': [7313, 6967, 6873, 6626, 8675, 10622, 9228], 
                    '경전선KTX': [3627, 4168, 4088, 4424, 4606, 4984, 5570], 
                    '전라선KTX': [309, 1771, 1954, 2244, 3146, 3945, 5766], 
                    '동해선KTX': [np.nan,np.nan, np.nan, np.nan, 2395, 3786, 6667]} 
col_list = ['경부선KTX','호남선KTX','경전선KTX','전라선KTX','동해선KTX'] 
index_list = ['2011', '2012', '2013', '2014', '2015', '2016', '2017'] 
df_KTX = pd.DataFrame(KTX_data, columns = col_list, index = index_list) 
df_KTX

Unnamed: 0,경부선KTX,호남선KTX,경전선KTX,전라선KTX,동해선KTX
2011,39060,7313,3627,309,
2012,39896,6967,4168,1771,
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0
2016,41266,10622,4984,3945,3786.0
2017,32427,9228,5570,5766,6667.0


### DataFrame 데이터의 index, columns, values를 확인해보자. 

In [62]:
df_KTX.index 

Index(['2011', '2012', '2013', '2014', '2015', '2016', '2017'], dtype='object')

In [63]:
df_KTX.columns 

Index(['경부선KTX', '호남선KTX', '경전선KTX', '전라선KTX', '동해선KTX'], dtype='object')

In [64]:
df_KTX.values 

array([[39060.,  7313.,  3627.,   309.,    nan],
       [39896.,  6967.,  4168.,  1771.,    nan],
       [42005.,  6873.,  4088.,  1954.,    nan],
       [43621.,  6626.,  4424.,  2244.,    nan],
       [41702.,  8675.,  4606.,  3146.,  2395.],
       [41266., 10622.,  4984.,  3945.,  3786.],
       [32427.,  9228.,  5570.,  5766.,  6667.]])

### pandas에서는 head()와 tail()을 이용해 DataFrame의 전체 데이터 중 처음 일부분과 마지막 일부분만을 출력할 수 있다. 

In [65]:
df_KTX.head() 

Unnamed: 0,경부선KTX,호남선KTX,경전선KTX,전라선KTX,동해선KTX
2011,39060,7313,3627,309,
2012,39896,6967,4168,1771,
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0


In [66]:
df_KTX.tail() 

Unnamed: 0,경부선KTX,호남선KTX,경전선KTX,전라선KTX,동해선KTX
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0
2016,41266,10622,4984,3945,3786.0
2017,32427,9228,5570,5766,6667.0


In [67]:
df_KTX.head(3) 

Unnamed: 0,경부선KTX,호남선KTX,경전선KTX,전라선KTX,동해선KTX
2011,39060,7313,3627,309,
2012,39896,6967,4168,1771,
2013,42005,6873,4088,1954,


In [68]:
df_KTX.tail(2) 

Unnamed: 0,경부선KTX,호남선KTX,경전선KTX,전라선KTX,동해선KTX
2016,41266,10622,4984,3945,3786.0
2017,32427,9228,5570,5766,6667.0


### DataFrame 데이터에서 연속된 구간의 행데이터를 선택하려면 다음과 같이 '행_시작_위치'와 '끝_위치'를 지정한다. 

In [69]:
df_KTX[1:2] 

Unnamed: 0,경부선KTX,호남선KTX,경전선KTX,전라선KTX,동해선KTX
2012,39896,6967,4168,1771,


In [70]:
df_KTX[2:5] 

Unnamed: 0,경부선KTX,호남선KTX,경전선KTX,전라선KTX,동해선KTX
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0


### DataFrame 데이터를 생성할 때 index를 지정했다면 다음과 같이 index 항목 이름을 지정해 행을 선택할 수도 있다. 

In [71]:
df_KTX.loc['2011'] # df_KTX에서 index로 지정한 항목 중 2011년데이터만 선택

경부선KTX    39060.0
호남선KTX     7313.0
경전선KTX     3627.0
전라선KTX      309.0
동해선KTX        NaN
Name: 2011, dtype: float64

In [72]:
df_KTX.loc['2013':'2016'] # df_KTX에서 index로 지정한 항목 중 2013년부터 2016년까지의 행데이터를 선택

Unnamed: 0,경부선KTX,호남선KTX,경전선KTX,전라선KTX,동해선KTX
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0
2016,41266,10622,4984,3945,3786.0


### DataFrame 데이터에서 하나의 열만 선택하려면 다음과 같이 하나의 columns 항목 이름을 지정한다. 

In [75]:
df_KTX['경부선KTX']

2011    39060
2012    39896
2013    42005
2014    43621
2015    41702
2016    41266
2017    32427
Name: 경부선KTX, dtype: int64

### DataFrame 데이터에서 하나의 열을 선택한 후 index의 범위를 지정해 원하는 데이터만 선택할 수 도있다. 

In [77]:
df_KTX['경부선KTX']['2012':'2014'] 

2012    39896
2013    42005
2014    43621
Name: 경부선KTX, dtype: int64

In [78]:
df_KTX['경부선KTX'][2:5] # index의 위치로 범위를 지정

2013    42005
2014    43621
2015    41702
Name: 경부선KTX, dtype: int64

### DataFrame 데이터에서 하나의 원소만 선택하려면 다음 방법 중 하나를 이용하면 된다. 

In [79]:
df_KTX.loc['2016']['호남선KTX'] # 2016년의 '호남선KTX'의 이용자 수를 선택

10622.0

In [84]:
df_KTX.loc['2016','호남선KTX'] 

10622

In [81]:
df_KTX['호남선KTX']['2016'] 

10622

In [82]:
df_KTX['호남선KTX'][5] 

  df_KTX['호남선KTX'][5]


10622

In [83]:
df_KTX['호남선KTX'].loc['2016'] 

10622

## 8. DataFrame의 행과 열을 바꾸는 방법(전치)

### 행렬에서 행과 열을 바꾸는 것을 전치(transpose)라고 한다. 

In [85]:
df_KTX.T 

Unnamed: 0,2011,2012,2013,2014,2015,2016,2017
경부선KTX,39060.0,39896.0,42005.0,43621.0,41702.0,41266.0,32427.0
호남선KTX,7313.0,6967.0,6873.0,6626.0,8675.0,10622.0,9228.0
경전선KTX,3627.0,4168.0,4088.0,4424.0,4606.0,4984.0,5570.0
전라선KTX,309.0,1771.0,1954.0,2244.0,3146.0,3945.0,5766.0
동해선KTX,,,,,2395.0,3786.0,6667.0


## 9. DataFrame 의 열항목을 지정해 열의 순서를 지정

In [86]:
df_KTX

Unnamed: 0,경부선KTX,호남선KTX,경전선KTX,전라선KTX,동해선KTX
2011,39060,7313,3627,309,
2012,39896,6967,4168,1771,
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0
2016,41266,10622,4984,3945,3786.0
2017,32427,9228,5570,5766,6667.0


In [87]:
df_KTX[['동해선KTX', '전라선KTX', '경전선KTX', '호남선KTX', '경부선KTX']] 

Unnamed: 0,동해선KTX,전라선KTX,경전선KTX,호남선KTX,경부선KTX
2011,,309,3627,7313,39060
2012,,1771,4168,6967,39896
2013,,1954,4088,6873,42005
2014,,2244,4424,6626,43621
2015,2395.0,3146,4606,8675,41702
2016,3786.0,3945,4984,10622,41266
2017,6667.0,5766,5570,9228,32427


## 10. 데이터 통합하기

In [93]:
import pandas as pd 
import numpy as np 
df1 = pd.DataFrame({'Class1': [95, 92, 98, 100], # 두 학급의 시험 점수가 담긴 DataFrame 데이터 생성
                    'Class2': [91, 93, 97, 99]}) 
df1 

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99


## 11. 1) 세로 방향으로 통합하기 – append()

In [122]:
import pandas as pd 
import numpy as np 
df1 = pd.DataFrame({'Class1': [95, 92, 98, 100], # 두 학급의 시험 점수가 담긴 DataFrame 데이터 생성
                    'Class2': [91, 93, 97, 99]}) 
df1 

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99


In [123]:
df2 = pd.DataFrame({'Class1': [87, 89], 
                    'Class2': [85, 90]}) 
df2

Unnamed: 0,Class1,Class2
0,87,85
1,89,90


### 'append()'를 이용해 df1에 df2를 추가해서 데이터를 하나로 만들어보자.

In [2]:
df1.append(df2)

NameError: name 'df1' is not defined

### 생성된 데이터의 index가 순차적으로 증가하게 하려면 옵션으로 'ignore_index=True'를 입력한다. 

In [117]:
df1.append(df2, ignore_index=True) 

AttributeError: 'DataFrame' object has no attribute 'append'

### 만약 column이 같지 않은 DataFrame 데이터를 'append()'를 이용해 추가한다면 데이터가 없는 부분은 NaN으로 채워진다. 

In [120]:
df3 = pd.DataFrame({'Class1': [96, 83]}) # 열이 하나만 있는 DataFrame 생성 
df3

Unnamed: 0,Class1
0,96
1,83


In [121]:
df2.append(df3, ignore_index=True) 

AttributeError: 'DataFrame' object has no attribute 'append'

## 12. 2) 가로 방향으로 통합하기 – join()

### df1과 index 방향으로 크기가 같은 DataFrame 데이터(df4) 하나를 생성하자. 

In [125]:
df4 = pd.DataFrame({'Class3': [93, 91, 95, 98]}) 
df4 

Unnamed: 0,Class3
0,93
1,91
2,95
3,98


### join()을 이용해 df1에 df4를 추가해보자. 

In [126]:
df1.join(df4) 

Unnamed: 0,Class1,Class2,Class3
0,95,91,93
1,92,93,91
2,98,97,95
3,100,99,98


### index 라벨을 지정한 DataFrame 의 데이터의 경우에도 index가 같다면 join()을 이용해 가로 방향으로 데이터를 추가할 수 있다. 

In [127]:
index_label = ['a','b','c','d'] 
df1a = pd.DataFrame({'Class1': [95, 92, 98, 100], 
                                    'Class2': [91, 93, 97, 99]}, index= index_label) 
df4a = pd.DataFrame({'Class3': [93, 91, 95, 98]}, index=index_label) 
df1a.join(df4a) 

Unnamed: 0,Class1,Class2,Class3
a,95,91,93
b,92,93,91
c,98,97,95
d,100,99,98


### 만약 index의 크기가 다른 DataFrame 데이터를 join()을 이용해 추가한다면 데이터가 없는 부분은 NaN으로 채워진다. 

In [128]:
df5 = pd.DataFrame({'Class4': [82, 92]}) 
df5 

Unnamed: 0,Class4
0,82
1,92


### index 의 크기가 2인 DataFrame 데이터(df5)를 join()을 이용해 index 크기가 4인 DataFrame 데이터(df1)에 추가해보자. 

In [129]:
df1.join(df5) 

Unnamed: 0,Class1,Class2,Class4
0,95,91,82.0
1,92,93,92.0
2,98,97,
3,100,99,


## 13. 3) 특정 열을 기준으로 통합하기 – merge()

### 2개의 DataFrame 데이터에 공통된 열이 있을 경우 이 열을 기준으로 두 데이터를 통합하는 방법

In [130]:
df_A_B = pd.DataFrame({'판매월': ['1월', '2월', '3월', '4월'], 
                       '제품A': [100, 150, 200, 130], 
                       '제품B': [90, 110, 140, 170]}) 
df_A_B 

Unnamed: 0,판매월,제품A,제품B
0,1월,100,90
1,2월,150,110
2,3월,200,140
3,4월,130,170


In [131]:
df_C_D = pd.DataFrame({'판매월': ['1월', '2월', '3월', '4월'], 
                       '제품C': [112, 141, 203, 134], 
                       '제품D': [90, 110, 140, 170]}) 
df_C_D 

Unnamed: 0,판매월,제품C,제품D
0,1월,112,90
1,2월,141,110
2,3월,203,140
3,4월,134,170


### DataFrame 데이터 df_A_B와 df_C_D에 모두 있는 것이 '판매월'인 열 데이터이므로 이를 중심으로 두 DataFrame 데이터를 통합하면 다음과 같다. 

In [132]:
df_A_B.merge(df_C_D) 

Unnamed: 0,판매월,제품A,제품B,제품C,제품D
0,1월,100,90,112,90
1,2월,150,110,141,110
2,3월,200,140,203,140
3,4월,130,170,134,170


### 2개의 DataFrame 데이터가 특정 열을 기준으로 일부만 공통된 값을 갖는 경우에 통합하는 방법

In [133]:
df_left = pd.DataFrame({'key':['A','B','C'], 'left': [1, 2, 3]}) 
df_left

Unnamed: 0,key,left
0,A,1
1,B,2
2,C,3


In [134]:
df_right = pd.DataFrame({'key':['A','B','D'], 'right': [4, 5, 6]}) 
df_right

Unnamed: 0,key,right
0,A,4
1,B,5
2,D,6


In [135]:
df_left.merge(df_right, how='left', on = 'key') 

Unnamed: 0,key,left,right
0,A,1,4.0
1,B,2,5.0
2,C,3,


In [136]:
df_left.merge(df_right, how='right', on = 'key') 

Unnamed: 0,key,left,right
0,A,1.0,4
1,B,2.0,5
2,D,,6


In [137]:
df_left.merge(df_right, how='outer', on = 'key') 

Unnamed: 0,key,left,right
0,A,1.0,4.0
1,B,2.0,5.0
2,C,3.0,
3,D,,6.0


In [138]:
df_left.merge(df_right, how='inner', on = 'key') 

Unnamed: 0,key,left,right
0,A,1,4
1,B,2,5


## 14. (1) 표 형식의 데이터 파일을 읽기

### 작업 폴더인 C:\myPyCode 안에 data 폴더를 만들고, 그 안에 csv 데이터 파일(sea_rain1.csv)을 만들어보자. 

In [147]:
%%writefile C:\_myPythonCode\sea_rain1.csv 
연도, 동해, 남해, 서해, 전체 
1996, 17.4629, 17.2288, 14.436, 15.9067 
1997, 17.4116, 17.4092, 14.8248, 16.1526 
1998, 17.5944, 18.011, 15.2512, 16.6044 
1999, 18.1495, 18.3175, 14.8979, 16.6284 
2000, 17.9288, 18.1766, 15.0504, 16.6178

Writing C:\_myPythonCode\sea_rain1.csv


### pandas의 read_csv()로 위의 데이터 파일(sea_rain1.csv)을 읽어보자. 

In [151]:
import pandas as pd 
pd.read_csv('C:\_myPythonCode\sea_rain1.csv')

  pd.read_csv('C:\_myPythonCode\sea_rain1.csv')


Unnamed: 0,연도,동해,남해,서해,전체
0,1996,17.4629,17.2288,14.436,15.9067
1,1997,17.4116,17.4092,14.8248,16.1526
2,1998,17.5944,18.011,15.2512,16.6044
3,1999,18.1495,18.3175,14.8979,16.6284
4,2000,17.9288,18.1766,15.0504,16.6178


### 텍스트 파일에서 각 데이터 필드가 콤마가 아니라 다음 데이터 파일처럼 공백(빈칸)으로 구분되어 있을 경우

In [153]:
%%writefile C:\_myPythonCode\sea_rain1_space.txt
연도 동해 남해 서해 전체
1996 17.4629 17.2288 14.436 15.9067 
1997 17.4116 17.4092 14.8248 16.1526 
1998 17.5944 18.011 15.2512 16.6044 
1999 18.1495 18.3175 14.8979 16.6284 
2000 17.9288 18.1766 15.0504 16.6178 

Writing C:\_myPythonCode\sea_rain1_space.txt


### read_csv()에서 sep='구분자' 옵션을 추가하여 읽는다. 

In [155]:
pd.read_csv('C:\_myPythonCode\sea_rain1_space.txt', sep=" ") # 구분자가 공백임을 지정

  pd.read_csv('C:\_myPythonCode\sea_rain1_space.txt', sep=" ") # 구분자가 공백임을 지정


Unnamed: 0,연도,동해,남해,서해,전체
1996,17.4629,17.2288,14.436,15.9067,
1997,17.4116,17.4092,14.8248,16.1526,
1998,17.5944,18.011,15.2512,16.6044,
1999,18.1495,18.3175,14.8979,16.6284,
2000,17.9288,18.1766,15.0504,16.6178,


### 앞의 csv 데이터 파일(sea_rain1.csv)에서 '연도' 열을 index로 선택해 DataFrame 형식으로 데이터를 읽어보자. 

In [161]:
pd.read_csv('C:\_myPythonCode\sea_rain1_space.txt', index_col="연도") 

  pd.read_csv('C:\_myPythonCode\sea_rain1_space.txt', index_col="연도")


ValueError: Index 연도 invalid

## 15. 2) 표 형식의 데이터를 파일로 쓰기

### DataFrame 데이터를 파일로 저장하기 위해 먼저 4명의 몸무게(Weight), 키(Height) 데이터를 DataFrame 데이터로 만들자. 

In [162]:
df_WH = pd.DataFrame({'Weight':[62, 67, 55, 74], 
                      'Height':[165, 177, 160, 180]}, 
index=['ID_1', 'ID_2', 'ID_3', 'ID_4']) 
df_WH.index.name = 'User' 
df_WH

Unnamed: 0_level_0,Weight,Height
User,Unnamed: 1_level_1,Unnamed: 2_level_1
ID_1,62,165
ID_2,67,177
ID_3,55,160
ID_4,74,180


### 파일로 저장하기 전에 몸무게와 키를 이용해 체질량지수(BMI)를 구해서 df_WH에 추가한다. 

In [163]:
bmi = df_WH['Weight']/(df_WH['Height']/100)**2 # BMI = W / H2   (단위 W : Kg, H : m) 
bmi 

User
ID_1    22.773186
ID_2    21.385936
ID_3    21.484375
ID_4    22.839506
dtype: float64

### 앞에서 구한 체질량지수(BMI)를 df_WH에 추가해보자. 

In [164]:
df_WH['BMI'] = bmi 
df_WH 

Unnamed: 0_level_0,Weight,Height,BMI
User,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ID_1,62,165,22.773186
ID_2,67,177,21.385936
ID_3,55,160,21.484375
ID_4,74,180,22.839506


### DataFrame 데이터 df_WH 를 csv 파일로 저장한 후 텍스트 파일이 저장되었는지 확인해보자. 

In [165]:
df_WH.to_csv('C:\_myPythonCode\save_DataFrame.csv') 

  df_WH.to_csv('C:\_myPythonCode\save_DataFrame.csv')


In [175]:
!type C:\_myPythonCode\save_DataFrame.csv

User,Weight,Height,BMI
ID_1,62,165,22.77318640955005
ID_2,67,177,21.38593635289987
ID_3,55,160,21.484374999999996
ID_4,74,180,22.839506172839506


### DataFrame 데이터를 파일로 저장할 때 옵션을 지정하는 예제

In [171]:
df_pr = pd.DataFrame({'판매가격':[2000, 3000, 5000, 10000], 
                      '판매량':[32, 53, 40, 25]}, index=['P1001', 'P1002', 'P1003', 'P1004']) 
df_pr.index.name = '제품번호' 
df_pr 

Unnamed: 0_level_0,판매가격,판매량
제품번호,Unnamed: 1_level_1,Unnamed: 2_level_1
P1001,2000,32
P1002,3000,53
P1003,5000,40
P1004,10000,25


### df_pr을 텍스트 파일로 저장해보자. 옵션으로 데이터 필드는 공백(빈칸)으로 구분하고 문자 인코딩은 'cp949' 로 지정한다. 

In [172]:
file_name = 'C:\_myPythonCode\save_DataFrame_cp949.txt' 
df_pr.to_csv(file_name, sep=" ", encoding = "cp949") 

  file_name = 'C:\_myPythonCode\save_DataFrame_cp949.txt'


In [174]:
!type C:\_myPythonCode\save_DataFrame_cp949.txt

제품번호 판매가격 판매량
P1001 2000 32
P1002 3000 53
P1003 5000 40
P1004 10000 25
