# 1. 구조적 데이터 생성하기
- 시리즈의 인자로는 시퀀스 데이터인 리스트와 튜플 타입의 데이터를 모두 사용할 수 있지만 주로 리스트 데이터를 이용한다.
- 입력한 시퀀스 데이터를 values, 세로축 라벨을 index
- Numpy는 원소의 데이터 타입이 모두 같아야 하지만 Pandas는 원소의 데이터 타입이 달라도 된다

In [1]:
import pandas as pd

In [2]:
s1= pd.Series([10, 20, 30, 40, 50])
s1

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [3]:
print(s1.index)
print(s1.values)

RangeIndex(start=0, stop=5, step=1)
[10 20 30 40 50]


In [6]:
# 데이터 탑입이 달라도 됨

s2 = pd.Series(['a', 1, 2.6, 'b'])
s2

0      a
1      1
2    2.6
3      b
dtype: object

In [9]:
# 데이터가 없음을 표시

import numpy as np
s3 = pd.Series([np.nan, 10, 20, 30])
s3

0     NaN
1    10.0
2    20.0
3    30.0
dtype: float64

In [11]:
# 인덱스 지정

index_date = ['2019.10.7', '2018.10.8', '2019.01.8', '2017.10.6']
s4 = pd.Series([200, 100, np.nan, 205], index = index_date)
s4

2019.10.7    200.0
2018.10.8    100.0
2019.01.8      NaN
2017.10.6    205.0
dtype: float64

In [12]:
# 딕셔너리 이용

s5 = pd.Series({'국어':100, '영어':96, '수학': 90})
s5

국어    100
영어     96
수학     90
dtype: int64

# 2. 날짜 데이터 자동 생성
## date_range
- 다양한 형식으로 날짜를 입력할 순 있지만 생성된 날짜 형식은 모두 yyyy-mm-dd가 된다

In [13]:
pd.date_range(start = '2019-01-01', end = '2019-01-07')

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07'],
              dtype='datetime64[ns]', freq='D')

In [14]:
pd.date_range(start = '2019.01.01', end= '2019/01/07')

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07'],
              dtype='datetime64[ns]', freq='D')

In [15]:
pd.date_range(start= '01-01-2019', end = '01/07/2019')

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07'],
              dtype='datetime64[ns]', freq='D')

In [17]:
pd.date_range(start = '2019-01-01', end = '01.07.2019')

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07'],
              dtype='datetime64[ns]', freq='D')

In [18]:
# periods 이용

pd.date_range(start='2019-01-01', periods = 7)

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07'],
              dtype='datetime64[ns]', freq='D')

In [22]:
# 3일씩 증가

pd.date_range(start='2019-01-01', periods=4, freq='3D')

DatetimeIndex(['2019-01-01', '2019-01-04', '2019-01-07', '2019-01-10'], dtype='datetime64[ns]', freq='3D')

In [23]:
# 일주일씩 증가

pd.date_range(start='2019-01-01', periods=4, freq='W')

DatetimeIndex(['2019-01-06', '2019-01-13', '2019-01-20', '2019-01-27'], dtype='datetime64[ns]', freq='W-SUN')

In [27]:
# 업무일 기준 2개월 월말 주기

pd.date_range(start='2019-01-01', periods=4, freq= '2BM')

DatetimeIndex(['2019-01-31', '2019-03-29', '2019-05-31', '2019-07-31'], dtype='datetime64[ns]', freq='2BM')

In [28]:
# 분기 시작일

pd.date_range(start='2019-01-01', periods=4, freq ='QS')

DatetimeIndex(['2019-01-01', '2019-04-01', '2019-07-01', '2019-10-01'], dtype='datetime64[ns]', freq='QS-JAN')

In [30]:
# 연도의 첫날을 기준으로 1년 주기

pd.date_range(start='2019-01-05', periods=4, freq='AS')

DatetimeIndex(['2020-01-01', '2021-01-01', '2022-01-01', '2023-01-01'], dtype='datetime64[ns]', freq='AS-JAN')

## 2-1) 시간 자동 생성

In [32]:
# 1시간 주기

pd.date_range(start='2019-01-01 08:00', periods = 4, freq='H')

DatetimeIndex(['2019-01-01 08:00:00', '2019-01-01 09:00:00',
               '2019-01-01 10:00:00', '2019-01-01 11:00:00'],
              dtype='datetime64[ns]', freq='H')

In [35]:
# 업무 시작을 기준으로 1시간 주기 (업무시간 : 9시~17시)

pd.date_range(start='2019-01-01 08:00', periods=10, freq='BH')

DatetimeIndex(['2019-01-01 09:00:00', '2019-01-01 10:00:00',
               '2019-01-01 11:00:00', '2019-01-01 12:00:00',
               '2019-01-01 13:00:00', '2019-01-01 14:00:00',
               '2019-01-01 15:00:00', '2019-01-01 16:00:00',
               '2019-01-02 09:00:00', '2019-01-02 10:00:00'],
              dtype='datetime64[ns]', freq='BH')

In [36]:
# 30분 단위 1 : freq='30min'

pd.date_range(start='2019-01-01 10:00', periods=4, freq='30min')

DatetimeIndex(['2019-01-01 10:00:00', '2019-01-01 10:30:00',
               '2019-01-01 11:00:00', '2019-01-01 11:30:00'],
              dtype='datetime64[ns]', freq='30T')

In [37]:
# 30분 단위 2 : freq='30T'

pd.date_range(start='2019-01-01 10:00', periods=4, freq='30T')

DatetimeIndex(['2019-01-01 10:00:00', '2019-01-01 10:30:00',
               '2019-01-01 11:00:00', '2019-01-01 11:30:00'],
              dtype='datetime64[ns]', freq='30T')

In [38]:
# 10초 단위

pd.date_range(start= '2019-01-01 10:00:00', periods=4, freq='10S')

DatetimeIndex(['2019-01-01 10:00:00', '2019-01-01 10:00:10',
               '2019-01-01 10:00:20', '2019-01-01 10:00:30'],
              dtype='datetime64[ns]', freq='10S')

## 2-2) date_range를 이용한 index 지정

In [39]:
index_range = pd.date_range(start='2019-03-01', periods=5, freq='D')
pd.Series([51, 63, 55, 23, 45], index= index_range)

2019-03-01    51
2019-03-02    63
2019-03-03    55
2019-03-04    23
2019-03-05    45
Freq: D, dtype: int64

# 3. DataFrame을 활용한 데이터 생성

In [40]:
# 리스트를 사용하여 생성

pd.DataFrame([[1, 2, 3],
             [4,5,6],
             [7,8,9]])

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [41]:
# 배열을 사용한 생성
data_list = np.array([[1,2,3],
                     [4,5,6],
                     [7,8,9]])
pd.DataFrame(data_list)

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [42]:
# index, cloumns 지정

data = np.array([[1,2,3], [4,5,6], [7,8,9], [10,11,12]])
index_date = pd.date_range('2019-09-01', periods=4)
columns_list = ['a','b','c']
pd.DataFrame(data, index = index_date, columns=columns_list)

Unnamed: 0,a,b,c
2019-09-01,1,2,3
2019-09-02,4,5,6
2019-09-03,7,8,9
2019-09-04,10,11,12


In [47]:
table_data = {'연도' : [2015, 2016, 2016, 2017, 2017],
             '지사' : ['한국', '한국', '미국', '한국', '미국'],
             '고객 수': [200, 250, 450, 300, 500]}
table_data

{'연도': [2015, 2016, 2016, 2017, 2017],
 '지사': ['한국', '한국', '미국', '한국', '미국'],
 '고객 수': [200, 250, 450, 300, 500]}

In [55]:
df1 =pd.DataFrame(table_data)
df1

Unnamed: 0,연도,지사,고객 수
0,2015,한국,200
1,2016,한국,250
2,2016,미국,450
3,2017,한국,300
4,2017,미국,500


In [53]:
df = pd.DataFrame(table_data, columns=['지사', '고객 수', '연도'])
df

Unnamed: 0,지사,고객 수,연도
0,한국,200,2015
1,한국,250,2016
2,미국,450,2016
3,한국,300,2017
4,미국,500,2017


In [56]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [57]:
df.columns

Index(['지사', '고객 수', '연도'], dtype='object')

In [58]:
df.values

array([['한국', 200, 2015],
       ['한국', 250, 2016],
       ['미국', 450, 2016],
       ['한국', 300, 2017],
       ['미국', 500, 2017]], dtype=object)

## 3-1) 데이터 연산
- 리스트와 Numpy의 배열은 서로 크기가 같아야 연산이 가능하지만 Pandas의 경우 크기가 달라도 연산이 가능

In [61]:
# Series의 경우

s1= pd.Series([1, 2, 3])
s2= pd.Series([10, 11, 12, 13])
s1+s2

0    11.0
1    13.0
2    15.0
3     NaN
dtype: float64

In [64]:
# DataFrame의 경우

table_data1 = {'a' : [1,2,3,4,5],
             'b' : [10, 20, 30, 40,50],
             'c': [100, 200, 300, 400, 500]}
df1= pd.DataFrame(table_data1)

table_data2 = {'a' : [6,7,8],
             'b' : [60, 70, 80],
             'c': [600, 700, 800]}
df2= pd.DataFrame(table_data2)

df1

Unnamed: 0,a,b,c
0,1,10,100
1,2,20,200
2,3,30,300
3,4,40,400
4,5,50,500


In [65]:
df2

Unnamed: 0,a,b,c
0,6,60,600
1,7,70,700
2,8,80,800


In [66]:
df1 + df2

Unnamed: 0,a,b,c
0,7.0,70.0,700.0
1,9.0,90.0,900.0
2,11.0,110.0,1100.0
3,,,
4,,,


In [67]:
table_data3 = {'봄':  [256.5, 264.3, 215.9, 223.2, 312.8],
              '여름': [770.6, 567.5, 599.8, 387.1, 446.2],
              '가을': [363.5, 231.2, 293.1, 247.7, 381.6],
              '겨울': [139.3, 59.9, 76.9, 109.1, 108.1]}
index_list = ['2012', '2013', '2014', '2015', '2016']

df3 = pd.DataFrame(table_data3, index = index_list)
df3

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,770.6,363.5,139.3
2013,264.3,567.5,231.2,59.9
2014,215.9,599.8,293.1,76.9
2015,223.2,387.1,247.7,109.1
2016,312.8,446.2,381.6,108.1


In [68]:
table_data3 = {'봄':  [256.5, 264.3, 215.9, 223.2, 312.8],
              '여름': [770.6, 567.5, 599.8, 387.1, 446.2],
              '가을': [363.5, 231.2, 293.1, 247.7, 381.6],
              '겨울': [139.3, 59.9, 76.9, 109.1, 108.1]}
columns_list = ['봄', '여름', '가을', '겨울']
index_list = ['2012', '2013', '2014', '2015', '2016']

df3 = pd.DataFrame(table_data3, columns = columns_list, index = index_list)
df3

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,770.6,363.5,139.3
2013,264.3,567.5,231.2,59.9
2014,215.9,599.8,293.1,76.9
2015,223.2,387.1,247.7,109.1
2016,312.8,446.2,381.6,108.1


In [72]:
# 계절별 평균

df3.mean()

봄     254.54
여름    554.24
가을    303.42
겨울     98.66
dtype: float64

In [73]:
# 계절별 표준편차

df3.std()

봄      38.628267
여름    148.888895
가을     67.358496
겨울     30.925523
dtype: float64

In [75]:
# 연도별 평균

df3.mean(axis = 1)

2012    382.475
2013    280.725
2014    296.425
2015    241.775
2016    312.175
dtype: float64

In [77]:
# 연도별 표준편차

df3.std(axis = 1)

2012    274.472128
2013    211.128782
2014    221.150739
2015    114.166760
2016    146.548658
dtype: float64

In [78]:
df3.describe()

Unnamed: 0,봄,여름,가을,겨울
count,5.0,5.0,5.0,5.0
mean,254.54,554.24,303.42,98.66
std,38.628267,148.888895,67.358496,30.925523
min,215.9,387.1,231.2,59.9
25%,223.2,446.2,247.7,76.9
50%,256.5,567.5,293.1,108.1
75%,264.3,599.8,363.5,109.1
max,312.8,770.6,381.6,139.3


## 3-2) 데이터 선택

In [83]:
import pandas as pd
import numpy as np

KTX_data = {'경부선 KTX': [39060, 39896, 42005, 43621, 41702, 41266, 32427],
            '호남선 KTX': [7313, 6967, 6873, 6626, 8675, 10622, 9228],
            '경전선 KTX': [3627, 4168, 4088, 4424, 4606, 4984, 5570],
            '전라선 KTX': [309, 1771, 1954, 2244, 3146, 3945, 5766],
            '동해선 KTX': [np.nan,np.nan, np.nan, np.nan, 2395, 3786, 6667]}
col_list = ['경부선 KTX','호남선 KTX','경전선 KTX','전라선 KTX','동해선 KTX']
index_list = ['2011', '2012', '2013', '2014', '2015', '2016', '2017']

df_ktx = pd.DataFrame(KTX_data, columns = col_list, index = index_list)
df_ktx

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2011,39060,7313,3627,309,
2012,39896,6967,4168,1771,
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0
2016,41266,10622,4984,3945,3786.0
2017,32427,9228,5570,5766,6667.0


In [85]:
df_ktx.index

Index(['2011', '2012', '2013', '2014', '2015', '2016', '2017'], dtype='object')

In [86]:
df_ktx.columns

Index(['경부선 KTX', '호남선 KTX', '경전선 KTX', '전라선 KTX', '동해선 KTX'], dtype='object')

In [87]:
df_ktx.values

array([[39060.,  7313.,  3627.,   309.,    nan],
       [39896.,  6967.,  4168.,  1771.,    nan],
       [42005.,  6873.,  4088.,  1954.,    nan],
       [43621.,  6626.,  4424.,  2244.,    nan],
       [41702.,  8675.,  4606.,  3146.,  2395.],
       [41266., 10622.,  4984.,  3945.,  3786.],
       [32427.,  9228.,  5570.,  5766.,  6667.]])

In [88]:
df_ktx.head()

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2011,39060,7313,3627,309,
2012,39896,6967,4168,1771,
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0


In [89]:
df_ktx.tail()

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0
2016,41266,10622,4984,3945,3786.0
2017,32427,9228,5570,5766,6667.0


In [90]:
df_ktx.head(2)

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2011,39060,7313,3627,309,
2012,39896,6967,4168,1771,


In [92]:
# 행 데이터 선택

df_ktx[:2]

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2011,39060,7313,3627,309,
2012,39896,6967,4168,1771,


In [93]:
# index를 이용한 행 선택  -> loc

df_ktx.loc['2012']

경부선 KTX    39896.0
호남선 KTX     6967.0
경전선 KTX     4168.0
전라선 KTX     1771.0
동해선 KTX        NaN
Name: 2012, dtype: float64

In [95]:
df_ktx.loc['2011':'2013']

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2011,39060,7313,3627,309,
2012,39896,6967,4168,1771,
2013,42005,6873,4088,1954,


In [97]:
# 열만 선택

df_ktx['경부선 KTX']

2011    39060
2012    39896
2013    42005
2014    43621
2015    41702
2016    41266
2017    32427
Name: 경부선 KTX, dtype: int64

In [104]:
# 열과 행 지정

df_ktx['경부선 KTX']['2012' : '2014']

2012    39896
2013    42005
2014    43621
Name: 경부선 KTX, dtype: int64

In [105]:
df_ktx['경부선 KTX'][2:5]

2013    42005
2014    43621
2015    41702
Name: 경부선 KTX, dtype: int64

**# 하나의 원소만 선택**

In [106]:
df_ktx.loc['2016']['호남선 KTX']

10622.0

In [107]:
df_ktx.loc['2016','호남선 KTX']

10622

In [108]:
df_ktx['호남선 KTX']['2016']

10622

In [109]:
df_ktx['호남선 KTX'][5]

10622

In [110]:
df_ktx['호남선 KTX'].loc['2016']

10622

## 3-3) 행과 열 바꾸기

In [113]:
df_ktx.T

Unnamed: 0,2011,2012,2013,2014,2015,2016,2017
경부선 KTX,39060.0,39896.0,42005.0,43621.0,41702.0,41266.0,32427.0
호남선 KTX,7313.0,6967.0,6873.0,6626.0,8675.0,10622.0,9228.0
경전선 KTX,3627.0,4168.0,4088.0,4424.0,4606.0,4984.0,5570.0
전라선 KTX,309.0,1771.0,1954.0,2244.0,3146.0,3945.0,5766.0
동해선 KTX,,,,,2395.0,3786.0,6667.0


In [114]:
df_ktx

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2011,39060,7313,3627,309,
2012,39896,6967,4168,1771,
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0
2016,41266,10622,4984,3945,3786.0
2017,32427,9228,5570,5766,6667.0


In [115]:
# 열의 순서 변경

df_ktx[['동해선 KTX', '경부선 KTX','호남선 KTX','경전선 KTX','전라선 KTX']]

Unnamed: 0,동해선 KTX,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX
2011,,39060,7313,3627,309
2012,,39896,6967,4168,1771
2013,,42005,6873,4088,1954
2014,,43621,6626,4424,2244
2015,2395.0,41702,8675,4606,3146
2016,3786.0,41266,10622,4984,3945
2017,6667.0,32427,9228,5570,5766


# 4. 데이터 통합하기

## 4-1) 세로방향 통합 append() 말고 concat()으로 권장

In [117]:
df1 = pd.DataFrame({'Class1': [95, 92, 98, 100],
                    'Class2': [91, 93, 97, 99]})
df1

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99


In [118]:
df2 = pd.DataFrame({'Class1': [87, 89],
                    'Class2': [85, 90]})
df2

Unnamed: 0,Class1,Class2
0,87,85
1,89,90


In [125]:
# 세로 통합

pd.concat([df1, df2])

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99
0,87,85
1,89,90


In [123]:
pd.concat([df1, df2], ignore_index = True)

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99
4,87,85
5,89,90


In [124]:
df3 = pd.DataFrame({'Class1': [96, 83]})
df3

Unnamed: 0,Class1
0,96
1,83


In [128]:
# 컬럼이 같지 않을때

pd.concat([df2, df3])

Unnamed: 0,Class1,Class2
0,87,85.0
1,89,90.0
0,96,
1,83,


## 4-2) 가로 통합 join()

In [129]:
df1

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99


In [130]:
df4 = pd.DataFrame({'Class3': [93, 91, 95, 98]})
df4

Unnamed: 0,Class3
0,93
1,91
2,95
3,98


In [131]:
# index가 같을 때

df1.join(df4)

Unnamed: 0,Class1,Class2,Class3
0,95,91,93
1,92,93,91
2,98,97,95
3,100,99,98


In [132]:
index_label = ['a','b','c','d']
df1a = pd.DataFrame({'Class1': [95, 92, 98, 100],
                    'Class2': [91, 93, 97, 99]}, index= index_label)
df4a = pd.DataFrame({'Class3': [93, 91, 95, 98]}, index=index_label)

df1a

Unnamed: 0,Class1,Class2
a,95,91
b,92,93
c,98,97
d,100,99


In [133]:
df4a

Unnamed: 0,Class3
a,93
b,91
c,95
d,98


In [134]:
df1a.join(df4a)

Unnamed: 0,Class1,Class2,Class3
a,95,91,93
b,92,93,91
c,98,97,95
d,100,99,98


In [135]:
# index가 다를 때

df5 = pd.DataFrame({'Class4': [82, 92]})
df5

Unnamed: 0,Class4
0,82
1,92


In [136]:
df1.join(df5)

Unnamed: 0,Class1,Class2,Class4
0,95,91,82.0
1,92,93,92.0
2,98,97,
3,100,99,


## 4-3) 특정 열을 기준으로 통합 merge()

In [137]:
df_A_B = pd.DataFrame({'판매월': ['1월', '2월', '3월', '4월'],
                       '제품A': [100, 150, 200, 130],
                       '제품B': [90, 110, 140, 170]})
df_A_B

Unnamed: 0,판매월,제품A,제품B
0,1월,100,90
1,2월,150,110
2,3월,200,140
3,4월,130,170


In [138]:
df_C_D = pd.DataFrame({'판매월': ['1월', '2월', '3월', '4월'],
                       '제품C': [112, 141, 203, 134],
                       '제품D': [90, 110, 140, 170]})
df_C_D

Unnamed: 0,판매월,제품C,제품D
0,1월,112,90
1,2월,141,110
2,3월,203,140
3,4월,134,170


In [139]:
# 판매월을 기준으로 데이터 통합

df_A_B.merge(df_C_D)

Unnamed: 0,판매월,제품A,제품B,제품C,제품D
0,1월,100,90,112,90
1,2월,150,110,141,110
2,3월,200,140,203,140
3,4월,130,170,134,170


**# 특정 열을 기준으로 일분만 공통 데이터를 가진 데이터의 통합**

In [140]:
df_left = pd.DataFrame({'key':['A','B','C'], 'left': [1, 2, 3]})
df_left

Unnamed: 0,key,left
0,A,1
1,B,2
2,C,3


In [141]:
df_right = pd.DataFrame({'key':['A','B','D'], 'right': [4, 5, 6]})
df_right

Unnamed: 0,key,right
0,A,4
1,B,5
2,D,6


In [142]:
# 그냥 merge를 했을 경우 how='inner'과 결과값이 같음

df_left.merge(df_right)

Unnamed: 0,key,left,right
0,A,1,4
1,B,2,5


In [149]:
df_left.merge(df_right, how='inner', on='key')

Unnamed: 0,key,left,right
0,A,1,4
1,B,2,5


In [145]:
df_left.merge(df_right, how='left', on='key')

Unnamed: 0,key,left,right
0,A,1,4.0
1,B,2,5.0
2,C,3,


In [146]:
df_left.merge(df_right, how='right', on='key')

Unnamed: 0,key,left,right
0,A,1.0,4
1,B,2.0,5
2,D,,6


In [147]:
df_left.merge(df_right, how='outer', on='key')

Unnamed: 0,key,left,right
0,A,1.0,4.0
1,B,2.0,5.0
2,C,3.0,
3,D,,6.0



$

# 5. 데이터 파일 읽고 쓰기
- 파이썬의 경우 utf-8이 기본 인코딩
- **문제 발생시 cp949 혹은 euc-kr 로 바꾸어 주면 문제 해결 가능**
- reac_csv로 csv 말고 txt도 읽을 수 있음

In [153]:
# 콤마로 데이터가 구분되어 있을 때

pd.read_csv('./data/sea_rain1.csv', encoding= 'cp949')

Unnamed: 0,연도,동해,남해,서해,전체
0,1996,17.4629,17.2288,14.436,15.9067
1,1997,17.4116,17.4092,14.8248,16.1526
2,1998,17.5944,18.011,15.2512,16.6044
3,1999,18.1495,18.3175,14.8979,16.6284
4,2000,17.9288,18.1766,15.0504,16.6178


In [155]:
# 공백으로 데이터가 구분되어 있을 때

pd.read_csv('./data/sea_rain1_space.csv', encoding= 'cp949', sep = " ")

Unnamed: 0,연도,동해,남해,서해,전체
0,1996,17.4629,17.2288,14.436,15.9067
1,1997,17.4116,17.4092,14.8248,16.1526
2,1998,17.5944,18.011,15.2512,16.6044
3,1999,18.1495,18.3175,14.8979,16.6284
4,2000,17.9288,18.1766,15.0504,16.6178


In [157]:
# 특정 컬럼을 인덱스로 지정

pd.read_csv('./data/sea_rain1.csv', encoding= 'cp949', index_col = '연도')

Unnamed: 0_level_0,동해,남해,서해,전체
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1996,17.4629,17.2288,14.436,15.9067
1997,17.4116,17.4092,14.8248,16.1526
1998,17.5944,18.011,15.2512,16.6044
1999,18.1495,18.3175,14.8979,16.6284
2000,17.9288,18.1766,15.0504,16.6178


 ## 5-1) 표 형식의 데이터를 파일로 쓰기 to_csv

In [162]:
df_WH_n = pd.DataFrame({'Weight':[62, 67, 55, 74],
                      'Height':[165, 177, 160, 180]},
                       index=['ID_1', 'ID_2', 'ID_3', 'ID_4'])
df_WH_n

Unnamed: 0,Weight,Height
ID_1,62,165
ID_2,67,177
ID_3,55,160
ID_4,74,180


In [161]:
# index에 이름 추가
df_WH = pd.DataFrame({'Weight':[62, 67, 55, 74],
                      'Height':[165, 177, 160, 180]},
                       index=['ID_1', 'ID_2', 'ID_3', 'ID_4'])
df_WH.index.name = 'User'
df_WH

Unnamed: 0_level_0,Weight,Height
User,Unnamed: 1_level_1,Unnamed: 2_level_1
ID_1,62,165
ID_2,67,177
ID_3,55,160
ID_4,74,180


In [163]:
bmi = df_WH['Weight'] / (df_WH['Height']/100)**2
bmi

User
ID_1    22.773186
ID_2    21.385936
ID_3    21.484375
ID_4    22.839506
dtype: float64

In [164]:
df_WH['BMI'] = bmi
df_WH

Unnamed: 0_level_0,Weight,Height,BMI
User,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ID_1,62,165,22.773186
ID_2,67,177,21.385936
ID_3,55,160,21.484375
ID_4,74,180,22.839506


In [165]:
# 데이터 저장

df_WH.to_csv('./data/save_DataFrame.csv')

In [168]:
# 저장된 데이터 확인

!type C:\Users\Playdata\Documents\10\data\save_DataFrame.csv

User,Weight,Height,BMI
ID_1,62,165,22.77318640955005
ID_2,67,177,21.38593635289987
ID_3,55,160,21.484374999999996
ID_4,74,180,22.839506172839506


In [169]:
df_pr = pd.DataFrame({'판매가격':[2000, 3000, 5000, 10000],
                       '판매량':[32, 53, 40, 25]},
                       index=['P1001', 'P1002', 'P1003', 'P1004'])
df_pr.index.name = '제품번호'
df_pr

Unnamed: 0_level_0,판매가격,판매량
제품번호,Unnamed: 1_level_1,Unnamed: 2_level_1
P1001,2000,32
P1002,3000,53
P1003,5000,40
P1004,10000,25


In [170]:
# 데이터 저장

file_name = './data/save_DataFrame_cp949.txt'
df_pr.to_csv(file_name, sep=" ", encoding = "cp949")

In [171]:
# 저장된 데이터 확인

!type C:\Users\Playdata\Documents\10\data\save_DataFrame_cp949.txt

제품번호 판매가격 판매량
P1001 2000 32
P1002 3000 53
P1003 5000 40
P1004 10000 25


## 5-2) 인덱스 이름 없이 파일 저장할 때

In [172]:
df_pr2 = pd.DataFrame({'판매가격':[2000, 3000, 5000, 10000],
                       '판매량':[32, 53, 40, 25]},
                       index=['P1001', 'P1002', 'P1003', 'P1004'])
df_pr2

Unnamed: 0,판매가격,판매량
P1001,2000,32
P1002,3000,53
P1003,5000,40
P1004,10000,25


In [175]:
file_name = './data/s.txt'
df_pr2.to_csv(file_name, sep=" ", encoding = "cp949")

In [176]:
!type C:\Users\Playdata\Documents\10\data\s.txt

 판매가격 판매량
P1001 2000 32
P1002 3000 53
P1003 5000 40
P1004 10000 25
