# PANDAS

In [1]:
import numpy as np
import pandas as pd

In [3]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s
# 왼쪽 0,1,2... 라벨링
# 오른쪽 1.0, 3.0... 판다스

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

## Series

In [5]:
s1 = pd.Series([1, 3, 5, np.nan, 6, 8])
s1
# 배열로 바뀌게 됩니다.
# float 형으로 바뀌게됩니다.
# index 역시 하나의 시퀀스형 데이터

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [7]:
s1.index
# 0부터 시작해서 6 미만으로 멈추고, 단계는 1

RangeIndex(start=0, stop=6, step=1)

In [9]:
s1.values
# numpy array

array([ 1.,  3.,  5., nan,  6.,  8.])

##### numpy 배열을 사용하지만 object타입으로 이용할 경우 배열의 모든 원소의 데이터 타입이 달라도 됨.

In [10]:
s1 = pd.Series([np.nan, np.inf, 0, 1, 2, 3, 'a', 'b', 'c'])
s1
# 모든 class의 부모는 object 이다. 
# object = 모든 데이터 타입을 포함한다.

0    NaN
1    inf
2      0
3      1
4      2
5      3
6      a
7      b
8      c
dtype: object

In [12]:
s1.values
# numpy 배열

array([nan, inf, 0, 1, 2, 3, 'a', 'b', 'c'], dtype=object)

## Index 설정하기

In [14]:
index_seq = range(10,20)
# 시퀀스 데이터 생성
seq_data = range(10)
# 10개의 요소 생성
s2 = pd.Series(seq_data, index=index_seq)
# index는 명시하는게 관례이다.
s2

10    0
11    1
12    2
13    3
14    4
15    5
16    6
17    7
18    8
19    9
dtype: int64

In [16]:
index_date = ['2018-10-17', '2018-10-18', '2018-10-19', '2018-10-20']
s3 = pd.Series([200, 195, np.nan, 205], index=index_date)
s3
# index는 날짜가 되고, 각각의 값들이 들어간다.

2018-10-17    200.0
2018-10-18    195.0
2018-10-19      NaN
2018-10-20    205.0
dtype: float64

In [18]:
s3.index
# range가 아니라 리스트형으로 들어갔다.

Index(['2018-10-17', '2018-10-18', '2018-10-19', '2018-10-20'], dtype='object')

## 데이터 연산

In [19]:
s1 = pd.Series((range(10, 70, 10)))
s2 = pd.Series((range(1, 6)))

print(repr(s1))
print(repr(s2))

0    10
1    20
2    30
3    40
4    50
5    60
dtype: int64
0    1
1    2
2    3
3    4
4    5
dtype: int64


In [23]:
s1+s2
# 5 index는 더할수 없으므로 Not a Number가 출력

0    11.0
1    22.0
2    33.0
3    44.0
4    55.0
5     NaN
dtype: float64

In [24]:
s1-s2

0     9.0
1    18.0
2    27.0
3    36.0
4    45.0
5     NaN
dtype: float64

In [25]:
s1*s2

0     10.0
1     40.0
2     90.0
3    160.0
4    250.0
5      NaN
dtype: float64

In [27]:
s1/s2
# 거듭제곱, 몫, 나머지 또한 역시 가능하다.

0    10.0
1    10.0
2    10.0
3    10.0
4    10.0
5     NaN
dtype: float64

## dictionary로 시리즈 입력

In [21]:
# key->index, value->value
dict_data = {
    '국어': 100,
    '영어': 95,
    '수학': 80
}
s5 = pd.Series(dict_data)
print(s5)
# 자동으로 키 값은 index가 되고, value는 value값이 된다.

국어    100
영어     95
수학     80
dtype: int64


## 날짜 자동 생성 - data_range

In [29]:
pd.date_range('2019-05-25', '2019-05-28')
# start 데이터, end 데이터
# 25일부터 28일 까지 (이상 이하)
# freq = 'D' = 하루씩 증가한다.

DatetimeIndex(['2019-05-25', '2019-05-26', '2019-05-27', '2019-05-28'], dtype='datetime64[ns]', freq='D')

In [30]:
pd.date_range(start='2019-05-25', end='2019-05-28')
# start와 end 가 들어갔다.

DatetimeIndex(['2019-05-25', '2019-05-26', '2019-05-27', '2019-05-28'], dtype='datetime64[ns]', freq='D')

In [31]:
pd.date_range(start='2019-05-25', periods=4)
# periods = 기간

DatetimeIndex(['2019-05-25', '2019-05-26', '2019-05-27', '2019-05-28'], dtype='datetime64[ns]', freq='D')

In [33]:
pd.date_range(start='2019-05-25 10:00:00', periods=6, freq='H')
# freq = 간격( 시간, 날짜, 월)

DatetimeIndex(['2019-05-25 10:00:00', '2019-05-25 11:00:00',
               '2019-05-25 12:00:00', '2019-05-25 13:00:00',
               '2019-05-25 14:00:00', '2019-05-25 15:00:00'],
              dtype='datetime64[ns]', freq='H')

## 날짜 데이터 포맷 (yyyy-mm-dd)

In [34]:
date_index1 = pd.date_range(start='2019-05-25', periods=4)
date_index2 = pd.date_range(start='2019.05.25', periods=4)
date_index3 = pd.date_range(start='2019/05/25', periods=4)
print('date_index1: ', repr(date_index1))
print('date_index2: ', repr(date_index2))
print('date_index3: ', repr(date_index3))

date_index4 = pd.date_range(start='05/25/2019', periods=4)
date_index5 = pd.date_range(start='05-25-2019', periods=4)
date_index6 = pd.date_range(start='05.25.2019', periods=4)

print('date_index4: ', repr(date_index4))
print('date_index5: ', repr(date_index5))
print('date_index6: ', repr(date_index6))

# 날짜 표현을 - , . , / 로 표현가능
# 연도를 맨 뒤에 두어도 역시 가능

date_index1:  DatetimeIndex(['2019-05-25', '2019-05-26', '2019-05-27', '2019-05-28'], dtype='datetime64[ns]', freq='D')
date_index2:  DatetimeIndex(['2019-05-25', '2019-05-26', '2019-05-27', '2019-05-28'], dtype='datetime64[ns]', freq='D')
date_index3:  DatetimeIndex(['2019-05-25', '2019-05-26', '2019-05-27', '2019-05-28'], dtype='datetime64[ns]', freq='D')
date_index4:  DatetimeIndex(['2019-05-25', '2019-05-26', '2019-05-27', '2019-05-28'], dtype='datetime64[ns]', freq='D')
date_index5:  DatetimeIndex(['2019-05-25', '2019-05-26', '2019-05-27', '2019-05-28'], dtype='datetime64[ns]', freq='D')
date_index6:  DatetimeIndex(['2019-05-25', '2019-05-26', '2019-05-27', '2019-05-28'], dtype='datetime64[ns]', freq='D')


## date_range's time series Frequencies
##### Frequencies : 단계

In [37]:
# 2 day
pd.date_range(start="2019-05-25", periods=8, freq='2D')

DatetimeIndex(['2019-05-25', '2019-05-27', '2019-05-29', '2019-05-31',
               '2019-06-02', '2019-06-04', '2019-06-06', '2019-06-08'],
              dtype='datetime64[ns]', freq='2D')

In [38]:
# business day (월화수목금)
pd.date_range(start="2019-05-25", periods=8, freq='B')

DatetimeIndex(['2019-05-27', '2019-05-28', '2019-05-29', '2019-05-30',
               '2019-05-31', '2019-06-03', '2019-06-04', '2019-06-05'],
              dtype='datetime64[ns]', freq='B')

In [39]:
# 3 week
pd.date_range(start="2019-05-25", periods=8, freq='3W')

DatetimeIndex(['2019-05-26', '2019-06-16', '2019-07-07', '2019-07-28',
               '2019-08-18', '2019-09-08', '2019-09-29', '2019-10-20'],
              dtype='datetime64[ns]', freq='3W-SUN')

In [40]:
# 월말 Month Last
pd.date_range(start="2019-05-25", periods=8, freq='M')

DatetimeIndex(['2019-05-31', '2019-06-30', '2019-07-31', '2019-08-31',
               '2019-09-30', '2019-10-31', '2019-11-30', '2019-12-31'],
              dtype='datetime64[ns]', freq='M')

In [41]:
# Buisness Month
pd.date_range(start="2019-05-25", periods=8, freq='BM')

DatetimeIndex(['2019-05-31', '2019-06-28', '2019-07-31', '2019-08-30',
               '2019-09-30', '2019-10-31', '2019-11-29', '2019-12-31'],
              dtype='datetime64[ns]', freq='BM')

In [42]:
# Buisness Month Start (각 월의 월요일 시작)
pd.date_range(start="2019-05-25", periods=8, freq='BMS')

DatetimeIndex(['2019-06-03', '2019-07-01', '2019-08-01', '2019-09-02',
               '2019-10-01', '2019-11-01', '2019-12-02', '2020-01-01'],
              dtype='datetime64[ns]', freq='BMS')

In [43]:
# Quarter (분기)
pd.date_range(start="2019-05-25", periods=8, freq='Q')

DatetimeIndex(['2019-06-30', '2019-09-30', '2019-12-31', '2020-03-31',
               '2020-06-30', '2020-09-30', '2020-12-31', '2021-03-31'],
              dtype='datetime64[ns]', freq='Q-DEC')

In [44]:
# Year
pd.date_range(start="2019-05-25 10:10", periods=8, freq='A')

DatetimeIndex(['2019-12-31 10:10:00', '2020-12-31 10:10:00',
               '2021-12-31 10:10:00', '2022-12-31 10:10:00',
               '2023-12-31 10:10:00', '2024-12-31 10:10:00',
               '2025-12-31 10:10:00', '2026-12-31 10:10:00'],
              dtype='datetime64[ns]', freq='A-DEC')

In [45]:
# Hour
pd.date_range(start="2019-05-25 10:10", periods=8, freq='H')

DatetimeIndex(['2019-05-25 10:10:00', '2019-05-25 11:10:00',
               '2019-05-25 12:10:00', '2019-05-25 13:10:00',
               '2019-05-25 14:10:00', '2019-05-25 15:10:00',
               '2019-05-25 16:10:00', '2019-05-25 17:10:00'],
              dtype='datetime64[ns]', freq='H')

In [52]:
# Minutes (M은 Month이기 때문에 min을 쓴다.)
pd.date_range(start="2019-05-25 10:10", periods=8, freq='min')
# pd.date_range(start="2019-05-25 10:10", periods=8, freq='T')
# T 도 사용하지만, min이 더 쉬움

DatetimeIndex(['2019-05-25 10:10:00', '2019-05-25 10:11:00',
               '2019-05-25 10:12:00', '2019-05-25 10:13:00',
               '2019-05-25 10:14:00', '2019-05-25 10:15:00',
               '2019-05-25 10:16:00', '2019-05-25 10:17:00'],
              dtype='datetime64[ns]', freq='T')

In [54]:
# Seconds
pd.date_range(start="2019-05-25 10:10", periods=8, freq='10S')
# 결과값이 자동으로 늘어났다.

DatetimeIndex(['2019-05-25 10:10:00', '2019-05-25 10:10:10',
               '2019-05-25 10:10:20', '2019-05-25 10:10:30',
               '2019-05-25 10:10:40', '2019-05-25 10:10:50',
               '2019-05-25 10:11:00', '2019-05-25 10:11:10'],
              dtype='datetime64[ns]', freq='10S')

## Data Frame
#### 판다스에서 제일 많이 사용되는 Data Frame

##### Series는 1차원 데이터
##### 2차원 데이터 처리 필요 (Excel) => DataFrame

In [56]:
df = pd.DataFrame([[10, 20, 30], [40, 50, 60], [70, 80, 90]])
df
# index 0 1 2 
# column 0 1 2 
# 설정가능 

Unnamed: 0,0,1,2
0,10,20,30
1,40,50,60
2,70,80,90


In [57]:
type(df)

pandas.core.frame.DataFrame

In [59]:
np_array = np.arange(10,100,10).reshape(3,3)
df1 = pd.DataFrame(np_array)
df1
# 위와 값이 똑같습니다.

Unnamed: 0,0,1,2
0,10,20,30
1,40,50,60
2,70,80,90


## index와 column

In [60]:
# index 지정
df1.index = pd.date_range('2019-05-05',periods=3)
df1

Unnamed: 0,0,1,2
2019-05-05,10,20,30
2019-05-06,40,50,60
2019-05-07,70,80,90


In [63]:
df1.index

DatetimeIndex(['2019-05-05', '2019-05-06', '2019-05-07'], dtype='datetime64[ns]', freq='D')

In [61]:
# column 지정
df1.columns = ['A', 'B', 'C']
df1

Unnamed: 0,A,B,C
2019-05-05,10,20,30
2019-05-06,40,50,60
2019-05-07,70,80,90


In [65]:
df1.columns

Index(['A', 'B', 'C'], dtype='object')

In [66]:
# 초기화시 인자 전달
# 만들 때 부터 설정이 가능하다.
df2 = pd.DataFrame(np.arange(10, 100, 10).reshape(3,3), 
                  index=pd.date_range('2019-03-05', periods=3, freq='M'), 
                  columns=['A', 'B', 'C'])
df2

Unnamed: 0,A,B,C
2019-03-31,10,20,30
2019-04-30,40,50,60
2019-05-31,70,80,90


## 딕셔너리로 DataFrame 만들기

In [69]:
table_data = {
    '연도':list(range(2010, 2020)),
    '매출액': [v**2 for i, v in enumerate(range(1,11))],
    '종업원 수': list(range(2, 30, 3))
}

df = pd.DataFrame(table_data)
df

Unnamed: 0,연도,매출액,종업원 수
0,2010,1,2
1,2011,4,5
2,2012,9,8
3,2013,16,11
4,2014,25,14
5,2015,36,17
6,2016,49,20
7,2017,64,23
8,2018,81,26
9,2019,100,29


## Head & tail

In [70]:
df.head()
# 데이터가 잘 들어갔나 확인하는데에 사용한다. 
# 아마 가장 많이 쓰게 될 함수

Unnamed: 0,연도,매출액,종업원 수
0,2010,1,2
1,2011,4,5
2,2012,9,8
3,2013,16,11
4,2014,25,14


In [71]:
df.head(3)

Unnamed: 0,연도,매출액,종업원 수
0,2010,1,2
1,2011,4,5
2,2012,9,8


In [72]:
df.tail()

Unnamed: 0,연도,매출액,종업원 수
5,2015,36,17
6,2016,49,20
7,2017,64,23
8,2018,81,26
9,2019,100,29


In [73]:
df.tail(3)

Unnamed: 0,연도,매출액,종업원 수
7,2017,64,23
8,2018,81,26
9,2019,100,29


## index, columns, values

In [74]:
df

Unnamed: 0,연도,매출액,종업원 수
0,2010,1,2
1,2011,4,5
2,2012,9,8
3,2013,16,11
4,2014,25,14
5,2015,36,17
6,2016,49,20
7,2017,64,23
8,2018,81,26
9,2019,100,29


In [75]:
df.index
# 인덱스 확인

RangeIndex(start=0, stop=10, step=1)

In [76]:
df.columns
# columns 확인

Index(['연도', '매출액', '종업원 수'], dtype='object')

In [78]:
df.values
# values 확인

array([[2010,    1,    2],
       [2011,    4,    5],
       [2012,    9,    8],
       [2013,   16,   11],
       [2014,   25,   14],
       [2015,   36,   17],
       [2016,   49,   20],
       [2017,   64,   23],
       [2018,   81,   26],
       [2019,  100,   29]], dtype=int64)

## 데이터 연산

In [79]:
table_data1 = {
    'A': np.arange(1, 6),
    'B': np.arange(10, 60, 10),
    'C': np.arange(100, 600, 100),
}
df1 = pd.DataFrame(table_data1)
df1

Unnamed: 0,A,B,C
0,1,10,100
1,2,20,200
2,3,30,300
3,4,40,400
4,5,50,500


In [80]:
table_data2 = {
    'A': [6, 7, 8],
    'B': [60, 70, 80],
    'C': [600, 700, 800],
}
df2 = pd.DataFrame(table_data2)
df2

Unnamed: 0,A,B,C
0,6,60,600
1,7,70,700
2,8,80,800


In [81]:
# 덧셈
# index를 기준으로 더하기 시작하고, 모자라는 값은 Not a Number 로 처리된다.
df1+df2

Unnamed: 0,A,B,C
0,7.0,70.0,700.0
1,9.0,90.0,900.0
2,11.0,110.0,1100.0
3,,,
4,,,


In [82]:
# 뺄셈
df1-df2

Unnamed: 0,A,B,C
0,-5.0,-50.0,-500.0
1,-5.0,-50.0,-500.0
2,-5.0,-50.0,-500.0
3,,,
4,,,


In [83]:
df1*df2

Unnamed: 0,A,B,C
0,6.0,600.0,60000.0
1,14.0,1400.0,140000.0
2,24.0,2400.0,240000.0
3,,,
4,,,


In [85]:
df1/df2
# 거듭제곱, 몫, 나눗셈 역시 계산이 가능하다.

Unnamed: 0,A,B,C
0,0.166667,0.166667,0.166667
1,0.285714,0.285714,0.285714
2,0.375,0.375,0.375
3,,,
4,,,


## 통계분석을 위한 method

In [86]:
df1 = pd.DataFrame({'봄': [256.5, 264.3, 215.9, 223.2, 312.8],
                    '여름': [770.6, 567.5, 599.8, 387.1, 446.2],
                    '가을': [363.5, 231.2, 293.1, 247.7, 381.6],
                    '겨울': [139.3, 59.9, 76.9, 109.1, 108.1]},
                    index=['2012', '2013', '2014', '2015', '2016'])
df1

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,770.6,363.5,139.3
2013,264.3,567.5,231.2,59.9
2014,215.9,599.8,293.1,76.9
2015,223.2,387.1,247.7,109.1
2016,312.8,446.2,381.6,108.1


## sum / mean

In [87]:
df1.sum()
# 열을 다 더한다.

봄     1272.7
여름    2771.2
가을    1517.1
겨울     493.3
dtype: float64

In [88]:
df1.sum(axis=1)
# 가로 연산. 행을 다 더한다.

2012    1529.9
2013    1122.9
2014    1185.7
2015     967.1
2016    1248.7
dtype: float64

In [91]:
df1.mean()

봄     254.54
여름    554.24
가을    303.42
겨울     98.66
dtype: float64

In [92]:
df1.mean(axis=1)

2012    382.475
2013    280.725
2014    296.425
2015    241.775
2016    312.175
dtype: float64

## min / max

In [93]:
df1.min()

봄     215.9
여름    387.1
가을    231.2
겨울     59.9
dtype: float64

In [94]:
df1.min(axis=1)

2012    139.3
2013     59.9
2014     76.9
2015    109.1
2016    108.1
dtype: float64

In [95]:
df1.max()

봄     312.8
여름    770.6
가을    381.6
겨울    139.3
dtype: float64

In [89]:
df1.max(axis=1)

2012    770.6
2013    567.5
2014    599.8
2015    387.1
2016    446.2
dtype: float64

## std / var

In [90]:
df1.std()

봄      38.628267
여름    148.888895
가을     67.358496
겨울     30.925523
dtype: float64

In [96]:
df1.std(axis=1)

2012    274.472128
2013    211.128782
2014    221.150739
2015    114.166760
2016    146.548658
dtype: float64

In [97]:
df1.var()

봄      1492.143
여름    22167.903
가을     4537.167
겨울      956.388
dtype: float64

In [98]:
df1.var(axis=1)

2012    75334.949167
2013    44575.362500
2014    48907.649167
2015    13034.049167
2016    21476.509167
dtype: float64

## cumsum / cumprod

In [101]:
# 누적 합
df1.cumsum()

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,770.6,363.5,139.3
2013,520.8,1338.1,594.7,199.2
2014,736.7,1937.9,887.8,276.1
2015,959.9,2325.0,1135.5,385.2
2016,1272.7,2771.2,1517.1,493.3


In [102]:
df1.cumsum(axis=1)

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,1027.1,1390.6,1529.9
2013,264.3,831.8,1063.0,1122.9
2014,215.9,815.7,1108.8,1185.7
2015,223.2,610.3,858.0,967.1
2016,312.8,759.0,1140.6,1248.7


In [103]:
df1.cumprod()

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,770.6,363.5,139.3
2013,67792.95,437315.5,84041.2,8344.07
2014,14636500.0,262301800.0,24632480.0,641659.0
2015,3266866000.0,101537000000.0,6101464000.0,70005000.0
2016,1021876000000.0,45305830000000.0,2328319000000.0,7567540000.0


In [104]:
df1.cumprod(axis=1)

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,197658.9,71849010.0,10008570000.0
2013,264.3,149990.25,34677750.0,2077197000.0
2014,215.9,129496.82,37955520.0,2918779000.0
2015,223.2,86400.72,21401460.0,2334899000.0
2016,312.8,139571.36,53260430.0,5757453000.0


## describe()

In [107]:
df1.describe()
# count 데이터 수
# mean 평균은?
# std 표준편차는?
# min 최소값은?
# 25% 1 사분위.....
# max 최대값은?

Unnamed: 0,봄,여름,가을,겨울
count,5.0,5.0,5.0,5.0
mean,254.54,554.24,303.42,98.66
std,38.628267,148.888895,67.358496,30.925523
min,215.9,387.1,231.2,59.9
25%,223.2,446.2,247.7,76.9
50%,256.5,567.5,293.1,108.1
75%,264.3,599.8,363.5,109.1
max,312.8,770.6,381.6,139.3


In [109]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 2012 to 2016
Data columns (total 4 columns):
봄     5 non-null float64
여름    5 non-null float64
가을    5 non-null float64
겨울    5 non-null float64
dtypes: float64(4)
memory usage: 360.0+ bytes


## 인덱싱, 슬라이싱

In [110]:
df1

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,770.6,363.5,139.3
2013,264.3,567.5,231.2,59.9
2014,215.9,599.8,293.1,76.9
2015,223.2,387.1,247.7,109.1
2016,312.8,446.2,381.6,108.1


## Column으로 접근

In [112]:
df1['봄']
# 열로 접근

2012    256.5
2013    264.3
2014    215.9
2015    223.2
2016    312.8
Name: 봄, dtype: float64

## Row로 접근

In [113]:
df1[1:3]

Unnamed: 0,봄,여름,가을,겨울
2013,264.3,567.5,231.2,59.9
2014,215.9,599.8,293.1,76.9


In [114]:
df1[:2]

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,770.6,363.5,139.3
2013,264.3,567.5,231.2,59.9


In [116]:
df1[:'2013']
# 처음부터 2013 까지

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,770.6,363.5,139.3
2013,264.3,567.5,231.2,59.9


In [117]:
df1.loc['2013']

봄     264.3
여름    567.5
가을    231.2
겨울     59.9
Name: 2013, dtype: float64

In [119]:
df1.loc['2013':'2016']
# 2013 부터 2016 까지

Unnamed: 0,봄,여름,가을,겨울
2013,264.3,567.5,231.2,59.9
2014,215.9,599.8,293.1,76.9
2015,223.2,387.1,247.7,109.1
2016,312.8,446.2,381.6,108.1


## 결합

In [120]:
df1['봄'][:3]
# 처음에는 column, 뒤에는 row

2012    256.5
2013    264.3
2014    215.9
Name: 봄, dtype: float64

In [121]:
df1['여름'][:'2014']

2012    770.6
2013    567.5
2014    599.8
Name: 여름, dtype: float64

In [122]:
df1.loc['2013':, '봄':]

Unnamed: 0,봄,여름,가을,겨울
2013,264.3,567.5,231.2,59.9
2014,215.9,599.8,293.1,76.9
2015,223.2,387.1,247.7,109.1
2016,312.8,446.2,381.6,108.1


In [123]:
df1.loc['2013':, '가을':]

Unnamed: 0,가을,겨울
2013,231.2,59.9
2014,293.1,76.9
2015,247.7,109.1
2016,381.6,108.1


In [124]:
df1.loc['2016']

봄     312.8
여름    446.2
가을    381.6
겨울    108.1
Name: 2016, dtype: float64

## 데이터프레임 전치

In [125]:
df1

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,770.6,363.5,139.3
2013,264.3,567.5,231.2,59.9
2014,215.9,599.8,293.1,76.9
2015,223.2,387.1,247.7,109.1
2016,312.8,446.2,381.6,108.1


In [128]:
df1.T
# 행과 열을 바꿀 수 있다.

Unnamed: 0,2012,2013,2014,2015,2016
봄,256.5,264.3,215.9,223.2,312.8
여름,770.6,567.5,599.8,387.1,446.2
가을,363.5,231.2,293.1,247.7,381.6
겨울,139.3,59.9,76.9,109.1,108.1


## 열 순서 변경

In [129]:
df1

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,770.6,363.5,139.3
2013,264.3,567.5,231.2,59.9
2014,215.9,599.8,293.1,76.9
2015,223.2,387.1,247.7,109.1
2016,312.8,446.2,381.6,108.1


In [130]:
df1[['겨울', '봄', '여름', '가을']]

Unnamed: 0,겨울,봄,여름,가을
2012,139.3,256.5,770.6,363.5
2013,59.9,264.3,567.5,231.2
2014,76.9,215.9,599.8,293.1
2015,109.1,223.2,387.1,247.7
2016,108.1,312.8,446.2,381.6


## 행 변경

In [131]:
df1.loc[['2016', '2015', '2014']]

Unnamed: 0,봄,여름,가을,겨울
2016,312.8,446.2,381.6,108.1
2015,223.2,387.1,247.7,109.1
2014,215.9,599.8,293.1,76.9


## 데이터 통합하기

In [132]:
df1 = pd.DataFrame({'Class1': [95, 92, 98, 100],
                    'Class2': [91, 93, 98, 100]})
df1

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,98
3,100,100


In [133]:
df2 = pd.DataFrame({'Class1': [76, 88],
                    'Class2': [100, 100]})
df2

Unnamed: 0,Class1,Class2
0,76,100
1,88,100


## 세로방향 통합

In [135]:
df1.append(df2)
# 같은 column 끼리 합쳐진다.
# 그러나 index까지 같이 추가된다. 

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,98
3,100,100
0,76,100
1,88,100


In [136]:
# index 무시
df1.append(df2, ignore_index=True)

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,98
3,100,100
4,76,100
5,88,100


In [137]:
# index 무시 하는 다른 방법
df1.append(df2).reset_index(drop=True)

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,98
3,100,100
4,76,100
5,88,100


## column이 다 다를때

In [140]:
df3 = pd.DataFrame({'Class1': [80,10], 'Class3': [50, 60]})
df3

Unnamed: 0,Class1,Class3
0,80,50
1,10,60


In [143]:
df1.append(df3, ignore_index=True, sort=True)
# FutureWarning 발생. 
# 뒤에 sort = True 를 추가하셔야합니다.
# 세로 방향으로 통합된다.

Unnamed: 0,Class1,Class2,Class3
0,95,91.0,
1,92,93.0,
2,98,98.0,
3,100,100.0,
4,80,,50.0
5,10,,60.0


## 가로방향 통합하기

In [145]:
df1

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,98
3,100,100


In [146]:
df4 = pd.DataFrame({'Class3': [92,93,94,91,99]})
df4

Unnamed: 0,Class3
0,92
1,93
2,94
3,91
4,99


In [150]:
df1.join(df4)
# 옆으로 이어붙이는 join 함수를 사용한다.
# 만약에 길이가 맞지 않으면, 디폴드 값이 inner join이기 때문에 그냥 없어져버린다.
# 예시에서 Class3 의 4 index 99 가 사라졌다.

Unnamed: 0,Class1,Class2,Class3
0,95,91,92
1,92,93,93
2,98,98,94
3,100,100,91


In [153]:
df1.join(df4,how='outer')
# outer로 바꿔주면 제대로 작동한다.

Unnamed: 0,Class1,Class2,Class3
0,95.0,91.0,92
1,92.0,93.0,93
2,98.0,98.0,94
3,100.0,100.0,91
4,,,99


In [156]:
df1.join(df4,how='left')
# 기준이 왼쪽

Unnamed: 0,Class1,Class2,Class3
0,95,91,92
1,92,93,93
2,98,98,94
3,100,100,91


In [157]:
df1.join(df4,how='right')
# 기준이 오른쪽

Unnamed: 0,Class1,Class2,Class3
0,95.0,91.0,92
1,92.0,93.0,93
2,98.0,98.0,94
3,100.0,100.0,91
4,,,99


## 특정 열을 기준으로 통합하기

In [158]:
import random
month_list = [str(i)+'월' for i in range(1,5)]

prod_A, prod_B, prod_C, prod_D = [np.random.randint(50, 100, size=4) for i in range(4)]


df_A_B = pd.DataFrame({'판매월': month_list, 
                       '제품A': prod_A,
                       '제품B': prod_B})
df_A_B

Unnamed: 0,판매월,제품A,제품B
0,1월,97,70
1,2월,72,80
2,3월,90,80
3,4월,62,95


In [160]:
df_C_D = pd.DataFrame({'판매월': month_list,
                       '제품C': prod_C,
                       '제품D': prod_D})
df_C_D

Unnamed: 0,판매월,제품C,제품D
0,1월,60,67
1,2월,61,53
2,3월,98,96
3,4월,79,86


## merge

In [161]:
df_A_B.merge(df_C_D)

Unnamed: 0,판매월,제품A,제품B,제품C,제품D
0,1월,97,70,60,67
1,2월,72,80,61,53
2,3월,90,80,98,96
3,4월,62,95,79,86


## merge = how

In [162]:
prod_E, prod_F = [np.random.randint(50, 100, size=4) for i in range(2)]
df_E_F = pd.DataFrame({'판매월': ['3월', '4월', '5월', '6월'],
                       '제품E': prod_E,
                       '제품F': prod_F})
df_E_F

Unnamed: 0,판매월,제품E,제품F
0,3월,93,68
1,4월,50,65
2,5월,64,72
3,6월,90,68


In [164]:
df_A_B.merge(df_E_F, how='left')
# 왼쪽을 기준으로 통합된다.

Unnamed: 0,판매월,제품A,제품B,제품E,제품F
0,1월,97,70,,
1,2월,72,80,,
2,3월,90,80,93.0,68.0
3,4월,62,95,50.0,65.0


In [166]:
df_A_B.merge(df_E_F, how='right')
# 오른쪽을 기준으로 통합된다.

Unnamed: 0,판매월,제품A,제품B,제품E,제품F
0,3월,90.0,80.0,93,68
1,4월,62.0,95.0,50,65
2,5월,,,64,72
3,6월,,,90,68


In [168]:
df_A_B.merge(df_E_F, how='inner')
# 공통된 것만 가져온다.

Unnamed: 0,판매월,제품A,제품B,제품E,제품F
0,3월,90,80,93,68
1,4월,62,95,50,65


In [169]:
df_A_B.merge(df_E_F, how='outer')

Unnamed: 0,판매월,제품A,제품B,제품E,제품F
0,1월,97.0,70.0,,
1,2월,72.0,80.0,,
2,3월,90.0,80.0,93.0,68.0
3,4월,62.0,95.0,50.0,65.0
4,5월,,,64.0,72.0
5,6월,,,90.0,68.0


In [177]:
df_A_B.merge(df_E_F, how='outer', on="판매월")
# 어떤 열을 기준으로 할 것인가? 판매월을 기준으로

Unnamed: 0,판매월,제품A,제품B,제품E,제품F
0,1월,97.0,70.0,,
1,2월,72.0,80.0,,
2,3월,90.0,80.0,93.0,68.0
3,4월,62.0,95.0,50.0,65.0
4,5월,,,64.0,72.0
5,6월,,,90.0,68.0


## 데이터 파일 읽고 쓰기

## CSV 파일

## 실습

In [253]:
import os
BASE_DIR = os.getcwd()
# 현재 작업경로를 가져오는 함수
print(BASE_DIR)

# DATASET_PATH = os.path.join(BASE_DIR. "Downloads￦￦201904")
DATASET_PATH = "C:\\Users\\student\\Downloads\\201904"
print(DATASET_PATH)

C:\Users\student\Documents\python_basic
C:\Users\student\Downloads\201904


In [254]:
# file1 = "C:\\Users\\student\\Downloads\\201904"(DATASET_PATH, '2019-04-30.csv')
file1 = os.path.join(DATASET_PATH, '2019-04-30.csv')
df1 = pd.read_csv(file1, error_bad_lines=False, header=None)
df1

b'Skipping line 18081: expected 8 fields, saw 11\n'


Unnamed: 0,0,1,2,3,4,5,6,7
0,2019-04-30,1545587997,C013010,점퍼,캘빈클라인진 19SS 신상 여성 항공점퍼 J211287,99500,,
1,2019-04-30,147567876,C013020,티셔츠,[모다아울렛][티엔지티]그레이 라운드넥 면 긴팔티셔츠TGTS9A103G2,55200,,
2,2019-04-30,897756527,A011060,땅콩,간단한 맥주안주 마른 군것질 견과 꿀땅콩 453g 간단,10970,,
3,2019-04-30,410494691,A019050,간장,간장(진 사조 옹가네 1.8L)X8 간장 진간장 식자재 업,36870,,
4,2019-04-30,223173815,C011020,남자상의,(색상 : 곤색 | 사이즈 : XL) FSSF18036 선염체크 버튼다운 남방 남자...,41070,,
5,2019-04-30,1173935366,A019180,즉석식품,(냉동)금호 쌀떡꼬치900g(10p)x15개(1box) 쌀떡꼬치 튀김류 떡꼬치 가공...,89160,,
6,2019-04-30,1476779724,C012050,여자하의,[빨질레리] 애쉬 울 블렌드 시어서커 셋업 팬츠 (PC9121UA14),181300,,
7,2019-04-30,1847125407,C014010,아동복,[압소바]라글랑화섬점퍼 AU3-53103,71200,,
8,2019-04-30,765016470,C012030,여자상의,[에스쏠레지아] 봄의 요정이 살포시 앉은 레이스와 프릴 블라우스_NC엑스코점,179000,,
9,2019-04-30,1093348192,E061060,살충제,[한국디비케이(주)] 킬파프 개미에어졸 뿌리는개미살충제 스프레이개미약,6350,,


In [255]:
file2 = os.path.join(DATASET_PATH, '2019-04-29.csv')
df2 = pd.read_csv(file2, error_bad_lines=False, header=None)
df2

b'Skipping line 104855: expected 8 fields, saw 11\n'


Unnamed: 0,0,1,2,3,4,5,6,7
0,2019-04-29,418132351,A011100,라면,삼양라면 오리지널 소컵 65g,790,790.0,0.0
1,2019-04-29,375124279,C014010,아동복,[레노마키즈]여아핑크메쉬집업점퍼(R1825J566_O),19900,,
2,2019-04-29,54613430,E031040,전기레인지,키친아트 럭시 하이라이트 PK-802 전기레인지 1구하이라이트 주방전기레인지 하이라...,50540,,
3,2019-04-29,853648536,A013040,고등어,[제주푸드마씸]제주 향아수산 고등어살(대) 5팩 (150g이상/팩) / 무료배송,25700,,
4,2019-04-29,1153901555,C014010,아동복,[오렌지앤] 레인코트(가방포함)_S-L(OJK74718),44000,,
5,2019-04-29,1879495013,A019150,김치,[김순자 김치명장]한성맛김치4KG,19000,19000.0,0.0
6,2019-04-29,904223084,A017200,토마토,찰 토마토 10kg 4-5번 소과,63900,63900.0,0.0
7,2019-04-29,796750242,C012010,여자외의,[캐리스노트] 울 차이나 자켓(CN7WJK20A),349500,,
8,2019-04-29,1690786869,E061010,세탁세제,[라이온] 비트 더스트프리2.5 액체세제 1.5L 리필 2개입 /(연관어) 세탁세제...,21400,,
9,2019-04-29,2074734491,I021030,헬스기구,핏분 분리형 6각 헥사곤 트램폴린/고탄력/유산소운동/근력운동/피트니스/칼로리소모3배...,87900,87900.0,0.0


In [256]:
file3 = os.path.join(DATASET_PATH, '2019-04-28.csv')
df3 = pd.read_csv(file3, error_bad_lines=False, header=None)
df3

b'Skipping line 223096: expected 8 fields, saw 11\n'


Unnamed: 0,0,1,2,3,4,5,6,7
0,2019-04-28,25238892,C012050,여자하의,[하늘바라기]여성용 밍크 언발 플레어 스커트,19800,,
1,2019-04-28,410542847,C011040,남자하의,[탑보이] 남자여름반바지/린넨/면/밴딩/슬랙스/데님/트레이닝/비치팬츠,10000,,
2,2019-04-28,728717974,L012090,기초화장품,아이오페 맨 에멀젼 수분 보습 남성화장품 피부 스킨,43080,,
3,2019-04-28,969540640,C011040,남자하의,[지오다노]여 테리 숏팬츠 409520(강남점),17800,,
4,2019-04-28,714840683,C012050,여자하의,배색 체크 H스커트/ 아덴,29900,,
5,2019-04-28,766982446,C012010,여자외의,[코인코즈] W몰 일자핏 롱코트 IW8WC432,159000,,
6,2019-04-28,134590163,C013020,티셔츠,[뱅뱅] 3색배색 맨투맨 티셔츠 (NTE672)_NC엑스코점,59800,,
7,2019-04-28,1744997907,C014010,아동복,[앤디애플키즈]오버핏반팔티셔츠,9900,,
8,2019-04-28,81326551,C013060,등산복,[밀레] 남성 2 IN 1 라운드 티셔츠 MVNFT301,39000,,
9,2019-04-28,654144716,C013010,점퍼,포켓집업점퍼 1025807 OUTER 사파리 야상점퍼 블루 Bl,43140,,


In [257]:
df1.clumns = ['수집일자', '상품ID', '품목ID', '품목명', '상품명', '판매가격',	'할인가격', '혜택가격']
df1.head()
df1.describe()

  """Entry point for launching an IPython kernel.


Unnamed: 0,1,5,6,7
count,298850.0,298850.0,75342.0,75342.0
mean,1059928000.0,72810.53,55659.84,-3165.999
std,607024200.0,187589.6,187861.6,27871.66
min,5739.0,110.0,10.0,-1863870.0
25%,575372000.0,19000.0,10800.0,0.0
50%,1029318000.0,34910.0,23074.0,0.0
75%,1597350000.0,68800.0,46800.0,0.0
max,2147355000.0,16830000.0,16830000.0,0.0


In [259]:
df_1_2 = df1.join(df2, how='outer')
df_1_2

ValueError: columns overlap but no suffix specified: Int64Index([0, 1, 2, 3, 4, 5, 6, 7], dtype='int64')