In [30]:
# pickle은 객체 형태의 자료를 읽어들이고자 할 때 쓰는 형식임

In [2]:
import pandas as pd

In [None]:
csv_test = pd.read_csv("test_csv_file.csv")
csv_test

In [None]:
text = pd.read_csv("test_text_file.txt", sep="|", index_col=0)
text

In [None]:
text = pd.read_csv("test_text_file.txt", sep="|", index_col="ID") # 이렇게 쓰는 것도 가능
text

In [None]:
text = pd.read_csv("text_without_column_name.txt", sep="|", header=None, names=['ID', 'A','B','C','D']) # 헤더가 없는 경우
text

In [3]:
data = {
    'ID': ['A1', 'A2', 'A3'],
    'X1': [10, 20, 30],
    'X2': [1.1, 2.2, 3.3]
}

In [4]:
df = pd.DataFrame(data)

In [5]:
df

Unnamed: 0,ID,X1,X2
0,A1,10,1.1
1,A2,20,2.2
2,A3,30,3.3


In [6]:
df = pd.DataFrame(data, index=['a1', 'a2', 'a3'])
df

Unnamed: 0,ID,X1,X2
a1,A1,10,1.1
a2,A2,20,2.2
a3,A3,30,3.3


In [8]:
df2 = df.reindex(['a1', 'a2', 'a3', 'a4'])
df2
# pandas: NaN(결측 값), deep러닝: NaN(inf -> 발산)

Unnamed: 0,ID,X1,X2
a1,A1,10.0,1.1
a2,A2,20.0,2.2
a3,A3,30.0,3.3
a4,,,


Nan이 나오면 pandas에서는 어떻게 처리를 할지 고민을 많이 하셔야합니다.

딥러닝에서 NaN이 나온 것은 모델을 잘 못 만든 것입니다.

그래서 learning rate를 다시 조절 해서 발산 되지 않도록 할 수 있어요

AI하는 사람들이 가장 무서워하는 메세지가 NaN이에요

In [9]:
df2.to_csv("d2.csv")

In [None]:
df2.to_csv("d2.csv", sep="?") # seperator를 ?로 지정할 수 있음

In [None]:
df2.to_csv("d2.csv", sep=",", na_rep="NaN") # Na값을 빈 문자열 대신 특정한 문자열로 지정함

In [13]:
import numpy as np
df1 = pd.DataFrame(data=np.arange(12).reshape(3, 4)) # 3행 4열의 matrix를 만듦
df1

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [15]:
import numpy as np
df1 = pd.DataFrame(data=np.arange(12).reshape(3, 4),
                  index=['r0','r1','r2'],
                  columns=['c0','c1', 'c2', 'c3']) # columns과 index를 지정할 수 있음
df1

Unnamed: 0,c0,c1,c2,c3
r0,0,1,2,3
r1,4,5,6,7
r2,8,9,10,11


In [16]:
df1.T # 전치행렬을 구함

Unnamed: 0,r0,r1,r2
c0,0,4,8
c1,1,5,9
c2,2,6,10
c3,3,7,11


In [17]:
df1.axes # 축들의 정보가 리스트 형태로 나옴

[Index(['r0', 'r1', 'r2'], dtype='object'),
 Index(['c0', 'c1', 'c2', 'c3'], dtype='object')]

In [21]:
df1.info() # 이게 많이 쓰임

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, r0 to r2
Data columns (total 4 columns):
c0    3 non-null int32
c1    3 non-null int32
c2    3 non-null int32
c3    3 non-null int32
dtypes: int32(4)
memory usage: 108.0+ bytes


In [22]:
df1.shape # 데이터프레임의 shape이 나옴

(3, 4)

In [23]:
df1.size # 몇 개의 요소가 있는지..!!

12

In [24]:
df1.values # 데이터프레임에 저장되어 있는 값들을 보여줌

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [26]:
df2 = pd.DataFrame({'c1': ['a', 'a', 'b', 'b', 'c'], # 
                   'v1': np.arange(5),
                   'v2': np.random.randn(5)}, # 난수를 5개 정규분포 형태로 발생시키겠다.
                  index=['r0','r1','r2', 'r3', 'r4'])
df2

Unnamed: 0,c1,v1,v2
r0,a,0,1.923204
r1,a,1,-0.404855
r2,b,2,0.481747
r3,b,3,0.31876
r4,c,4,0.772315


In [27]:
df2.index

Index(['r0', 'r1', 'r2', 'r3', 'r4'], dtype='object')

# 인덱싱하기 - ix

In [29]:
df2.ix[2:] #  .ix는 deprecated 됐으니까 iloc나 loc를 사용해라
# label로 indexin할 때는 loc, 인덱스로 할 때는 iloc
# ix는 열 인덱스와 행 인덱스 둘 다 사용 가능

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,c1,v1,v2
r2,b,2,0.481747
r3,b,3,0.31876
r4,c,4,0.772315


# 탐색적 분석방법 EDA

In [32]:
df2.head(3)
df2.tail(3)

Unnamed: 0,c1,v1,v2
r2,b,2,0.481747
r3,b,3,0.31876
r4,c,4,0.772315


In [33]:
df2.columns # 컬럼들이 어떤 것이 있는지 출력

Index(['c1', 'v1', 'v2'], dtype='object')

In [34]:
df2['v1'] # 컬럼의 값을 추출

r0    0
r1    1
r2    2
r3    3
r4    4
Name: v1, dtype: int32

In [35]:
df2['v1', 'v2'] # 이렇게 하는 경우에는 에러가 나는데 대괄호로 감싸줘야함

KeyError: ('v1', 'v2')

In [37]:
df2[['v1','v2']]

Unnamed: 0,v1,v2
r0,0,1.923204
r1,1,-0.404855
r2,2,0.481747
r3,3,0.31876
r4,4,0.772315


In [None]:
# 판다스에는 Series와 DataFrame이라는 자료구조를 많이 씁니다.

In [38]:
type(df2['v1'])

pandas.core.series.Series

In [39]:
type(df2[['v1']])

pandas.core.frame.DataFrame

In [42]:
newindex=['r0','r1','r2', 'r3', 'r4', 'r5', 'r6']

In [43]:
df2.reindex(newindex) # index를 리스트 형태로 줄 수 있음

Unnamed: 0,c1,v1,v2
r0,a,0.0,1.923204
r1,a,1.0,-0.404855
r2,b,2.0,0.481747
r3,b,3.0,0.31876
r4,c,4.0,0.772315
r5,,,
r6,,,


In [44]:
df2.reindex(newindex, fill_value=1) # 원하는 값으로 NaN값을 채울 수 있음

Unnamed: 0,c1,v1,v2
r0,a,0,1.923204
r1,a,1,-0.404855
r2,b,2,0.481747
r3,b,3,0.31876
r4,c,4,0.772315
r5,1,1,1.0
r6,1,1,1.0


In [45]:
df2.info() # 판다스에는 string이라는 타입이 없고, 대신 object로 쓰입니다.

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, r0 to r4
Data columns (total 3 columns):
c1    5 non-null object
v1    5 non-null int32
v2    5 non-null float64
dtypes: float64(1), int32(1), object(1)
memory usage: 196.0+ bytes


In [49]:
df2.reindex(newindex, fill_value='missing').info() # 이렇게 하면, 자동으로 전부 object로 변환됩니다.
# 이 것을 자동 형 변환이라고 합니다.

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, r0 to r6
Data columns (total 3 columns):
c1    7 non-null object
v1    7 non-null object
v2    7 non-null object
dtypes: object(3)
memory usage: 112.0+ bytes


In [50]:
df2.reindex(newindex, fill_value='NA') # 실제로 할 때에는 NA로 값을 저장하는 것이 좋습니다.

Unnamed: 0,c1,v1,v2
r0,a,0.0,1.9232
r1,a,1.0,-0.404855
r2,b,2.0,0.481747
r3,b,3.0,0.31876
r4,c,4.0,0.772315
r5,,,
r6,,,


In [75]:
# pandas에서는 시계열 데이터를 만들 때 daterane라는 것을 사용해서 만듭니다.
dIndex = pd.date_range('07/02/2019', periods=5, freq='D') # 월 / 일 / 연도
# 행인덱스로 날짜가 표현이 됨.

In [76]:
pd.DataFrame({'c1': [1,2,3,4,5]}, index = dIndex)

Unnamed: 0,c1
2019-07-02,1
2019-07-03,2
2019-07-04,3
2019-07-05,4
2019-07-06,5


In [58]:
dIndex2 = pd.date_range('06/30/2019', periods=10) # pd.date하고 tab을 누르면 date_range가 나옵니다.

In [77]:
df2 = pd.DataFrame({'c1': [1,2,3,4,5]}, index = dIndex)

In [78]:
df2.reindex(dIndex2) # 각각의 값들에 기본적으로 들어가는 값은 정수가 아니라 float값입니다.

Unnamed: 0,c1
2019-06-30,
2019-07-01,
2019-07-02,1.0
2019-07-03,2.0
2019-07-04,3.0
2019-07-05,4.0
2019-07-06,5.0
2019-07-07,
2019-07-08,
2019-07-09,


In [79]:
df2.reindex(dIndex2)
df2.reindex(dIndex2, method='ffill') # 맨 아랫쪽에 NaN값들에 직전 값을 채웁니다.
df2.reindex(dIndex2, method='bfill') # 이전의 NaN값들에 직전 값을 채웁니다.

Unnamed: 0,c1
2019-06-30,1.0
2019-07-01,1.0
2019-07-02,1.0
2019-07-03,2.0
2019-07-04,3.0
2019-07-05,4.0
2019-07-06,5.0
2019-07-07,
2019-07-08,
2019-07-09,
