# 데이터 파일 pandas로 불러오기

문서 형식
* xml: html과 비슷한데 규격이 있다. 컴퓨터가 읽기 html보다 쉽다. 그 대신 더 무겁다.
* json: xml의 무거움을 보완하는 대체재. 딕셔너리 형태.
* pickle: 객체 저장
    * 객체: 데이터를 바이너리 형태로 저장해놓은 것

read_csv(): 데이터파일 불러오기 -> 데이터프레임

In [1]:
import pandas as pd

csv_test = pd.read_csv("test_csv_file.csv")
csv_test

Unnamed: 0,ID,LAST_NAME,AGE
0,1,KIM,30
1,2,CHOI,25
2,3,LEE,41
3,4,PARK,19
4,5,LIM,36


In [3]:
text = pd.read_csv("test_text_file.txt", sep="|")     # read_csv는 구분자의 default가 쉼표(,)이다. 그러므로 쉼표가 아닌 다른 구분자로 구분되어있는 경우 separator를 지정해줘야 한다.
text

Unnamed: 0,ID,A,B,C,D
0,C1,1,2,3,4
1,C2,5,6,7,8
2,C3,1,3,5,7


In [4]:
text = pd.read_csv("test_text_file.txt", sep="|", index_col=0)     # index_col = n : n번째 열을 행 인덱스로 사용하겠다
text

Unnamed: 0_level_0,A,B,C,D
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
C1,1,2,3,4
C2,5,6,7,8
C3,1,3,5,7


In [5]:
text = pd.read_csv("test_text_file.txt", sep="|", index_col="ID")    # 대소문자 구분 주의
text

Unnamed: 0_level_0,A,B,C,D
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
C1,1,2,3,4
C2,5,6,7,8
C3,1,3,5,7


In [7]:
text = pd.read_csv("text_without_column_name.txt", sep="|", header=None)    # 열 인덱스가 없을 때는 없다고 명시해줘야 한다 (header=None)
text

Unnamed: 0,0,1,2,3,4
0,C1,1,2,3,4
1,C2,5,6,7,8
2,C3,1,3,5,7


In [8]:
text = pd.read_csv("text_without_column_name.txt", sep="|", header=None, names=["ID", "A", "B", "C", "D"])    # names 옵션: 열 인덱스 작성
text

Unnamed: 0,ID,A,B,C,D
0,C1,1,2,3,4
1,C2,5,6,7,8
2,C3,1,3,5,7


In [10]:
type(text)
text.info()
# pandas에는 string 자료형이 존재하지 않는다 -- object가 문자열이다

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
ID    3 non-null object
A     3 non-null int64
B     3 non-null int64
C     3 non-null int64
D     3 non-null int64
dtypes: int64(4), object(1)
memory usage: 200.0+ bytes


# 데이터프레임을 csv 파일로 저장하기

In [12]:
data = {"ID": ["A1", "A2", "A3"],
       "X1": [10, 20, 30],
       "X2": [1.1, 2.2, 3.3]}
data

{'ID': ['A1', 'A2', 'A3'], 'X1': [10, 20, 30], 'X2': [1.1, 2.2, 3.3]}

In [13]:
# 딕셔너리를 dataframe으로
df = pd.DataFrame(data)
df

Unnamed: 0,ID,X1,X2
0,A1,10,1.1
1,A2,20,2.2
2,A3,30,3.3


In [14]:
df = pd.DataFrame(data, index=["a1", "a2", "a3"])    # index: 행 이름 지정하고 싶을 때 쓰는 속성
df

Unnamed: 0,ID,X1,X2
a1,A1,10,1.1
a2,A2,20,2.2
a3,A3,30,3.3


In [15]:
# 데이터프레임에 행 추가 (인덱스를 이용해서)
df2 = df.reindex(["a1", "a2", "a3", "a4"])
df2

Unnamed: 0,ID,X1,X2
a1,A1,10.0,1.1
a2,A2,20.0,2.2
a3,A3,30.0,3.3
a4,,,


* NaN: Not a Number
* pandas에서 NaN은 결측값을 의미한다.
* deep learning에서 NaN은 inf가 발산됨을 의미한다(?)
* 결측값이 발생되는데는 여러 이유가 있다
    * 실제로 값이 없거나
    * 입력할 때 누락되었거나
    * 연구자가 임의로 결측치로 처리했거나
* deep learning에서 NaN이 나오면 모델을 잘못 만든거다

In [16]:
# 파일로 저장
df2.to_csv("df2.csv")    # default separator = 쉼표(,)

In [16]:
# 파일로 저장
df2.to_csv("df2.csv")    # default separator = 쉼표(,)

* 모든 객체들은 속성과 메서드를 가지고 있다
    * 속성은 객체의 특성값을 의미한다
        * 예: 객체 = 붕어빵, 속성 = 색(노르스름), 내용물(팥)
    * 함수는 객체의 동작을 나타낸다
        * 예: 객체 = 자동차, 함수(동작) = 달린다, 멈춘다

In [17]:
# 파일로 저장
df2.to_csv("df2.csv", sep="?")    # 구분자가 쉼표여야만 엑셀에서 csv가 제대로 읽어진다

In [19]:
# 파일로 저장
df2.to_csv("df2.csv", sep=",")

In [20]:
# 파일로 저장
df2.to_csv("df2.csv", sep=",", na_rep="N")    # na_rep: 결측값을 어떻게 나타낼지 정할 수 있다

* 주의: 통상적인 약속으로, 데이터 분석에서 결측값을 표시할 때는 NA 또는 NaN으로 쓴다.

In [21]:
# 파일로 저장
df2.to_csv("df2.csv", sep=",", na_rep="NaN")

# 데이터프레임 만들기

## pandas로 데이터프레임 만들기

In [22]:
import numpy as np
df1 = pd.DataFrame(np.arange(12).reshape(3, 4))
df1

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [23]:
import numpy as np
df1 = pd.DataFrame(np.arange(12).reshape(3, 4),
                  index=["r0", "r1", "r2"],
                  columns=["c0", "c1", "c2", "c3"])
df1

Unnamed: 0,c0,c1,c2,c3
r0,0,1,2,3
r1,4,5,6,7
r2,8,9,10,11


### 데이터 프레임의 속성들 확인하기

In [24]:
# transpose
df1.T

Unnamed: 0,r0,r1,r2
c0,0,4,8
c1,1,5,9
c2,2,6,10
c3,3,7,11


In [26]:
# axes 속성으로 행과 열의 인덱스 이름을 추출할 수 있다
df1.axes

[Index(['r0', 'r1', 'r2'], dtype='object'),
 Index(['c0', 'c1', 'c2', 'c3'], dtype='object')]

In [29]:
# 자료형 확인
df.dtypes
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, a1 to a3
Data columns (total 3 columns):
ID    3 non-null object
X1    3 non-null int64
X2    3 non-null float64
dtypes: float64(1), int64(1), object(1)
memory usage: 176.0+ bytes


In [31]:
# shape
df1.shape
type(df1.shape)

tuple

In [32]:
# size
df1.size

12

In [33]:
# values
df1.values

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

### 데이터 프레임에서 특정 자료만 불러올 때 사용하는 속성들

In [35]:
df2 = pd.DataFrame({"c1": ["a", "a", "b", "b", "c"],
                   "v1": np.arange(5),
                   "v2": np.random.randn(5)},     # randn(n): random normal. 정규분포를 따르는 난수 n개 생성.
                  index=["r0", "r1", "r2", "r3", "r4"],)
df2

Unnamed: 0,c1,v1,v2
r0,a,0,0.364035
r1,a,1,0.663181
r2,b,2,0.376126
r3,b,3,0.824967
r4,c,4,0.944615


#### 행을 기준으로 특정 행만 선택해서 가져오고 싶을 때

In [36]:
# 행 이름 추출
df2.index

Index(['r0', 'r1', 'r2', 'r3', 'r4'], dtype='object')

ix라는 속성을 사용하게 되면 행을 기준으로 데이터를 추출할 때 행에 대한 인덱스 수치나 행 이름을 모두 사용할 수 있다.
* 그런데 ix는 사용을 권하지 않는다 (쓰면 warning이 뜬다. deprecated). 대신 loc (라벨 쓸때) 이나 iloc (위치 쓸 때) 를 사용하길 권장한다.

In [37]:
# df2의 r2~r4까지 행을 추출하려고 한다.
df2.ix[2:]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,c1,v1,v2
r2,b,2,0.376126
r3,b,3,0.824967
r4,c,4,0.944615


In [38]:
df2.ix[2]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


c1           b
v1           2
v2    0.376126
Name: r2, dtype: object

In [40]:
df2.ix["r2"]    # 행 이름도 사용 가능하고 행 인덱스도 사용 가능하다

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


c1           b
v1           2
v2    0.376126
Name: r2, dtype: object

# 탐색적 분석 방법 (EDA, Exploratory Data Analysis)

In [42]:
# head: 데이터 위쪽 일부 행이 출력됨 (default는 6개)
# tail: 데이터 아래쪽 일부 행이 출력됨 (default는 6개)
df2.head(3)
df2.tail(3)

Unnamed: 0,c1,v1,v2
r2,b,2,0.376126
r3,b,3,0.824967
r4,c,4,0.944615


## 특정 열에 해당하는 자료들을 가져올 때 쓰는 속성들

In [43]:
# 열 이름 추출
df2.columns

Index(['c1', 'v1', 'v2'], dtype='object')

In [44]:
df2["v1"]

r0    0
r1    1
r2    2
r3    3
r4    4
Name: v1, dtype: int32

In [46]:
df2[["v1", "v2"]]    # 두 개 이상의 column을 참조해야 하는 경우에는 대괄호를 한번 더 묶어야 한다

Unnamed: 0,v1,v2
r0,0,0.364035
r1,1,0.663181
r2,2,0.376126
r3,3,0.824967
r4,4,0.944615


In [47]:
type(df2["v1"])

pandas.core.series.Series

In [52]:
type(df2[["v1"]])

pandas.core.frame.DataFrame

* 열 벡터가 두개 이상이면 Series가 아니다. Dataframe이다.
* 열 벡터가 한개일 때는 Series로 읽을 수도 있고 Dataframe으로 읽을 수도 있다.

## 자료 일부 수정

In [53]:
df2 = pd.DataFrame({"c1": ["a", "a", "b", "b", "c"],
                   "v1": np.arange(5),
                   "v2": np.random.randn(5)},     # randn(n): random normal. 정규분포를 따르는 난수 n개 생성.
                  index=["r0", "r1", "r2", "r3", "r4"],)
df2

Unnamed: 0,c1,v1,v2
r0,a,0,0.793803
r1,a,1,-0.996606
r2,b,2,-0.361617
r3,b,3,0.919463
r4,c,4,-1.384763


In [54]:
newindex = ["r0", "r1", "r2", "r5", "r6"]
df2.reindex(newindex)

Unnamed: 0,c1,v1,v2
r0,a,0.0,0.793803
r1,a,1.0,-0.996606
r2,b,2.0,-0.361617
r5,,,
r6,,,


In [59]:
df2.reindex(newindex, fill_value=1)    # fill_value: 결측값을 내가 지정한 값으로 채워라

Unnamed: 0,c1,v1,v2
r0,a,0,0.793803
r1,a,1,-0.996606
r2,b,2,-0.361617
r5,1,1,1.0
r6,1,1,1.0


In [60]:
df2 = df2.reindex(newindex, fill_value=1)
df2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, r0 to r6
Data columns (total 3 columns):
c1    5 non-null object
v1    5 non-null int32
v2    5 non-null float64
dtypes: float64(1), int32(1), object(1)
memory usage: 140.0+ bytes


* info를 보면 알겠지만, c1열의 r5, r6에 들어있는 "1"은 integer가 아니라 object(string)이다. 즉, 알아서 자료형에 맞춰서 들어간다.

In [62]:
df2 = pd.DataFrame({"c1": ["a", "a", "b", "b", "c"],
                   "v1": np.arange(5),
                   "v2": np.random.randn(5)},
                  index=["r0", "r1", "r2", "r3", "r4"],)
newindex = ["r0", "r1", "r2", "r5", "r6"]
df2 = df2.reindex(newindex, fill_value="missing")
df2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, r0 to r6
Data columns (total 3 columns):
c1    5 non-null object
v1    5 non-null object
v2    5 non-null object
dtypes: object(3)
memory usage: 160.0+ bytes


* 데이터가 들어가면 열의 자료형에 있어서 자동 형변환이 이루어진다. 문자가 우선하기 때문에, 문자가 하나 들어가면 전체 열의 자료형이 object로 바뀐다.

In [64]:
df2 = pd.DataFrame({"c1": ["a", "a", "b", "b", "c"],
                   "v1": np.arange(5),
                   "v2": np.random.randn(5)},
                  index=["r0", "r1", "r2", "r3", "r4"],)
newindex = ["r0", "r1", "r2", "r5", "r6"]
df2 = df2.reindex(newindex, fill_value="NA")
df2

Unnamed: 0,c1,v1,v2
r0,a,0.0,-1.78775
r1,a,1.0,0.859147
r2,b,2.0,0.122456
r5,,,
r6,,,


## 시계열 데이터 만들기

In [69]:
# pd.date_range(기준일(월/일/년도), periods=기간, freq=기간 기준)
pd.date_range("07/02/2019", periods=5, freq="D")

DatetimeIndex(['2019-07-02', '2019-07-03', '2019-07-04', '2019-07-05',
               '2019-07-06'],
              dtype='datetime64[ns]', freq='D')

보통 날짜 데이터는 행 인덱스로 쓰는 경우가 많다.

In [70]:
dIndex = pd.date_range("07/02/2019", periods=5, freq="D")

In [72]:
df2 = pd.DataFrame({"c1": [1, 2, 3, 4, 5]}, index = dIndex)
df2

Unnamed: 0,c1
2019-07-02,1
2019-07-03,2
2019-07-04,3
2019-07-05,4
2019-07-06,5


In [73]:
dIndex2 = pd.date_range("06/30/2019", periods=10, freq="D")
dIndex2

DatetimeIndex(['2019-06-30', '2019-07-01', '2019-07-02', '2019-07-03',
               '2019-07-04', '2019-07-05', '2019-07-06', '2019-07-07',
               '2019-07-08', '2019-07-09'],
              dtype='datetime64[ns]', freq='D')

In [74]:
df2.reindex(dIndex2)

Unnamed: 0,c1
2019-06-30,
2019-07-01,
2019-07-02,1.0
2019-07-03,2.0
2019-07-04,3.0
2019-07-05,4.0
2019-07-06,5.0
2019-07-07,
2019-07-08,
2019-07-09,


* reindex를 했을 때 기존에 있던 인덱스가 계속 존재하면 값도 그대로 가져오고, 원래 있던 인덱스가 없어지면 값도 사라지고, 새로운 인덱스가 생기면 값은 NaN으로 채워진다.
* 명시적으로 자료형을 지정하지 않으면 기본은 float이다. 그래서 값이 정수에서 실수로 바뀜.

In [78]:
df2 = pd.DataFrame({"c1": [1, 2, 3, 4, 5]}, index = dIndex)
dIndex2 = pd.date_range("06/30/2019", periods=10, freq="D")
# method: NaN을 어떻게 채울것인가
df2.reindex(dIndex2, method="ffill")    # ffill: 순방향(forward)으로 채워라
df2.reindex(dIndex2, method="bfill")    # bfill: 역방향(backward)으로 채워라

Unnamed: 0,c1
2019-06-30,1.0
2019-07-01,1.0
2019-07-02,1.0
2019-07-03,2.0
2019-07-04,3.0
2019-07-05,4.0
2019-07-06,5.0
2019-07-07,
2019-07-08,
2019-07-09,
