# Pandas

email : blackdew7@gmail.com


#### 주의 : 판다스의 모든 것을 다루지 않습니다. Machine Learning 또는 Deep Learning을 공부하기 위해 최소한 알아야 하는 범위만을 다룹니다.


### 파이썬 실습시간!

pandas 데이터 분석 라이브러리의 사용법을 간략하게 설명합니다.
데이터의 로드, 파싱 및 변환을 위한 방법을 보여줍니다.

#### 선행지식
1. Python 언어 기초.
2. table 구조의 데이터에 대한 이해. (엑셀 형태의 데이터)

#### 실습목표
1. csv 파일 읽는법. 
2. dataframe을 만드는 법.
3. dataframe을 다루기.
4. head, tail
5. 정렬
6. numpy array와 변환, 
7. 다양한 dataframe 연산.


## 00. 라이브러리 불러오기
* 라이브러리 불러오기
* csv 파일에서 로드하기
* DataFrame 생성하기

In [1]:
import pandas as pd

In [2]:
# Loading CSV files
# file url: https://raw.githubusercontent.com/blackdew/dplus-tensorflow/master/csv/Graduate_apply.csv
df = pd.read_csv('https://raw.githubusercontent.com/blackdew/dplus-tensorflow/master/csv/Graduate_apply.csv', sep=',')
df.head()

Unnamed: 0,admit,gre,gpa,rank
0,0,380,3.61,3
1,1,660,3.67,3
2,1,800,4.0,1
3,1,640,3.19,4
4,0,520,2.93,4


In [3]:
# Dataframes 생성
d = {
   'col1': [2, 3, 4, 5],
   'col2': [0, 0, 1, 0],
   'col3': [1, 2, 3, 4]
}
df1 = pd.DataFrame(d)

In [4]:
# 저장하기 to_csv
df.to_csv('./file.csv', header=False, index=False, encoding='utf-8')

In [5]:
# Dataframes 생성
d = {
   'col1': ['Item0', 'Item0', 'Item1', 'Item1'],
   'col2': ['Gold', 'Bronze', 'Gold', 'Silver'],
   'col3': [1, 2, 3, 4]
}
df1 = pd.DataFrame(d)

## 01. Previewing Data

In [6]:
# 첫 5개 행의 데이터를 보여줍니다.
df.head()

Unnamed: 0,admit,gre,gpa,rank
0,0,380,3.61,3
1,1,660,3.67,3
2,1,800,4.0,1
3,1,640,3.19,4
4,0,520,2.93,4


In [7]:
# 마지막 3개 행의 데이터를 보여줍니다.
df.tail(3)

Unnamed: 0,admit,gre,gpa,rank
397,0,460,2.63,2
398,0,700,3.65,2
399,0,600,3.89,3


In [8]:
# 데이터 프레임 모양 확인 - (rows, cols) tuple
df.shape

(400, 4)

In [9]:
# 칼럼명 출력
df.columns

Index(['admit', 'gre', 'gpa', 'rank'], dtype='object')

In [10]:
# 각 칼럼의 데이터 타입
df.dtypes

admit      int64
gre        int64
gpa      float64
rank       int64
dtype: object

In [11]:
# 각 칼럼의 정보
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 4 columns):
admit    400 non-null int64
gre      400 non-null int64
gpa      400 non-null float64
rank     400 non-null int64
dtypes: float64(1), int64(3)
memory usage: 12.6 KB


In [12]:
# 데이터 출력 - numpy array
df.values

array([[  0.  , 380.  ,   3.61,   3.  ],
       [  1.  , 660.  ,   3.67,   3.  ],
       [  1.  , 800.  ,   4.  ,   1.  ],
       ...,
       [  0.  , 460.  ,   2.63,   2.  ],
       [  0.  , 700.  ,   3.65,   2.  ],
       [  0.  , 600.  ,   3.89,   3.  ]])

## 02. Select Data

### 열조회

In [13]:
# 칼럼명으로 조회 1
subset = df.gre
subset.head()

0    380
1    660
2    800
3    640
4    520
Name: gre, dtype: int64

In [14]:
# 칼럼명으로 조회 2
subset = df['gre']
subset.head()

0    380
1    660
2    800
3    640
4    520
Name: gre, dtype: int64

In [15]:
# 두 개의 칼럼 동시 조회
subset = df[['gpa', 'gre']]
subset.head()

Unnamed: 0,gpa,gre
0,3.61,380
1,3.67,660
2,4.0,800
3,3.19,640
4,2.93,520


### 행조회 1 - loc 
- 인덱스로 조회

In [16]:
# 행 index로 조회
subset = df.loc[0]
subset

admit      0.00
gre      380.00
gpa        3.61
rank       3.00
Name: 0, dtype: float64

In [17]:
# 여러개의 열을 index로 동시 조회
subset = df.loc[[0, 2, 3, 100]]
subset

Unnamed: 0,admit,gre,gpa,rank
0,0,380,3.61,3
2,1,800,4.0,1
3,1,640,3.19,4
100,0,340,3.15,3


### 행조회 2 - iloc 
- 행번호로 조회

In [18]:
# 행번호 1 조회
subset = df.iloc[1]
subset

admit      1.00
gre      660.00
gpa        3.67
rank       3.00
Name: 1, dtype: float64

In [19]:
# 행번호 1~3 조회
subset = df.iloc[1:3]
subset

Unnamed: 0,admit,gre,gpa,rank
1,1,660,3.67,3
2,1,800,4.0,1


In [20]:
# 행번호 0, 2, 3, 100 조회
subset = df.iloc[[0, 2, 3, 100]]
subset

Unnamed: 0,admit,gre,gpa,rank
0,0,380,3.61,3
2,1,800,4.0,1
3,1,640,3.19,4
100,0,340,3.15,3


Q. 인덱스와 행번호의 차이는 무엇일까?
- 데이터를 처리하난 과정에서 행의 위치를 변경할 수 있는데 
- 위치를 변경하는 경우, 행번호는 바뀌지만 인덱스는 바뀌지 않는다.

### 행과 열 동시 조회

In [21]:
# loc로 특절 셀 조회 - row index & column index
df.loc[0, 'gre']

380

In [22]:
# loc로 slicing - row index & column index
subset = df.loc[:5, ['gre', 'gpa']]
subset

Unnamed: 0,gre,gpa
0,380,3.61
1,660,3.67
2,800,4.0
3,640,3.19
4,520,2.93
5,760,3.0


In [23]:
# iloc로 특절 셀 조회 - 행번호 & 열번호
df.iloc[0, 0]

0

In [24]:
# iloc로 slicing - 행번호 & 열번호
subset = df.iloc[0:4, [2, 3]]
subset

Unnamed: 0,gpa,rank
0,3.61,3
1,3.67,3
2,4.0,1
3,3.19,4


## 03. 기초통계

In [25]:
# 간단한 통계 정보 - count, min, max, mean, std
print(df.count())
print(df.min())
print(df.max())
print(df.mean())
print(df.std())

admit    400
gre      400
gpa      400
rank     400
dtype: int64
admit      0.00
gre      220.00
gpa        2.26
rank       1.00
dtype: float64
admit      1.0
gre      800.0
gpa        4.0
rank       4.0
dtype: float64
admit      0.3150
gre      587.3250
gpa        3.3899
rank       2.4850
dtype: float64
admit      0.465098
gre      115.068224
gpa        0.380567
rank       0.944460
dtype: float64


In [26]:
# 간단한 통계 정보 한번에
df.describe()

Unnamed: 0,admit,gre,gpa,rank
count,400.0,400.0,400.0,400.0
mean,0.315,587.325,3.3899,2.485
std,0.465098,115.068224,0.380567,0.94446
min,0.0,220.0,2.26,1.0
25%,0.0,520.0,3.13,2.0
50%,0.0,580.0,3.395,2.0
75%,1.0,660.0,3.67,3.0
max,1.0,800.0,4.0,4.0


In [27]:
# 그룹별 갯수 세기
df.groupby('rank')['admit'].count()

rank
1     61
2    151
3    121
4     67
Name: admit, dtype: int64

In [28]:
# 그룹별 평균 내기
df.groupby('rank')['gre', 'gpa'].mean()

Unnamed: 0_level_0,gre,gpa
rank,Unnamed: 1_level_1,Unnamed: 2_level_1
1,611.803279,3.453115
2,595.033113,3.361656
3,574.876033,3.432893
4,570.149254,3.318358


## 04. Sorting

In [29]:
# index로 정렬
df_sorted = df.sort_index(axis=0, ascending=False)
df_sorted.head()

Unnamed: 0,admit,gre,gpa,rank
399,0,600,3.89,3
398,0,700,3.65,2
397,0,460,2.63,2
396,0,560,3.04,3
395,0,620,4.0,2


In [30]:
# 특정 컬럼의 값으로 정렬
df_sorted = df.sort_values(by=['admit', 'gpa'], ascending=False)
df_sorted.head()

Unnamed: 0,admit,gre,gpa,rank
2,1,800,4.0,1
12,1,760,4.0,1
14,1,700,4.0,1
33,1,800,4.0,3
55,1,740,4.0,3


In [31]:
# iloc, loc 차이 확인
subset = df_sorted.iloc[[0, 1, 2, 3]]
print(subset)

subset = df_sorted.loc[[0, 1, 2, 3]]
print(subset)

    admit  gre  gpa  rank
2       1  800  4.0     1
12      1  760  4.0     1
14      1  700  4.0     1
33      1  800  4.0     3
   admit  gre   gpa  rank
0      0  380  3.61     3
1      1  660  3.67     3
2      1  800  4.00     1
3      1  640  3.19     4


### 실습

In [32]:
dict_data = {
    "날짜": ['06/01', '06/02', '06/03', '06/04', '06/05', '06/06', '06/07'],
    "온도": [21, 23, 32, 30, 28, 33, 22],
    "판매량": [121, 118, 149, 160, 160, 114, 123],
    "휴일": [False, False, False, False, False, False, True]
}

# pandas 라이브러리 호출
import pandas as pd

# dict_data로 dataframe 을 생성하여 data_frame 변수에 담습니다. 
data_frame = pd.DataFrame(dict_data)

# data_frame의 shape를 확인합니다.
print(data_frame.shape)

# data_frame의 칼럼명과 각 칼럼의 데이터 타입을 확인합니다.
print(data_frame.dtypes)

# data_frame의 데이터의 첫 3행의 데이터와 마지막 3행의 데이터를 출력합니다.
print(data_frame.head(n=3))
print(data_frame.tail(n=3))

# data_frame의 데이터를 numpy array로 변환하여 출력합니다.
print(data_frame.values)

# data_frame의 데이터를 '판매량' 칼럼을 기준으로 오름차순으로 정렬합니다. 
print(data_frame.sort_values(by=['판매량'], ascending=True))

(7, 4)
날짜     object
온도      int64
판매량     int64
휴일       bool
dtype: object
      날짜  온도  판매량     휴일
0  06/01  21  121  False
1  06/02  23  118  False
2  06/03  32  149  False
      날짜  온도  판매량     휴일
4  06/05  28  160  False
5  06/06  33  114  False
6  06/07  22  123   True
[['06/01' 21 121 False]
 ['06/02' 23 118 False]
 ['06/03' 32 149 False]
 ['06/04' 30 160 False]
 ['06/05' 28 160 False]
 ['06/06' 33 114 False]
 ['06/07' 22 123 True]]
      날짜  온도  판매량     휴일
5  06/06  33  114  False
1  06/02  23  118  False
0  06/01  21  121  False
6  06/07  22  123   True
2  06/03  32  149  False
3  06/04  30  160  False
4  06/05  28  160  False


## 05. Selecting/Querying

In [33]:
# 각 레코드의 gpa 값이 3.5보다 큰 값인지 체크
bools = df.gpa > 3.5
bools.head()

0     True
1     True
2     True
3    False
4    False
Name: gpa, dtype: bool

In [34]:
# gpa가 3.5보다 큰 레코드만 추출
subset = df[df.gpa > 3.5]
subset.head()

Unnamed: 0,admit,gre,gpa,rank
0,0,380,3.61,3
1,1,660,3.67,3
2,1,800,4.0,1
9,0,700,3.92,2
10,0,800,4.0,4


In [35]:
# rank가 1 또는 2인 레코드만 추출
subset = df[df['rank'].isin([1, 2])]
subset.head()

Unnamed: 0,admit,gre,gpa,rank
2,1,800,4.0,1
5,1,760,3.0,2
6,1,560,2.98,1
7,0,400,3.08,2
9,0,700,3.92,2


In [36]:
# gpa가 3.0보다 크고 rank가 3인 레코드만 추출
subset = df[(df['gpa'] > 3.0) & (df['rank'] == 3)]
subset.head()

Unnamed: 0,admit,gre,gpa,rank
0,0,380,3.61,3
1,1,660,3.67,3
8,1,540,3.39,3
15,0,480,3.44,3
20,0,500,3.17,3


In [37]:
# gpa가 3.0보다 크거나 rank가 3인 레코드만 추출
subset = df[(df['gpa'] > 3.0) | (df['rank'] == 3)]
subset.head()

Unnamed: 0,admit,gre,gpa,rank
0,0,380,3.61,3
1,1,660,3.67,3
2,1,800,4.0,1
3,1,640,3.19,4
7,0,400,3.08,2


In [38]:
d = {
   'col1': ['Item0', 'Item0', 'Item1', 'Item1'],
   'col2': ['Gold', 'Bronze', 'Gold', 'Silver'],
   'col3': [1, 2, 3, 4]
}
df = pd.DataFrame(d)

# 문자열이 들어있는 row만 조회
subset = df1[df1.col2.str.contains('ilver')]
subset

Unnamed: 0,col1,col2,col3
3,Item1,Silver,4


### 실습

In [39]:
# pandas 라이브러리 호출
import pandas as pd

# pandas read_csv 함수를 이용하여 'https://raw.githubusercontent.com/blackdew/dplus-tensorflow/master/csv/Graduate_apply.csv' 파일을 읽고, data_frame 변수에 담습니다. 
data_frame = pd.read_csv('https://raw.githubusercontent.com/blackdew/dplus-tensorflow/master/csv/Graduate_apply.csv', sep=',')

# data_frame의 shape를 확인합니다.
print(data_frame.shape)

# data_frame의 칼럼명과 각 칼럼의 데이터 타입을 확인합니다.
print(data_frame.columns)
print(data_frame.dtypes)

# 'gpa' 칼럼의 데이터를 조회합니다. 
print(data_frame['gpa'].head())

# unique 함수를 가지고 'rank'의 칼럼에 들어있는 데이터의 종류를 확인합니다.
print(data_frame['rank'].unique())

# 100번째 행의 데이터를 조회합니다.
print(data_frame.iloc[100])

# rank가 1인 데이터를 조회합니다. 
subset = data_frame[data_frame['rank'] == 1]
print(subset.head())

# rank가 3, 4인 데이터의 갯수를 확인합니다.
subset = data_frame[data_frame['rank'].isin([3, 4])]
print(len(subset))


(400, 4)
Index(['admit', 'gre', 'gpa', 'rank'], dtype='object')
admit      int64
gre        int64
gpa      float64
rank       int64
dtype: object
0    3.61
1    3.67
2    4.00
3    3.19
4    2.93
Name: gpa, dtype: float64
[3 1 4 2]
admit      0.00
gre      340.00
gpa        3.15
rank       3.00
Name: 100, dtype: float64
    admit  gre   gpa  rank
2       1  800  4.00     1
6       1  560  2.98     1
11      0  440  3.22     1
12      1  760  4.00     1
14      1  700  4.00     1
188


## 05. Modifying Data Frames

In [40]:
# 인덱스와 칼럼명으로 조회 & 수정
df1.loc[1, 'col2'] = 'Bronze and Gold' 
df1

Unnamed: 0,col1,col2,col3
0,Item0,Gold,1
1,Item0,Bronze and Gold,2
2,Item1,Gold,3
3,Item1,Silver,4


In [41]:
# 행번호, 열번호로 조회 & 수정
df1.iloc[1, 1] = 'Bronze again' 
df1

Unnamed: 0,col1,col2,col3
0,Item0,Gold,1
1,Item0,Bronze again,2
2,Item1,Gold,3
3,Item1,Silver,4


In [42]:
# 갯수를 맞추어 주면, 여러개의 셀을 한꺼번에 변경할 수 있다.
df1.loc[1:3, 'col3'] = ['Unknown0'] * 3
df1

Unnamed: 0,col1,col2,col3
0,Item0,Gold,1
1,Item0,Bronze again,Unknown0
2,Item1,Gold,Unknown0
3,Item1,Silver,Unknown0


In [43]:
# 칼럼 전체 데이터 변경
df1['col3'] = ['Unknown1'] * len(df1) 
df1

# 위와 동일하게 동작하는 코드
# df1.loc[:, 'col3'] = ['Unknown2'] * len(df1)

Unnamed: 0,col1,col2,col3
0,Item0,Gold,Unknown1
1,Item0,Bronze again,Unknown1
2,Item1,Gold,Unknown1
3,Item1,Silver,Unknown1


In [44]:
# 새로운 칼럼 1 - 기존 칼럼을 조정하여 새로운 칼럼 추가
df1['col4'] = df1['col3'] + ' New Column'
df1

Unnamed: 0,col1,col2,col3,col4
0,Item0,Gold,Unknown1,Unknown1 New Column
1,Item0,Bronze again,Unknown1,Unknown1 New Column
2,Item1,Gold,Unknown1,Unknown1 New Column
3,Item1,Silver,Unknown1,Unknown1 New Column


In [45]:
# 새로운 칼럼 2 - 기존 칼럼을 조정하여 새로운 칼럼 추가
df1['col4'] = df1['col2'] + df1['col3']
df1

Unnamed: 0,col1,col2,col3,col4
0,Item0,Gold,Unknown1,GoldUnknown1
1,Item0,Bronze again,Unknown1,Bronze againUnknown1
2,Item1,Gold,Unknown1,GoldUnknown1
3,Item1,Silver,Unknown1,SilverUnknown1


## 06. 데이터 전처리 예제

In [46]:
df = pd.read_csv('https://raw.githubusercontent.com/blackdew/dplus-tensorflow/master/csv/Graduate_apply.csv', 
                 sep=',', skipinitialspace=True, engine='python')
df.head()

Unnamed: 0,admit,gre,gpa,rank
0,0,380,3.61,3
1,1,660,3.67,3
2,1,800,4.0,1
3,1,640,3.19,4
4,0,520,2.93,4


In [47]:
# 특정 칼럼의 Dummy Variable을 얻기
df_rank = pd.get_dummies(df['rank'])
df_rank.head()

Unnamed: 0,1,2,3,4
0,0,0,1,0
1,0,0,1,0
2,1,0,0,0
3,0,0,0,1
4,0,0,0,1


In [48]:
# Dummy 데이터를 원래 데이터와 합치기
df_new = pd.concat([df, df_rank], axis=1)
df_new.head()

Unnamed: 0,admit,gre,gpa,rank,1,2,3,4
0,0,380,3.61,3,0,0,1,0
1,1,660,3.67,3,0,0,1,0
2,1,800,4.0,1,1,0,0,0
3,1,640,3.19,4,0,0,0,1
4,0,520,2.93,4,0,0,0,1


In [49]:
# 특정 칼럼 제거하기
df_new = df_new.drop('rank', axis=1)
df_new.head()

Unnamed: 0,admit,gre,gpa,1,2,3,4
0,0,380,3.61,0,0,1,0
1,1,660,3.67,0,0,1,0
2,1,800,4.0,1,0,0,0
3,1,640,3.19,0,0,0,1
4,0,520,2.93,0,0,0,1


In [50]:
# shuffle
df_new = df_new.sample(frac=1).reset_index(drop=True)
df_new.head()

Unnamed: 0,admit,gre,gpa,1,2,3,4
0,0,720,3.94,0,0,1,0
1,0,400,3.65,0,1,0,0
2,0,380,3.33,0,0,0,1
3,0,560,3.04,0,0,1,0
4,0,340,2.92,0,0,1,0


In [51]:
# split
train, test = df_new[:300], df_new[300:]
print(train.shape, test.shape)

(300, 7) (100, 7)


In [52]:
# input, label 분리
train_y = train[train.columns[:1]]
print(train_y.head())
train_x = train.drop(train.columns[:1], axis=1)
print(train_x.head())

test_y = test[test.columns[:1]]
print(test_y.head())
test_x = test.drop(test.columns[:1], axis=1)
print(test_x.head())

   admit
0      0
1      0
2      0
3      0
4      0
   gre   gpa  1  2  3  4
0  720  3.94  0  0  1  0
1  400  3.65  0  1  0  0
2  380  3.33  0  0  0  1
3  560  3.04  0  0  1  0
4  340  2.92  0  0  1  0
     admit
300      0
301      0
302      0
303      0
304      0
     gre   gpa  1  2  3  4
300  660  3.34  0  0  1  0
301  580  3.77  0  0  0  1
302  400  3.51  0  0  1  0
303  500  3.17  0  0  1  0
304  560  3.07  0  1  0  0


In [53]:
import tensorflow as tf

model = tf.keras.models.Sequential()
model.add(tf.keras.layers.Dense(1, input_shape=(6, ), activation="sigmoid"))
model.compile(optimizer="adam", loss="binary_crossentropy", metrics=['accuracy'])

model.fit(train_x, train_y, epochs=5)
model.evaluate(test_x, test_y)

ModuleNotFoundError: No module named 'tensorflow'