# 데이터 분석을 위한 파이썬 기초

### 필요한 module 불러오기

##### numpy : 고성능 과학계산 컴퓨팅과 데이터 분석에 필요한 기본 패키지

##### pandas: 고수준의 자료 구조와 파이썬을 통한 빠르고 쉬운 데이터 분석 도구 포함 


In [1]:
#로컬 네임스페이스로 Series와 DataFrame을 불러오기
from pandas import Series, DataFrame
#pandas를 pd라는 이름으로 불러오기
import pandas as pd
#numpy를 np라는 이름으로 불러오기
import numpy as np
#directory 설정을 위한 module불러오기
import os

In [4]:
#디렉토리 설정하기
os.chdir('C:\\Users\\AJ\\Desktop\\실습\\pydata-book-1st-edition\\pydata-book-1st-edition')
#현재 설정된 디렉토리 확인하기
os.getcwd()

'C:\\Users\\AJ\\Desktop\\실습\\pydata-book-1st-edition\\pydata-book-1st-edition'

### 데이터 분석을 위한 module : pandas 시작하기

1) Series: 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조 
    (색인 (index)를 가지고 있다.)

In [5]:
#list와의 차이점
obj_list=[4, 7, -5, 3]
obj_list

[4, 7, -5, 3]

In [6]:
obj = Series([4, 7, -5, 3])
obj
#왼쪽이 색인, 오른쪽이 각 색인에 대응되는 값이다. 색인은 각 값의 ‘이름’이라고 볼 수 있다. 
#Series 객체 내의 값을 지칭할 때 색인을 이용한다.

0    4
1    7
2   -5
3    3
dtype: int64

In [7]:
#색인이나 값만 각각 불러오기 위해서는 obj.values 혹은 obj.index 를 사용한다. 
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [8]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
#임의로 색인을 지정해 줄 수 있다.
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [10]:
obj2.values

array([ 4,  7, -5,  3], dtype=int64)

In [11]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [250]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [12]:
obj2['a'] #index를 이용하여 특정 값을 가져올 수 있다.

-5

2) DataFrame: 표 같은 스프레드시트 형식의 자료구조. 여러 개의 칼럼으로 구성되어 있고, 각 칼럼은 서로 다른 종류의 값을 담을 수 있다.

In [13]:
#임의의 사전을 생성 (하나의 key가 여러개의 value를 갖도록)
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
data

{'pop': [1.5, 1.7, 3.6, 2.4, 2.9],
 'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
 'year': [2000, 2001, 2002, 2001, 2002]}

In [14]:
frame = DataFrame(data)  #앞서 생성한 사전을 DataFrame으로 만들어준다.

In [15]:
frame #칼럼명이 abc 순으로 정렬된다.

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [16]:
DataFrame(data, columns=['year', 'state', 'pop'])  #칼럼의 순서를 지정해 줄 수 있다.

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [17]:
#추가적으로 index도 지정해 줄 수 있다.
frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                   index=['one', 'two', 'three', 'four', 'five'])
#이때, debt와 같이 없는 칼럼을 추가하면, 아래와 같이 missing value로 이루어진 열이 생성된다.
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [18]:
#Series에서 index를 확인하던 방법과 유사하게 DataFrame의 column을 확인할 수 있다.
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [19]:
#row(행)의 index를 확인하기 위해서는 .index를 이용한다.
frame2.index

Index(['one', 'two', 'three', 'four', 'five'], dtype='object')

In [20]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [21]:
frame2.year  #특정 칼럼(열)을 불러올 때

one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64

In [22]:
frame2.ix['three']  #특정 로우(행)를 불러올 때

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [23]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [27]:
#missing value가 있던 debt열에 특정 값을 넣어주기
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [28]:
frame2['debt'] = np.arange(5.)  #배열된 값 넣어주기
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0


In [314]:
np.arange(6.) #숫자 배열

array([ 0.,  1.,  2.,  3.,  4.,  5.])

In [29]:
#Series를 넣어주는 것도 가능하다. 이때 index가 주어지면 동일한 index에 매칭되어 대입된다.
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
val

two    -1.2
four   -1.5
five   -1.7
dtype: float64

In [30]:
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [45]:
#새로운 열의 추가 
frame2['ddd']= np.nan #값이 없는 열 임의로 만들어 추가하기
frame2

Unnamed: 0,year,state,pop,debt,ddd
one,2000,Ohio,1.5,,
two,2001,Ohio,1.7,-1.2,
three,2002,Ohio,3.6,,
four,2001,Nevada,2.4,-1.5,
five,2002,Nevada,2.9,-1.7,


In [38]:
frame2['eastern']= frame2.state== 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,ddd,eastern
one,2000,Ohio,1.5,,,True
two,2001,Ohio,1.7,-1.2,,True
three,2002,Ohio,3.6,,,True
four,2001,Nevada,2.4,-1.5,,False
five,2002,Nevada,2.9,-1.7,,False


In [41]:
#칼럼 삭제하기
#del frame2['eastern']
del [frame2['eastern'], frame2['ddd']]
frame2.columns

KeyError: 'eastern'

In [46]:
frame2

Unnamed: 0,year,state,pop,debt,ddd
one,2000,Ohio,1.5,,
two,2001,Ohio,1.7,-1.2,
three,2002,Ohio,3.6,,
four,2001,Nevada,2.4,-1.5,
five,2002,Nevada,2.9,-1.7,


In [49]:
frame2['eastern']= frame2['pop']>2
frame2

Unnamed: 0,year,state,pop,debt,ddd,eastern
one,2000,Ohio,1.5,,,False
two,2001,Ohio,1.7,-1.2,,False
three,2002,Ohio,3.6,,,True
four,2001,Nevada,2.4,-1.5,,True
five,2002,Nevada,2.9,-1.7,,True


In [50]:
#transpose 시키기 (행/열의 index를 바꾸기)
frame2.T

Unnamed: 0,one,two,three,four,five
year,2000,2001,2002,2001,2002
state,Ohio,Ohio,Ohio,Nevada,Nevada
pop,1.5,1.7,3.6,2.4,2.9
debt,,-1.2,,-1.5,-1.7
ddd,,,,,
eastern,False,False,True,True,True


### 하나의 로우 또는 칼럼 삭제하기

In [51]:
#임의의 Series를 생성
obj = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [52]:
#index를 이용하여 특정 행 삭제
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [350]:
#list를 이용하여, 다수의 행도 삭제 가능
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [53]:
#임의의 dataframe을 생성
#0부터 16개의 숫자로 이루어진 배열을 4*4로 reshape한 것을 아래의 index와 columns를 붙여 dataframe으로 생성
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [355]:
#DataFrame도 Series와 동일하게 행을 삭제할 수 있다.
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [54]:
#열을 삭제할 때에는 axis=1이라는 조건을 추가해주어야 한다. axis=0은 행을 삭제.
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [55]:
data.drop(['two', 'four'], axis=1)

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


# 실습 예제1
#### Q1. 다음과 같은 DataFrame을 생성하라.  아래의 DataFrame을 생성하여 "practice"로 지정하라.
| | name | age | gradyear | gender |
|---|---|---|---|---|
| 0 | Kim | 19 | 2017 | F |
| 1 | Han | 20 | 2016 | M |
| 2 | Lee | 35 | 2008 | M |
| 3 | Seo | 60 | 1990 | F |
| 4 | Jin | 18 | 2016 | F |
#### Q2. practice의 index를 one, two, three, four, five로 부여하여 practice2를 생성하라

#### Q3. 아래의 DataFrame은 어떻게 만들 수 있을까? 앞서 배운 내용을 바탕으로 아래의 DataFrame을 생성하여 "practice_na"로 지정하라.
| name | age | gradyear | gender | grade |
|---|---|---|---|---|
| Kim | 19 | 2017 | F | NaN |
| Han | 20 | 2016 | M | NaN |
| Lee | 35 | 2008 | M | NaN |
| Seo | 60 | 1990 | F | NaN |
| Jin | 18 | 2016 | F | NaN |


#### Q4. 'gradyear'를 모두 2000으로 바꿔라.
#### Q5. '3번째' 행을 가져오라





In [56]:
#Solutions
practice1 = {'name': ['Kim','Han','Lee','Seo','Jin'], 'age':[19,20,35,60,18], 
            'gradyear':[2017,2016,2008,1990,2016],'gender':['F','M','M','F','F']}

In [57]:
practice=DataFrame(practice1, columns=['name','age','gradyear','gender'])
practice

Unnamed: 0,name,age,gradyear,gender
0,Kim,19,2017,F
1,Han,20,2016,M
2,Lee,35,2008,M
3,Seo,60,1990,F
4,Jin,18,2016,F


In [58]:
practice2 =DataFrame(practice1, columns=['name','age','gradyear','gender'],
                   index=['one', 'two', 'three', 'four', 'five'])
practice2

Unnamed: 0,name,age,gradyear,gender
one,Kim,19,2017,F
two,Han,20,2016,M
three,Lee,35,2008,M
four,Seo,60,1990,F
five,Jin,18,2016,F


In [59]:
#solution
practice_na =DataFrame(practice1, columns=['name','age','gradyear','gender','grade'])
practice_na

Unnamed: 0,name,age,gradyear,gender,grade
0,Kim,19,2017,F,
1,Han,20,2016,M,
2,Lee,35,2008,M,
3,Seo,60,1990,F,
4,Jin,18,2016,F,


In [60]:
#혹은

practice['grade']=np.nan
practice_na=practice
practice_na

Unnamed: 0,name,age,gradyear,gender,grade
0,Kim,19,2017,F,
1,Han,20,2016,M,
2,Lee,35,2008,M,
3,Seo,60,1990,F,
4,Jin,18,2016,F,


In [61]:
practice_na['gradyear']=2000
practice_na

Unnamed: 0,name,age,gradyear,gender,grade
0,Kim,19,2000,F,
1,Han,20,2000,M,
2,Lee,35,2000,M,
3,Seo,60,2000,F,
4,Jin,18,2000,F,


In [70]:
practice2.ix['three']

name         Lee
age           35
gradyear    2008
gender         M
Name: three, dtype: object

### 색인하기, 선택하기, 거르기

In [71]:
obj = Series(np.arange(4.), index=['a', 'b', 'c', 'd'])

#index를 이용하여 값을 가져오기
obj['b']

1.0

In [360]:
#위치를 이용하여 값을 가져오기. 파이썬에서는 0이 첫번째를 지칭함을 주의
obj[1]

1.0

In [364]:
#구간을 지정하여 값 가져오기 
obj[1:3]  #두번째 부터 네번째 전까지 (이때 ~부터는 ~포함하고, ~~까지는 ~~미포함임을 주의)

b    1.0
c    2.0
dtype: float64

In [373]:
obj[-2] #끝에서 두번째 값 가져오기

2.0

In [365]:
#list를 이용하여 다수의 값을 가져올 수 있다. 
obj[['b', 'a', 'd']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [366]:
obj[[1, 3]]

b    1.0
d    3.0
dtype: float64

In [72]:
#특정 조건을 만족하는 값 가져오기 
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

In [368]:
obj['a':'c']  #'a'부터 'c'까지 (색인으로 지칭할 때는 양쪽 모두 포함)

a    0.0
b    1.0
c    2.0
dtype: float64

In [369]:
#활용 예시
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [74]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [75]:
data[:2] #세번째 행 까지 (미포함) 

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [76]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [81]:
#행과 열에 대한 index를 모두 이용하여 값 가져오기

data.ix[['Colorado'],['two', 'three']]

Unnamed: 0,two,three
Colorado,5,6


In [80]:
data.ix[['Colorado', 'Utah'], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,4,5
Utah,11,8,9


In [392]:
data.ix[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [82]:
data.ix[:'Utah', 'two']

Ohio        1
Colorado    5
Utah        9
Name: two, dtype: int32

In [83]:
data.ix[data.three > 5, :3]

Unnamed: 0,one,two,three
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


# 실습 예제2
#### Q6. 앞서 만든 "practice2" DataFrame을 다음과 같이 수정하라. 
| | name | age | gradyear | gender | Male|
|---|---|---|---|---|---|
|one| Kim | 19 | 2017 | F | False |
|two| Han | 20 | 2016 | M | True |
|three| Lee | 35 | 2008 | M | True |
|four| Seo | 60 | 1990 | F | False |
|five| Jin | 18 | 2016 | F | False |
#### Q7. 수정된 practice2에서 20세 이상으로만 구성된 DataFrame을 생성하여 "practice4"로 지정하라

#### Q8. 수정된 practice2에서 남자로만 구성된 DataFrame을 생성하여 "practice5"로 지정하라.

# .




In [468]:
#solution
practice2['Male']= practice2['gender']=='M'
practice2

Unnamed: 0,name,age,gradyear,gender,Male
one,Kim,19,2017,F,False
two,Han,20,2016,M,True
three,Lee,35,2008,M,True
four,Seo,60,1990,F,False
five,Jin,18,2016,F,False


In [469]:
practice4=practice2.ix[practice2['age']>=20]
practice4

Unnamed: 0,name,age,gradyear,gender,Male
two,Han,20,2016,M,True
three,Lee,35,2008,M,True
four,Seo,60,1990,F,False


In [474]:
practice5=practice2.ix[practice2['gender']=='M']
practice5

Unnamed: 0,name,age,gradyear,gender,Male
two,Han,20,2016,M,True
three,Lee,35,2008,M,True


## 기술통계 계산과 요약

In [117]:
df=data.T

In [118]:
df

Unnamed: 0,Ohio,Colorado,Utah,New York
one,0,4,8,12
two,1,5,9,13
three,2,6,10,14
four,3,7,11,15


In [119]:
#각 칼럼별 합계를 반환해준다. (sum의 방향을 열 방향으로)
df.sum()
df.sum(axis=0)  #같은 결과,defalut 값이 0으로 지정됨

Ohio         6
Colorado    22
Utah        38
New York    54
dtype: int64

In [120]:
df.sum(axis=1)  #sum의 방향을 행 방향으로 

one      24
two      28
three    32
four     36
dtype: int64

In [123]:
df['ddd']=np.nan

In [124]:
df

Unnamed: 0,Ohio,Colorado,Utah,New York,ddd
one,0,4,8,12,
two,1,5,9,13,
three,2,6,10,14,
four,3,7,11,15,


In [126]:
df.mean(axis=0, skipna=False) 
#missing value를 skip 하지 않고 계산하면 NaN을 반환

Ohio         1.5
Colorado     5.5
Utah         9.5
New York    13.5
ddd          NaN
dtype: float64

In [127]:
df.idxmax()  #각 열에서 max 값을 주는 행의 index 반환

Ohio        four
Colorado    four
Utah        four
New York    four
ddd          NaN
dtype: object

In [128]:
df.idxmax(axis=1) #각 행에서 max 값을 주는 열의 index 반환

one      New York
two      New York
three    New York
four     New York
dtype: object

In [129]:
df.describe() #열별 요약 통계량을 반환

Unnamed: 0,Ohio,Colorado,Utah,New York,ddd
count,4.0,4.0,4.0,4.0,0.0
mean,1.5,5.5,9.5,13.5,
std,1.290994,1.290994,1.290994,1.290994,
min,0.0,4.0,8.0,12.0,
25%,0.75,4.75,8.75,12.75,
50%,1.5,5.5,9.5,13.5,
75%,2.25,6.25,10.25,14.25,
max,3.0,7.0,11.0,15.0,


In [130]:
# 문자열 series
obj = Series(['a', 'a', 'b', 'c'])

In [111]:
obj

0    a
1    a
2    b
3    c
dtype: object

In [131]:
obj.describe()  #문자열에 대해서는 아래와 같은 요약 통계량을 반환한다. 

count     4
unique    3
top       a
freq      2
dtype: object

### 유일 값, 값 세기

In [132]:
uniques = obj.unique()  #유일한 값 확인하기
uniques

array(['a', 'b', 'c'], dtype=object)

In [133]:
obj.value_counts()  #값 별로 개수 세기

a    2
c    1
b    1
dtype: int64

In [134]:
data = DataFrame({'Qu1': [1, 3, 4, 3, 4],
                  'Qu2': [2, 3, 1, 2, 3],
                  'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [135]:
data=df.T

In [136]:
data

Unnamed: 0,one,two,three,four
Ohio,0.0,1.0,2.0,3.0
Colorado,4.0,5.0,6.0,7.0
Utah,8.0,9.0,10.0,11.0
New York,12.0,13.0,14.0,15.0
ddd,,,,


In [137]:
#각 값들을 열별로 개수 세기
result = data.apply(pd.value_counts).fillna(0)  #fillna(0)은 개수가 없는 경우 0을 대입하게 함.
result

Unnamed: 0,one,two,three,four
0.0,1.0,0.0,0.0,0.0
1.0,0.0,1.0,0.0,0.0
2.0,0.0,0.0,1.0,0.0
3.0,0.0,0.0,0.0,1.0
4.0,1.0,0.0,0.0,0.0
5.0,0.0,1.0,0.0,0.0
6.0,0.0,0.0,1.0,0.0
7.0,0.0,0.0,0.0,1.0
8.0,1.0,0.0,0.0,0.0
9.0,0.0,1.0,0.0,0.0


# 실습 예제3
#### Q9. 앞서 만든 수정된 "practice2" DataFrame을 가져오라. 
| name | age | gradyear | gender | Male|
|---|---|---|---|---|
| Kim | 19 | 2017 | F | False |
| Han | 20 | 2016 | M | True |
| Lee | 35 | 2008 | M | True |
| Seo | 60 | 1990 | F | False |
| Jin | 18 | 2016 | F | False |

#### Q10. 가장 나이가 많은 사람의 이름을 찾아라.
#### Q11. 여자가 몇 명인지 세어 개수를 구하라.
#### Q12. 열별 요약통계량을 구하라.
# .



In [481]:
practice2['name'][practice2['age'].idxmax()]

'Seo'

In [486]:
practice2['gender'].value_counts()
practice2['gender'][practice2['gender']=='F'].value_counts() 

F    3
Name: gender, dtype: int64