Pandas -> 데이터를 저장하고 간략하게 분석하는 도구 (엑셀, RDB)

matplotlib -> 데이터를 시각화 해주는 패키지 (그래프 그리기)

scikit learn -> 머신러닝 함수를 구현해주는 패키지

# 01. 주요 패키지 실습 (Pandas)

### Pandas
+ (테이블 형테의) 데이터 분석을 쉽게 할 수 있도록 해주는 패키지
+ pandas가 제공하는 dataframe 같은 경우, 엑셀, RDB의 테이블을 다루는 것과 유사.

## Pandas 실습

### 1) pandas의 자료구조
- Series : named list(각 요소가 이름을 가지는 인덱스)
- DataFrame : Series의 집합 (테이블 형태)<br><br>

<img src="./figures/pandas.png" width="500" align="left"/><br><br>
<br><br><br><br><br><br>

<br><br>
### 2) pandas 자료구조 기초
- data 생성 및 접근
- Dataframe 기초 산술 통계

### 3) Dataframe 활용
- .csv 파일을 읽어서 분석하기


#  

### 1) Series 자료구조

##### 1-1) Serise 생성

In [None]:
# Pandas를 사용하기 위해서는 
# 패키지를 설치

In [5]:
# 'pandas' 라이브러리를 'pd' 라는 이름으로 사용하겠달. 
import pandas as pd

In [6]:
import pandas as pd # pandas를 사용하기 위해 패키지를 import

# Series 객체 생성
# Serise 객체의 요소값에는 데이터 타입에 관계없이 값을 저장할 수 있다.
obj = pd.Series([4,'a',-1,True])
print(obj)

0       4
1       a
2      -1
3    True
dtype: object


+ 결과 화면을 보시면 0,1,2,3의 Index를 가지고 있는 것을 확인 할 수 있습니다
    + 하지만 Series에 index에 단순한 Seq가 아닌, 별개의 이름을 부여할 수 있습니다.

In [7]:
# Index를 통한 Serise 객체 접근
# 리스트와 동일하게 접근 가능
print(obj[0])
print (obj[3])

4
True


In [9]:
# index에 이름을 부여하여 Serise 객체 생성

# 'obj'라는 Series 객체에 'a','b','c','d' 이름을 부여
# Serise의 요소 수와, index의 수가 다르면 오류 발생

# 기존 0,1,2,3에서 a,b,c,d로 변경 됨
# 인덱스 할당
# 인덱스에 이름을 부여할 수 있고, 이름이 할당되면 이름으로도 값에 접근이 가능하다.
obj.index = ['a','b','c','d']
print(obj)

# 두 가지 방법으로 접근가능
# 인덱스에 이름을 부여할 수 있고, 이름이 할당되면 이름으로도 값에 접근이 가능하다.
print('\n\nobj a index: ', obj['c'])
print('obj a index: ', obj[0])

a       4
b       a
c      -1
d    True
dtype: object


obj a index:  -1
obj a index:  4


In [10]:
# 생성과 동시에 Index 부여
new_obj = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(new_obj)

a    1
b    2
c    3
d    4
dtype: int64


In [12]:
print(new_obj['d'])

4


#  

##### 1-2) Series 조회 및 추가
    + 값을 조회 할 떄는 'values'를 사용합니다
    + index만 조회할 때는 'index'를 사용합니다

In [13]:
# Serise 생성
obj = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(obj)

a    1
b    2
c    3
d    4
dtype: int64


In [14]:
# Serise의 값과 인덱스를 조회 가능
print("Series 값 조회: ", obj.values)
print("Series 인덱스 조회: ", obj.index)

Series 값 조회:  [1 2 3 4]
Series 인덱스 조회:  Index(['a', 'b', 'c', 'd'], dtype='object')


In [16]:
for i in obj.values:
    print(i)

1
2
3
4


#  

##### 1-3) Series Slicing
+ Series의 한 요소만 불러오는게 아니라, 여러개의 값을 한번에 가져오고 싶으실 땐 Slicing을 이용하시면 됩니다
+ list slicing과 유사

In [17]:
my_list = [1,2,3,4]
my_list[0:2]

[1, 2]

In [18]:
# Serise 생성
obj = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])

# 주의 할 것!
# 인덱스 번호와 이름으로 slicing 할 떄 결과가 다름
print("index name:\n", obj["a":"c"]) # named index를 통해 'a' 부터 'c'까지의 값을 불러 옴
print("\nindex number:\n", obj[0:2]) # index를 통해 0 부터 1 까지의 값을 불러 옴

index name:
 a    1
b    2
c    3
dtype: int64

index number:
 a    1
b    2
dtype: int64


In [21]:
# 조건부 Series 슬라이싱
obj = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])

# boolean index
# obj>2 = [False, False, True, True]
print(obj[obj>0])

a    1
b    2
c    3
d    4
dtype: int64


In [23]:
# Series의 값만 Slicing 해고 싶은 경우 values를 이용
# 마지막 요소값을 제외한 값을 출력할 때
print(obj[0:-2].values)

[1 2]


#   

##### 1-4) 기타 Serise 주요함수

In [26]:
obj = pd.Series([1,None,2,3])
print (obj)

0    1.0
1    NaN
2    2.0
3    3.0
dtype: float64


In [27]:
# csv로 부터 데이터를 읽어오는 경우가 많음
# 데이터가 잘 읽어 왔는지, 읽어온 데이터에 값이 빈건 없는지를 확인할 때

# null 여부 확인
print("\nelement null check:\n", obj.isnull())

# null이 아닌지 여부 확인
print("\nelement not null check:\n", obj.notnull())

# null 요소에 value 할당하기
print ("\n")
print(obj.fillna(20))


element null check:
 0    False
1     True
2    False
3    False
dtype: bool

element not null check:
 0     True
1    False
2     True
3     True
dtype: bool


0     1.0
1    20.0
2     2.0
3     3.0
dtype: float64


#   

### 2) DataFrame
+ Series들을 하나의 열로 취급한 집합.
+ 데이터를 표(Table)로 처리하는 자료구조.
+ SQL의 기능들이 구현되어 있습

##### 2-1) Dataframe 생성

In [28]:
# 리스트를 이용한 Dataframe 생성
import pandas as pd

frame = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
frame

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [29]:
import pandas as pd

#[age, height, weight]
X = [20,181,78], [22,175,70],[18,164,52]

frame = pd.DataFrame(X)
frame

Unnamed: 0,0,1,2
0,20,181,78
1,22,175,70
2,18,164,52


In [30]:
# DataFrame 인덱스 지정
import pandas as pd

#열 인덱스 지정, columns = [열 인덱스 명1, 열 인덱스 명2, ...]
frame_col = pd.DataFrame(X, columns =['age','height','weight']) 
frame_col

Unnamed: 0,age,height,weight
0,20,181,78
1,22,175,70
2,18,164,52


In [31]:
#행 인덱스 지정, index = [행 인덱스 명1, 행 인덱스 명2, ...]
frame_index = pd.DataFrame(X,index =['홍길동','철수','영희']) 
frame_index

Unnamed: 0,0,1,2
홍길동,20,181,78
철수,22,175,70
영희,18,164,52


In [32]:
#행/열 인덱스 지정
frame_col_index = pd.DataFrame(X,columns=['age','height','weight'],index =['홍길동','철수','영희'])
frame_col_index

Unnamed: 0,age,height,weight
홍길동,20,181,78
철수,22,175,70
영희,18,164,52


#  

In [33]:
# dictionary를 이용한 dataframe 생성 (빈번하게 사용 됨)
import pandas as pd

# dictionary의 key 값이 자동으로 column 이름으로 할당 됨
# 피클 -> 파이썬의 딕셔너리리 자료구조를 저장하고, 분석할 때 pandas로 읽어서 분석하기도 한다.
data = {
    'age' : [20,22,18],
    'height' : [181,175,164],
    'weight' : [78,70,52]
}

frame = pd.DataFrame(data)
frame

Unnamed: 0,age,height,weight
0,20,181,78
1,22,175,70
2,18,164,52


In [34]:
# 인덱스 지정
frame_index = pd.DataFrame(data,index = ['홍길동','철수','영희'])
frame_index

Unnamed: 0,age,height,weight
홍길동,20,181,78
철수,22,175,70
영희,18,164,52


#   

#### 2-2) dataframe 조회 및 추가
- DataFrame은 한 열이 하나의 Series이기 때문에, column 명을 index로 취급 하셔서 조회를 진행할 수 있습니다.

In [37]:
# dataframe 조회 (열 조회 방법)
import pandas as pd

data = {
    'age' : [20,22,18],
    'height' : [181,175,164],
    'weight' : [78,70,52]
}

frame = pd.DataFrame(data,index = ['홍길동','철수','영희'])
frame

Unnamed: 0,age,height,weight
홍길동,20,181,78
철수,22,175,70
영희,18,164,52


In [38]:
#열 조회
print ("<특정 열 조회>")

# 두 가지 방법으로 조회 가능 (결과는 Serise 객체)
print (frame['age']) # 이 방법이 더 많이 사용 

print("\n")
print(frame.age)

<특정 열 조회>
홍길동    20
철수     22
영희     18
Name: age, dtype: int64


홍길동    20
철수     22
영희     18
Name: age, dtype: int64


In [41]:
new_frame = frame['age']
print (type(new_frame))

<class 'pandas.core.series.Series'>


In [46]:
print("\n<특정 열의 특정 값 조회>")

print(frame['age']['영희'])
print(frame.age[1])


<특정 열의 특정 값 조회>
18
22


In [48]:
# DataFrame에서 하나의 열을 가져오면 -> Serise 객체가 됨
# 이후에는 Serise 객체처럼 활용

print("\n<특정 열의 Slicing>")
print(frame['age'][:2])
print(frame.age[:2])

print("\n\n<특정 열의 Conditional>")
print(frame['age'][frame['age']<20])
print(frame.age[frame['age']<20])


<특정 열의 Slicing>
홍길동    20
철수     22
Name: age, dtype: int64
홍길동    20
철수     22
Name: age, dtype: int64


<특정 열의 Conditional>
영희    18
Name: age, dtype: int64
영희    18
Name: age, dtype: int64


#   

In [49]:
frame

Unnamed: 0,age,height,weight
홍길동,20,181,78
철수,22,175,70
영희,18,164,52


In [None]:
# dataframe 조회 (행 조회 방법)
print ("\n\n<특정 행 조회>")
# print (frame['홍길동'])   # 조회가 될까요? 주석을 풀고 살행해 봅시다.

+ DataFrame의 행 조회는 loc와 iloc를 통해 조회 가능
    + loc: index name으로 조회
    + iloc: index Seq로 조회

In [52]:
#행 조회
print ("\n\n<특정 행 조회>")
print (frame.loc['홍길동'])

print("\n\n<loc를 Seq로 조회할 경우>")
# print(frame.loc[0])   # 조회가 될까요? 주석을 풀고 살행해 봅시다.



<특정 행 조회>
age        20
height    181
weight     78
Name: 홍길동, dtype: int64


<loc를 Seq로 조회할 경우>


In [54]:
print("\n\n<iloc로 조회할 경우>")
print(frame.iloc[2])
# print(frame.iloc['홍길동'])  # 조회가 될까요? 주석을 풀고 살행해 봅시다.



<iloc로 조회할 경우>
age        18
height    164
weight     52
Name: 영희, dtype: int64


In [56]:
print (type(frame.loc['철수']))

<class 'pandas.core.series.Series'>


Unnamed: 0,age,height,weight
홍길동,20,181,78
철수,22,175,70
영희,18,164,52


In [57]:
frame.loc['철수']

age        22
height    175
weight     70
Name: 철수, dtype: int64

In [62]:
print( type(frame.loc['철수':'영희'])) # Serise???
frame.loc['철수':'영희']

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,age,height,weight
철수,22,175,70
영희,18,164,52


In [64]:
# DataFrame 행 별 값 조회하기

print('<loc로 특정 값 조회하기>')
print(frame.loc['철수']['age'])
print(frame.loc['철수'][0])

print('\n<loc로 Slicing 조회하기>')
print(frame.loc['철수':'영희'][1:3])

print('\n<loc로 boolean 조회하기>')
print(frame.loc[frame['weight'].values>=60])


<loc로 특정 값 조회하기>
22
22

<loc로 Slicing 조회하기>
    age  height  weight
영희   18     164      52

<loc로 boolean 조회하기>
     age  height  weight
홍길동   20     181      78
철수    22     175      70


In [65]:
frame

Unnamed: 0,age,height,weight
홍길동,20,181,78
철수,22,175,70
영희,18,164,52


In [68]:
# 철수의 나이를 조회할 때,
frame['age']['철수'] # 실행이 될까요?

# 반대로
frame.loc['철수']['age'] # 실행이 될까요??

22

In [70]:
# 아래 두 명령의 결과를 비교해 보고 다르게 나타나는 이유는??
print(frame.loc['철수'][0:1]) # -> Serise
print("")
print(frame.loc['철수':'영희'][0:1]) # -> DataFrame

# Serise 객체와  DataFrame의 차이로 인해 출력 결과가 다르다

age    22
Name: 철수, dtype: int64

    age  height  weight
철수   22     175      70


In [71]:
# Series과 DataFrame의 차이로 인해 슬라이싱 결과가 다르게 나타남
print(type(frame.loc['철수']))
print(type(frame.loc['철수':'영희']))

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


In [75]:
print('<iloc로 특정 값 조회하기>')
print(frame.iloc[1]['age'])
print(frame.iloc[1][0])
print(frame.iloc[1,2])

print('\n<iloc로 Slicing 조회하기>')

# 동일한 결과 출력
print(frame.iloc[0:-1][0:]) # 이 방법을 더 많이 사용함
print(frame.iloc[0:-1, 0:])

print('\n<iloc로 조건식을 이용하여 조회하기>')
print(frame.iloc[frame['age'].values>=20])


<iloc로 특정 값 조회하기>
22
22
70

<iloc로 Slicing 조회하기>
     age  height  weight
홍길동   20     181      78
철수    22     175      70
     age  height  weight
홍길동   20     181      78
철수    22     175      70

<iloc로 조건식을 이용하여 조회하기>
     age  height  weight
홍길동   20     181      78
철수    22     175      70


In [76]:
## 정리

# DataFrame -> index, Column으로 이루어져 있다.
# 접근할 때, index 또는 Column 명으로 접근한다.

# Column 명으로 접근할 떄는 dic의 key값을 통해 값을 가져오듯이 접근 할 수 있다.
# index를 통해서 접근할 때는, loc 또는 iloc 를 통해서 가져와야 된다.

#### DataFrame 추가 및 삭제

In [77]:
frame = pd.DataFrame([[20,181,78], [22,175,70],[18,164,52]],
                    columns = ['age','height','weight'],
                    index = ['홍길동','철수','영희'])

In [78]:
frame

Unnamed: 0,age,height,weight
홍길동,20,181,78
철수,22,175,70
영희,18,164,52


In [95]:
# DataFrame에 행 추가하기

frame = pd.DataFrame([[20,181,78], [22,175,70],[18,164,52]],
                    columns = ['age','height','weight'],
                    index = ['홍길동','철수','영희'])

frame_add_col = pd.DataFrame(frame,columns= ['age','height','weight','blood_type'])
frame_add_col

Unnamed: 0,age,height,weight,blood_type
홍길동,20,181,78,
철수,22,175,70,
영희,18,164,52,


In [96]:
# index로 직접 할당
frame_add_col['blood_type'] = ['A','B','O']
frame_add_col

Unnamed: 0,age,height,weight,blood_type
홍길동,20,181,78,A
철수,22,175,70,B
영희,18,164,52,O


In [81]:
# 인덱스 추가하기
frame_add_index = frame_add_col.copy()
frame_add_index.loc['영미'] = [25,170,50,'AB']
frame_add_index

Unnamed: 0,age,height,weight,blood_type
홍길동,20,181,78,A
철수,22,175,70,B
영희,18,164,52,O
영미,25,170,50,AB


#   

##### 2-3) 행$\cdot$열 삭제하기
+ drop 메소드를 사용합니다.
    + 단 리턴 되는 값을 재 할당 해주셔야 적용됩니다.
        + 만약 해당 df에 바로 적용하고 싶으시다면 inplace = True 옵션적용.

In [97]:
frame_add_col

Unnamed: 0,age,height,weight,blood_type
홍길동,20,181,78,A
철수,22,175,70,B
영희,18,164,52,O


In [90]:
# column  삭제
print('remove age column:\n')
frame_add_col.drop("age", axis=1)

remove age column:



Unnamed: 0,height,weight
홍길동,181,78
철수,175,70
영희,164,52


In [98]:
# index  삭제
print('remove age column:\n')

# axis == 1 --> column 삭제
# axis == 0 --> index 삭제
frame_add_col.drop("홍길동", axis=0)

remove age column:



Unnamed: 0,age,height,weight,blood_type
철수,22,175,70,B
영희,18,164,52,O


In [92]:
print("check origin source:\n")
frame_add_col

check origin source:



Unnamed: 0,age,height,weight
홍길동,20,181,78
철수,22,175,70
영희,18,164,52


In [93]:
# 변형 결과를 반영하기 위해서는 'inplace=True' 옵션을 주어야 함
frame_add_col.drop("age", axis=1, inplace=True)

In [94]:
frame_add_col

Unnamed: 0,height,weight
홍길동,181,78
철수,175,70
영희,164,52


#### 2-4) pandas 기초 산술 통계
+ 제공 되는 함수는 다음과 같습니다

![pandas statics](./figures/pandas_statics.png)

In [100]:
import pandas as pd

data = pd.DataFrame([[20,181,78,'A'], [22,175,70,'B'],[18,164,52,'O']],
                    columns = ['age','height','weight','blood_type'],
                    index = ['홍길동','철수','영희'])

In [101]:
data

Unnamed: 0,age,height,weight,blood_type
홍길동,20,181,78,A
철수,22,175,70,B
영희,18,164,52,O


In [102]:
# 데이터의 평균을 보여 줌
print(data.mean())

age        20.000000
height    173.333333
weight     66.666667
dtype: float64


In [106]:
# 평균
print ("<평균>")
print (data.mean()) 

# 중앙값
print ("\n\n<중앙값>")
print (data.median())

# 최대값 index 반환
print ("\n\n<최대값 index 반환>")
print (data["height"].idxmin())


# 총 합
print ("\n\n<총합>")
print (data.sum())

<평균>
age        20.000000
height    173.333333
weight     66.666667
dtype: float64


<중앙값>
age        20.0
height    175.0
weight     70.0
dtype: float64


<최대값 index 반환>
영희


<총합>
age            60
height        520
weight        200
blood_type    ABO
dtype: object


In [107]:
# 기초 통계량 전반을 확인할 수 있는 함수
# 해당 메소드는 산술 통계량만 제공해주기 때문에, 다른 값들이 들어간 열은 제외
data.describe()

Unnamed: 0,age,height,weight
count,3.0,3.0,3.0
mean,20.0,173.333333,66.666667
std,2.0,8.621678,13.316656
min,18.0,164.0,52.0
25%,19.0,169.5,61.0
50%,20.0,175.0,70.0
75%,21.0,178.0,74.0
max,22.0,181.0,78.0


### 3) DataFrame 활용
+ 'Salaries.csv'을 읽어 분석

#### 3-1) csv 파일을 읽어 Dataframe 만들기

In [108]:
import pandas as pd

# csv 파일을 읽어 DataFrame 객체 생성
data = pd.read_csv('Salaries.csv')

In [171]:
data

Unnamed: 0,EmployeeName,BasePay,OvertimePay,OtherPay,TotalPay,Year
0,NATHANIEL FORD,167411.18,0.00,400184.25,567595.43,2011
1,GARY JIMENEZ,155966.02,245131.88,137811.38,538909.28,2011
2,ALBERT PARDINI,212739.13,106088.18,16452.60,335279.91,2011
3,CHRISTOPHER CHONG,77916.00,56120.71,198306.90,332343.61,2011
4,PATRICK GARDNER,134401.60,9737.00,182234.59,326373.19,2011
...,...,...,...,...,...,...
95,Thomas A Siragusa,207437.76,67712.84,20743.71,295894.31,2014
96,Denise A Schmitt,268632.02,0.00,6192.08,274824.10,2014
97,Lyn Tomioka,268632.00,0.00,6192.08,274824.08,2014
98,Arthur W Kenney,207437.76,31868.28,49941.59,289247.63,2014


In [109]:
print (type(data))

<class 'pandas.core.frame.DataFrame'>


In [172]:
# data의 상위 5개 정보를 출력
data.head()

Unnamed: 0,EmployeeName,BasePay,OvertimePay,OtherPay,TotalPay,Year
0,NATHANIEL FORD,167411.18,0.0,400184.25,567595.43,2011
1,GARY JIMENEZ,155966.02,245131.88,137811.38,538909.28,2011
2,ALBERT PARDINI,212739.13,106088.18,16452.6,335279.91,2011
3,CHRISTOPHER CHONG,77916.0,56120.71,198306.9,332343.61,2011
4,PATRICK GARDNER,134401.6,9737.0,182234.59,326373.19,2011


In [113]:
# 데이터의 하위 3개 정보를 출력
data.tail(3)

Unnamed: 0,EmployeeName,BasePay,OvertimePay,OtherPay,TotalPay,Year
97,Lyn Tomioka,268632.0,0.0,6192.08,274824.08,2014
98,Arthur W Kenney,207437.76,31868.28,49941.59,289247.63,2014
99,Greg B Pizarro,233386.01,10794.09,40515.0,284695.1,2014


In [119]:
# data의 임의의 10개 데이터 항목 출력
data.sample(10)

Unnamed: 0,EmployeeName,BasePay,OvertimePay,OtherPay,TotalPay,Year
92,Mark A Gonzales,260728.0,0.0,22933.73,283661.73,2014
47,James Dudley,263426.5,0.0,22857.87,286284.37,2012
55,David L Franklin,215265.6,87985.24,30637.48,333888.32,2013
95,Thomas A Siragusa,207437.76,67712.84,20743.71,295894.31,2014
45,Michael Morris,223371.0,7415.52,63426.03,294212.55,2012
24,JOSEPH DRISCOLL,140546.86,97868.77,31909.28,270324.91,2011
69,John J Loftus,274126.5,0.0,13358.1,287484.6,2013
53,Ellen G Moffatt,272855.51,23727.91,38954.54,335537.96,2013
82,Harlan L Kelly-Jr,310161.02,0.0,0.0,310161.02,2014
15,RICHARD CORRIEA,198778.01,73478.2,13957.65,286213.86,2011


In [120]:
# 연도별 기본급여가 어떻게 변했는지를 파악하고 싶다.
# 평균 급여가 연도에 따라서 얼마나 변했는지

# data 중 'BasePay', 'Year' 영역만 할당
basePay_year = data[['BasePay','Year']]
basePay_year.head()

Unnamed: 0,BasePay,Year
0,167411.18,2011
1,155966.02,2011
2,212739.13,2011
3,77916.0,2011
4,134401.6,2011


In [123]:
# DataFrame을 연도 별 기본 급여로 분할
basePay_2011 = basePay_year[basePay_year['Year']==2011]
basePay_2012 = basePay_year[basePay_year['Year']==2012]
basePay_2013 = basePay_year[basePay_year['Year']==2013]
basePay_2014 = basePay_year[basePay_year['Year']==2014]
basePay_2011

Unnamed: 0,BasePay,Year
0,167411.18,2011
1,155966.02,2011
2,212739.13,2011
3,77916.0,2011
4,134401.6,2011
5,118602.0,2011
6,92492.01,2011
7,256576.96,2011
8,176932.64,2011
9,285262.0,2011


In [124]:
# 연도별 평균 기본 급여 
# 평균 -> mean() 
m_2011 = basePay_2011['BasePay'].mean()
m_2012 = basePay_2012['BasePay'].mean()
m_2013 = basePay_2013['BasePay'].mean()
m_2014 = basePay_2014['BasePay'].mean()

print (m_2011)
print (m_2012)
print (m_2013)
print (m_2014)

188509.70320000005
207405.85199999998
245438.01280000005
247089.89159999997


#   

#### 3-2) query 적용
+ 데이터를 표로 불러들여 왔을 뿐 실제 연산은 일반 리스트 다루는 것과 비슷

In [128]:
# BasePay가 200,000이 넘는 사람 수
print(sum(data.BasePay>200000))

# 초과수당 + 기타수당이 기본급여보다 높은 사람의 수
data.query('BasePay < OvertimePay + OtherPay').count()
# print(len(data.query('BasePay < OvertimePay + OtherPay')))

60


EmployeeName    17
BasePay         17
OvertimePay     17
OtherPay        17
TotalPay        17
Year            17
dtype: int64

In [129]:
# 2011년 BasePay가 200,000 초과인 직원 목록
data.query('BasePay>200000 and Year==2011')

Unnamed: 0,EmployeeName,BasePay,OvertimePay,OtherPay,TotalPay,Year
2,ALBERT PARDINI,212739.13,106088.18,16452.6,335279.91,2011
7,DAVID KUSHNER,256576.96,0.0,51322.5,307899.46,2011
9,JOANNE HAYES-WHITE,285262.0,0.0,17115.73,302377.73,2011
12,EDWARD HARRINGTON,294580.02,0.0,0.0,294580.02,2011
13,JOHN MARTIN,271329.03,0.0,21342.59,292671.62,2011
16,AMY HART,268604.57,0.0,16115.86,284720.43,2011
19,ELLEN MOFFATT,257510.59,880.16,16159.5,274550.25,2011
20,VENUS AZAR,257510.48,0.0,16679.79,274190.27,2011
21,JUDY MELINEK,257510.44,377.21,15883.56,273771.21,2011


In [130]:
# 2011년 BasePay가 200,000 초과인 직원 수
print (len(data.query('BasePay>200000 and Year==2011')))

9


In [131]:
# 연도별 BasePay의 변화량을 확인하고자 하는 경우

# groupby를 이용하여 연도별 평균 BasePay를 계산 
basePay_year = data[['BasePay','Year']]
basePay_year.groupby('Year').mean()

Unnamed: 0_level_0,BasePay
Year,Unnamed: 1_level_1
2011,188509.7032
2012,207405.852
2013,245438.0128
2014,247089.8916


In [132]:
# 정렬 (SQL의 order by와 동일)
# ASC, DESC옵션은 ascending을 T,F로 주시면 조절
basePay_year.groupby('Year').mean().sort_values(by='BasePay', ascending=True)

Unnamed: 0_level_0,BasePay
Year,Unnamed: 1_level_1
2011,188509.7032
2012,207405.852
2013,245438.0128
2014,247089.8916


In [133]:
# 테이블 병합하기
data.head()

Unnamed: 0,EmployeeName,BasePay,OvertimePay,OtherPay,TotalPay,Year
0,NATHANIEL FORD,167411.18,0.0,400184.25,567595.43,2011
1,GARY JIMENEZ,155966.02,245131.88,137811.38,538909.28,2011
2,ALBERT PARDINI,212739.13,106088.18,16452.6,335279.91,2011
3,CHRISTOPHER CHONG,77916.0,56120.71,198306.9,332343.61,2011
4,PATRICK GARDNER,134401.6,9737.0,182234.59,326373.19,2011


In [134]:
df = data[['EmployeeName','BasePay','OtherPay','Year']]
df1 = data[['EmployeeName','TotalPay','Year']]

In [135]:
df

Unnamed: 0,EmployeeName,BasePay,OtherPay,Year
0,NATHANIEL FORD,167411.18,400184.25,2011
1,GARY JIMENEZ,155966.02,137811.38,2011
2,ALBERT PARDINI,212739.13,16452.60,2011
3,CHRISTOPHER CHONG,77916.00,198306.90,2011
4,PATRICK GARDNER,134401.60,182234.59,2011
...,...,...,...,...
95,Thomas A Siragusa,207437.76,20743.71,2014
96,Denise A Schmitt,268632.02,6192.08,2014
97,Lyn Tomioka,268632.00,6192.08,2014
98,Arthur W Kenney,207437.76,49941.59,2014


In [136]:
df1

Unnamed: 0,EmployeeName,TotalPay,Year
0,NATHANIEL FORD,567595.43,2011
1,GARY JIMENEZ,538909.28,2011
2,ALBERT PARDINI,335279.91,2011
3,CHRISTOPHER CHONG,332343.61,2011
4,PATRICK GARDNER,326373.19,2011
...,...,...,...
95,Thomas A Siragusa,295894.31,2014
96,Denise A Schmitt,274824.10,2014
97,Lyn Tomioka,274824.08,2014
98,Arthur W Kenney,289247.63,2014


In [137]:
print('<세부 지급 내역>')
print(df.head())

print('\n<총액 지급 내역>')
print(df1.head())

<세부 지급 내역>
        EmployeeName    BasePay   OtherPay  Year
0     NATHANIEL FORD  167411.18  400184.25  2011
1       GARY JIMENEZ  155966.02  137811.38  2011
2     ALBERT PARDINI  212739.13   16452.60  2011
3  CHRISTOPHER CHONG   77916.00  198306.90  2011
4    PATRICK GARDNER  134401.60  182234.59  2011

<총액 지급 내역>
        EmployeeName   TotalPay  Year
0     NATHANIEL FORD  567595.43  2011
1       GARY JIMENEZ  538909.28  2011
2     ALBERT PARDINI  335279.91  2011
3  CHRISTOPHER CHONG  332343.61  2011
4    PATRICK GARDNER  326373.19  2011


In [141]:
?pd.merge

In [139]:
pd.merge(df,df1)

Unnamed: 0,EmployeeName,BasePay,OtherPay,Year,TotalPay
0,NATHANIEL FORD,167411.18,400184.25,2011,567595.43
1,GARY JIMENEZ,155966.02,137811.38,2011,538909.28
2,ALBERT PARDINI,212739.13,16452.60,2011,335279.91
3,CHRISTOPHER CHONG,77916.00,198306.90,2011,332343.61
4,PATRICK GARDNER,134401.60,182234.59,2011,326373.19
...,...,...,...,...,...
95,Thomas A Siragusa,207437.76,20743.71,2014,295894.31
96,Denise A Schmitt,268632.02,6192.08,2014,274824.10
97,Lyn Tomioka,268632.00,6192.08,2014,274824.08
98,Arthur W Kenney,207437.76,49941.59,2014,289247.63


In [138]:
# merge 함수를 통해 테이블 병합 (join 연산)
# key값을 기준으로 두 테이블을 병합.

print(pd.merge(df,df1).head())

print('\n <테이블 행 갯수>')
print(len(pd.merge(df,df1)))

        EmployeeName    BasePay   OtherPay  Year   TotalPay
0     NATHANIEL FORD  167411.18  400184.25  2011  567595.43
1       GARY JIMENEZ  155966.02  137811.38  2011  538909.28
2     ALBERT PARDINI  212739.13   16452.60  2011  335279.91
3  CHRISTOPHER CHONG   77916.00  198306.90  2011  332343.61
4    PATRICK GARDNER  134401.60  182234.59  2011  326373.19

 <테이블 행 갯수>
100


#  

#### 3-3) 각 행과 열에 사용자 정의 함수 적용하기
+ apply 메소드를 사용하여 각 열이나 행 별로 다양한 데이터 처리.

In [143]:
# 하려고 하는 것 --> 기본급여보다 OverTimepay를 더 많이 받은 사람이 있는지 확인해보기
# 'data' -> 새로운 컬럼을 추가하고 새로운 컬럼에 값을 BasePay - OvertimePay 할당

data.head()

Unnamed: 0,EmployeeName,BasePay,OvertimePay,OtherPay,TotalPay,Year
0,NATHANIEL FORD,167411.18,0.0,400184.25,567595.43,2011
1,GARY JIMENEZ,155966.02,245131.88,137811.38,538909.28,2011
2,ALBERT PARDINI,212739.13,106088.18,16452.6,335279.91,2011
3,CHRISTOPHER CHONG,77916.0,56120.71,198306.9,332343.61,2011
4,PATRICK GARDNER,134401.6,9737.0,182234.59,326373.19,2011


In [144]:
def cal(x):
    return (x.BasePay - x.OvertimePay)

In [145]:
# axis == 1 --> column
data.apply(cal, axis=1)

0     167411.18
1     -89165.86
2     106650.95
3      21795.29
4     124664.60
        ...    
95    139724.92
96    268632.02
97    268632.00
98    175569.48
99    222591.92
Length: 100, dtype: float64

In [147]:
# lambda를 이용해서 한줄로 나타낼 수도 있습니다.
data.apply(lambda x: (x.BasePay - x.OvertimePay), axis=1)

0     167411.18
1     -89165.86
2     106650.95
3      21795.29
4     124664.60
        ...    
95    139724.92
96    268632.02
97    268632.00
98    175569.48
99    222591.92
Length: 100, dtype: float64

In [148]:
# 새로운 Column에 추가
data['Var'] = data.apply(lambda x: (x.BasePay - x.OvertimePay), axis=1)
data

Unnamed: 0,EmployeeName,BasePay,OvertimePay,OtherPay,TotalPay,Year,Var
0,NATHANIEL FORD,167411.18,0.00,400184.25,567595.43,2011,167411.18
1,GARY JIMENEZ,155966.02,245131.88,137811.38,538909.28,2011,-89165.86
2,ALBERT PARDINI,212739.13,106088.18,16452.60,335279.91,2011,106650.95
3,CHRISTOPHER CHONG,77916.00,56120.71,198306.90,332343.61,2011,21795.29
4,PATRICK GARDNER,134401.60,9737.00,182234.59,326373.19,2011,124664.60
...,...,...,...,...,...,...,...
95,Thomas A Siragusa,207437.76,67712.84,20743.71,295894.31,2014,139724.92
96,Denise A Schmitt,268632.02,0.00,6192.08,274824.10,2014,268632.02
97,Lyn Tomioka,268632.00,0.00,6192.08,274824.08,2014,268632.00
98,Arthur W Kenney,207437.76,31868.28,49941.59,289247.63,2014,175569.48


In [153]:
# Overtimepay 를 BasePay보다 더 많이 받는 사람들을 찾기
data[data['Var'] < 0]

Unnamed: 0,EmployeeName,BasePay,OvertimePay,OtherPay,TotalPay,Year,Var
1,GARY JIMENEZ,155966.02,245131.88,137811.38,538909.28,2011,-89165.86
25,Gary Altenberg,128808.87,220909.48,13126.31,362844.66,2012,-92100.61
27,Khoa Trinh,111921.0,146415.32,78057.41,336393.73,2012,-34494.32
29,Frederick Binkley,126863.19,192424.49,17917.18,337204.86,2012,-65561.3
68,Gary L Altenberg,135903.02,163477.81,20994.96,320375.79,2013,-27574.79


#  

# 실습문제

Salaries.csv 파일을 읽어

1) 연도별 평균 기본급여

2) 연도펼 평균 전체급여  

3) 연도별 평균 기본급여와 전체급여의 차이


를 계산하세요

In [161]:
# csv 파일을 읽어 DataFrame 객체 생성
data = pd.read_csv('Salaries.csv')
data

Unnamed: 0,EmployeeName,BasePay,OvertimePay,OtherPay,TotalPay,Year
0,NATHANIEL FORD,167411.18,0.00,400184.25,567595.43,2011
1,GARY JIMENEZ,155966.02,245131.88,137811.38,538909.28,2011
2,ALBERT PARDINI,212739.13,106088.18,16452.60,335279.91,2011
3,CHRISTOPHER CHONG,77916.00,56120.71,198306.90,332343.61,2011
4,PATRICK GARDNER,134401.60,9737.00,182234.59,326373.19,2011
...,...,...,...,...,...,...
95,Thomas A Siragusa,207437.76,67712.84,20743.71,295894.31,2014
96,Denise A Schmitt,268632.02,0.00,6192.08,274824.10,2014
97,Lyn Tomioka,268632.00,0.00,6192.08,274824.08,2014
98,Arthur W Kenney,207437.76,31868.28,49941.59,289247.63,2014


In [162]:
# 연도별 평균 기본 급여

# 1) DataFrame에 조건식을 통해서 계산
years = [2011,2012,2013,2014]
for year in years:
    print(data[data['Year']==year]['BasePay'].mean())

# 2) groupby 연산을 통해서 계산
basepay_year = data[['BasePay','Year']]
basepay_mean = basepay_year.groupby('Year').mean()
basepay_mean

188509.70320000005
207405.85199999998
245438.01280000005
247089.89159999997


Unnamed: 0_level_0,BasePay
Year,Unnamed: 1_level_1
2011,188509.7032
2012,207405.852
2013,245438.0128
2014,247089.8916


In [155]:
# 연도별 평균 기본 급여 (풀이 1)
years = [2011,2012,2013,2014]
for year in years:
    print(data[data['Year']==year]['BasePay'].mean())

188509.70320000005
207405.85199999998
245438.01280000005
247089.89159999997


In [156]:
# 연도별 평균 기본 급여 (풀이 2)

# 'BasePay'와 'Year'로 구성된 데이터 프레임 생성
basePay_year = data[['BasePay','Year']]
base_year_avg = basePay_year.groupby('Year').mean()
base_year_avg

Unnamed: 0_level_0,BasePay
Year,Unnamed: 1_level_1
2011,188509.7032
2012,207405.852
2013,245438.0128
2014,247089.8916


In [157]:
# 연도별 전체 기본 급여 (풀이 1)
years = [2011,2012,2013,2014]
for year in years:
    print(data[data['Year']==year]['TotalPay'].mean())

315212.9772
306758.93639999995
312577.61679999996
314519.98039999994


In [164]:
# 연도별 전체 기본 급여

totalpay_year = data[['TotalPay','Year']]
totalpay_year.groupby('Year').mean()

Unnamed: 0_level_0,TotalPay
Year,Unnamed: 1_level_1
2011,315212.9772
2012,306758.9364
2013,312577.6168
2014,314519.9804


In [158]:
# 연도별 전체 기본 급여 (풀이 2)
total_year = data[['TotalPay','Year']]
total_year_avg = total_year.groupby('Year').mean()
total_year_avg

Unnamed: 0_level_0,TotalPay
Year,Unnamed: 1_level_1
2011,315212.9772
2012,306758.9364
2013,312577.6168
2014,314519.9804


In [170]:
# 편균 기본급여와 전체급여의 차이 계산
merge_df = base_year_avg.merge(total_year_avg, on='Year')
def sub(x): return x.TotalPay - x.BasePay

merge_df['SUB'] = merge_df.apply(sub,axis=1)
merge_df

Unnamed: 0_level_0,BasePay,TotalPay,SUB
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2011,188509.7032,315212.9772,126703.274
2012,207405.852,306758.9364,99353.0844
2013,245438.0128,312577.6168,67139.604
2014,247089.8916,314519.9804,67430.0888


In [159]:
# 연도별 평균 기본급여와 전체급여의 차이

merge_df = total_year_avg.merge(base_year_avg,on='Year')
def sub(x): return x.TotalPay-x.BasePay

merge_df['sub'] = merge_df.apply(sub,axis=1)
merge_df

Unnamed: 0_level_0,TotalPay,BasePay,sub
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2011,315212.9772,188509.7032,126703.274
2012,306758.9364,207405.852,99353.0844
2013,312577.6168,245438.0128,67139.604
2014,314519.9804,247089.8916,67430.0888
