# AI Programming with Python Nanodegree
## Pandas
----

## Why Use Pandas?

- 행과 열의 테이블 사용할 수 있다.
- 시계열 데이터에 대한 통계를 계산할 수 있다.
- NaN 값을 쉽게 처리할 수 있다.
- DataFrames에 다양한 형식의 데이터를 로드할 수 있다.
- 다른 데이터 세트를 함께 결합 및 병합할 수 있다.
- Numpy 및 Matplotlib과 통합된다.

## Creating Pandas Series

Series, DataFrame

In [1]:
import pandas as pd

In [2]:
groceries = pd.Series(data = [30, 6, 'Yes', 'No'], index = ['eggs', 'apples', 'milk', 'bread']) 
#pd.Series(data, index)

#숫자 또는 문자열과 같은 많은 데이터 유형을 저장할 수 있는 1차원 배열과 비슷한 객체
#Pandas Series의 각 요소에 인덱스를 지정해 줄 수 있다.
#Numpy Array와 달리, 다른 데이터 타입을 포함할 수 있다.

groceries

#첫 열에 인덱스, 두 번째 열에는 데이터(Series). 즉 여기서는 식료품명이 인덱스가 된다.

eggs       30
apples      6
milk      Yes
bread      No
dtype: object

In [3]:
groceries.shape

(4,)

In [4]:
groceries.ndim #차원

1

In [5]:
groceries.size

4

In [6]:
groceries.values
#인덱스와 데이터를 따로 출력할 수 있다. 인덱스를 모르는 경우 유용하다.

array([30, 6, 'Yes', 'No'], dtype=object)

In [7]:
'bananas' in groceries

#인덱스의 존재 여부를 출력한다.

False

In [8]:
'bread' in groceries

#인덱스의 존재 여부를 출력한다.

True

## Accessing and Deleting Elements in Pandas Series

In [9]:
groceries['eggs'] #인덱스 레이블로 접근

30

In [10]:
groceries[['milk', 'bread']] #여러 인덱스 레이블에 접근할 수도 있다.

milk     Yes
bread     No
dtype: object

In [11]:
groceries[0] #숫자 인덱스를 사용해 접근할 수도 있다.

30

In [12]:
groceries[-1] #-1로 하면 마지막 인덱스 값

'No'

In [13]:
groceries[[0, 1]] #숫자도 여러 인덱스로도 접근할 수 있다.

eggs      30
apples     6
dtype: object

In [14]:
groceries.loc[['eggs', 'apples']] #loc은 위치를 나타내며 레이블이 지정된 색인을 사용하고 있음을 명시적으로 나타낸다.

#단순히 서브스트링으로만 쓰는 경우에는 숫자 인덱스로 된 경우 등에서 모호함이 있을 수 있다.
#이를 제거하기 위해 loc, iloc을 사용한다.

eggs      30
apples     6
dtype: object

In [15]:
groceries.iloc[[2, 3]] #iloc은 숫자로 접근할 때 명시적으로 알려줄 수 있다.

milk     Yes
bread     No
dtype: object

In [16]:
groceries

eggs       30
apples      6
milk      Yes
bread      No
dtype: object

In [17]:
groceries['eggs'] = 2 #레이블로 접근해 값을 변경할 수 있다.
groceries

eggs        2
apples      6
milk      Yes
bread      No
dtype: object

In [18]:
groceries.drop('apples') #drop으로 해당 항목을 삭제할 수 있다.

eggs       2
milk     Yes
bread     No
dtype: object

In [19]:
groceries #하지만 drop은 원본 Series에 영향을 끼치지 않는다.

eggs        2
apples      6
milk      Yes
bread      No
dtype: object

In [20]:
groceries.drop('apples', inplace=True) #원본 Series에도 삭제를 반영하려면 inplace 설정을 해 줘야 한다.

groceries

eggs       2
milk     Yes
bread     No
dtype: object

## Arithmetic Operations on Pandas Series

In [21]:
fruits= pd.Series(data = [10, 6, 3,], index = ['apples', 'oranges', 'bananas'])
fruits

apples     10
oranges     6
bananas     3
dtype: int64

In [22]:
fruits + 2 #일괄적으로 적용된다.

apples     12
oranges     8
bananas     5
dtype: int64

In [23]:
fruits - 2

apples     8
oranges    4
bananas    1
dtype: int64

In [24]:
fruits * 2

apples     20
oranges    12
bananas     6
dtype: int64

In [25]:
fruits / 2

apples     5.0
oranges    3.0
bananas    1.5
dtype: float64

In [26]:
import numpy as np

#numpy의 수학함수에 pandas를 직접 사용할 수 있다.
np.exp(fruits)

apples     22026.465795
oranges      403.428793
bananas       20.085537
dtype: float64

In [27]:
np.sqrt(fruits)

apples     3.162278
oranges    2.449490
bananas    1.732051
dtype: float64

In [28]:
np.power(fruits, 2)

apples     100
oranges     36
bananas      9
dtype: int64

In [29]:
fruits

apples     10
oranges     6
bananas     3
dtype: int64

In [30]:
fruits['bananas'] + 2 #선택한 항목에 대해서만 연산을 진행할 수도 있다.

5

In [31]:
fruits.iloc[0] - 2

8

In [32]:
fruits[['apples', 'oranges']] * 2

apples     20
oranges    12
dtype: int64

In [33]:
fruits[['apples', 'oranges']] / 2

apples     5.0
oranges    3.0
dtype: float64

In [34]:
groceries = pd.Series(data = [30, 6, 'Yes', 'No'], index = ['eggs', 'apples', 'milk', 'bread']) 

groceries

eggs       30
apples      6
milk      Yes
bread      No
dtype: object

In [35]:
groceries * 2 #곱셉연산이 문자열에도 정의되어 있기 때문에 pandas는 이를 수행한다.

eggs          60
apples        12
milk      YesYes
bread       NoNo
dtype: object

In [36]:
groceries / 2 #하지만 나눗셈은 문자열에 정의되어 있지 않기 때문에 오류가 발생한다.

#Pandas Series에서 혼합된 데이터 유형을 사용하는 경우 산술 연산이 요소의 모든 데이터 유형에 유효한지 확인해야 한다.

TypeError: unsupported operand type(s) for /: 'str' and 'int'

In [37]:
fruits= pd.Series(data = [10, 6, 3,], index = ['apples', 'oranges', 'bananas'])
fruits

apples     10
oranges     6
bananas     3
dtype: int64

## Manipulate a Series

In [38]:
fruits[fruits < 5] #필터링 할 수도 있다.

bananas    3
dtype: int64

## Creating Pandas DataFrames

In [39]:
items = {'Bob' : pd.Series(data = [245, 25, 55], index = ['bike', 'pants', 'watch']),
         'Alice' : pd.Series(data = [40, 110, 500, 45], index = ['book', 'glasses', 'bike', 'pants'])}
#DataFrame은 스프레드 시트와 비슷하다.

type(items)

dict

In [40]:
shopping_carts = pd.DataFrame(items) 
shopping_carts
#딕셔너리의 행은 각 인덱스가 되고, 열은 딕셔너리의 키가 된다.
#열은 알파벳 순으로 정렬되며, 딕셔너리를 생성할 때의 순서가 아니다.
#NaN은 Not a Number의 약자이며, 특정 행과 열 인덱스에 값이 없다는 것을 나타낸다.
#기계학습에서는 NaN 값을 제거하는 것이 중요하다.

Unnamed: 0,Alice,Bob
bike,500.0,245.0
book,40.0,
glasses,110.0,
pants,45.0,25.0
watch,,55.0


In [41]:
data = {'Bob' : pd.Series([245, 25, 55]),
        'Alice' : pd.Series([40, 110, 500, 45])}

df = pd.DataFrame(data)

df #인덱스를 따로 사용하지 않으면, 자동적으로 숫자로 인덱싱한다.

Unnamed: 0,Alice,Bob
0,40,245.0
1,110,25.0
2,500,55.0
3,45,


In [42]:
shopping_carts.index #인덱스. 행을 가져온다.

Index(['bike', 'book', 'glasses', 'pants', 'watch'], dtype='object')

In [43]:
shopping_carts.columns #열을 가져온다.

Index(['Alice', 'Bob'], dtype='object')

In [44]:
shopping_carts.values #값만을 가져온다.

array([[500., 245.],
       [ 40.,  nan],
       [110.,  nan],
       [ 45.,  25.],
       [ nan,  55.]])

In [45]:
shopping_carts.shape

(5, 2)

In [46]:
shopping_carts.ndim

2

In [47]:
shopping_carts.size #사이즈는 값만 카운팅

10

In [48]:
bob_shopping_cart = pd.DataFrame(items, columns=['Bob']) #일부만 가져와 생성한다.
bob_shopping_cart

Unnamed: 0,Bob
bike,245
pants,25
watch,55


In [49]:
sel_shopping_cart = pd.DataFrame(items, index = ['pants', 'book']) #일부만 가져와 생성한다.
sel_shopping_cart

Unnamed: 0,Alice,Bob
pants,45,25.0
book,40,


In [50]:
alice_sel_shopping_cart = pd.DataFrame(items, index = ['glasses', 'bike'], columns = ['Alice'])
alice_sel_shopping_cart

Unnamed: 0,Alice
glasses,110
bike,500


In [51]:
data = {'Integers' : [1,2,3],
        'Floats' : [4.5, 8.2, 9.6]}
df = pd.DataFrame(data)
df #자동으로 숫자를 인덱싱한다.

Unnamed: 0,Floats,Integers
0,4.5,1
1,8.2,2
2,9.6,3


In [52]:
data = {'Integers' : [1,2,3],
        'Floats' : [4.5, 8.2, 9.6]}
df = pd.DataFrame(data, index = ['label 1', 'label 2', 'label 3']) #인덱스 레이블을 지정해 줄 수도 있다.
df

Unnamed: 0,Floats,Integers
label 1,4.5,1
label 2,8.2,2
label 3,9.6,3


In [53]:
items2 = [{'bikes': 20, 'pants': 30, 'watches': 35}, 
          {'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5}]
store_items = pd.DataFrame(items2)
store_items

Unnamed: 0,bikes,glasses,pants,watches
0,20,,30,35
1,15,50.0,5,10


In [54]:
items2 = [{'bikes': 20, 'pants': 30, 'watches': 35}, 
          {'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5}]
store_items = pd.DataFrame(items2, index = ['store 1', 'store 2']) #인덱스 레이블을 지정해 줄 수 있다.
store_items

Unnamed: 0,bikes,glasses,pants,watches
store 1,20,,30,35
store 2,15,50.0,5,10


## Accessing Elements in Pandas DataFrames

In [55]:
store_items[['bikes']] #컬럼의 레이블로 접근할 수 있다.

Unnamed: 0,bikes
store 1,20
store 2,15


In [56]:
store_items[['bikes', 'pants']] #레이블을 여러 개 지정해 줄 수도 있다.

Unnamed: 0,bikes,pants
store 1,20,30
store 2,15,5


In [57]:
store_items.loc[['store 1']] #row로 접근한다.

Unnamed: 0,bikes,glasses,pants,watches
store 1,20,,30,35


In [58]:
store_items['bikes']['store 2'] #colum 과 row를 섞어 쓸 때는 colum 레이블이 항상 먼저 와야 한다.

15

In [59]:
store_items['shirts'] = [15, 2] #새로운 열 추가
store_items

Unnamed: 0,bikes,glasses,pants,watches,shirts
store 1,20,,30,35,15
store 2,15,50.0,5,10,2


In [60]:
store_items['suits'] = store_items['pants'] + store_items['shirts'] #산술 연산으로 추가할 수도 있다.
store_items

Unnamed: 0,bikes,glasses,pants,watches,shirts,suits
store 1,20,,30,35,15,45
store 2,15,50.0,5,10,2,7


In [61]:
new_items = [{'bikes': 20, 'pants': 30, 'watches': 35, 'glasses': 4}]
new_store = pd.DataFrame(new_items, index = ['store 3'])
new_store #새로운 df

Unnamed: 0,bikes,glasses,pants,watches
store 3,20,4,30,35


In [62]:
store_items = store_items.append(new_store)
store_items #새로운 df을 합쳐줄 수 있다.

Unnamed: 0,bikes,glasses,pants,shirts,suits,watches
store 1,20,,30,15.0,45.0,35
store 2,15,50.0,5,2.0,7.0,10
store 3,20,4.0,30,,,35


In [63]:
store_items['new watches'] = store_items['watches'][1:]
#특정 행의 데이터만 사용하여 DataFrame의 새 열을 추가할 수도 있다.
store_items

Unnamed: 0,bikes,glasses,pants,shirts,suits,watches,new watches
store 1,20,,30,15.0,45.0,35,
store 2,15,50.0,5,2.0,7.0,10,10.0
store 3,20,4.0,30,,,35,35.0


In [64]:
store_items.insert(4, 'shoes', [8, 5, 0])
#dataframe.insert(loc, label, data)으로 원하는 곳에 새로운 colum을 추가할 수 있다.

store_items

Unnamed: 0,bikes,glasses,pants,shirts,shoes,suits,watches,new watches
store 1,20,,30,15.0,8,45.0,35,
store 2,15,50.0,5,2.0,5,7.0,10,10.0
store 3,20,4.0,30,,0,,35,35.0


In [65]:
store_items.pop('new watches') #pop()은 열을 삭제

store_items

#삭제는 pop()이나 drop()을 사용한다.

Unnamed: 0,bikes,glasses,pants,shirts,shoes,suits,watches
store 1,20,,30,15.0,8,45.0,35
store 2,15,50.0,5,2.0,5,7.0,10
store 3,20,4.0,30,,0,,35


In [66]:
store_items = store_items.drop(['watches', 'shoes'], axis = 1) #colum 삭제
store_items

#drop()은 axis를 사용하여 행과 열 모두 삭제할 수 있다.

Unnamed: 0,bikes,glasses,pants,shirts,suits
store 1,20,,30,15.0,45.0
store 2,15,50.0,5,2.0,7.0
store 3,20,4.0,30,,


In [67]:
store_items = store_items.drop(['store 2', 'store 1'], axis = 0) #row 삭제
store_items

Unnamed: 0,bikes,glasses,pants,shirts,suits
store 3,20,4.0,30,,


In [68]:
store_items = store_items.rename(columns = {'bikes': 'hats'}) #rename으로 행과 열의 이름을 바꿔줄 수 있다. #열
store_items

Unnamed: 0,hats,glasses,pants,shirts,suits
store 3,20,4.0,30,,


In [69]:
store_items = store_items.rename(index = {'store 3': 'last store'}) #행
store_items

Unnamed: 0,hats,glasses,pants,shirts,suits
last store,20,4.0,30,,


In [70]:
store_items = store_items.set_index('pants') #인덱스(행)을 colum(열) 중 하나로 바꿔 줄 수 있다.
#row index를 pants colum의 데이터로 설정
store_items

Unnamed: 0_level_0,hats,glasses,shirts,suits
pants,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
30,20,4.0,,


## Dealing with NaN

In [71]:
items2 = [{'bikes': 20, 'pants': 30, 'watches': 35, 'shirts': 15, 'shoes':8, 'suits':45},
{'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5, 'shirts': 2, 'shoes':5, 'suits':7},
{'bikes': 20, 'pants': 30, 'watches': 35, 'glasses': 4, 'shoes':10}]

store_items = pd.DataFrame(items2, index = ['store 1', 'store 2', 'store 3'])
store_items

Unnamed: 0,bikes,glasses,pants,shirts,shoes,suits,watches
store 1,20,,30,15.0,8,45.0,35
store 2,15,50.0,5,2.0,5,7.0,10
store 3,20,4.0,30,,10,,35


In [72]:
x =  store_items.isnull().sum().sum()
#매우 큰 DF의 경우에는 NaN의 수와 위치를 시각적으로 알아내기 쉽지 않다. 그런 경우에는 isnull, sum을 사용할 수 있다.
print(x)

3


In [73]:
x = store_items.isnull()#.sum().sum()
print(x)

#isnull은 NaN인지 아닌지 T/F 값으로 나타낸다.

         bikes  glasses  pants  shirts  shoes  suits  watches
store 1  False     True  False   False  False  False    False
store 2  False    False  False   False  False  False    False
store 3  False    False  False    True  False   True    False


In [74]:
x = store_items.isnull().sum()#.sum()
print(x)

#T/F는 숫자로 연산이 되므로, sum()으로 논리값의 합계를 구할 수 있다.
#첫 번째 sum()으로 열의 합계를 반환한다.

bikes      0
glasses    1
pants      0
shirts     1
shoes      0
suits      1
watches    0
dtype: int64


In [75]:
x = store_items.isnull().sum().sum()
print(x)

#따라서 최종 논리값 합을 구하려면 sum()을 두 번 해 줘야 한다.

3


In [76]:
store_items.count()
#반대로, NaN이 아닌 값의 수를 세어 볼 수도 있다.

bikes      3
glasses    2
pants      3
shirts     2
shoes      3
suits      2
watches    3
dtype: int64

In [77]:
store_items.dropna(axis=0) #NaN 값을 가진 행 제거

Unnamed: 0,bikes,glasses,pants,shirts,shoes,suits,watches
store 2,15,50.0,5,2.0,5,7.0,10


In [78]:
store_items.dropna(axis=1) #NaN 값을 가진 열 제거

#원본 df는 변경되지 않는다. 원본 df를 변경하려면 inplace=True키워드를 설정해야 한다.

Unnamed: 0,bikes,pants,shoes,watches
store 1,20,30,8,35
store 2,15,5,5,10
store 3,20,30,10,35


In [79]:
store_items.fillna(0) #NaN을 0으로 대체한다.

Unnamed: 0,bikes,glasses,pants,shirts,shoes,suits,watches
store 1,20,0.0,30,15.0,8,45.0,35
store 2,15,50.0,5,2.0,5,7.0,10
store 3,20,4.0,30,0.0,10,0.0,35


In [80]:
store_items

Unnamed: 0,bikes,glasses,pants,shirts,shoes,suits,watches
store 1,20,,30,15.0,8,45.0,35
store 2,15,50.0,5,2.0,5,7.0,10
store 3,20,4.0,30,,10,,35


In [81]:
store_items.fillna(method = 'ffill', axis = 0) #주어진 축을 따라 이전에 알려진 값으로 대체한다.
#(0, 1)은 이전 값이 없으므로 NaN

Unnamed: 0,bikes,glasses,pants,shirts,shoes,suits,watches
store 1,20,,30,15.0,8,45.0,35
store 2,15,50.0,5,2.0,5,7.0,10
store 3,20,4.0,30,2.0,10,7.0,35


In [82]:
store_items.fillna(method = 'ffill', axis = 1) #주어진 축을 따라 이전에 알려진 값으로 대체한다. row

Unnamed: 0,bikes,glasses,pants,shirts,shoes,suits,watches
store 1,20.0,20.0,30.0,15.0,8.0,45.0,35.0
store 2,15.0,50.0,5.0,2.0,5.0,7.0,10.0
store 3,20.0,4.0,30.0,30.0,10.0,10.0,35.0


In [83]:
store_items.fillna(method = 'backfill', axis = 0) #주어진 축을 따라 이후에 알려진 값으로 대체한다.
#(2, 3), (2, 5)는 이후 값이 없으므로 NaN

Unnamed: 0,bikes,glasses,pants,shirts,shoes,suits,watches
store 1,20,50.0,30,15.0,8,45.0,35
store 2,15,50.0,5,2.0,5,7.0,10
store 3,20,4.0,30,,10,,35


In [84]:
store_items.interpolate(method = 'linear', axis = 0) #주어진 축에 따라 선형으로 보간
#(0, 1)은 보간할 값이 없으므로 NaN

Unnamed: 0,bikes,glasses,pants,shirts,shoes,suits,watches
store 1,20,,30,15.0,8,45.0,35
store 2,15,50.0,5,2.0,5,7.0,10
store 3,20,4.0,30,2.0,10,7.0,35


In [85]:
store_items.interpolate(method = 'linear', axis = 1) #주어진 축에 따라 선형으로 보간

Unnamed: 0,bikes,glasses,pants,shirts,shoes,suits,watches
store 1,20.0,25.0,30.0,15.0,8.0,45.0,35.0
store 2,15.0,50.0,5.0,2.0,5.0,7.0,10.0
store 3,20.0,4.0,30.0,20.0,10.0,22.5,35.0


## Loading Data into a Pandas DataFrame

In [86]:
Google_stock = pd.read_csv('./GOOG.csv') #다른 파일에서 DF를 불러오는 일이 흔하다. 보통 csv 파일

print(type(Google_stock))
print(Google_stock.shape)

<class 'pandas.core.frame.DataFrame'>
(3313, 7)


In [87]:
Google_stock

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2004-08-19,49.676899,51.693783,47.669952,49.845802,49.845802,44994500
1,2004-08-20,50.178635,54.187561,49.925285,53.805050,53.805050,23005800
2,2004-08-23,55.017166,56.373344,54.172661,54.346527,54.346527,18393200
3,2004-08-24,55.260582,55.439419,51.450363,52.096165,52.096165,15361800
4,2004-08-25,52.140873,53.651051,51.604362,52.657513,52.657513,9257400
5,2004-08-26,52.135906,53.626213,51.991844,53.606342,53.606342,7148200
6,2004-08-27,53.700729,53.959049,52.503513,52.732029,52.732029,6258300
7,2004-08-30,52.299839,52.404160,50.675404,50.675404,50.675404,5235700
8,2004-08-31,50.819469,51.519913,50.749920,50.854240,50.854240,4954800
9,2004-09-01,51.018177,51.152302,49.512966,49.801090,49.801090,9206800


In [88]:
Google_stock.head() #첫 5개

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2004-08-19,49.676899,51.693783,47.669952,49.845802,49.845802,44994500
1,2004-08-20,50.178635,54.187561,49.925285,53.80505,53.80505,23005800
2,2004-08-23,55.017166,56.373344,54.172661,54.346527,54.346527,18393200
3,2004-08-24,55.260582,55.439419,51.450363,52.096165,52.096165,15361800
4,2004-08-25,52.140873,53.651051,51.604362,52.657513,52.657513,9257400


In [89]:
Google_stock.tail() #마지막 5개

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
3308,2017-10-09,980.0,985.424988,976.109985,977.0,977.0,891400
3309,2017-10-10,980.0,981.570007,966.080017,972.599976,972.599976,968400
3310,2017-10-11,973.719971,990.710022,972.25,989.25,989.25,1693300
3311,2017-10-12,987.450012,994.119995,985.0,987.830017,987.830017,1262400
3312,2017-10-13,992.0,997.210022,989.0,989.679993,989.679993,1157700


In [90]:
Google_stock.tail(8) #head, tail에 숫자를 지정해 해당 개수만큼 가져올 수 있다.

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
3305,2017-10-04,957.0,960.390015,950.690002,951.679993,951.679993,952400
3306,2017-10-05,955.48999,970.909973,955.179993,969.960022,969.960022,1213800
3307,2017-10-06,966.700012,979.460022,963.359985,978.890015,978.890015,1173900
3308,2017-10-09,980.0,985.424988,976.109985,977.0,977.0,891400
3309,2017-10-10,980.0,981.570007,966.080017,972.599976,972.599976,968400
3310,2017-10-11,973.719971,990.710022,972.25,989.25,989.25,1693300
3311,2017-10-12,987.450012,994.119995,985.0,987.830017,987.830017,1262400
3312,2017-10-13,992.0,997.210022,989.0,989.679993,989.679993,1157700


In [91]:
Google_stock.isnull().any() #isnull로 NaN데이터를 가져온 뒤, any()로 열에 NaN값이 있는 지 확인한다.

Date         False
Open         False
High         False
Low          False
Close        False
Adj Close    False
Volume       False
dtype: bool

In [92]:
Google_stock.describe() #통계 정보 출력

Unnamed: 0,Open,High,Low,Close,Adj Close,Volume
count,3313.0,3313.0,3313.0,3313.0,3313.0,3313.0
mean,380.186092,383.49374,376.519309,380.072458,380.072458,8038476.0
std,223.81865,224.974534,222.473232,223.85378,223.85378,8399521.0
min,49.274517,50.541279,47.669952,49.681866,49.681866,7900.0
25%,226.556473,228.394516,224.003082,226.40744,226.40744,2584900.0
50%,293.312286,295.433502,289.929291,293.029114,293.029114,5281300.0
75%,536.650024,540.0,532.409973,536.690002,536.690002,10653700.0
max,992.0,997.210022,989.0,989.679993,989.679993,82768100.0


In [93]:
Google_stock['Adj Close'].describe() #특정 컬럼에 대한 통계 정보 출력

count    3313.000000
mean      380.072458
std       223.853780
min        49.681866
25%       226.407440
50%       293.029114
75%       536.690002
max       989.679993
Name: Adj Close, dtype: float64

In [94]:
Google_stock.max()

Date         2017-10-13
Open                992
High             997.21
Low                 989
Close            989.68
Adj Close        989.68
Volume         82768100
dtype: object

In [95]:
Google_stock.min()

Date         2004-08-19
Open            49.2745
High            50.5413
Low               47.67
Close           49.6819
Adj Close       49.6819
Volume             7900
dtype: object

In [96]:
Google_stock.mean()

Open         3.801861e+02
High         3.834937e+02
Low          3.765193e+02
Close        3.800725e+02
Adj Close    3.800725e+02
Volume       8.038476e+06
dtype: float64

In [97]:
Google_stock['Close'].min() #특정 컬럼에 대한 최소값

49.681866

In [98]:
Google_stock.corr() #데이터 상관관계. 열간의 상관관계
#상관관계 1은 높은 연관성이 있고 0은 전혀 상관관계가 없음을 나타낸다.

Unnamed: 0,Open,High,Low,Close,Adj Close,Volume
Open,1.0,0.999904,0.999845,0.999745,0.999745,-0.564258
High,0.999904,1.0,0.999834,0.999868,0.999868,-0.562749
Low,0.999845,0.999834,1.0,0.999899,0.999899,-0.567007
Close,0.999745,0.999868,0.999899,1.0,1.0,-0.564967
Adj Close,0.999745,0.999868,0.999899,1.0,1.0,-0.564967
Volume,-0.564258,-0.562749,-0.567007,-0.564967,-0.564967,1.0


In [99]:
data = pd.read_csv('./fake_company.csv')
data

Unnamed: 0,Year,Name,Department,Age,Salary
0,1990,Alice,HR,25,50000
1,1990,Bob,RD,30,48000
2,1990,Charlie,Admin,45,55000
3,1991,Alice,HR,26,52000
4,1991,Bob,RD,31,50000
5,1991,Charlie,Admin,46,60000
6,1992,Alice,Admin,27,60000
7,1992,Bob,RD,32,52000
8,1992,Charlie,Admin,28,62000


In [100]:
data.groupby(['Year'])['Salary'].sum() #groupby로 특정 데이터 그룹을 만든 후, 합산한다.

Year
1990    153000
1991    162000
1992    174000
Name: Salary, dtype: int64

In [101]:
data.groupby(['Year'])['Salary'].mean()

Year
1990    51000
1991    54000
1992    58000
Name: Salary, dtype: int64

In [102]:
data.groupby(['Name'])['Salary'].sum()

Name
Alice      162000
Bob        150000
Charlie    177000
Name: Salary, dtype: int64

In [103]:
data.groupby(['Year', 'Department'])['Salary'].sum() #두 가지 요소를 결합하여 그룹화

Year  Department
1990  Admin          55000
      HR             50000
      RD             48000
1991  Admin          60000
      HR             52000
      RD             50000
1992  Admin         122000
      RD             52000
Name: Salary, dtype: int64