# DataFrame

In [1]:
import numpy as np
import pandas as pd

## 1. DataFrame 생성

* 여러개의 시리즈로 생성

In [5]:
purchase_1 = pd.Series({'Name': 'Chris',
                        'Item Purchased': 'Dog Food',
                        'Cost': 22.50})
purchase_2 = pd.Series({'Name': 'Kevyn',
                        'Item Purchased': 'Kitty Litter',
                        'Cost': 2.50})
purchase_3 = pd.Series({'Name': 'Vinod',
                        'Item Purchased': 'Bird Seed',
                        'Cost': 5.00})
df = pd.DataFrame([purchase_1, purchase_2, purchase_3])
df

Unnamed: 0,Name,Item Purchased,Cost
0,Chris,Dog Food,22.5
1,Kevyn,Kitty Litter,2.5
2,Vinod,Bird Seed,5.0


In [6]:
df = pd.DataFrame([purchase_1, purchase_2, purchase_3], index=['store1','store2','store3'])
df

Unnamed: 0,Name,Item Purchased,Cost
store1,Chris,Dog Food,22.5
store2,Kevyn,Kitty Litter,2.5
store3,Vinod,Bird Seed,5.0


* 딕셔너리 형태로 생성

In [8]:
data={'Name':['Chris','Kevyn','Vinod'],
      'Item Purchased':['Dog Food','Kitty Litter','Bird Seed'],
      'Cost':[22.50,2.50,5.00]}
df=pd.DataFrame(data,index=['store1','store2','store3'])
df

Unnamed: 0,Name,Item Purchased,Cost
store1,Chris,Dog Food,22.5
store2,Kevyn,Kitty Litter,2.5
store3,Vinod,Bird Seed,5.0


## 2. 데이터프레임 열 선택하기 (Quering)

* 열 골라내기

In [9]:
df['Name']

store1    Chris
store2    Kevyn
store3    Vinod
Name: Name, dtype: object

In [11]:
type(df['Name'])

pandas.core.series.Series

In [12]:
df[['Name']]

Unnamed: 0,Name
store1,Chris
store2,Kevyn
store3,Vinod


In [13]:
type(df[['Name']])

pandas.core.frame.DataFrame

* 복수의 열 골라내기

In [14]:
df[['Name','Cost']]

Unnamed: 0,Name,Cost
store1,Chris,22.5
store2,Kevyn,2.5
store3,Vinod,5.0


In [15]:
df[['Name','Item Purchased']]

Unnamed: 0,Name,Item Purchased
store1,Chris,Dog Food
store2,Kevyn,Kitty Litter
store3,Vinod,Bird Seed


## 3. 데이터프레임 행선택하기(Queyring)

* 인덱스 이름으로 골라내기

In [16]:
df.loc['store1']

Name                 Chris
Item Purchased    Dog Food
Cost                  22.5
Name: store1, dtype: object

In [17]:
df.loc[['store1','store3']]

Unnamed: 0,Name,Item Purchased,Cost
store1,Chris,Dog Food,22.5
store3,Vinod,Bird Seed,5.0


* 숫자로 골라내기

In [18]:
df.iloc[0]

Name                 Chris
Item Purchased    Dog Food
Cost                  22.5
Name: store1, dtype: object

In [19]:
df.iloc[:2]

Unnamed: 0,Name,Item Purchased,Cost
store1,Chris,Dog Food,22.5
store2,Kevyn,Kitty Litter,2.5


## 4. 열과행 혼합하여 선택하기 (Querying)

In [20]:
df['Name'].loc['store1']

'Chris'

In [21]:
df['Name'].iloc[0:2]

store1    Chris
store2    Kevyn
Name: Name, dtype: object

In [22]:
df[['Name','Cost']].loc['store1']

Name    Chris
Cost     22.5
Name: store1, dtype: object

In [23]:
df[['Name','Cost']].iloc[0:2]

Unnamed: 0,Name,Cost
store1,Chris,22.5
store2,Kevyn,2.5


## 5. 조건부 쿼링 (Conditional Querying)

In [31]:
data = {
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
    'year': [2000, 2001, 2002, 2001, 2002],
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9]
}
df = pd.DataFrame(data)
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [39]:
# 인구수가 2 이상인 데이터

In [32]:
df['pop']>2

0    False
1    False
2     True
3     True
4     True
Name: pop, dtype: bool

In [33]:
df[df['pop']>2]

Unnamed: 0,state,year,pop
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [40]:
# state가 Ohio인 데이터

In [34]:
df['state']=='Ohio'

0     True
1     True
2     True
3    False
4    False
Name: state, dtype: bool

In [35]:
df[df['state']=='Ohio']

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6


In [None]:
# 행선택 -> 열선택

In [36]:
df[df['pop']>2]['state']

2      Ohio
3    Nevada
4    Nevada
Name: state, dtype: object

In [None]:
# 행선택 -> 복수열선택

In [38]:
df[df['pop']>2][['state','year']]

Unnamed: 0,state,year
2,Ohio,2002
3,Nevada,2001
4,Nevada,2002


## 6. 데이터프레임 연산하기

In [44]:
# 연산할 열이나 행을 고르면 -> 시리즈가 된다.
# 시리즈의 연산법칙을 그대로 따른다.
df['year']+1

0    2001
1    2002
2    2003
3    2002
4    2003
Name: year, dtype: int64

In [45]:
df['pop']*2 #열의 값에 일괄적으로 2배를 곱하기

0    3.0
1    3.4
2    7.2
3    4.8
4    5.8
Name: pop, dtype: float64

In [52]:
df['debt']/df['pop'] #열과 열사이의 연산도 가능하다

0    13.333333
1    12.352941
2     5.277778
3     7.083333
4     5.172414
dtype: float64

In [48]:
#한 열을 선택하여 연산도 가능하다.
df[['year','pop']].iloc[0]+1

year    2001.0
pop        2.5
Name: 0, dtype: float64

## 7. 새로운 열 추가하기

In [42]:
debt=pd.Series([20,21,19,17,15]) 
debt

0    20
1    21
2    19
3    17
4    15
dtype: int64

In [43]:
df['debt']=debt #시리즈를 이용해 하나의 열 추가하기
df

Unnamed: 0,state,year,pop,debt
0,Ohio,2000,1.5,20
1,Ohio,2001,1.7,21
2,Ohio,2002,3.6,19
3,Nevada,2001,2.4,17
4,Nevada,2002,2.9,15


In [50]:
df['double_pop']=df['pop']*2 #연산의 결과를 새로운 열에 저장하기
df

Unnamed: 0,state,year,pop,debt,double_pop
0,Ohio,2000,1.5,20,3.0
1,Ohio,2001,1.7,21,3.4
2,Ohio,2002,3.6,19,7.2
3,Nevada,2001,2.4,17,4.8
4,Nevada,2002,2.9,15,5.8
