In [44]:
import pandas as pd
import numpy as np

# Table

#  DataFrame의 생성

## 파이썬의 프로그램에서 내부 데이터로부터 생성

### 딕셔너리를 이용한 데이터프레임 생성

In [4]:
# > {칼럼이름: 칼럼값 리스트,...}로 구성되는 딕셔너리 생성
# > 딕셔너리를 사용하여 데이터프레임 생성
# 각 행에는 인덱스 부여할 수 있으며, 부여하지 않을 경우 (0,1,2,...)가 자동부여

In [5]:
data={"fruits":['apple','orange','banana','strawberry','kiwifriut'],
     'year':[2001,2002,2001,2008,2006],
     'time':[1,4,5,6,3]}
df=pd.DataFrame(data)
df

Unnamed: 0,fruits,year,time
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5
3,strawberry,2008,6
4,kiwifriut,2006,3


## - 외부로부터 2차원 데이터 읽어들임

In [6]:
# 대표적인 2차원 데이터들 : 엑셀파일, 텍스트 파일

### 2차원데이터로부터 데이터프레임 생성

In [7]:
# > 각 칼럼에는 칼럼의 이름 부여됨
# > 인덱스의 값들이 저장되는 index_col을 지정가능
# > 인덱스 칼럼 지정안해주면 각 행에는 (0,1,2,...)가 자동 인덱스번호로 부여

In [52]:
irisDF=pd.read_csv('iris_MY.csv')
irisDF

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,classification
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


### .csv 파일

In [19]:
# > 첫번째 행의 값을 컬럼이름으로 취급
# > 첫번째 행을 칼럼이름으로 취급하지 않으려면, header=None 지정

In [20]:
irisDF=pd.read_csv('iris.csv')
irisDF

Unnamed: 0,5.1,3.5,1.4,0.2,0
0,4.9,3.0,1.4,0.2,0
1,4.7,3.2,1.3,0.2,0
2,4.6,3.1,1.5,0.2,0
3,5.0,3.6,1.4,0.2,0
4,5.4,3.9,1.7,0.4,0
...,...,...,...,...,...
144,6.7,3.0,5.2,2.3,2
145,6.3,2.5,5.0,1.9,2
146,6.5,3.0,5.2,2.0,2
147,6.2,3.4,5.4,2.3,2


In [21]:
irisDF2=pd.read_csv('iris.csv',header=None) #첫번째 행을 칼럼으로 취급X
irisDF2

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


# Series

In [26]:
# 리스트 또는 1차원 Array와 유사한 데이터 구조
# > 다만 index값으로 0,1,2,... 숫자 뿐 아니라, 임의의 label을 인덱스로 부여 가능
# label을 인덱스로 부여할 수 있단 점에서 Dictionary와 유사
# > Dictionary -> Series
#    Series -> Dictionary 로 변환가능

## Series와 Dictionary의 변환(공통점)

In [31]:
s1=pd.Series([12,-4,'C',9],index=['a','b','c','d'])
s1

a    12
b    -4
c     C
d     9
dtype: object

In [29]:
#시리즈에서 딕셔너리로 변환
s1_dict=dict(s1) 
s1_dict

{'a': 12, 'b': -4, 'c': 'C', 'd': 9}

In [28]:
s1_dict['a']

12

In [30]:
#딕셔너리에서 시리즈로 변환
s2=pd.Series(s1_dict)
s2

a    12
b    -4
c     C
d     9
dtype: object

In [32]:
s2['a']

12

## Series와 Dictionary의 차이점

In [35]:
# Series : 원소별 연산 가능
# Dictionary : 원소별 연산 불가능

In [36]:
s1*3

a     36
b    -12
c    CCC
d     27
dtype: object

In [37]:
s1_dict*3

TypeError: unsupported operand type(s) for *: 'dict' and 'int'

In [49]:
s1_dict['c']*3

'CCC'

# NaN(Not a Number)

In [41]:
# 파이썬에서는 NaN을 Null로 취급

In [42]:
s3=pd.Series([12,-4,7,9])

In [45]:
np.log(s3)

  result = getattr(ufunc, method)(*inputs, **kwargs)


0    2.484907
1         NaN
2    1.945910
3    2.197225
dtype: float64

In [46]:
(np.log(s3)).isnull() #null값 확인해주는 메소드

0    False
1     True
2    False
3    False
dtype: bool

In [47]:
s4=np.log(s3)
s4[s4.notnull()]

0    2.484907
2    1.945910
3    2.197225
dtype: float64

# DataFrame과 Series

In [50]:
# DataFrame의 일부 선택시, DataFrame 또는 Series만들어짐

## DataFrame의 일부 선택하여 Series만들기

In [53]:
irisDF['sepal_length']

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepal_length, Length: 150, dtype: float64

In [54]:
type(irisDF['sepal_length'])

pandas.core.series.Series

## DataFrame의 일부 선택하여 Series만들고 다시 대괄호로 DataFrame만들기

In [56]:
irisDF[['sepal_length']]

Unnamed: 0,sepal_length
0,5.1
1,4.9
2,4.7
3,4.6
4,5.0
...,...
145,6.7
146,6.3
147,6.5
148,6.2


In [57]:
type(irisDF[['sepal_length']])

pandas.core.frame.DataFrame

# DataFrame과 Series

In [59]:
#데이터프레임은 여러개의 Series를 모아둔 것 (= Series는 데이터프레임의 여러 컬럼들)
# 데이터프레임의 칼럼들을 Series로 분리한 후
# > Series들을 합치면 --> pd.concat()
# > Series들을 데이터프레임으로 변환시키면 --> pd.DataFrame()

In [60]:
df2=df
df2

Unnamed: 0,fruits,year,time
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5
3,strawberry,2008,6
4,kiwifriut,2006,3


In [61]:
fruitS=df2['fruits']
fruitS

0         apple
1        orange
2        banana
3    strawberry
4     kiwifriut
Name: fruits, dtype: object

In [64]:
yearS=df2['year']

In [65]:
timeS=df2['time']

## Series들을 합치기 -> pd.concat()

In [70]:
df3=pd.concat([fruitS,yearS,timeS],axis=1) #열로 합치기
df3

Unnamed: 0,fruits,year,time
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5
3,strawberry,2008,6
4,kiwifriut,2006,3


## Series들을 데이터프레임으로 변환시키기 -> pd.DataFrame()

In [68]:
df4=pd.DataFrame([fruitS,yearS,timeS])
df4

Unnamed: 0,0,1,2,3,4
fruits,apple,orange,banana,strawberry,kiwifriut
year,2001,2002,2001,2008,2006
time,1,4,5,6,3


# Series의 조작

## Series의 검색

In [73]:
# 인덱스 라벨을 사용하여 참조(딕셔너리와 동일)
# (0,1,2,...)의 인덱스 사용하여 참조(리스트, 1차원배열과 동일)

In [74]:
index=['apple','orange','banana','strawberry','kiwifruit']
data=[10,5,8,12,3]

In [75]:
fruit_quan=pd.Series(data,index=index)
fruit_quan

apple         10
orange         5
banana         8
strawberry    12
kiwifruit      3
dtype: int64

In [77]:
items1=fruit_quan[1:4] #숫자로도 시리즈 검색 가능
print(items1)

orange         5
banana         8
strawberry    12
dtype: int64


In [78]:
item2=fruit_quan[['orange','banana','strawberry']]
item2

orange         5
banana         8
strawberry    12
dtype: int64

## 원소의 추가

### append()

In [180]:
#원소를 Series로 만든 후, append()함

In [85]:
# > 새로운 Series에 저장(기존 Series는 바뀌지 않음)
# > 딕셔너리 형태로 append()할 경우, 오류 발생

In [101]:
#새로운 시리즈에 저장
newS=pd.Series({"grape":99})

In [102]:
#append해서 추가
fruit_added=fruit_quan.append(newS)
fruit_added

  fruit_added=fruit_quan.append(newS)


apple         10
orange         5
banana         8
strawberry    12
kiwifruit      3
grape         99
dtype: int64

In [103]:
#딕셔너리 형태로 바로 append할 경우 오류발생(위에처럼 시리즈로 만든후 append해야됨)
fruit_added=fruit_quan.append({'grape':99})

  fruit_added=fruit_quan.append({'grape':99})


TypeError: cannot concatenate object of type '<class 'dict'>'; only Series and DataFrame objs are valid

### pd.concat()

In [179]:
#원소를 Series로 만든 후, 기존 Series와 새로운 Series를 pd.concat()함

In [104]:
fruit_added=pd.concat([fruit_quan,newS],axis=0)
fruit_added

apple         10
orange         5
banana         8
strawberry    12
kiwifruit      3
grape         99
dtype: int64

In [105]:
fruit_df=pd.concat([fruit_quan,newS],axis=1)
fruit_df

Unnamed: 0,0,1
apple,10.0,
orange,5.0,
banana,8.0,
strawberry,12.0,
kiwifruit,3.0,
grape,,99.0


## 원소의 삭제

### drop() 

In [177]:
# 기존 Series에 영향 X

In [93]:
fruit_added.drop(['strawberry'])

apple        10
orange        5
banana        8
kiwifruit     3
grape        99
dtype: int64

In [95]:
fruit_added #기존 시리즈엔 영향없는걸 볼수있음

apple         10
orange         5
banana         8
strawberry    12
kiwifruit      3
grape         99
dtype: int64

### del 

In [178]:
# 기존 Series에 영향 O

In [96]:
del fruit_added['strawberry']

In [97]:
fruit_added #기존 시리즈엔 영향있는걸 볼수있음

apple        10
orange        5
banana        8
kiwifruit     3
grape        99
dtype: int64

## 원소 Filtering

In [99]:
# 조건을 만족시키는 원소들만을 선별
# > True/False값을 갖는 조건식 작성
# > 조건식을 배열에 적용하면, element-wise연산에 의하여, 각원소들이 조건식을 만족시키는 결과 계산
# > 조건식의 계산 결과를 Series의 인덱스에 적용시, True인 원소들만 선별됨
# = 배열에서 원소의 선별과 동일

In [106]:
fruit_added

apple         10
orange         5
banana         8
strawberry    12
kiwifruit      3
grape         99
dtype: int64

In [107]:
fruit_added>5

apple          True
orange        False
banana         True
strawberry     True
kiwifruit     False
grape          True
dtype: bool

In [108]:
fruit_added[(fruit_added>=10)|(fruit_added<5)]

apple         10
strawberry    12
kiwifruit      3
grape         99
dtype: int64

In [109]:
## 2개 이상의 Series합산

In [110]:
Stud1={'2001':10,'2002':20,'2003':30,'2004':40,'2005':50}

In [111]:
S1=pd.Series(Stud1)

In [112]:
S1

2001    10
2002    20
2003    30
2004    40
2005    50
dtype: int64

In [113]:
S2=pd.Series([6,7,8],index=['2001','2002','2006'])
S2

2001    6
2002    7
2006    8
dtype: int64

In [114]:
S1+S2 #NaN은 숫자와 null을 합했으니까 null의 결과가 나온것(null=NaN)

2001    16.0
2002    27.0
2003     NaN
2004     NaN
2005     NaN
2006     NaN
dtype: float64

# Tuple

In [116]:
# Tuple: 변경 불가능한 리스트(=상수 리스트)
# > myTupe=(0,2.2,'hello')
# > Tuple의 원소로 tuple, 리스트, 배열 등을 가질 수 있음
# > Series의 클래스임

#**관계형 데이터베이스에선 테이블의 행(레코드)를 튜플이라고함,
#  튜플들이 모여있는 것을 테이블이라고 함

## Tuple의 검색

In [118]:
# tuple_name[]:index는 0부터 시작

In [119]:
student_Org=(2018,'IT동아리',[2016001,2018002,2018004])

In [120]:
type(student_Org)

tuple

In [121]:
student_Org[1]

'IT동아리'

In [122]:
student_Org[2][1]

2018002

In [124]:
student_Org[0]=2019 #튜플은 원소바꾸기 안되나봄

TypeError: 'tuple' object does not support item assignment

# DataFrame의 조작

## DataFrame의 검색

### .head(),.tail()

In [142]:
#데이터프레임의 처음 또는 끝 행들 중 몇개를 검색해봄
#확인, 검증목적

In [145]:
iris=pd.read_csv('iris_MY.csv')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,classification
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [146]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,classification
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [147]:
iris.head(2)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,classification
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0


### 열 추출검색

In [149]:
#데이터프레임의 열을 추출하면 Series가 만들어짐
#데이터프레임의 원소검색
# > 열을 추출
# > 추출된 Series의 원소 검색

In [150]:
df

Unnamed: 0,fruits,year,time
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5
3,strawberry,2008,6
4,kiwifriut,2006,3


In [151]:
fruitS=df['fruits']
fruitS

0         apple
1        orange
2        banana
3    strawberry
4     kiwifriut
Name: fruits, dtype: object

In [152]:
df['fruits'][1]

'orange'

### 열 전체 참조

In [None]:
# 데이터프레임에서 칼럼이름 지정
# loc[],iloc[] 사용가능

#### .iloc[]

In [153]:
# '인덱스(번호)'사용하여 검색
# 행렬: (행과 열의) 인덱스로 찾고자 하는 원소 지정
# 데이터프레임 : (행과 열의) 인덱스로 찾고자 하는 원소 지정

In [154]:
r_array=np.array([['a','b','c'],[1,2,3]])
print(r_array)

[['a' 'b' 'c']
 ['1' '2' '3']]


In [155]:
r_array[0,1:]

array(['b', 'c'], dtype='<U11')

In [156]:
df

Unnamed: 0,fruits,year,time
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5
3,strawberry,2008,6
4,kiwifriut,2006,3


In [157]:
df.iloc[[1,3],[0,2]]

Unnamed: 0,fruits,time
1,orange,4
3,strawberry,6


In [158]:
df.iloc[1:,:2]

Unnamed: 0,fruits,year
1,orange,2002
2,banana,2001
3,strawberry,2008
4,kiwifriut,2006


#### .loc[] 

In [159]:
#행과 열의 '이름'을 사용하여 검색
#.loc[]에서는 '열'의 인덱스번호 사용불가
# > 열의 이름 사용해야 함
# > 인덱스 사용은 iloc 사용
#행 전체 검색
# > .loc[]에서 행의 이름(행의 인덱스)만 지정
# > 행을 나타내는 Series/데이터프레임 검색

In [160]:
df

Unnamed: 0,fruits,year,time
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5
3,strawberry,2008,6
4,kiwifriut,2006,3


In [161]:
df.loc[[1,2],['time','year']]

Unnamed: 0,time,year
1,4,2002
2,5,2001


In [162]:
df.loc[0]

fruits    apple
year       2001
time          1
Name: 0, dtype: object

In [163]:
df.loc[0:2] 

Unnamed: 0,fruits,year,time
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5


#### loc와 iloc 차이

In [None]:
#loc : 행을 전체 검색
#iloc : 행 슬라이싱이 가능하기 때문?

In [165]:
#loc
df.loc[[0,1,2]]

Unnamed: 0,fruits,year,time
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5


In [166]:
df.loc[0:2]

Unnamed: 0,fruits,year,time
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5


In [167]:
#iloc
df.iloc[[0,1,2]]

Unnamed: 0,fruits,year,time
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5


In [168]:
df.iloc[0:2]

Unnamed: 0,fruits,year,time
0,apple,2001,1
1,orange,2002,4


## 행추가

### .append()

In [128]:
#추가할 행을 Series로 만듦
# 추가할 Series의 인덱스로 데이터프레임의 열 이름 부여

In [129]:
df

Unnamed: 0,fruits,year,time
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5
3,strawberry,2008,6
4,kiwifriut,2006,3


In [132]:
df.append(pd.Series(['mango',6,2008,19000],index=['fruits','time','year','price']),ignore_index=True)

  df.append(pd.Series(['mango',6,2008,19000],index=['fruits','time','year','price']),ignore_index=True)


Unnamed: 0,fruits,year,time,price
0,apple,2001,1,
1,orange,2002,4,
2,banana,2001,5,
3,strawberry,2008,6,
4,kiwifriut,2006,3,
5,mango,2008,6,19000.0


## 열추가

In [133]:
#데이터프레임에 새로운 열 이름 부여
# 열의 값으로 데이터 부여(Series, 리스트 등등)

In [134]:
df_new=df[['fruits']]
df_new

Unnamed: 0,fruits
0,apple
1,orange
2,banana
3,strawberry
4,kiwifriut


In [135]:
df_new['time']=pd.Series([9,9,9,9,9])
df_new

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_new['time']=pd.Series([9,9,9,9,9])


Unnamed: 0,fruits,time
0,apple,9
1,orange,9
2,banana,9
3,strawberry,9
4,kiwifriut,9


In [136]:
df_new['year']=[2020,2020,2020,2020,2020]
df_new

Unnamed: 0,fruits,time,year
0,apple,9,2020
1,orange,9,2020
2,banana,9,2020
3,strawberry,9,2020
4,kiwifriut,9,2020


## 데이터프레임의 결합

### pd.concat()

In [138]:
# 결합형태
# > 행을 추가하는 형태로 결합 -> axis=0
# > 열을 추가하는 형태로 결합 -> axis=1

In [139]:
pd.concat([df,df],axis=1)

Unnamed: 0,fruits,year,time,fruits.1,year.1,time.1
0,apple,2001,1,apple,2001,1
1,orange,2002,4,orange,2002,4
2,banana,2001,5,banana,2001,5
3,strawberry,2008,6,strawberry,2008,6
4,kiwifriut,2006,3,kiwifriut,2006,3


In [140]:
pd.concat([df,df],axis=0)

Unnamed: 0,fruits,year,time
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5
3,strawberry,2008,6
4,kiwifriut,2006,3
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5
3,strawberry,2008,6
4,kiwifriut,2006,3


### 조인 : merge()

In [195]:
da={"fruits":['apple','orange','banana','strawberry','kiwifriut'],
     'year':[2001,2002,2001,2008,2006],
     'amount':[1,4,5,6,3]}
df1=pd.DataFrame(da)
df1

Unnamed: 0,fruits,year,amount
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5
3,strawberry,2008,6
4,kiwifriut,2006,3


In [196]:
dat={"fruits":['apple','orange','banana','strawberry','mango'],
     'year':[2001,2002,2001,2008,2007],
     'price':[150,120,100,250,3000]}
df2=pd.DataFrame(dat)
df2

Unnamed: 0,fruits,year,price
0,apple,2001,150
1,orange,2002,120
2,banana,2001,100
3,strawberry,2008,250
4,mango,2007,3000


#### inner join

In [197]:
joined=pd.merge(df1,df2,how='inner') #그냥 공통되는 열 하나만 출력
joined

Unnamed: 0,fruits,year,amount,price
0,apple,2001,1,150
1,orange,2002,4,120
2,banana,2001,5,100
3,strawberry,2008,6,250


In [198]:
joined2=pd.merge(df1,df2,on='fruits',how='inner') #두 데이터프레임 각각 모든열 출력
joined2

Unnamed: 0,fruits,year_x,amount,year_y,price
0,apple,2001,1,2001,150
1,orange,2002,4,2002,120
2,banana,2001,5,2001,100
3,strawberry,2008,6,2008,250


#### outer join

In [202]:
#모든 열,행 다 보여줌

In [201]:
outer_joined=pd.merge(df1,df2,on='fruits',how='outer')
outer_joined

Unnamed: 0,fruits,year_x,amount,year_y,price
0,apple,2001.0,1.0,2001.0,150.0
1,orange,2002.0,4.0,2002.0,120.0
2,banana,2001.0,5.0,2001.0,100.0
3,strawberry,2008.0,6.0,2008.0,250.0
4,kiwifriut,2006.0,3.0,,
5,mango,,,2007.0,3000.0


#### 조인할 칼럼 이름 다를경우

In [204]:
#왼쪽 데이터프레임의 칼럼이름과 오른쪽 데이터프레임 칼럼이름 각각 지정

In [205]:
#외부데이터로부터 데이터프레임 생성

In [207]:
order_df=pd.read_csv('Downloads/orders.txt',header=None,names=['id','menuid','qty'] )
order_df

Unnamed: 0,id,menuid,qty
0,S1,D0,2
1,S1,D1,1
2,S1,D8,2
3,S2,D10,4
4,S2,D5,1
5,S3,D8,2
6,S3,D2,1
7,S4,D5,3
8,S5,D8,2


In [209]:
menu_df=pd.read_csv('Downloads/menu.txt')
menu_df

Unnamed: 0,id,name,price,kcal
0,D0,Chocolate Parfeit,4900,420
1,D1,Pudding Parfeit,5300,380
2,D2,Strawberry Parfeit,5200,380
3,D3,Panna Cotta,4200,283
4,D4,Cheese Mousse,5800,288
5,D5,Affogato,3000,248
6,D6,Tiramisu,6000,251
7,D7,Greentea Parfeit,4500,380
8,D8,Vanilla Gelato,3600,131
9,D9,Caramel Pancake,3900,440


In [210]:
#조인할 칼럼이름 다를 경우의 조인

In [211]:
sales_df=pd.merge(order_df,menu_df,left_on='menuid',right_on='id')
sales_df #how지정안해주면 innerjoin됨

Unnamed: 0,id_x,menuid,qty,id_y,name,price,kcal
0,S1,D0,2,D0,Chocolate Parfeit,4900,420
1,S1,D1,1,D1,Pudding Parfeit,5300,380
2,S1,D8,2,D8,Vanilla Gelato,3600,131
3,S3,D8,2,D8,Vanilla Gelato,3600,131
4,S5,D8,2,D8,Vanilla Gelato,3600,131
5,S2,D10,4,D10,Apple Pie,4400,350
6,S2,D5,1,D5,Affogato,3000,248
7,S4,D5,3,D5,Affogato,3000,248
8,S3,D2,1,D2,Strawberry Parfeit,5200,380


## 행, 열의 삭제

### drop()

In [171]:
#axis=0: 행 삭제, 기본값
#axis=1: 열 삭제

In [172]:
df

Unnamed: 0,fruits,year,time
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5
3,strawberry,2008,6
4,kiwifriut,2006,3


In [173]:
df.drop('time',axis=1)

Unnamed: 0,fruits,year
0,apple,2001
1,orange,2002
2,banana,2001
3,strawberry,2008
4,kiwifriut,2006


In [174]:
df.drop(0,axis=0)

Unnamed: 0,fruits,year,time
1,orange,2002,4
2,banana,2001,5
3,strawberry,2008,6
4,kiwifriut,2006,3


### del

In [176]:
del df['fruits']
df

Unnamed: 0,year,time
0,2001,1
1,2002,4
2,2001,5
3,2008,6
4,2006,3


## Filtering

In [184]:
# 특정 행, 열 들만 추출
# boolean연산 통해 검색조건 제시하고, 이들을 만족시키는 행/열만 추출
# loc[]사용하여 조건검색 실행

In [186]:
d={'1':[1,2,3,4],
     '10':[10,20,30,40]}
test_df=pd.DataFrame(d)
test_df

Unnamed: 0,1,10
0,1,10
1,2,20
2,3,30
3,4,40


In [187]:
test_df['1']==4

0    False
1    False
2    False
3     True
Name: 1, dtype: bool

## 값 갱신

In [189]:
#특정 행들의 열 값 갱신
# > 필터링 통하여 추출된 원소의 값을 새로운 값으로 갱신

In [190]:
test_df.loc[test_df['1']==4,'1']=400
test_df

Unnamed: 0,1,10
0,1,10
1,2,20
2,3,30
3,400,40


# SQL의 사용