# CRUD

### Create(생성), Read(읽기), Update(갱신), Delete(삭제)

### https://wikidocs.net/153209

## 1. Create

In [None]:
import pandas as pd
obj = pd.Series([4, 7, -5, 3])
obj

In [None]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

In [9]:
sdata = {'Kim': 35000, 'Beomwoo': 67000, 'Joan': 12000, 'Choi': 4000}
obj3 = pd.Series(sdata)
obj3

Kim        35000
Beomwoo    67000
Joan       12000
Choi        4000
dtype: int64

In [10]:
obj3.name = 'Salary'
obj3.index.name = "Names"
obj3

Names
Kim        35000
Beomwoo    67000
Joan       12000
Choi        4000
Name: Salary, dtype: int64

In [68]:
na = None
col  = ['col1','col2','col3','col4','col5']
row  = [1,2,3,4,5,6,7]
data = [[na, 2,na, 4,na],
        [ 6, 7,na, 9,na],
        [11,na,na,14,15],
        [na,17,1,na,20],
        [na,3,na,na,25],
        [22,na,na,4,3],
        [na,22,na,na,na]
        ]
df = pd.DataFrame(data,row,col)
df

Unnamed: 0,col1,col2,col3,col4,col5
1,,2.0,,4.0,
2,6.0,7.0,,9.0,
3,11.0,,,14.0,15.0
4,,17.0,1.0,,20.0
5,,3.0,,,25.0
6,22.0,,,4.0,3.0
7,,22.0,,,


In [54]:
# Data Frame 정의하기
# 이전에 DataFrame에 들어갈 데이터를 정의해주어야 하는데,
# 이는 python의 dictionary 또는 numpy의 array로 정의할 수 있다.
data = {'name': ['Beomwoo', 'Beomwoo', 'Beomwoo', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9]}
df2 = pd.DataFrame(data)
df2

Unnamed: 0,name,year,points
0,Beomwoo,2013,1.5
1,Beomwoo,2014,1.7
2,Beomwoo,2015,3.6
3,Kim,2016,2.4
4,Park,2015,2.9


In [55]:
na = None
list2 = [1,2,3,4,5]
col = {'a':[na,3, 4, 5, 6], 'b':[1,2,3,4,5], 'c':list2}
df3 = pd.DataFrame(col)
df3['d'] = 2,3,4,5,6
df3

Unnamed: 0,a,b,c,d
0,,1,1,2
1,3.0,2,2,3
2,4.0,3,3,4
3,5.0,4,4,5
4,6.0,5,5,6


## 2. Read

In [56]:
df.info()
df.describe()
df.head()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7 entries, 1 to 7
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   col1    3 non-null      float64
 1   col2    5 non-null      float64
 2   col3    1 non-null      float64
 3   col4    4 non-null      float64
 4   col5    4 non-null      float64
dtypes: float64(5)
memory usage: 336.0 bytes


Unnamed: 0,col1,col2,col3,col4,col5
1,,2.0,,4.0,
2,6.0,7.0,,9.0,
3,11.0,,,14.0,15.0
4,,17.0,1.0,,20.0
5,,3.0,,,25.0


In [57]:
#칼럼확인
df.columns

Index(['col1', 'col2', 'col3', 'col4', 'col5'], dtype='object')

In [58]:
#각행확인
df.values

array([[nan,  2., nan,  4., nan],
       [ 6.,  7., nan,  9., nan],
       [11., nan, nan, 14., 15.],
       [nan, 17.,  1., nan, 20.],
       [nan,  3., nan, nan, 25.],
       [22., nan, nan,  4.,  3.],
       [nan, 22., nan, nan, nan]])

In [83]:
df['col1'] #열하나만 추출
df[['col1', 'col2']] #리스트로 넣어서 여러열 추출
df.loc[0:4, ['col1', 'col2']] #지정행만 추출 복수일경우 리스트

Unnamed: 0,col1,col2
1,,2.0
2,6.0,7.0
3,11.0,
4,,17.0


In [84]:
#loc, iloc의 차이는 loc은 열의 구체적 이름, iloc은 열인덱스로 활용
df.iloc[3] # 3번째 행을 가져온다.
df.iloc[3:5, 0:2] #행 렬

Unnamed: 0,col1,col2
4,,17.0
5,,3.0


## 3. Update

In [59]:
# 각 인덱스에 대한 이름 설정하기
df.index.name = '#'

#칼럼에 대한 인덱스 네임
df.columns.name = 'Info'
df

Info,col1,col2,col3,col4,col5
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,,2.0,,4.0,
2,6.0,7.0,,9.0,
3,11.0,,,14.0,15.0
4,,17.0,1.0,,20.0
5,,3.0,,,25.0
6,22.0,,,4.0,3.0
7,,22.0,,,


In [148]:
# index 변경
df.index = ['A', 'B', 'C', 'D', 'E', 'F', 'G']
df

ValueError: Length mismatch: Expected axis has 8 elements, new values have 7 elements

In [None]:
#인덱스 재지정의 경우 항상 새로 df를 만들어서 실수를 배제할것

df.reset_index(inplace=True, drop=True) #바꾸냐 안바꾸냐/지우냐안지우냐
# df.drop(columns='index',inplace=True)
df22 = df.set_index('col2', inplace=True) #기존행을 인덱스로 지정하냐안하냐, 새로운 df필요
df22.reset_index(inplace=True) #이럴경우 
df22

In [75]:
#열추가
df['col6']=df.index
df['col7'] = df['col2'] - df['col4']
df

Unnamed: 0,col1,col2,col3,col4,col5,col4>1,col6,col7
1,,2.0,,4.0,,True,1,-2.0
2,6.0,7.0,,9.0,,True,2,-2.0
3,11.0,,,14.0,15.0,True,3,
4,,17.0,1.0,,20.0,False,4,
5,,3.0,,,25.0,False,5,
6,22.0,,,4.0,3.0,True,6,
7,,22.0,,,,False,7,


In [76]:
df['col4>1'] = df['col4'] > 1.0
df

Unnamed: 0,col1,col2,col3,col4,col5,col4>1,col6,col7
1,,2.0,,4.0,,True,1,-2.0
2,6.0,7.0,,9.0,,True,2,-2.0
3,11.0,,,14.0,15.0,True,3,
4,,17.0,1.0,,20.0,False,4,
5,,3.0,,,25.0,False,5,
6,22.0,,,4.0,3.0,True,6,
7,,22.0,,,,False,7,


In [86]:
# 조건에 따라 값 대체
df.loc[df['col6'] > 3, 'col7'] = "yes"
df

Unnamed: 0,col1,col2,col3,col4,col5,col4>1,col6,col7
1,,2.0,,4.0,,True,1,-2.0
2,6.0,7.0,,9.0,,True,2,-2.0
3,11.0,,,14.0,15.0,True,3,
4,,17.0,1.0,,20.0,False,4,yes
5,,3.0,,,25.0,False,5,yes
6,22.0,,,4.0,3.0,True,6,yes
7,,22.0,,,,False,7,yes


In [90]:
df.loc[df['col4>1'] == True, 'col4>1'] = 1
df.loc[df['col4>1'] == False, 'col4>1'] = 0
df

Unnamed: 0,col1,col2,col3,col4,col5,col4>1,col6,col7
1,,2.0,,4.0,,1,1,-2.0
2,6.0,7.0,,9.0,,1,2,-2.0
3,11.0,,,14.0,15.0,1,3,
4,,17.0,1.0,,20.0,0,4,yes
5,,3.0,,,25.0,0,5,yes
6,22.0,,,4.0,3.0,1,6,yes
7,,22.0,,,,0,7,yes


In [105]:
df.loc['8',:] = [22,None,None,4,4,1,-2.0] #행추가
df

Unnamed: 0,col1,col2,col3,col4,col5,col6,col7
1.0,,2.0,,4.0,,1.0,-2.0
2.0,6.0,7.0,,9.0,,2.0,-2.0
3.0,11.0,,,14.0,15.0,3.0,
4.0,,17.0,1.0,,20.0,4.0,yes
5.0,,3.0,,,25.0,5.0,yes
6.0,22.0,,,4.0,3.0,6.0,yes
7.0,,22.0,,,,7.0,yes
8.0,22.0,,,4.0,4.0,8.0,-2.0
2.5,22.0,,,4.0,4.0,1.0,-2.0


## 4. Delete

In [106]:
#행삭제 = 인덱스로 지정
df.drop(index='2.5',inplace=True)
df

Unnamed: 0,col1,col2,col3,col4,col5,col6,col7
1,,2.0,,4.0,,1.0,-2.0
2,6.0,7.0,,9.0,,2.0,-2.0
3,11.0,,,14.0,15.0,3.0,
4,,17.0,1.0,,20.0,4.0,yes
5,,3.0,,,25.0,5.0,yes
6,22.0,,,4.0,3.0,6.0,yes
7,,22.0,,,,7.0,yes
8,22.0,,,4.0,4.0,8.0,-2.0


In [113]:
df.drop(columns=['col6', 'col7'], inplace=True) 
df

Unnamed: 0,col1,col2,col3,col4,col5,col6
1,,2.0,,4.0,,1.0
2,6.0,7.0,,9.0,,2.0
3,11.0,,,14.0,15.0,3.0
4,,17.0,1.0,,20.0,4.0
5,,3.0,,,25.0,5.0
6,22.0,,,4.0,3.0,6.0
7,,22.0,,,,7.0
8,22.0,,,4.0,4.0,8.0


In [114]:
# (추천)살릴경우 데이터프레임 새로 만들어줘야함
df2 = df.drop(index=[1,2,3]) #인덱스 1,2,3번째 지우고 df2로 새로만듬
df2

Unnamed: 0,col1,col2,col3,col4,col5,col6
4,,17.0,1.0,,20.0,4.0
5,,3.0,,,25.0,5.0
6,22.0,,,4.0,3.0,6.0
7,,22.0,,,,7.0
8,22.0,,,4.0,4.0,8.0


# 결측치

### 확인
### 삭제
### 채우기(전값, 후값, 평균값 등)

In [126]:
df

Unnamed: 0,col1,col2,col3,col4,col5,col6
0,,2.0,,4.0,,1.0
1,6.0,7.0,,9.0,,2.0
2,11.0,,,14.0,15.0,3.0
3,,17.0,1.0,,20.0,4.0
4,,3.0,,,25.0,5.0
5,22.0,,,4.0,3.0,6.0
6,,22.0,,,,7.0
7,22.0,,,4.0,4.0,8.0


In [None]:
#확인
df.isnull().sum() #isnull()의 True(결측값)을 더한것
df.notnull().sum() #결측이 아닌 데이터의 개수를 더한것
df.loc[df.isnull()['특정행'],:] # F열에서 nan값을 포함하는 행만 추출하기

#삭제
df.dropna(how='any') #행중 값이 하나라도 없으면 다삭제
df.dropna(how='all') #행의 모든값이 없으면 그 행을 삭제
df.dropna(subset=['특정열']) #특정열에거 결측치가 있을경우 그 행을 다삭제

#수정
#DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)
df.fillna(0) #0으로 다채우기
df.fillna({'특정행':df['특정행'].mean()}) #특정행의 결측값을 특정행의 평균값으로 채움, max(), min()등 가능
df.fillna({'특정행1':'특정값','특정행2':'특정값'}) #다중행도 처리가능함
df.fillna(method='ffill') #앞의값(윗행)으로채우기
df.fillna(method='bfill') #뒤의값(아래행)으로채우기