# Pandas 연산과 함수

## 누락된 데이터 체크

튜토리얼의 데이터와 다르게 현실 데이터는 일부 누락되어 있는 형태가 많음



In [2]:
import pandas as pd
import numpy as np

dataframe= pd.DataFrame(columns=['이름','나이','주소'])
dataframe.loc[0] = ['임원균', '26', '서울']
dataframe.loc[1] = {'이름':'철수', '나이':'25', '주소':'인천'}
dataframe.loc[1, '이름'] = '영희'
dataframe['전화번호'] = np.nan
dataframe.loc[0,'전화번호']= '01045283518'
print(dataframe.isnull())
print(dataframe.notnull())


      이름     나이     주소   전화번호
0  False  False  False  False
1  False  False  False   True
     이름    나이    주소   전화번호
0  True  True  True   True
1  True  True  True  False


튜토리얼의 데이터와 다르게 현실 데이터는 일부 누락되어 있는 형태가 많음

In [3]:
dataframe.dropna()
dataframe['전화번호'] = dataframe['전화번호'].fillna('전화번호 없음')
dataframe

Unnamed: 0,이름,나이,주소,전화번호
0,임원균,26,서울,01045283518
1,영희,25,인천,전화번호 없음


numpy array에서 사용했던 Series 연산자들을 동일하게 활용할 수 있음

In [4]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
print(A + B)
A.add(B, fill_value=0)
print(A)

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64
0    2
1    4
2    6
dtype: int64


add(+), sub(-), mul(\*), div(/)

In [5]:
A = pd.DataFrame(np.random.randint(0, 10, (2, 2)), columns=list("AB"))
B = pd.DataFrame(np.random.randint(0, 10, (3, 3)), columns=list("BAC"))
print(A + B)
A.add(B, fill_value=0)
print(A)

      A    B   C
0   8.0  2.0 NaN
1  13.0  7.0 NaN
2   NaN  NaN NaN
   A  B
0  5  0
1  6  0


In [6]:
import numpy as np
import pandas as pd


print("A: ")
A = pd.DataFrame(np.random.randint(0, 10, (2, 2)), columns=['A', 'B'])      #칼럼이 A, B입니다.
print(A, "\n")


print("B: ")
B = pd.DataFrame(np.random.randint(0, 10, (3, 3)), columns=['B', 'A', 'C'])     #칼럼이 B, A, C입니다.
print(B, "\n")


# 아래에 다양한 연산을 자유롭게 적용해보세요.
print(A.add(B,fill_value=0))


A: 
   A  B
0  0  0
1  0  9 

B: 
   B  A  C
0  6  0  7
1  5  4  7
2  0  1  5 

     A     B    C
0  0.0   6.0  7.0
1  4.0  14.0  7.0
2  1.0   0.0  5.0


집계함수

In [7]:
data ={
    'A': [i+5 for i in range(3) ],
    'B' : [i**2 for i in range(3)]
}
df = pd.DataFrame(data)
df['A'].sum() 
df.sum()
df.mean()

A    6.000000
B    1.666667
dtype: float64

# 값으로 정렬

sort_values()

In [9]:
df = pd.DataFrame({
    'col1' : [2,1,9,8,7,4],
    'col2' : ['A', 'A', 'B', np.nan, 'D', 'C'],
    'col3' : [0, 1, 9, 4, 2, 3]
})
df

Unnamed: 0,col1,col2,col3
0,2,A,0
1,1,A,1
2,9,B,9
3,8,,4
4,7,D,2
5,4,C,3


In [15]:
print(df.sort_values('col1')) #오름차순
print(df.sort_values('col1', ascending=False)) #내림차순
print(df.sort_values(['col1','col2']))

   col1 col2  col3
1     1    A     1
0     2    A     0
5     4    C     3
4     7    D     2
3     8  NaN     4
2     9    B     9
   col1 col2  col3
2     9    B     9
3     8  NaN     4
4     7    D     2
5     4    C     3
0     2    A     0
1     1    A     1
   col1 col2  col3
1     1    A     1
0     2    A     0
5     4    C     3
4     7    D     2
3     8  NaN     4
2     9    B     9


In [16]:
import numpy as np
import pandas as pd

print("DataFrame: ")
df = pd.DataFrame({
    'col1' : [2, 1, 9, 8, 7, 4],
    'col2' : ['A', 'A', 'B', np.nan, 'D', 'C'],
    'col3': [0, 1, 9, 4, 2, 3],
})
print(df, "\n")


# 정렬 코드 입력해보기    
# Q1. col1을 기준으로 오름차순으로 정렬하기.
sorted_df1 = df.sort_values('col1', ascending=True)
print(sorted_df1)

# Q2. col2를 기준으로 내림차순으로 정렬하기.
sorted_df2 = df.sort_values('col2', ascending=False)
print(sorted_df2)


# Q3. col2를 기준으로 오름차순으로, col1를 기준으로 내림차순으로 정렬하기.
sorted_df3 = df.sort_values(['col2','col1'], ascending=[True,False])
print(sorted_df3)

DataFrame: 
   col1 col2  col3
0     2    A     0
1     1    A     1
2     9    B     9
3     8  NaN     4
4     7    D     2
5     4    C     3 

   col1 col2  col3
1     1    A     1
0     2    A     0
5     4    C     3
4     7    D     2
3     8  NaN     4
2     9    B     9
   col1 col2  col3
4     7    D     2
5     4    C     3
2     9    B     9
0     2    A     0
1     1    A     1
3     8  NaN     4
   col1 col2  col3
0     2    A     0
1     1    A     1
2     9    B     9
5     4    C     3
4     7    D     2
3     8  NaN     4
