# D.2 자주 쓰이는 파이썬 기능 요약

In [1]:
import pandas as pd
import numpy as np
df = pd.read_csv('2017DC1.csv')   # 데이터 불러오기
df.shape

(20771, 30)

In [2]:
# 컬럼 세 개 df를 생성
df = df[['ACCESS', 'ACR', 'AGEP']]
df.head(3)

Unnamed: 0,ACCESS,ACR,AGEP
0,1.0,1.0,74
1,1.0,3.0,46
2,1.0,3.0,45


In [3]:
# 컬럼명을 간략화 하기 위해 ACCESS, ACR, AGEP를 A, B, C로 고침

df = df.rename(columns={"ACCESS": "A", "ACR": "B", "AGEP":"C"})
df.head(3)

Unnamed: 0,A,B,C
0,1.0,1.0,74
1,1.0,3.0,46
2,1.0,3.0,45


In [4]:
df.describe()

Unnamed: 0,A,B,C
count,20771.0,20771.0,20771.0
mean,1.276154,1.471475,43.267777
std,0.673095,0.702216,24.081518
min,1.0,1.0,0.0
25%,1.0,1.0,21.0
50%,1.0,1.0,46.0
75%,1.0,2.0,63.0
max,3.0,3.0,93.0


In [6]:
df['A'].value_counts()

1.0    17664
3.0     2629
2.0      478
Name: A, dtype: int64

In [None]:
# pd.read_csv()                    # 원본 데이터 abc.csv 파일 불러오기
import pandas as pd                # pandas와 numpy 라이브러리는 처음부터 같이 불러오는 것을 권장
import numpy as np  
df = pd.read_csv('abc.csv')        

In [8]:
# df.astype()
df['A'] = df['A'].astype(np.int64) # 컬럼(변수) A의 dtype을 np.int64로 교체

In [None]:
# df.describe()
df['A'].describe()                 # 컬럼 A의 요약 통계 디스플레이    

In [None]:
# df.drop()
df.drop('C',axis=1,inplace=True)   # 컬럼 C를 데이터프레임 df에서 제거

In [None]:
# df.dtypes
df['A'].dtypes                     # 컬럼(변수) A의 dtype 디스플레이

In [15]:
# df.fillna(0).astype()
df['A'] = df['A'].fillna(0).astype(np.int64)   
                                   # 컬럼(변수) A의 결측값을 0으로 메우고 dtype을 교체

In [None]:
# df.head()
df.head(3)                         # 데이터프레임을 3행까지 디스플레이. 숫자가 없으면 5행까지 디스플레이

In [None]:
# df.isna()
df.isna().any()[lambda x: x]       # 결측값을 갖고 있는 변수명(컬럼명) 찾기

In [None]:
# df.isnull().mean()
df.isnull().mean().sort_values(ascending=False) 
                                   # 데이터프레임내 모든 변수의 결측값 비율을 내림차순으로 디스플레이

In [None]:
# df.isnull.sum()
df['A'].isnull().sum()             # 컬럼 A의 결측값 개수 디스플레이

In [None]:
# list(df.columns)
list(df.columns)                   # 데이터프레임 df내 모든 컬럼명 디스플레이

In [None]:
# pd.DataFrame()
df = pd.DataFrame('d')             # Series 형식인 데이터 d를 데이터프레임 df로 만들기

In [None]:
# df.replace()
df['A'] = df['A'].replace('.',np.nan) # 컬럼 A의 점(.)을 결측값으로 표기

In [None]:
# df.shape
df.shape                           # 데이터프레임 df의 행과 열 차원 디스플레이

In [None]:
# time.time()                      
# 런타임 디스플레이

import time
start = time.time()

# 런타임을 알고자 하는 프로그래밍 구문 삽입

end = time.time()
print(f"Runtime of the program is {end - start}")

In [None]:
# df.to_csv()
df.to_csv('abc.csv', index=False)  # 데이터프레임 df를 abc.csv로 저장

In [None]:
# df.value_counts()
df['A'].value_counts(dropna=False)                 # 컬럼 A의 값별로 개수를 디스플레이
df['A'].value_counts(dropna=False, normalize=True) # 컬럼 A의 값별로 개수 비율을 디스플레이

In [None]:
# df1.append(df2)
df3 = df1.append(df2)        # 데이터프레임 df1과 df2를 위아래(수직) 방향으로 병합(merging)하여 df3로 저장

In [43]:
# pd.concat(df1, df2, axis=1)
df3 = pd.concat(df1, df2, axis=0) # 데이터프레임 df1과 df2를 위아래(수직) 방향으로 병합하여 df3로 저장
df3 = pd.concat(df1, df2, axis=1) # 데이터프레임 df1과 df2를 옆(수평) 방향으로 병합하여 df3로 저장

In [None]:
# df.loc
# 기존 변수를 활용하여 새로운 타겟 변수 생성
df.loc[df['A'] >= 2, "Target"] = 1  # 변수 A값이  2 이상이면 타겟변수 Target 값은 1
df.loc[df['A'] <  2, "Target"] = 0  # 변수 A값이  2 미만이면 타겟변수 Target 값은 1
# 참고로 위의 예에서 숫자 2는 A값의 범위 내의 그 어떤 숫자로 연구자가 대체해도 되나, 
# 대체적으로 변수 A의 분포가 정규분포에 가까우면 평균값, 그렇지 않으면 중위수를 선택해서 입력하는 것이 무난함 

In [None]:
# np.where()
df['A_indicator'] = np.where(df['A'].isnull(),1,0)
# SimpleImputer()의 add_indicator=True 기능으로 missing value indicator를 자동으로 생성하지 않고,
# 데이터프레임에서 직접 missing value indicator를 수동으로 작성할 때 쓰임