In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv('WHO_first9cols.csv')
df

### 통계 메서드

In [None]:
df.describe()  # 통계 요약

In [None]:
df.count()  # 결측치(NaN)가 아닌 데이터의 총 갯수

In [None]:
df.std() # 표준편차

### 통계 기초
- 평균(mean) : 모든 데이터의 값을 더하고 데이터의 갯수로 나눈 값, 중심 성향에 대한 추정량을 계산할 때
- 편차(deviation) : 관측값과 평균값과의 차이,(데이터값 - 평균), 양수나 음수의 값을 갖는다
- 분산(variance) : 편차의 제곱의 합의 평균, 음수값이 양수로 더해진다,실제값보다 너무 멀어져 있게 된다
- 표준편차(standard deviation) : 분산에 루트(제곱근)을 씌운 값

In [None]:
df.mad() # Mean Absolute Deviation , 평균 절대 편차

In [None]:
df.mean() # 평균

In [None]:
df.median()   # 중위수, 2사분위수(50%,Q2)

In [None]:
df.sum()
df.max()
df.min()
df.mode() # 최빈값, 빈도가 가장 높은 값
df.var()  # 분산
df.skew() # 비대칭도, 왜도 ,skewness
df.kurt() # 첨도,kurtosis, 뽀족한 정도

### 조건 검색 : Boolean indexing

In [None]:
# 조건식으로 검색
df[df > df.mean()]  # 불필요한 출력

# 올바른 검색 출력
# 'Adolescent fertility rate (%)' 이 평균값 보다 큰 행을 추출
df[df['Adolescent fertility rate (%)'] > 
   df['Adolescent fertility rate (%)'].mean()]
# df[[True,False]*101]
# df['Adolescent fertility rate (%)'].mean()  # 59.45762711864407

In [None]:
# 성인 중에서 글을 읽을 수 있는 사람의 비율이 30% 미만인 행 추출
df[ df['Adult literacy rate (%)'] < 30 ]

In [None]:
# 조건식 2개 사용
# 성인 중에서 글을 읽을 수 있는 사람의 비율이 30% 보다 크고 50%미만인 행 추출
df[(df['Adult literacy rate (%)'] > 30) & 
   (df['Adult literacy rate (%)'] < 50) ]

In [None]:
type(df['Adult literacy rate (%)'] < 30 )      # Series 객체
type(df[df['Adult literacy rate (%)'] < 30 ])  # DataFrame 객체

In [None]:
df['Adult literacy rate (%)'][df['Adult literacy rate (%)'] < 30]  # Series 객체

In [None]:
# 실습 과제 1번
df = pd.read_csv('boston_train.csv')

print("Shape:\n", df.shape)
print("Length:\n", len(df))
print("Column Headers:\n", df.columns)
print("Data types:\n", df.dtypes)
print("Index:\n", df.index)
print("Values:\n", df.values)
print("head",df.head())
print("teail",df.tail())
print("Describe", df.describe(),"\n")
print("Non NaN observations", df.count(),"\n")
print("MAD", df.mad(),"\n")
print("Median", df.median(),"\n")
print("Mean", df.mean(),"\n")
print("Sum", df.sum(),"\n")
print("Min", df.min(),"\n")
print("Max", df.max(),"\n")
print("Mode", df.mode(),"\n")
print("Standard Deviation", df.std(),"\n")
print("Variance", df.var(),"\n")
print("Skewness", df.skew(),"\n")
print("Kurtosis", df.kurt(),"\n")

In [None]:
# 실습 과제 2번
# 2-1번
print('CRIM mean: ', df['CRIM'].mean())
print(df[df['CRIM'] > df['CRIM'].mean()])

print('-'*50)

# 2-2번
print('AGE mean: ', df['AGE'].mean())
print(df[df['AGE'] < df['AGE'].mean()])

print('-'*50)

# 2-3번
print('MEDV median: ', df['MEDV'].median())
print(df[df['MEDV'] < df['MEDV' ].median()])
# df[df['MEDV'] < df['MEDV' ].median()]

### 데이터 프레임 추가와 합치기

In [None]:
# 행(수직)으로 합치기 : append(),concat()
score_table1 = { '영어': [10,20,30,40,50],
                 '수학': [70,80,90,30,20]}
score_table2 = { '영어': [20,30,40,50,60],
                 '수학': [80,90,30,20,70]}

df1 = pd.DataFrame(score_table1)
df2 = pd.DataFrame(score_table2)

# df1.append(other, ignore_index=False, verify_integrity=False, sort=False) 
new_df1 = df1.append(df2)  # 행의 인덱스가 중복 출력
new_df1

new_df2 = df1.append(df2,ignore_index=True) # 행의 인덱스가 중복되지 않음
new_df2

new_df3 = df1.append(df1,ignore_index=True) # 행의 인덱스가 중복되지 않음
new_df3

len(new_df3)

In [None]:
pd.concat([df1,df2],axis=0,ignore_index=True)

In [None]:
# 열(수평)로 합치기 : concat(),merge(),join()

# concat()
pd.concat([df1,df2],axis=1)

In [None]:
# merge()

# 내부(inner) 조인 : 공통 조건에 만족되는 부분만 조인된다
# 내부조인은 두 테이블의 행을 선택할 때 조인 조건에 지정된 열의 값이 일치하는 
# 경우에만 조인된다
# 공통조건 : 'EmpNr'

dests = pd.read_csv('dest.csv')
tips = pd.read_csv('tips.csv')
print(dests)
print(tips)

pd.merge(dests,tips,how='inner',on='EmpNr')

# pd.merge(dests,tips,how='inner',on='Dest') # KeyError: 'Dest'

In [None]:
# 외부 (outer) 조인 : 공통 조건에 관계없이 조인 된다, 결측치는 NaN으로 표시
pd.merge(dests,tips,how='outer')

In [None]:
# df.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)()
dests.join(tips,lsuffix='_Dest',rsuffix='_Tip')

In [None]:
# merge() 활용

employee = [{'empno':1, 'ename':'kim', 'dept':1},
            {'empno':2, 'ename':'lee', 'dept':2}, 
            {'empno':3, 'ename':'park', 'dept':1}, 
            {'empno':4, 'ename':'song', 'dept':3},
            {'empno':5, 'ename':'min', 'dept':2}]

dept=[{'dept':1, 'deptname':'관리직'},
      {'dept':2, 'deptname':'영업직'},
      {'dept':3, 'deptname':'개발직'}]

info =[{'empno':1, 'addr':'서울시','phone':'010-1111-1111'},
       {'empno':3, 'addr':'부산시','phone':'010-2222-2222'}, 
       {'empno':2, 'addr':'광주시','phone':'010-3333-3333'}, 
       {'empno':5, 'addr':'광주시','phone':'010-4444-4444'},
       {'empno':4, 'addr':'광주시','phone':'010-5555-5555'}]

emp = pd.DataFrame(employee)
dept = pd.DataFrame(dept)
info = pd.DataFrame(info)
emp
dept
info 

In [None]:
# 내부 조인
m = pd.merge(emp,dept,how='inner',on='dept')
m

In [None]:
# 불필요한 컬럼/행 삭제
#  inplace=True : 원본을 변경, None을 반환
#  inplace=False : 원본을 변경되지 않고 변경된 결과 값을 반환
# 컬럼 삭제
m.drop(columns=['dept'],inplace=True)
m

In [None]:
# 행을 삭제
# m.drop(index=[1,3],inplace=True) # 1,3번 행을 삭제, 원본이 변경
# m

In [None]:
# 내부 조인
m2 = pd.merge(m,info,how='inner',on='empno')
m2.drop(columns=['empno'],inplace=True)
m2

In [None]:
m2.to_csv('emplyee.csv')