In [1]:
# 선행 코드
# 필요한 패키지들 불러오기
# numpy, pandas
import numpy as np
import pandas as pd   # pd.Series

# 전체 기능의 일부분만 따로 불러오기
# from 전체 import 기능
from pandas import Series, DataFrame   #Series

## Series
- 1차원 데이터 구조
- numpy의 배열구조를 사용

In [2]:
ser1 = Series([4,5,3,-6])
ser1

0    4
1    5
2    3
3   -6
dtype: int64

In [3]:
#Label: 직접 지정한 인덱스 
#label 과 숫자 인덱스를 동시 사용 가능
ser1 = Series([4,5,3,-6], 
             index=['A', 'B', 'C', 'D'])
ser1

A    4
B    5
C    3
D   -6
dtype: int64

In [5]:
#label index에 대한 slicing 할 때 
#차이 점: 마지막 인덱스를 포함한다 
ser1[0:3], ser1['A':'C']


(A    4
 B    5
 C    3
 dtype: int64,
 A    4
 B    5
 C    3
 dtype: int64)

In [7]:
# fancy indexing , boolean indexing
# A, D 두개를 조회한다 
ser1[['A', 'D']]
# 3보다 큰 데이터 filter
cond = ser1>3
ser1[cond]

A    4
B    5
dtype: int64

In [8]:
#series -하나의 열에 해당하는 구조
#유용한 내장함수 
np.random.seed(0)
ser2= Series(np.random.randint(1, 10, 10))
ser2

0    6
1    1
2    4
3    4
4    8
5    4
6    6
7    3
8    5
9    8
dtype: int64

In [11]:
#ser.value_counts()   column  내부의 값 별로 개수 카우트 

ser2.value_counts()
#normalize = True <-  개수가 아닌 비율로 확인 
ser2.value_counts(normalize= True)

4    0.3
6    0.2
8    0.2
1    0.1
3    0.1
5    0.1
dtype: float64

In [12]:
#컬럼 안의 데이터의 종류를 파악
# = 컬럼 내부의 고유값들 파악
ser2.unique()

array([6, 1, 4, 8, 3, 5])

In [14]:
# 컬럼 내부의 고유값 개수 파악
# = 컬럼 내부의 고유값들 파악
ser2.nunique()

6

## DataFrame
- Pandas의 2차원 데이터 구조

### 생성법
1. 딕셔너리 형태의 데이터를 사용
2. 그냥 2차원 배열 형태의 데이터를 사용
3. 2차원 데이터 파일을 읽어옴

In [15]:
#key value 쌍
data = {
    'name':['saurav', 'monu', 'toni'],
    'score':[90, 40, 59],
    'age': [24, 40, 56]
}

In [17]:
#key 값이 컬럼의 이름 
df = DataFrame(data)
df

Unnamed: 0,name,score,age
0,saurav,90,24
1,monu,40,40
2,toni,59,56


In [18]:
# 2차원 - 행, 열
# index - 행, columns - 열
df = DataFrame(data,
              index=['a','b','c'],
              columns=['age','score','name'])
df

Unnamed: 0,age,score,name
a,24,90,saurav
b,40,40,monu
c,56,59,toni


In [20]:
df2 = DataFrame([[1,2,3],
                [4,5,6]], index= ['a', 'b'], columns=['one', 'two', 'three'])
df2

Unnamed: 0,one,two,three
a,1,2,3
b,4,5,6


In [23]:
#df의 행, 열 이름 변경 
#행 , 열 개수 맞춰서 지정
df2.index=['one', 'two']
df2.columns = ['a', 'b', 'c']
df2

Unnamed: 0,a,b,c
one,1,2,3
two,4,5,6


pandas 날짜 목록 생성
```python
pd.date_range('시작날짜', periods=기간, freq='간격')
```
pandas 날짜 포맷
- https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior

In [26]:
pd.date_range('20210801', periods= 2, freq= 'M')
df2.index = pd.date_range('20210801', periods= 2, freq= 'd')
df2

Unnamed: 0,a,b,c
2021-08-01,1,2,3
2021-08-02,4,5,6


In [29]:
# 파일을 읽어와서 데이터프레임 생성
# Pandas에서 **파일의 종류별로 사용하는 함수가 다르다.**
# 1. csv 파일 - pd.read_csv()
# 2. xlsx 파일 - pd.read_excel()

# 한글이 깨져보이거나, UnicodeDecodeError 같은 에러 발생
# encoding='cp949'
df3 = pd.read_csv('인적사항.csv', encoding='cp949')
df3

Unnamed: 0,성별,출생지,키,자산
0,남,서울,180,1000
1,여,인천,170,2000
2,남,부산,165,3000
3,남,서울,175,2000
4,여,인천,160,2500
5,남,대구,173,3200
6,여,부산,170,4000
7,남,서울,178,3500
8,여,서울,164,3000


In [33]:
# 엑셀파일
df3 = pd.read_excel('인적사항.xlsx')
df3

Unnamed: 0,성별,출생지,키,자산
0,남,서울,180,1000
1,여,인천,170,2000
2,남,부산,165,3000
3,남,서울,175,2000
4,여,인천,160,2500
5,남,대구,173,3200
6,여,부산,170,4000
7,남,서울,178,3500
8,여,서울,164,3000


In [34]:
#하나의 컬럼 조회 
df3['성별']

0    남
1    여
2    남
3    남
4    여
5    남
6    여
7    남
8    여
Name: 성별, dtype: object

In [35]:
# 여러 컬럼을 조회 할때 
df3[['성별', '출생지']]

Unnamed: 0,성별,출생지
0,남,서울
1,여,인천
2,남,부산
3,남,서울
4,여,인천
5,남,대구
6,여,부산
7,남,서울
8,여,서울


In [40]:
#한 컬럼은 series 이다 

df3['성별'].value_counts()


남    5
여    4
Name: 성별, dtype: int64

In [37]:
#데이터프레임의 내장 속성 , 함수들
#데이터 파악  
#head - 상위 n개의 행 출력

df3.head(3)

Unnamed: 0,성별,출생지,키,자산
0,남,서울,180,1000
1,여,인천,170,2000
2,남,부산,165,3000


In [41]:
#tail- 하위 n개만 출력
df3.tail(3)

Unnamed: 0,성별,출생지,키,자산
6,여,부산,170,4000
7,남,서울,178,3500
8,여,서울,164,3000


In [42]:
df3.shape  # dataframe의 모양(행, 열)


(9, 4)

In [44]:
df3.index #행 정보 

RangeIndex(start=0, stop=9, step=1)

In [45]:
df3.columns

Index(['성별', '출생지', '키', '자산'], dtype='object')

In [47]:
# 내주 data  확인 
df3.values, type(df3.values)

(array([['남', '서울', 180, 1000],
        ['여', '인천', 170, 2000],
        ['남', '부산', 165, 3000],
        ['남', '서울', 175, 2000],
        ['여', '인천', 160, 2500],
        ['남', '대구', 173, 3200],
        ['여', '부산', 170, 4000],
        ['남', '서울', 178, 3500],
        ['여', '서울', 164, 3000]], dtype=object),
 numpy.ndarray)

In [48]:
# column 별 기초 통계량
df3.describe()

Unnamed: 0,키,자산
count,9.0,9.0
mean,170.555556,2688.888889
std,6.672914,913.023062
min,160.0,1000.0
25%,165.0,2000.0
50%,170.0,3000.0
75%,175.0,3200.0
max,180.0,4000.0


In [49]:
#데이터 전처리에 유용 
# 컬럼별 정보 출력
# 잘못한 들어간 데이터 타입은 있는지 확인 
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   성별      9 non-null      object
 1   출생지     9 non-null      object
 2   키       9 non-null      int64 
 3   자산      9 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 416.0+ bytes


In [58]:
# 정렬
# 1. sort_values('컬럼이름') - 데이터를 기준으로 정렬
df3.sort_values('키')
# 옵션
# 1. ascending = True or False
df3.sort_values('키', ascending=False)
# Pandas 내장함수들은 대부분 원본에 영향을 미치지 않는다.
# 2. inplace = True  <- 결과를 원본에 저장
df3.sort_values('키', inplace=True)
df3.sort_values( ['성별', '키'], ascending=[True, False] )

Unnamed: 0,성별,출생지,키,자산
0,남,서울,180,1000
7,남,서울,178,3500
3,남,서울,175,2000
5,남,대구,173,3200
2,남,부산,165,3000
1,여,인천,170,2000
6,여,부산,170,4000
8,여,서울,164,3000
4,여,인천,160,2500


In [66]:
# 2. sort_index - 인덱스를 기준으로 정렬
# axis = 0 - 행 기준
# axis = 1 - 열 기준
df3.sort_index(axis=0, inplace=True)
df3

Unnamed: 0,성별,출생지,키,자산
4,여,인천,160,2500
8,여,서울,164,3000
2,남,부산,165,3000
1,여,인천,170,2000
6,여,부산,170,4000
5,남,대구,173,3200
3,남,서울,175,2000
7,남,서울,178,3500
0,남,서울,180,1000


## 데이터 프레임 조회 방법

### 1. loc 인덱서
- 직접 지정한 인덱스 기반으로 인덱싱, 슬라이싱

### 2. iloc 인덱서
- 숫자인덱스로 인덱싱, 슬라이싱

In [67]:
df4 = pd.read_csv('급여정보.csv', encoding='cp949')
df4

Unnamed: 0,사원번호,1월 급여,2월 급여,3월 급여
0,11,328,333,348
1,12,336,329,392
2,13,317,365,394
3,14,389,373,312
4,15,325,329,342
5,16,311,316,328
6,17,349,385,391
7,18,325,377,395
8,19,330,364,395
9,20,353,396,316


In [68]:
# loc indexor - label 기반 
# slicing에 마지막 인덱스 포합 
df4.loc[0:3, '사원번호': '2월 급여']


Unnamed: 0,사원번호,1월 급여,2월 급여
0,11,328,333
1,12,336,329
2,13,317,365
3,14,389,373


In [69]:
#iloc 인덱서 - 숫자 인덱스 기반 
#slicing 마지막 인덱스 미포함
df4.iloc[0:4, 0:3]


Unnamed: 0,사원번호,1월 급여,2월 급여
0,11,328,333
1,12,336,329
2,13,317,365
3,14,389,373


In [100]:
#fancy indexing
#11번 , 14 번 사원의 3급여 출력 
df4.loc[[0, 3], ['사원번호', '3월 급여']]
df4.iloc[[0, 3], [0,3]]

Unnamed: 0,사원번호,3월 급여
0,11,348
3,14,312


In [73]:
# boolean   indexing 
#행 필터링 - loc iloc[조건 , indexing, slicing]
#열 = loc, iloc[indexing or slicing , 조건 ]
cond= df4['1월 급여']>=350
df4.loc[cond, :]

Unnamed: 0,사원번호,1월 급여,2월 급여,3월 급여
3,14,389,373,312
9,20,353,396,316


In [80]:
# 집계함수들
# count, sum, mean, ....
# 1월 ~ 3월 급여 합계를 구한다.
# axis = 0 <- '행들'을 연산
# axis = 1 <- '열들'을 연산
df4.iloc[ :, 1:4 ].sum(axis=1)

# 새로운 컬럼으로 추가
df4['1분기 급여 합계'] = df4.iloc[ :, 1:4 ].sum(axis=1)
df4['1분기 급여 평균'] = df4.iloc[ :, 1:4 ].mean(axis=1).round(2)
df4

Unnamed: 0,사원번호,1월 급여,2월 급여,3월 급여,1분기 급여 합계,1분기 급여 평균,1분기 급여 합계.1,1분기 급여 평균.1
0,11,328,333,348,1009,336.333333,1009,336.33
1,12,336,329,392,1057,352.333333,1057,352.33
2,13,317,365,394,1076,358.666667,1076,358.67
3,14,389,373,312,1074,358.0,1074,358.0
4,15,325,329,342,996,332.0,996,332.0
5,16,311,316,328,955,318.333333,955,318.33
6,17,349,385,391,1125,375.0,1125,375.0
7,18,325,377,395,1097,365.666667,1097,365.67
8,19,330,364,395,1089,363.0,1089,363.0
9,20,353,396,316,1065,355.0,1065,355.0


In [81]:
## pandas 에서 파일로 저장하는 방법
# 파일의 종류에 따라서 사용하는 함수가 달라진다.
# 1. csv 파일 ->  df.to_csv('파일이름.csv')
#    index = True or False (행번호 저장 여부) or encoding = 'cp949'
df4.to_csv('급여평균합계.csv', index=False, encoding='cp949')

# 2. excel 파일 -> df.to_excel('파일이름.xlsx')
#    index = True or False (행번호 저장 여부)
df4.to_excel('급여평균합계.xlsx', index=False)

## 결측값(NaN) 처리

In [82]:
#결측값 비어 있는 값
df5 = pd.read_csv('신체정보.csv', encoding= 'cp949')
df5

Unnamed: 0,키,몸무게
0,,99.0
1,166.0,71.0
2,179.0,58.0
3,184.0,84.0
4,164.0,
5,,
6,179.0,84.0
7,186.0,54.0
8,184.0,108.0
9,169.0,84.0


### 1. isna, notna
- 결측값 탐색

In [84]:
#true= 결측값 , false - 유효값
df5.isna()
df5.notna()

Unnamed: 0,키,몸무게
0,False,True
1,True,True
2,True,True
3,True,True
4,True,False
5,False,False
6,True,True
7,True,True
8,True,True
9,True,True


In [85]:
#집계함수 - sum 활용 
#True->1 false->0

df5.isna().sum()
#커럼 결측값 개수

키      2
몸무게    3
dtype: int64

In [86]:
#전체 데이터프레임의 결측값
df5.isna().sum().sum()

5

### 2. dropna
- 결측값 제거
 - axis : 축
 - how : 제거방법 ('any' - 하나라도 있으면 삭제(기본설정값), 'all' - 전부가 결측값이어야 삭제)
 - thresh : 최소유효값개수

In [88]:
#기본 옵션  - 결측값이 하나라도 존재하는 행을  삭제
df5.dropna()
df5.dropna(how='all') #wjscprk rufcmrrkqtdsl godaks tkrwp 
df5.dropna(thresh=2)   # 유효값이 2개 이상이면 보존 


Unnamed: 0,키,몸무게
1,166.0,71.0
2,179.0,58.0
3,184.0,84.0
6,179.0,84.0
7,186.0,54.0
8,184.0,108.0
9,169.0,84.0
11,169.0,109.0


### 3. fillna
- 결측값 채워넣기

In [89]:
df5.fillna(0)

Unnamed: 0,키,몸무게
0,0.0,99.0
1,166.0,71.0
2,179.0,58.0
3,184.0,84.0
4,164.0,0.0
5,0.0,0.0
6,179.0,84.0
7,186.0,54.0
8,184.0,108.0
9,169.0,84.0


In [90]:
#데이터에 대한 도메인 지식
#1.평균값, 중아값, 최빈값
#2. 해당 자리에 들어갈 값을 예측
df5.fillna(df5.mean())

Unnamed: 0,키,몸무게
0,174.7,99.0
1,166.0,71.0
2,179.0,58.0
3,184.0,84.0
4,164.0,83.444444
5,174.7,83.444444
6,179.0,84.0
7,186.0,54.0
8,184.0,108.0
9,169.0,84.0


## 데이터 병합

### 1. merge
- 두개의 데이터를 특정 컬럼 기준으로 합친다.
- DB에서 join 기능과 매우 유사

In [91]:
df1 = DataFrame({
    'ID':np.arange(101,106),
    '이름':['둘리','도우너','또치',
          '길동','희동']
})
df1

Unnamed: 0,ID,이름
0,101,둘리
1,102,도우너
2,103,또치
3,104,길동
4,105,희동


In [92]:
df2 = DataFrame({
    '아이디':[101,105,104],
    '예금':[1000,2000,1500]
})
df2

Unnamed: 0,아이디,예금
0,101,1000
1,105,2000
2,104,1500


In [93]:
# pd.merge(첫번째df, 두번째df, on='합칠컬럼')
# 컬럼 이름이 다른 경우
# 한쪽의 컬럼이름 변경
# df2 아이디 -> ID
# 컬럼 이름 변경
df2.rename(columns={'아이디':'ID'}, inplace=True)
df2

Unnamed: 0,ID,예금
0,101,1000
1,105,2000
2,104,1500


In [94]:
#교칩합
pd.merge(df1, df2, on= 'ID')

Unnamed: 0,ID,이름,예금
0,101,둘리,1000
1,104,길동,1500
2,105,희동,2000


In [97]:
#합집합
pd.merge(df1, df2, on= 'ID', how ='outer')

Unnamed: 0,ID,이름,예금
0,101,둘리,1000.0
1,102,도우너,
2,103,또치,
3,104,길동,1500.0
4,105,희동,2000.0


### 2. concat
- 한 데이터 뒤에 다른 데이터를 붙여버린다.

In [99]:
# 시계열 데이터를 합칠 때 사용
# 월별 데이터를 합쳐서 연간 데이터를 만든다.
# pd.concat([df1, df2, df3, ...], axis=0 or 1)
pd.concat([df1, df2], axis=0)
pd.concat([df1, df2], axis=1)

Unnamed: 0,ID,이름,ID.1,예금
0,101,둘리,101.0,1000.0
1,102,도우너,105.0,2000.0
2,103,또치,104.0,1500.0
3,104,길동,,
4,105,희동,,


## 그룹핑, 그룹연산

### 1. groupby
- 그룹 기준이 1개
```python
df.groupby('그룹기준컬럼').집계함수()
```
- 그룹 기준이 2개 이상
```python
df.groupby(['컬럼1', '컬럼2', ... ]).agg(['집계1', '집계2', ... ])
```

In [102]:
df3.groupby('성별').mean()

Unnamed: 0_level_0,키,자산
성별,Unnamed: 1_level_1,Unnamed: 2_level_1
남,174.2,2540.0
여,166.0,2875.0


In [103]:
#성별 , 출생지 별로 키와 자산의 평균을 보고 싶다 
df3.groupby(['성별', '출생지']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,키,자산
성별,출생지,Unnamed: 2_level_1,Unnamed: 3_level_1
남,대구,173.0,3200.0
남,부산,165.0,3000.0
남,서울,177.666667,2166.666667
여,부산,170.0,4000.0
여,서울,164.0,3000.0
여,인천,165.0,2250.0


In [105]:
#성별 , 출생지 별로 키와 자산의 평균과 합계보고 싶다 
df3.groupby(['성별', '출생지']).agg(['mean', 'sum'])

Unnamed: 0_level_0,Unnamed: 1_level_0,키,키,자산,자산
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,sum,mean,sum
성별,출생지,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
남,대구,173.0,173,3200.0,3200
남,부산,165.0,165,3000.0,3000
남,서울,177.666667,533,2166.666667,6500
여,부산,170.0,170,4000.0,4000
여,서울,164.0,164,3000.0,3000
여,인천,165.0,330,2250.0,4500


### 2. pivot_table
- 행뿐만 아니라, 열쪽에도 그룹 지정이 가능
```python
df.pivot_table(index='행기준', columns='열기준',
              values='출력데이터', aggfunc='집계함수')
```

In [106]:
#성별(행), 출생지 (열) 그룹 별 자산의 평균
#index - 성별 , columns - 출생지 , value- 자산, aggfunc= 평균
df3.pivot_table(index='성별',
               columns='출생지',
               values='자산', 
               aggfunc = 'mean')

출생지,대구,부산,서울,인천
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
남,3200.0,3000.0,2166.666667,
여,,4000.0,3000.0,2250.0


In [107]:
#성별(행), 출생지 (열) 그룹 별 자산의 평균
#index - 성별 , columns - 출생지 , value- 자산, aggfunc= 평균
df3.pivot_table(index='성별',
               columns='출생지',
               values='자산', 
               aggfunc = 'mean',
               fill_value=0)

출생지,대구,부산,서울,인천
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
남,3200,3000,2166.666667,0
여,0,4000,3000.0,2250
