In [1]:
import pandas as pd
import numpy as np

## Series
- 1차원 데이터 구조
- numpy의 배열구조를 사용

In [2]:
ser1 = pd.Series([4,5,3,-6])
ser1

0    4
1    5
2    3
3   -6
dtype: int64

In [3]:
ser2 = pd.Series([4,5,3,-6],index=['a','b','c','d'])
ser2

a    4
b    5
c    3
d   -6
dtype: int64

In [4]:
ser2['b']

5

In [5]:
ser2[1:4]

b    5
c    3
d   -6
dtype: int64

In [6]:
# 자동생성되는 숫자인덱스가 아닌  직접 지정한 라벨의 경우
# slicing을 할 때 마지막값을 포함.
ser2['b':'d']

b    5
c    3
d   -6
dtype: int64

In [7]:
# boolean indexing - 조건 인덱싱 사용 가능
ser2[ser2 > 3]

a    4
b    5
dtype: int64

In [8]:
ser3 = pd.Series(np.random.randint(1,10,10))
ser3

0    6
1    9
2    4
3    6
4    5
5    9
6    2
7    8
8    7
9    8
dtype: int32

## DataFrame
- Pandas의 2차원 데이터 구조

### 생성법
1. 딕셔너리 형태의 데이터를 사용
2. 그냥 2차원 배열 형태의 데이터를 사용
3. 2차원 데이터 파일을 읽어옴

In [9]:
# dictionary의 key가 컬럼 이름, value가 컬럼 내부의 데이터
data = {
    'name':['홍길동','김철수','김영희'],
    'score':[90,70,80],
    'age':[25,30,32]
}
data

{'name': ['홍길동', '김철수', '김영희'], 'score': [90, 70, 80], 'age': [25, 30, 32]}

In [10]:
df = pd.DataFrame(data)
df

Unnamed: 0,name,score,age
0,홍길동,90,25
1,김철수,70,30
2,김영희,80,32


In [11]:
df.columns

Index(['name', 'score', 'age'], dtype='object')

In [12]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [13]:
df = pd.DataFrame(data,
            columns=['name','age','score'],
            index=['a','b','c'])
df

Unnamed: 0,name,age,score
a,홍길동,25,90
b,김철수,30,70
c,김영희,32,80


In [14]:
# 인덱스명, 컬럼명 지정
df.index.name='No'
df.columns.name='Info'
df

Info,name,age,score
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,홍길동,25,90
b,김철수,30,70
c,김영희,32,80


In [15]:
df['name']     # df.name과 동일

No
a    홍길동
b    김철수
c    김영희
Name: name, dtype: object

In [16]:
df[['name','score']]

Info,name,score
No,Unnamed: 1_level_1,Unnamed: 2_level_1
a,홍길동,90
b,김철수,70
c,김영희,80


In [17]:
# 새로운 컬럼(열)을 추가할 수 있다. 
df['point']= pd.Series([1.7, 2.3, 1.5])
df['etc']=0                          # 일괄적으로 value 지정
df

Info,name,age,score,point,etc
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
a,홍길동,25,90,,0
b,김철수,30,70,,0
c,김영희,32,80,,0


In [18]:
# 파일을 읽어서 데이터프레임을 생성
# csv파일 - pd.read_csv('파일의 이름(같은 경로에 파일을 넣어줘야함)',
#                        encoding = 'cp949 or euc-kr(한글의 경우)')
df3 = pd.read_csv('인적사항.csv', encoding='cp949')
df3

Unnamed: 0,성별,출생지,키,자산
0,남,서울,180,1000
1,여,인천,170,2000
2,남,부산,165,3000
3,남,서울,175,2000
4,여,인천,160,2500
5,남,대구,173,3200
6,여,부산,170,4000
7,남,서울,178,3500
8,여,서울,164,3000


In [20]:
df3['성별']                   # df['컬럼이름'] - 한 열을 따로 빼고싶을때

0    남
1    여
2    남
3    남
4    여
5    남
6    여
7    남
8    여
Name: 성별, dtype: object

In [21]:
# indexing - df[ ['컬럼1','컬럼2', ...] ]
df3[['성별','출생지']]

Unnamed: 0,성별,출생지
0,남,서울
1,여,인천
2,남,부산
3,남,서울
4,여,인천
5,남,대구
6,여,부산
7,남,서울
8,여,서울


In [22]:
df3['성별'].value_counts()       # 성별컬럼의 데이터를 카운트

남    5
여    4
Name: 성별, dtype: int64

In [23]:
df3['출생지'].value_counts()

서울    4
인천    2
부산    2
대구    1
Name: 출생지, dtype: int64

In [24]:
# 데이터 프레임 상단의 데이터만 조회
df3.head(2)              # 최상단 2개의 데이터 조회

Unnamed: 0,성별,출생지,키,자산
0,남,서울,180,1000
1,여,인천,170,2000


In [25]:
# 데이터프레임 최하단 N개 행을 조회
df3.tail(3)

Unnamed: 0,성별,출생지,키,자산
6,여,부산,170,4000
7,남,서울,178,3500
8,여,서울,164,3000


In [26]:
# 데이터프레임의 모양. (행 개수, 열 개수)
df3.shape

(9, 4)

In [27]:
# df.columns - 데이터프레임의 컬럼 정보
df3.columns

Index(['성별', '출생지', '키', '자산'], dtype='object')

In [28]:
# df.index - 데이터프레임의 인덱스 정보
df3.index

RangeIndex(start=0, stop=9, step=1)

In [29]:
# 숫자 데이터로 이루어진 컬럼의 통계정보 
df3.describe()

Unnamed: 0,키,자산
count,9.0,9.0
mean,170.555556,2688.888889
std,6.672914,913.023062
min,160.0,1000.0
25%,165.0,2000.0
50%,170.0,3000.0
75%,175.0,3200.0
max,180.0,4000.0


In [30]:
df3['출생지'].describe()

count      9
unique     4
top       서울
freq       4
Name: 출생지, dtype: object

In [31]:
# 컬럼의 데이터타입 확인, 중요한 이유 - 잘못 설정된 dtype을 확인가능
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   성별      9 non-null      object
 1   출생지     9 non-null      object
 2   키       9 non-null      int64 
 3   자산      9 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 416.0+ bytes


In [32]:
# 데이터프레임의 행과 열을 뒤집어준다.
df3.T

Unnamed: 0,0,1,2,3,4,5,6,7,8
성별,남,여,남,남,여,남,여,남,여
출생지,서울,인천,부산,서울,인천,대구,부산,서울,서울
키,180,170,165,175,160,173,170,178,164
자산,1000,2000,3000,2000,2500,3200,4000,3500,3000


In [33]:
# 데이터프레임을 특정 컬럼을 기준으로 정렬한다.
# df.sort_values('기준컬럼이름', ascending=오름차순여부)

df3.sort_values(by='키')

Unnamed: 0,성별,출생지,키,자산
4,여,인천,160,2500
8,여,서울,164,3000
2,남,부산,165,3000
1,여,인천,170,2000
6,여,부산,170,4000
5,남,대구,173,3200
3,남,서울,175,2000
7,남,서울,178,3500
0,남,서울,180,1000


In [34]:
# 대부분의 pandas 기능들은 원본에 영향을 미치지 않는다.
df3

Unnamed: 0,성별,출생지,키,자산
0,남,서울,180,1000
1,여,인천,170,2000
2,남,부산,165,3000
3,남,서울,175,2000
4,여,인천,160,2500
5,남,대구,173,3200
6,여,부산,170,4000
7,남,서울,178,3500
8,여,서울,164,3000


In [35]:
df3.sort_values(by='키',inplace=True) #inplace=True - 원본에 반영
df3

Unnamed: 0,성별,출생지,키,자산
4,여,인천,160,2500
8,여,서울,164,3000
2,남,부산,165,3000
1,여,인천,170,2000
6,여,부산,170,4000
5,남,대구,173,3200
3,남,서울,175,2000
7,남,서울,178,3500
0,남,서울,180,1000


In [36]:
df3.sort_values(by='키',
                ascending=False,
               inplace=True)
df3

Unnamed: 0,성별,출생지,키,자산
0,남,서울,180,1000
7,남,서울,178,3500
3,남,서울,175,2000
5,남,대구,173,3200
1,여,인천,170,2000
6,여,부산,170,4000
2,남,부산,165,3000
8,여,서울,164,3000
4,여,인천,160,2500


In [37]:
df3.sort_values(by=['출생지','키'], # 앞쪽 기준부터 계층적으로 정렬됨
                ascending=[True,False], # 각 컬럼마다 오름차순 여부 적용가능
               inplace=True)
df3

Unnamed: 0,성별,출생지,키,자산
5,남,대구,173,3200
6,여,부산,170,4000
2,남,부산,165,3000
0,남,서울,180,1000
7,남,서울,178,3500
3,남,서울,175,2000
8,여,서울,164,3000
1,여,인천,170,2000
4,여,인천,160,2500


In [38]:
# index 기준으로 정렬  sort_index()
print(df3.sort_index())
print(df3.sort_index(ascending=False))      # ascendong = False  내림차순 정렬 

  성별 출생지    키    자산
0  남  서울  180  1000
1  여  인천  170  2000
2  남  부산  165  3000
3  남  서울  175  2000
4  여  인천  160  2500
5  남  대구  173  3200
6  여  부산  170  4000
7  남  서울  178  3500
8  여  서울  164  3000
  성별 출생지    키    자산
8  여  서울  164  3000
7  남  서울  178  3500
6  여  부산  170  4000
5  남  대구  173  3200
4  여  인천  160  2500
3  남  서울  175  2000
2  남  부산  165  3000
1  여  인천  170  2000
0  남  서울  180  1000


In [39]:
# 컬럼명 기준으로 정렬
df3.sort_index(axis=1)

Unnamed: 0,성별,자산,출생지,키
5,남,3200,대구,173
6,여,4000,부산,170
2,남,3000,부산,165
0,남,1000,서울,180
7,남,3500,서울,178
3,남,2000,서울,175
8,여,3000,서울,164
1,여,2000,인천,170
4,여,2500,인천,160


## 데이터 프레임 조회 방법

### 1. loc 인덱서
- 직접 지정한 인덱스 기반으로 인덱싱, 슬라이싱

### 2. iloc 인덱서
- 숫자인덱스로 인덱싱, 슬라이싱

In [40]:
import pandas as pd
import numpy as np

In [41]:
df4 = pd.read_csv('급여정보.csv', encoding='cp949')
df4

Unnamed: 0,사원번호,1월 급여,2월 급여,3월 급여
0,11,328,333,348
1,12,336,329,392
2,13,317,365,394
3,14,389,373,312
4,15,325,329,342
5,16,311,316,328
6,17,349,385,391
7,18,325,377,395
8,19,330,364,395
9,20,353,396,316


In [42]:
df4.loc[0:3,'1월 급여':'2월 급여']  # .loc 인덱서는 마지막 index를 포함

Unnamed: 0,1월 급여,2월 급여
0,328,333
1,336,329
2,317,365
3,389,373


In [43]:
# 원하는 index를 list형태로 뽑아낼 수 있다.
df4.loc[[1,3],:]

Unnamed: 0,사원번호,1월 급여,2월 급여,3월 급여
1,12,336,329,392
3,14,389,373,312


In [44]:
# .iloc - 마지막값 포함 X
df4.iloc[0:4, 1:3]

Unnamed: 0,1월 급여,2월 급여
0,328,333
1,336,329
2,317,365
3,389,373


In [45]:
df4.iloc[[1,2],[0,2]]

Unnamed: 0,사원번호,2월 급여
1,12,329
2,13,365


In [46]:
# df.집계함수(axis=0(default) or 1) sum, mean, max, min, ....
df4[['1월 급여','2월 급여','3월 급여']].mean(axis=1)

0    336.333333
1    352.333333
2    358.666667
3    358.000000
4    332.000000
5    318.333333
6    375.000000
7    365.666667
8    363.000000
9    355.000000
dtype: float64

In [47]:
df4

Unnamed: 0,사원번호,1월 급여,2월 급여,3월 급여
0,11,328,333,348
1,12,336,329,392
2,13,317,365,394
3,14,389,373,312
4,15,325,329,342
5,16,311,316,328
6,17,349,385,391
7,18,325,377,395
8,19,330,364,395
9,20,353,396,316


In [48]:
# 1월~3월 급여의 평균을 새로운 컬럼에 저장
df4['1분기 평균'] = df4[['1월 급여','2월 급여','3월 급여']].mean(axis=1)

# 1월~3월 급여의 합계을 새로운 컬럼에 저장
df4['1분기 합계'] = df4[['1월 급여','2월 급여','3월 급여']].sum(axis=1)

df4

Unnamed: 0,사원번호,1월 급여,2월 급여,3월 급여,1분기 평균,1분기 합계
0,11,328,333,348,336.333333,1009
1,12,336,329,392,352.333333,1057
2,13,317,365,394,358.666667,1076
3,14,389,373,312,358.0,1074
4,15,325,329,342,332.0,996
5,16,311,316,328,318.333333,955
6,17,349,385,391,375.0,1125
7,18,325,377,395,365.666667,1097
8,19,330,364,395,363.0,1089
9,20,353,396,316,355.0,1065


In [49]:
df4.columns

Index(['사원번호', '1월 급여', '2월 급여', '3월 급여', '1분기 평균', '1분기 합계'], dtype='object')

In [51]:
del df4['1분기 평균']

In [53]:
del df4['1분기 합계']

In [54]:
df4

Unnamed: 0,사원번호,1월 급여,2월 급여,3월 급여
0,11,328,333,348
1,12,336,329,392
2,13,317,365,394
3,14,389,373,312
4,15,325,329,342
5,16,311,316,328
6,17,349,385,391
7,18,325,377,395
8,19,330,364,395
9,20,353,396,316


In [55]:
# - 데이터프레임의 특정 컬럼을 index로 지정한다.
df4.set_index('사원번호', inplace=True)
df4

Unnamed: 0_level_0,1월 급여,2월 급여,3월 급여
사원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
11,328,333,348
12,336,329,392
13,317,365,394
14,389,373,312
15,325,329,342
16,311,316,328
17,349,385,391
18,325,377,395
19,330,364,395
20,353,396,316


In [56]:
#csv 파일로 저장
df4.to_csv('새로운 급여정보2.csv',encoding='cp949')

In [57]:
df4.to_excel('급여정보2.xlsx')

## 데이터 병합

### 1. merge
- 두개의 데이터를 특정 컬럼 기준으로 합친다.
- DB에서 join 기능과 매우 유사

### 2. concat
- 한 데이터 뒤에 다른 데이터를 붙여버린다.

In [58]:
import numpy as np
import pandas as pd

In [59]:
df1 = pd.DataFrame({
    'ID':np.arange(101,106),
    '이름':['둘리','도우너','또치','길동','희동'] })
df1

Unnamed: 0,ID,이름
0,101,둘리
1,102,도우너
2,103,또치
3,104,길동
4,105,희동


In [60]:
df2 = pd.DataFrame({
    '아이디':[101,105,104],
    '예금':[1000,2000,1500] })
df2

Unnamed: 0,아이디,예금
0,101,1000
1,105,2000
2,104,1500


In [61]:
# pd.merge(df1, df2, left_on='df1의 기준컬럼', right_on='df2의 기준컬럼' )
# how = 병합방법, outer:겹치지 않아도 merge. inner:겹치는 데이터만 merge

df_merge = pd.merge(df1,df2, left_on='ID', right_on='아이디',  how='inner')
df_merge

Unnamed: 0,ID,이름,아이디,예금
0,101,둘리,101,1000
1,104,길동,104,1500
2,105,희동,105,2000


In [62]:
# df.drop('행or열의label', axis=0(행삭제) or 1(열삭제))
df_merge.drop('ID', axis=1, inplace=True)
df_merge

Unnamed: 0,이름,아이디,예금
0,둘리,101,1000
1,길동,104,1500
2,희동,105,2000


In [63]:
df_concat = pd.concat([df1,df2], axis=0) #데이터프레임을 그냥 붙인다.
df_concat

Unnamed: 0,ID,이름,아이디,예금
0,101.0,둘리,,
1,102.0,도우너,,
2,103.0,또치,,
3,104.0,길동,,
4,105.0,희동,,
0,,,101.0,1000.0
1,,,105.0,2000.0
2,,,104.0,1500.0


In [64]:
# dropna(how='all')     행 데이터의 모든 값이 NaN인 행 제거
df_concat.dropna(how='all')

Unnamed: 0,ID,이름,아이디,예금
0,101.0,둘리,,
1,102.0,도우너,,
2,103.0,또치,,
3,104.0,길동,,
4,105.0,희동,,
0,,,101.0,1000.0
1,,,105.0,2000.0
2,,,104.0,1500.0


In [65]:
# dropna(how='any')     행 데이터 중 하나라도 NaN이면 해당 행 제거
df_concat.dropna(how='any')

Unnamed: 0,ID,이름,아이디,예금
