# Pandas
파이썬에서 사용하는 데이터 분석 라이브러리

In [3]:
import pandas as pd

## 1. Series
1차원 데이터(정수, 실수, 문자열 등)

### Series 객체 생성
예) 1월부터 4월까지 평균 온도 데이터(-20, -10, 10 20)

In [5]:
temp = pd.Series([-20, -10, 10, 20])
print(temp)

0   -20
1   -10
2    10
3    20
dtype: int64


In [6]:
temp[0]

-20

### Serires 객체 생성(Index 지정)

In [10]:
temp = pd.Series([-20, -10, 10, 20], index=['Jan', 'Fab', 'Mar', 'Apr'])
temp

Jan   -20
Fab   -10
Mar    10
Apr    20
dtype: int64

In [13]:
temp['Jan']

-20

## 2. DataFrame
2차원 데이터 (Series들의 모음)

### 데이터 준비
사전 (dict) 자료구조를 통해 생성

예) 슬램덩크 주요 이물 8명에 대한 데이터

In [15]:
data = {
    '이름' : ['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협'],
    '학교' : ['북산고', '북산고', '북산고', '북산고', '북산고', '능남고', '능남고', '능남고'],
    '키' : [197, 164, 168, 187, 188, 202, 188, 190],
}
data

{'이름': ['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협'],
 '학교': ['북산고', '북산고', '북산고', '북산고', '북산고', '능남고', '능남고', '능남고'],
 '키': [197, 164, 168, 187, 188, 202, 188, 190]}

In [17]:
data['이름']

['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협']

In [18]:
data['키']

[197, 164, 168, 187, 188, 202, 188, 190]

### DataFrame 객체 생성

In [19]:
df = pd.DataFrame(data)
df

Unnamed: 0,이름,학교,키
0,채치수,북산고,197
1,정대만,북산고,164
2,송태섭,북산고,168
3,서태웅,북산고,187
4,강백호,북산고,188
5,변덕규,능남고,202
6,황태산,능남고,188
7,윤대협,능남고,190


### 데이터 접근

In [27]:
df[['이름', '키']]

Unnamed: 0,이름,키
0,채치수,197
1,정대만,164
2,송태섭,168
3,서태웅,187
4,강백호,188
5,변덕규,202
6,황태산,188
7,윤대협,190


### DataFrame 객체 생성(컬럼 지정)

In [37]:
df = pd.DataFrame(data, columns=['학교', '키'])
df

Unnamed: 0,학교,키
0,북산고,197
1,북산고,164
2,북산고,168
3,북산고,187
4,북산고,188
5,능남고,202
6,능남고,188
7,능남고,190


### DataFrame 객체 생성(Index 지정)

In [39]:
df = pd.DataFrame(data, index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
df

Unnamed: 0,이름,학교,키
a,채치수,북산고,197
b,정대만,북산고,164
c,송태섭,북산고,168
d,서태웅,북산고,187
e,강백호,북산고,188
f,변덕규,능남고,202
g,황태산,능남고,188
h,윤대협,능남고,190


## 3. Index
데이터에 접근할 수 있는 주소 값

In [43]:
df.index

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'], dtype='object', name='no')

### Index 이름 설정

In [42]:
df.index.name = 'no'
df

Unnamed: 0_level_0,이름,학교,키
no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,채치수,북산고,197
b,정대만,북산고,164
c,송태섭,북산고,168
d,서태웅,북산고,187
e,강백호,북산고,188
f,변덕규,능남고,202
g,황태산,능남고,188
h,윤대협,능남고,190


### Index 초기화

In [46]:
df.reset_index()

Unnamed: 0,no,이름,학교,키
0,a,채치수,북산고,197
1,b,정대만,북산고,164
2,c,송태섭,북산고,168
3,d,서태웅,북산고,187
4,e,강백호,북산고,188
5,f,변덕규,능남고,202
6,g,황태산,능남고,188
7,h,윤대협,능남고,190


In [47]:
df.reset_index(drop=True)

Unnamed: 0,이름,학교,키
0,채치수,북산고,197
1,정대만,북산고,164
2,송태섭,북산고,168
3,서태웅,북산고,187
4,강백호,북산고,188
5,변덕규,능남고,202
6,황태산,능남고,188
7,윤대협,능남고,190


In [48]:
df.reset_index(drop=True, inplace=True)
df

Unnamed: 0,이름,학교,키
0,채치수,북산고,197
1,정대만,북산고,164
2,송태섭,북산고,168
3,서태웅,북산고,187
4,강백호,북산고,188
5,변덕규,능남고,202
6,황태산,능남고,188
7,윤대협,능남고,190


### Index 설정
지정한 Column으로 Index 설정

In [49]:
df.set_index('이름')

Unnamed: 0_level_0,학교,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
채치수,북산고,197
정대만,북산고,164
송태섭,북산고,168
서태웅,북산고,187
강백호,북산고,188
변덕규,능남고,202
황태산,능남고,188
윤대협,능남고,190


In [52]:
df.set_index('이름', inplace=True)
df

Unnamed: 0_level_0,학교,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
채치수,북산고,197
정대만,북산고,164
송태섭,북산고,168
서태웅,북산고,187
강백호,북산고,188
변덕규,능남고,202
황태산,능남고,188
윤대협,능남고,190


### Index 정렬

In [53]:
df.sort_index()

Unnamed: 0_level_0,학교,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
강백호,북산고,188
변덕규,능남고,202
서태웅,북산고,187
송태섭,북산고,168
윤대협,능남고,190
정대만,북산고,164
채치수,북산고,197
황태산,능남고,188


In [55]:
df.sort_index(ascending=False)

Unnamed: 0_level_0,학교,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
황태산,능남고,188
채치수,북산고,197
정대만,북산고,164
윤대협,능남고,190
송태섭,북산고,168
서태웅,북산고,187
변덕규,능남고,202
강백호,북산고,188


## 4. 파일 저장 및 열기
DataFrame 객체를 파일로 저장 및 열기

In [59]:
df = pd.DataFrame(data, index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
df.index.name = 'no'
df

Unnamed: 0_level_0,이름,학교,키
no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,채치수,북산고,197
b,정대만,북산고,164
c,송태섭,북산고,168
d,서태웅,북산고,187
e,강백호,북산고,188
f,변덕규,능남고,202
g,황태산,능남고,188
h,윤대협,능남고,190


### 저장하기
CSV 파일로 저장

In [61]:
df.to_csv('score.csv', encoding='utf-8-sig')

In [62]:
df.to_csv('score_no_index.csv', encoding='utf-8-sig', index=False)

#### txt 파일로 저장

In [63]:
df.to_csv('score.txt', encoding='utf-8-sig', sep='\t')

#### Excel 파일로 저장

In [65]:
df.to_excel('score.xlsx')

### 열기

CSV 파일 열기

In [71]:
df = pd.read_csv('score.csv')
df

Unnamed: 0,no,이름,학교,키
0,a,채치수,북산고,197
1,b,정대만,북산고,164
2,c,송태섭,북산고,168
3,d,서태웅,북산고,187
4,e,강백호,북산고,188
5,f,변덕규,능남고,202
6,g,황태산,능남고,188
7,h,윤대협,능남고,190


In [79]:
df = pd.read_csv('score.csv', skiprows=5)
df

Unnamed: 0,e,강백호,북산고,188
0,f,변덕규,능남고,202
1,g,황태산,능남고,188
2,h,윤대협,능남고,190


In [80]:
df = pd.read_csv('score.csv', skiprows=[1, 3, 5])
df

Unnamed: 0,no,이름,학교,키
0,b,정대만,북산고,164
1,d,서태웅,북산고,187
2,f,변덕규,능남고,202
3,g,황태산,능남고,188
4,h,윤대협,능남고,190


In [81]:
df = pd.read_csv('score.csv', nrows=4)
df

Unnamed: 0,no,이름,학교,키
0,a,채치수,북산고,197
1,b,정대만,북산고,164
2,c,송태섭,북산고,168
3,d,서태웅,북산고,187


In [83]:
df = pd.read_csv('score.csv', index_col='no')
df

Unnamed: 0_level_0,이름,학교,키
no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,채치수,북산고,197
b,정대만,북산고,164
c,송태섭,북산고,168
d,서태웅,북산고,187
e,강백호,북산고,188
f,변덕규,능남고,202
g,황태산,능남고,188
h,윤대협,능남고,190


#### Excel 파일 열기

In [85]:
df = pd.read_excel('score.xlsx', index_col='no')
df

Unnamed: 0_level_0,이름,학교,키
no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,채치수,북산고,197
b,정대만,북산고,164
c,송태섭,북산고,168
d,서태웅,북산고,187
e,강백호,북산고,188
f,변덕규,능남고,202
g,황태산,능남고,188
h,윤대협,능남고,190


## 5. 데이터확인

### DataFrame 확인
숫자 데이터에 대해 갯수, 평균, 표준편차, 최소/최대값 등의 정보를 보여줌

In [89]:
df.describe()

Unnamed: 0,키
count,8.0
mean,185.5
std,13.136644
min,164.0
25%,182.25
50%,188.0
75%,191.75
max,202.0


In [91]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8 entries, a to h
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      8 non-null      object
 1   학교      8 non-null      object
 2   키       8 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 256.0+ bytes


In [92]:
df.head()

Unnamed: 0_level_0,이름,학교,키
no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,채치수,북산고,197
b,정대만,북산고,164
c,송태섭,북산고,168
d,서태웅,북산고,187
e,강백호,북산고,188


In [93]:
df.tail()

Unnamed: 0_level_0,이름,학교,키
no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
d,서태웅,북산고,187
e,강백호,북산고,188
f,변덕규,능남고,202
g,황태산,능남고,188
h,윤대협,능남고,190


In [96]:
df.values

array([['채치수', '북산고', 197],
       ['정대만', '북산고', 164],
       ['송태섭', '북산고', 168],
       ['서태웅', '북산고', 187],
       ['강백호', '북산고', 188],
       ['변덕규', '능남고', 202],
       ['황태산', '능남고', 188],
       ['윤대협', '능남고', 190]], dtype=object)

In [97]:
df.index

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'], dtype='object', name='no')

In [98]:
df.columns

Index(['이름', '학교', '키'], dtype='object')

In [99]:
df.shape

(8, 3)

### Series 확인

In [101]:
df['키'].describe()

count      8.000000
mean     185.500000
std       13.136644
min      164.000000
25%      182.250000
50%      188.000000
75%      191.750000
max      202.000000
Name: 키, dtype: float64

In [102]:
df['키'].mean()

185.5

In [103]:
df['키'].nlargest(3)

no
f    202
a    197
h    190
Name: 키, dtype: int64

In [104]:
df['키'].nsmallest(3)

no
b    164
c    168
d    187
Name: 키, dtype: int64

In [105]:
df['키'].count()

8

In [106]:
df['학교'].unique()

array(['북산고', '능남고'], dtype=object)

In [107]:
df['학교'].nunique()

2

## 6. 데이터 선택(기본)

In [109]:
df

Unnamed: 0_level_0,이름,학교,키
no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,채치수,북산고,197
b,정대만,북산고,164
c,송태섭,북산고,168
d,서태웅,북산고,187
e,강백호,북산고,188
f,변덕규,능남고,202
g,황태산,능남고,188
h,윤대협,능남고,190


### 컬럼 선택

In [111]:
df['이름']

no
a    채치수
b    정대만
c    송태섭
d    서태웅
e    강백호
f    변덕규
g    황태산
h    윤대협
Name: 이름, dtype: object

### 컬럼 선택(정수 인덱스)

In [113]:
df.columns[0]

'이름'

In [123]:
df[df.columns[1]]

no
a    북산고
b    북산고
c    북산고
d    북산고
e    북산고
f    능남고
g    능남고
h    능남고
Name: 학교, dtype: object

In [120]:
df[df.columns[-1]]

no
a    197
b    164
c    168
d    187
e    188
f    202
g    188
h    190
Name: 키, dtype: int64

In [124]:
df['이름'][1:5]

no
b    정대만
c    송태섭
d    서태웅
e    강백호
Name: 이름, dtype: object

In [125]:
df[['이름', '키']][1:5]

Unnamed: 0_level_0,이름,키
no,Unnamed: 1_level_1,Unnamed: 2_level_1
b,정대만,164
c,송태섭,168
d,서태웅,187
e,강백호,188


In [129]:
df[2:6]

Unnamed: 0_level_0,이름,학교,키
no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
c,송태섭,북산고,168
d,서태웅,북산고,187
e,강백호,북산고,188
f,변덕규,능남고,202


## 7.데이터 선택(loc)

In [132]:
df.loc['a']

이름    채치수
학교    북산고
키     197
Name: a, dtype: object

In [136]:
df.loc['b', '키']

164

In [137]:
df.loc[['a', 'b'], '키']

no
a    197
b    164
Name: 키, dtype: int64

In [138]:
df.loc[['a', 'b'], ['이름', '키']]

Unnamed: 0_level_0,이름,키
no,Unnamed: 1_level_1,Unnamed: 2_level_1
a,채치수,197
b,정대만,164


In [141]:
df.loc['a':'c', '이름':'키']

Unnamed: 0_level_0,이름,학교,키
no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,채치수,북산고,197
b,정대만,북산고,164
c,송태섭,북산고,168
