# Pandas
파이썬 데이터 분석 라이브러리

In [1]:
import pandas as pd

## 1.Series
1차원 데이터(정수, 실수, 문자열 등)

### Series 객체 생성
예) 1월부터 4월까지 평균 온도 데이터(-20, -10, 10, 20)

In [4]:
temp = pd.Series([-20, -10, 10, 20]) 
# 판다스의 속성값 중 Series를 통해 리스트를 1차원 시리즈 값을 생성
# DataFrame은 2차원 배열을 생성

print(temp)

0   -20
1   -10
2    10
3    20
dtype: int64


In [6]:
temp[0]

-20

### Series 객체 생성(Index 지정)

In [7]:
temp = pd.Series([-20, -10, 0, 10], index=['Jan', 'Feb', "Mar", 'Apr'])
temp

Jan   -20
Feb   -10
Mar     0
Apr    10
dtype: int64

In [10]:
temp['Jan']

-20

# DataFrame
2차원 데이터(Series 들의 모음)

## Data 준비
사전(dict)자료구조를 통해 생성  
예)슬럼덩크 주요 인물 8명에 대한 데이터

In [97]:
data = {
    '이름' : ['채치수', '정대만', '송태섭', '서태웅'],
    '학교' : ['북산고', '북산고', '북산고', '북산고'],
    '키' : [197, 184, 160, 178],
    '국어' : [50, 30, 49, 60]
}
data

{'이름': ['채치수', '정대만', '송태섭', '서태웅'],
 '학교': ['북산고', '북산고', '북산고', '북산고'],
 '키': [197, 184, 160, 178],
 '국어': [50, 30, 49, 60]}

In [98]:
data['이름']

['채치수', '정대만', '송태섭', '서태웅']

## DataFrame 객체 생성

In [99]:
import pandas as pd
df = pd.DataFrame(data)

In [100]:
df

Unnamed: 0,이름,학교,키,국어
0,채치수,북산고,197,50
1,정대만,북산고,184,30
2,송태섭,북산고,160,49
3,서태웅,북산고,178,60


### 데이타 접근

In [18]:
df['이름']

0    채치수
1    정대만
2    송태섭
3    서태웅
Name: 이름, dtype: object

In [24]:
df[['이름','키']] #대괄호 2개 중요

Unnamed: 0,이름,키
0,채치수,197
1,정대만,184
2,송태섭,160
3,서태웅,178


## DataFarme 객체 생성(Index 지정)

In [101]:
df

Unnamed: 0,이름,학교,키,국어
0,채치수,북산고,197,50
1,정대만,북산고,184,30
2,송태섭,북산고,160,49
3,서태웅,북산고,178,60


In [102]:
df = pd.DataFrame(data, index=['1번', '2번', '3번', '4번'])

In [103]:
df

Unnamed: 0,이름,학교,키,국어
1번,채치수,북산고,197,50
2번,정대만,북산고,184,30
3번,송태섭,북산고,160,49
4번,서태웅,북산고,178,60


## DataFrame 객체 생성(Column 저정)
데이타 중에서 원하는 Column만 선택하거나, 순서 변경 가능

In [29]:
df = pd.DataFrame(data, columns=['이름','학교','키'])

In [30]:
df

Unnamed: 0,이름,학교,키
0,채치수,북산고,197
1,정대만,북산고,184
2,송태섭,북산고,160
3,서태웅,북산고,178


In [31]:
df = pd.DataFrame(data, columns=['이름', '키','학교'])

In [32]:
df

Unnamed: 0,이름,키,학교
0,채치수,197,북산고
1,정대만,184,북산고
2,송태섭,160,북산고
3,서태웅,178,북산고


## INDEX
데이터에 접근할 수 있는 주소 값

In [33]:
 df.index

RangeIndex(start=0, stop=4, step=1)

In [34]:
df

Unnamed: 0,이름,키,학교
0,채치수,197,북산고
1,정대만,184,북산고
2,송태섭,160,북산고
3,서태웅,178,북산고


In [35]:
df = pd.DataFrame(data, columns=['이름', '키','학교'], index=['1번', '2번', '3번', '4번'])

In [36]:
df

Unnamed: 0,이름,키,학교
1번,채치수,197,북산고
2번,정대만,184,북산고
3번,송태섭,160,북산고
4번,서태웅,178,북산고


In [37]:
df.index

Index(['1번', '2번', '3번', '4번'], dtype='object')

In [38]:
df.index.name='지원번호'

In [39]:
df

Unnamed: 0_level_0,이름,키,학교
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,채치수,197,북산고
2번,정대만,184,북산고
3번,송태섭,160,북산고
4번,서태웅,178,북산고


### 인덱스 초기화

In [41]:
df.reset_index()

Unnamed: 0,지원번호,이름,키,학교
0,1번,채치수,197,북산고
1,2번,정대만,184,북산고
2,3번,송태섭,160,북산고
3,4번,서태웅,178,북산고


In [42]:
df.reset_index(drop=True) #지원번호 삭제

Unnamed: 0,이름,키,학교
0,채치수,197,북산고
1,정대만,184,북산고
2,송태섭,160,북산고
3,서태웅,178,북산고


In [43]:
df

Unnamed: 0_level_0,이름,키,학교
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,채치수,197,북산고
2번,정대만,184,북산고
3번,송태섭,160,북산고
4번,서태웅,178,북산고


In [44]:
# 다시 df 했더니 기존과 동일, 인덱스 삭제 완됨

In [45]:
df.reset_index(drop=True, inplace=True)   #실제 데이터에 반영, inplace는 종종 나옴

In [46]:
df

Unnamed: 0,이름,키,학교
0,채치수,197,북산고
1,정대만,184,북산고
2,송태섭,160,북산고
3,서태웅,178,북산고


## 인덱스 설정
지정할 column으로 인덱스 설정

In [47]:
df.set_index('이름')

Unnamed: 0_level_0,키,학교
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
채치수,197,북산고
정대만,184,북산고
송태섭,160,북산고
서태웅,178,북산고


In [48]:
df

Unnamed: 0,이름,키,학교
0,채치수,197,북산고
1,정대만,184,북산고
2,송태섭,160,북산고
3,서태웅,178,북산고


### 인덱스 정렬

In [49]:
df.sort_index() #인덱스 오름차순으로 정렬

Unnamed: 0,이름,키,학교
0,채치수,197,북산고
1,정대만,184,북산고
2,송태섭,160,북산고
3,서태웅,178,북산고


In [50]:
df.sort_index(ascending=False) # 인덱스 내림차순

Unnamed: 0,이름,키,학교
3,서태웅,178,북산고
2,송태섭,160,북산고
1,정대만,184,북산고
0,채치수,197,북산고


# 파일 저장 및 열기
DataFram 객체를 excel, csv, txt 등 형태로 저장 및 열기

In [51]:
df.index.name='지원번호'

In [52]:
df

Unnamed: 0_level_0,이름,키,학교
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,채치수,197,북산고
1,정대만,184,북산고
2,송태섭,160,북산고
3,서태웅,178,북산고


## 저장하기
CSV파일로

In [55]:
df.to_csv('score.csv')  #탐색기에서 해당파일을 엑셀에서 열게되면 한글 깨지는 문제 발생

In [57]:
df.to_csv('score1.csv', encoding='utf-8-sig') #한글 깨지는 문제 해결

In [58]:
#인덱스 없이 저장하는 경우
df.to_csv('score2.csv', encoding='utf-8-sig', index=False)

### 텍스트파일로 저장

In [60]:
df.to_csv('score.txt', sep='\t') #tab으로 구분된 텍스트 파일로 저장

### 엑셀파일로 저장

In [63]:
df.to_csv('score.xlsx')

In [62]:
df

Unnamed: 0_level_0,이름,키,학교
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,채치수,197,북산고
1,정대만,184,북산고
2,송태섭,160,북산고
3,서태웅,178,북산고


## 열기
### CSV파일 열기

In [65]:
df=pd.read_csv('score.csv')

In [66]:
df

Unnamed: 0,지원번호,이름,키,학교
0,0,채치수,197,북산고
1,1,정대만,184,북산고
2,2,송태섭,160,북산고
3,3,서태웅,178,북산고


In [67]:
df=pd.read_csv('score.csv',skiprows=1) #지정된 갯수의 row를 제거하고 표현

In [68]:
df

Unnamed: 0,0,채치수,197,북산고
0,1,정대만,184,북산고
1,2,송태섭,160,북산고
2,3,서태웅,178,북산고


In [69]:
df=pd.read_csv('score.csv',skiprows=[1,3,5])

In [70]:
df

Unnamed: 0,지원번호,이름,키,학교
0,1,정대만,184,북산고
1,3,서태웅,178,북산고


In [74]:
#원하는 갯수만 표현
df=pd.read_csv('score.csv', nrows=3)

In [75]:
df

Unnamed: 0,지원번호,이름,키,학교
0,0,채치수,197,북산고
1,1,정대만,184,북산고
2,2,송태섭,160,북산고


In [76]:
df=pd.read_csv('score.csv', skiprows=1, nrows=2)
# 제목은 nrows에 포함되지 않는다.

In [77]:
df

Unnamed: 0,0,채치수,197,북산고
0,1,정대만,184,북산고
1,2,송태섭,160,북산고


### 텍스트 파일 열기

In [78]:
df=pd.read_csv('score.txt', sep='\t')

In [79]:
df

Unnamed: 0,지원번호,이름,키,학교
0,0,채치수,197,북산고
1,1,정대만,184,북산고
2,2,송태섭,160,북산고
3,3,서태웅,178,북산고


In [90]:
df=pd.read_csv('score.txt', sep='\t')

In [91]:
df

Unnamed: 0,지원번호,이름,키,학교
0,0,채치수,197,북산고
1,1,정대만,184,북산고
2,2,송태섭,160,북산고
3,3,서태웅,178,북산고


## 엑셀파일 열기

In [104]:
df = pd.read_csv('score.xlsx')

In [105]:
df

Unnamed: 0,지원번호,이름,키,학교
0,0,채치수,197,북산고
1,1,정대만,184,북산고
2,2,송태섭,160,북산고
3,3,서태웅,178,북산고


In [107]:
df = pd.read_csv('score.xlsx', index_col='지원번호')

In [108]:
df

Unnamed: 0_level_0,이름,키,학교
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,채치수,197,북산고
1,정대만,184,북산고
2,송태섭,160,북산고
3,서태웅,178,북산고
