## Pandas
- python에서 사용하는 데이터 분석 라이브러리

In [1]:
import pandas as pd

## 1. Series
- 1차원 데이터(정수, 실수, 문자열 등)

#### series객체생성

In [2]:
# 1월~4월까지 평균 온도(-20, -10, 10, 20)
temp = pd.Series([-20, -10, 10, 20])
print(temp)

0   -20
1   -10
2    10
3    20
dtype: int64


In [3]:
temp[0] #1월 온도

-20

In [4]:
temp[2] #3월 온도

10

#### series객체생성(index지정)

In [5]:
temp = pd.Series([-20, -10, 10, 20], index=['Jan', 'Feb', 'Mar', 'Apr'])
temp

Jan   -20
Feb   -10
Mar    10
Apr    20
dtype: int64

In [6]:
temp['Jan'] # index 'Jan'에 해당하는 데이터 출력

-20

In [7]:
temp['Jun'] # index명이 없는것은 에러 발생

KeyError: 'Jun'

***
## 2. DataFrame
- 2차원 데이터(series들의 모음)

#### Data준비
- 사전{dict} 자료구조를 통해 생성

In [8]:
# 슬램덩크 주요 인물 8명에 대한 데이터
data = {
    '이름' : ['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협'],
    '학교' : ['북산고', '북산고', '북산고', '북산고', '북산고', '능남고', '능남고', '능남고'],
    '키' : [197, 184, 168, 187, 188, 202, 188, 190],
    '국어' : [90, 40, 80, 40, 15, 80, 55, 100],
    '영어' : [85, 35, 75, 60, 20, 100, 65, 85],
    '수학' : [100, 50, 70, 70, 10, 95, 45, 90],
    '과학' : [95, 55, 80, 75, 35, 85, 40, 95],
    '사회' : [85, 25, 75, 80, 10, 80, 35, 95],
    'SW특기' : ['Python', 'Java', 'Javascript', '', '', 'C', 'PYTHON', 'C#']
}
data

{'이름': ['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협'],
 '학교': ['북산고', '북산고', '북산고', '북산고', '북산고', '능남고', '능남고', '능남고'],
 '키': [197, 184, 168, 187, 188, 202, 188, 190],
 '국어': [90, 40, 80, 40, 15, 80, 55, 100],
 '영어': [85, 35, 75, 60, 20, 100, 65, 85],
 '수학': [100, 50, 70, 70, 10, 95, 45, 90],
 '과학': [95, 55, 80, 75, 35, 85, 40, 95],
 '사회': [85, 25, 75, 80, 10, 80, 35, 95],
 'SW특기': ['Python', 'Java', 'Javascript', '', '', 'C', 'PYTHON', 'C#']}

In [9]:
data['이름']

['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협']

In [10]:
data['키']

[197, 184, 168, 187, 188, 202, 188, 190]

#### DataFrame 객체 생성

In [11]:
import pandas as pd
df = pd.DataFrame(data)
df

Unnamed: 0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,채치수,북산고,197,90,85,100,95,85,Python
1,정대만,북산고,184,40,35,50,55,25,Java
2,송태섭,북산고,168,80,75,70,80,75,Javascript
3,서태웅,북산고,187,40,60,70,75,80,
4,강백호,북산고,188,15,20,10,35,10,
5,변덕규,능남고,202,80,100,95,85,80,C
6,황태산,능남고,188,55,65,45,40,35,PYTHON
7,윤대협,능남고,190,100,85,90,95,95,C#


In [12]:
df['이름'] # 하나의 컬럼만 가져올때

0    채치수
1    정대만
2    송태섭
3    서태웅
4    강백호
5    변덕규
6    황태산
7    윤대협
Name: 이름, dtype: object

In [13]:
df[['이름', '키']] #두개 이상의 컬럼 가져올땐 list형식으로 받아와야함

Unnamed: 0,이름,키
0,채치수,197
1,정대만,184
2,송태섭,168
3,서태웅,187
4,강백호,188
5,변덕규,202
6,황태산,188
7,윤대협,190


#### DataFrame 객체 생성(index 지정)

In [14]:
df = pd.DataFrame(data, index=['1번', '2번', '3번', '4번', '5번', '6번', '7번', '8번'])
# index개수를 데이터 개수와 맞춰주어야 함(서로의 개수가 다르면 에러)
df

Unnamed: 0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


#### DataFrame 객체 생성(column 지정)
- data중에서 원하는 column만 선택하거나, 순서 변경 가능

In [15]:
df = pd.DataFrame(data, columns=['이름', '키', '학교'])
df

Unnamed: 0,이름,키,학교
0,채치수,197,북산고
1,정대만,184,북산고
2,송태섭,168,북산고
3,서태웅,187,북산고
4,강백호,188,북산고
5,변덕규,202,능남고
6,황태산,188,능남고
7,윤대협,190,능남고


***
## 3. Index
- 데이터에 접근할 수 있는 주소 값

In [16]:
df = pd.DataFrame(data, index=['1번', '2번', '3번', '4번', '5번', '6번', '7번', '8번'])
df

Unnamed: 0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [17]:
df.index # index의 값들을 보여줌

Index(['1번', '2번', '3번', '4번', '5번', '6번', '7번', '8번'], dtype='object')

#### Index 이름 설정

In [18]:
df.index.name = '지원번호'
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


#### Index 초기화

In [19]:
df.reset_index()

Unnamed: 0,지원번호,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,1번,채치수,북산고,197,90,85,100,95,85,Python
1,2번,정대만,북산고,184,40,35,50,55,25,Java
2,3번,송태섭,북산고,168,80,75,70,80,75,Javascript
3,4번,서태웅,북산고,187,40,60,70,75,80,
4,5번,강백호,북산고,188,15,20,10,35,10,
5,6번,변덕규,능남고,202,80,100,95,85,80,C
6,7번,황태산,능남고,188,55,65,45,40,35,PYTHON
7,8번,윤대협,능남고,190,100,85,90,95,95,C#


In [20]:
df.reset_index(drop=True) #원래 쓰던 '지원번호'index 삭제

Unnamed: 0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,채치수,북산고,197,90,85,100,95,85,Python
1,정대만,북산고,184,40,35,50,55,25,Java
2,송태섭,북산고,168,80,75,70,80,75,Javascript
3,서태웅,북산고,187,40,60,70,75,80,
4,강백호,북산고,188,15,20,10,35,10,
5,변덕규,능남고,202,80,100,95,85,80,C
6,황태산,능남고,188,55,65,45,40,35,PYTHON
7,윤대협,능남고,190,100,85,90,95,95,C#


In [21]:
df # inplace=True를 하지않았기 때문에 실제 데이터에 적용이 안됨

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [22]:
df.reset_index(drop=True, inplace=True)
df

Unnamed: 0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,채치수,북산고,197,90,85,100,95,85,Python
1,정대만,북산고,184,40,35,50,55,25,Java
2,송태섭,북산고,168,80,75,70,80,75,Javascript
3,서태웅,북산고,187,40,60,70,75,80,
4,강백호,북산고,188,15,20,10,35,10,
5,변덕규,능남고,202,80,100,95,85,80,C
6,황태산,능남고,188,55,65,45,40,35,PYTHON
7,윤대협,능남고,190,100,85,90,95,95,C#


#### Index 설정
- 지정한 column으로 index를 설정

In [23]:
df.set_index('이름', inplace=True)
df

Unnamed: 0_level_0,학교,키,국어,영어,수학,과학,사회,SW특기
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
채치수,북산고,197,90,85,100,95,85,Python
정대만,북산고,184,40,35,50,55,25,Java
송태섭,북산고,168,80,75,70,80,75,Javascript
서태웅,북산고,187,40,60,70,75,80,
강백호,북산고,188,15,20,10,35,10,
변덕규,능남고,202,80,100,95,85,80,C
황태산,능남고,188,55,65,45,40,35,PYTHON
윤대협,능남고,190,100,85,90,95,95,C#


#### Index 정렬
- index를 기준으로 오름차순, 내림차순 정렬

In [24]:
df.sort_index() #기본값이 오름차순 정렬

Unnamed: 0_level_0,학교,키,국어,영어,수학,과학,사회,SW특기
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
강백호,북산고,188,15,20,10,35,10,
변덕규,능남고,202,80,100,95,85,80,C
서태웅,북산고,187,40,60,70,75,80,
송태섭,북산고,168,80,75,70,80,75,Javascript
윤대협,능남고,190,100,85,90,95,95,C#
정대만,북산고,184,40,35,50,55,25,Java
채치수,북산고,197,90,85,100,95,85,Python
황태산,능남고,188,55,65,45,40,35,PYTHON


In [25]:
df.sort_index(ascending=False) #내림차순으로 정렬

Unnamed: 0_level_0,학교,키,국어,영어,수학,과학,사회,SW특기
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
황태산,능남고,188,55,65,45,40,35,PYTHON
채치수,북산고,197,90,85,100,95,85,Python
정대만,북산고,184,40,35,50,55,25,Java
윤대협,능남고,190,100,85,90,95,95,C#
송태섭,북산고,168,80,75,70,80,75,Javascript
서태웅,북산고,187,40,60,70,75,80,
변덕규,능남고,202,80,100,95,85,80,C
강백호,북산고,188,15,20,10,35,10,
