# 판다스(pandas)

## 판다스 데이터 구조
- dataframe 과 series로 구성된다
- 표 형태의 index와 columns로 구성
- 각각의 column이 한개의 series이다.

## 판다스 기본 사용법
- 데이터 파일 읽기: read_excel(), read_csv()
- 데이터 선택하기 : df.loc(), df.iloc()
- 인덱스/컬럼 변경하기 : columns/index, reset_index()

## 1. pandas 불러오기
import 라이브러리 명령을 통해 라이브러리를 불러오며
뒤에 as 줄임말 이라는 명령을 통해 줄임말로 간단하게 이름을 변경하여 사용 가능

In [17]:
#판다스 사용 위해 라이브러리를 불러오기
import pandas as pd

## 2. 데이터 불러오기
pd.read_excel('파일경로 + 파일명.xlsx')
pd.read_csv('파일경로 + 파일명.csv')

### 파일경로
- 절대경로 : "c:/폴더1/폴더2/파일명.확장자" 처럼 c:부터 지정하는 방법
- 상대경로 : "./폴더3/파일명.확장자"처럼 현재위치(주피터놑북 파일 위치)를 기준으로 지정하는 방법
    (./는 "현재위치"라는 의미)
    
### .head() 
상단의 데이터를 살펴볼 수 있다.
- ex)raw.head(2) >> 상위 2개의 데이터만 볼 수 있다.
- .head()는 .head(5)와 동일하다 

### .tail()
하단의 데이터를 살펴볼 수 있다.

In [3]:
# read_excel
# 엑셀파일에서 불러온 데이터프레임 자료를 raw라는 이름으로 지정합니다.
fpath = './data/exam.xlsx'
raw = pd.read_excel(fpath)
raw.head()
raw.tail()

Unnamed: 0,번호,국어,영어,수학
0,1번,70,80,75
1,2번,68,95,55
2,3번,90,100,95


### .info()
인덱스와 컬럼의 데이터 구조(개수/종류)를 확인할 수 있다.
- pandas에서 데이터 타입이 object >> 문자열(str)이다.

In [18]:
raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   번호      3 non-null      object
 1   국어      3 non-null      int64 
 2   영어      3 non-null      int64 
 3   수학      3 non-null      int64 
dtypes: int64(3), object(1)
memory usage: 224.0+ bytes


### .describe()
수치형 데이터(int, float)가 들어있는 컬럼의 
기초통계랑(개수, 평균, 표준편차 등)만을 볼 수 있다.


In [19]:
raw.describe()

Unnamed: 0,국어,영어,수학
count,3.0,3.0,3.0
mean,76.0,91.666667,75.0
std,12.165525,10.40833,20.0
min,68.0,80.0,55.0
25%,69.0,87.5,65.0
50%,70.0,95.0,75.0
75%,80.0,97.5,85.0
max,90.0,100.0,95.0


### .set_index
컬럼을 인덱스로 전환할 수 있다.
- ex)raw.set_index("번호") >> 번호가 인덱스로 전환된다.
- 다시 번호를 칼럼으로 전환하고 싶다면 raw만 입력하면 원상복귀된다.

원본데이터를 바꾸고 싶다면
- pandas는 원본데이터 변형하지 않는 것이 기본이다.
- raw = raw.set_index("번호")로 변형해야 한다.

In [20]:
raw.set_index("번호")

Unnamed: 0_level_0,국어,영어,수학
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,70,80,75
2번,68,95,55
3번,90,100,95


In [21]:
raw

Unnamed: 0,번호,국어,영어,수학
0,1번,70,80,75
1,2번,68,95,55
2,3번,90,100,95


In [31]:
raw = raw.set_index("번호")
raw

Unnamed: 0_level_0,국어,영어,수학
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,70,80,75
2번,68,95,55
3번,90,100,95


### , index_col
엑셀파일을 읽어올 때, 미리 인덱스 지정 가능
#### pd.read_excel('파일명',index_col = '칼럼정보')
- 컬럼정보에는 컬럼번호(0부터 시작) or 컬럼이름 지정 가능하다
- ex)fpath = './data/exam.xlsx'
- raw = pd.read_excel(fpath,index_col = '번호')

In [28]:
raw = pd.read_excel(fpath,index_col = '번호')
raw

Unnamed: 0_level_0,국어,영어,수학
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,70,80,75
2번,68,95,55
3번,90,100,95


## 데이터 선택하기

### 3.1 개별 데이터 선택하기

#### df.iloc[로우, 컬럼] : 인덱스 번호로 선택하기
- ex) df.iloc[1,2]

#### df.loc[로우, 컬럼] : 이름으로 선택하기
- ex) df.loc['2번','수학']

In [25]:
raw

Unnamed: 0,번호,국어,영어,수학
0,1번,70,80,75
1,2번,68,95,55
2,3번,90,100,95


In [24]:
#iloc[행번호, 열번호]를 통해 특정 행, 열 데이터를 선택 가능
#1,2

raw.iloc[1,2] #파이썬은 무조건 0부터 시작!

95

In [29]:
#loc[행번호, 열번호]를 통해 특정 행, 열 데이터를 선택할 수 있습니다.
#행/열 이름으로 선택하기

raw.loc['1번', '수학']

75

In [30]:
# 실습) 1번 국어점수 선택하기
print(raw.loc['1번', '국어'])
print(raw.iloc[0,0])

70
70


###  3.2 복수의 셀을 선택할 경우

#### df.iloc[인덱스 번호, 컬럼번호]
#### df.loc[인덱스명, 컬럼명]

##### 인덱스/컬럼정보에 
- [조건1, 조건2, 조건3...] 리스트 형태로 여러개 입력
- 시작:종료 형태로 범위 지정


In [32]:
raw = pd.read_excel(fpath,index_col = '번호')
raw

Unnamed: 0_level_0,국어,영어,수학
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,70,80,75
2번,68,95,55
3번,90,100,95


In [45]:
#리스트 형태
#1번 학생의 국어/영어 점수 조회

raw.loc['1번',['국어','영어']]

국어    70
Name: 1번, dtype: int64

In [46]:
raw.iloc[0,0:1]

국어    70
Name: 1번, dtype: int64

In [35]:
#1번, 2번 학생의 수학점수 조회
raw.loc[['1번','2번'],'수학']

번호
1번    75
2번    55
Name: 수학, dtype: int64

In [47]:
raw.iloc[0:1,2]

번호
1번    75
Name: 수학, dtype: int64

In [44]:
#리스트의 슬라이싱 기호이용
#1번학생의 영어~끝까지의 점수조회
raw.loc['1번','영어':]

영어    80
수학    75
Name: 1번, dtype: int64

In [48]:
raw.iloc[0,1:]

영어    80
수학    75
Name: 1번, dtype: int64

### 3.2 컬럼 선택하기
1.하나의 컬럼을 전체 선택하는 data.loc[:,컬럼명]은 아래와 같이 줄여 사용가능하다.
- data.컬럼명
- data[:, '수학']

2.여러개의 컬럼을 선택하는 경우 원하는 컬럼을 순서대로 리스트로 만들어서 지정
- data[['컬럼명1','컬럼명2'....]]

In [50]:
# loc[인덱스, 컬럼]을 이용해 모든 학생들의 수학점수 선택
# = 수학컬럼 선택
raw.loc[:,'수학']

번호
1번    75
2번    55
3번    95
Name: 수학, dtype: int64

In [52]:
# 데이터프레임[컬럼명]으로 하나의 컬럼을 지정가능
# 수학 컬럼 선택하기
raw.수학

번호
1번    75
2번    55
3번    95
Name: 수학, dtype: int64

In [54]:
# 수학과 영어 컬럼 선택
raw[['수학','영어']]

Unnamed: 0_level_0,수학,영어
번호,Unnamed: 1_level_1,Unnamed: 2_level_1
1번,75,80
2번,55,95
3번,95,100


In [57]:
#컬럼 순서를 원하는 대로 변경해 선택하기
# 수학 영어 국서 순서대로 변경해서 선택하기
raw[['수학','영어','국어']]

Unnamed: 0_level_0,수학,영어,국어
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,75,80,70
2번,55,95,68
3번,95,100,90


### 3.3 특정 조건 데이터 선택하기
 
df[condition] >>> True 인 데이터만 출력된다
- condition : True/ False로 구성된 리스트 /시리즈

In [58]:
raw

Unnamed: 0_level_0,국어,영어,수학
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,70,80,75
2번,68,95,55
3번,90,100,95


In [64]:
#비교연산자 사용가능
# 수학컬럼이 80보다 적은 경우의 데이터만 조회
condition = raw['수학']<80
condition

번호
1번     True
2번     True
3번    False
Name: 수학, dtype: bool

In [63]:
raw[condition]

Unnamed: 0_level_0,국어,영어,수학
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,70,80,75
2번,68,95,55


In [65]:
# 직접 True/False 값을 가진 리스트를 만들어 조건으로 이용해도 좋다(비교연산자x)
# 데이터프레임의 행개수와 리스트의 원소개수가 동일해야한다(주의!!)
# ex)열의 값이 True False True를 만족하는 열만 추출
cond = [True, False, True]
raw[cond]

Unnamed: 0_level_0,국어,영어,수학
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,70,80,75
3번,90,100,95


### *여러개의 조건 만들기
 여러개의 조건으로 선택할 수 있다
- 조건을 모두 만족 &
- 하나라도 만족 |(shift + \)
    

In [69]:
# 영어나 수학 둘 중 하나라도 80 넘는 경우

cond1 = raw['영어']>80
cond2 = raw['수학']>80
cond = cond1 | cond2
raw[cond]

Unnamed: 0_level_0,국어,영어,수학
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2번,68,95,55
3번,90,100,95


In [74]:
#영어 수학이 모두 80을 넘는 경우
cond = cond1&cond2
raw[cond]

Unnamed: 0_level_0,국어,영어,수학
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3번,90,100,95


In [79]:
# 영어 70이상, 수학 70이상 90미만인 데이터
# cond2 = 70 < raw['수학'] <90 이렇게 조건2개 한번에 불가
cond =(raw['영어']> 70) & (raw['수학'] > 70) & (raw['수학'] < 90)
raw[cond]

Unnamed: 0_level_0,국어,영어,수학
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,70,80,75


In [80]:
# \를 사용하여 코드 중간에 줄바꿈 가능
cond =(raw['영어']> 70) \
    & (raw['수학'] > 70) \
    & (raw['수학'] < 90)
raw[cond]

Unnamed: 0_level_0,국어,영어,수학
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,70,80,75


In [84]:
# 실습) 국어, 영어점수 컬럼 선택
kor = raw['국어']
eng = raw['영어']

번호
1번     80
2번     95
3번    100
Name: 영어, dtype: int64

In [85]:
# 국어 영어 모두 80 넘는 경우
cond = (kor > 80) & (eng > 80)
raw[cond]

Unnamed: 0_level_0,국어,영어,수학
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3번,90,100,95


In [86]:
# 국어와 영어 둘 중 하나라도 80넘는 경우 
cond = (kor > 80) | (eng > 80)
raw[cond]

Unnamed: 0_level_0,국어,영어,수학
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2번,68,95,55
3번,90,100,95
