# 판다스 (pandas)  
데이터를 관리하기 위한 모듈로, <b><u>시리즈</b></u>와 <b><u>데이터프레임</b></u>을 제공함

In [1]:
# 모듈 불러오기
# 넘파이 모듈을 np 라고 부른다
import numpy as np
# 판다스 모듈을 pd 라고 부른다
import pandas as pd

## 4.1 시리즈(series)  
데이터를 한줄로 담는 자료구조  
리스트와 다른점은 <b><u>인덱스에 이름표</b></u>를 붙일 수 있다 (index)

### 시리즈 생성

In [6]:
# 시리즈 생성
s = pd.Series([1,2,3,4])
print(s)
# 인덱스가 자동으로 설정됨(0~3)
# 시리즈의 인덱스 확인
s.index

0    1
1    2
2    3
3    4
dtype: int64


RangeIndex(start=0, stop=4, step=1)

In [9]:
# pd.Series(값목록, [인덱스]<-옵션)
n = pd.Series([5,10,15,20])
n
# 시리즈 생성시 인덱스를 따로 설정하지 않으면
# 자동으로 생성된다

0     5
1    10
2    15
3    20
dtype: int64

In [10]:
n2 = pd.Series([2,4,6,8])
n2

0    2
1    4
2    6
3    8
dtype: int64

### 시리즈 생성2

In [12]:
# 인덱스를 직접 설정하여 시리즈 생성
# pd.Series(값목록(list), 인덱스(list))
s = pd.Series([1,2,3], index = ['a','b','c'])
s

a    1
b    2
c    3
dtype: int64

### 시리즈에서 값 꺼내기  
#### 값을 찾는 방법 : 인덱스의 이름과 위치  
  
- <b>loc 함수</b> : 인덱스 이름으로 데이터를 찾는다  
- <b>iloc 함수</b> : 인덱스 위치로 데이터를 찾는다  
- <b>대괄호[ ]</b> : 인덱스 이름으로 데이터를 찾는다 
  

In [18]:
print(s)
# 이 시리즈의 인덱스 이름 : a, b, c
# 이 시리즈의 인덱스 위치 : 0, 1, 2 (정해진 것, 고민할 필요x)
# 인덱스 이름으로 숫자 1 꺼내기
# s.loc[이름]
print(s.loc['a'])
# 인덱스 이름으로 숫자 2 꺼내기
# s[이름]
print(s['b'])
# 인덱스 위치로 숫자 3 꺼내기
# s.iloc[위치]
s.iloc[2]

a    1
b    2
c    3
dtype: int64
1
2


np.int64(3)

### 시리즈 값 수정하기

In [24]:
print(s)
# 1을 0으로 변경
# 찾기 -> 변경
s.loc['a'] = 0     # 새로운 값
# 3을 99로 변경
s['c'] = 99
s

a    0
b    2
c    3
dtype: int64


a     0
b     2
c    99
dtype: int64

### 연습문제

In [26]:
score = pd.Series([70,80,90], index = ['국어', '영어', '수학'])
print(score['국어'])
score.loc['수학'] = 75
score

70


국어    70
영어    80
수학    75
dtype: int64

In [None]:
# 이름표를 붙이면, 어떤 값인지바로 알 수 있다(가독성)
temp = pd.Series([15,27,18], index = ['봄', '여름', '가을'])
print(temp.iloc[0])
temp.loc['가을'] = 20
temp

## 4.2 데이터 프레임(DataFrame)  
<b><u>표 형식의 2차원 데이터</b></u>를 담기 위한 자료구조  

### 데이터 프레임 생성1

In [30]:
# 도시별 인구 데이터를 담은 데이터 프레임 생성
# 데이터 먼저 만들기(dic)

data = {'city' : ['서울', '인천'],
        'pop' : [990, 240]
       }
# city, pop  열 두개를 담은 데이터 프레임 생성
# pd.DataFrame(값, [인덱스], [컬럼]) [] <- 대괄호 부분은 옵션
df = pd.DataFrame(data)
df

# 행열의 이름을 따로 설정하기 않으면 자동으로 설정됨
print(df.index)    # 행 이름 : 0, 1
print(df.columns)  # 열 이름 : dic 의 key (city, pop)

RangeIndex(start=0, stop=2, step=1)
Index(['city', 'pop'], dtype='object')


### 데이터 프레임 생성2

In [37]:
# 학생성적 데이터 만들기
# dic, list
# 넘파이의 다차원 배열 사용하여 2차원 배열 생성
data = np.array([[60,70,80],[70,80,90],[80,90,100]])
print(data)
# 성적데이터를 담아서 데이터 프레임 생성
# 데이터 인식을 위해 이름표 붙이기
# 행이름 : 학생 이름
# 열 이름 : 과목명
df = pd.DataFrame(data, index=['둘리', '또치', '도우너'],
                  columns=['국어', '영어', '수학'])
# 행 인덱스
print(df.index)
print(df.columns)
df


[[ 60  70  80]
 [ 70  80  90]
 [ 80  90 100]]
Index(['둘리', '또치', '도우너'], dtype='object')
Index(['국어', '영어', '수학'], dtype='object')


Unnamed: 0,국어,영어,수학
둘리,60,70,80
또치,70,80,90
도우너,80,90,100


### 데이터 프레임에서 데이터 꺼내기  
- 대괄호[ ] : 행열 이름으로 데이터를 꺼낸다  
- loc : 행열 이름으로 데이터를 꺼낸다  
- iloc : 행열 위치로 데이터를 꺼낸다  

In [48]:
print(df)
print('\n')
# loc[행이름, 열이름]
# 전체 데이터
print(df.loc[ : , : ])
print('\n')
# 둘리의 국어점수
print('둘리의 국어점수 :', df.loc['둘리', '국어'])
print('\n')
# 도우너의 수학점수
print('도우너의 수학점수 :', df.loc['도우너', '수학'])
print('\n')
# 프레임에서 [] 대괄호를 쓰면, 열만 입력 가능!
print('모든학생의 국어점수 : \n', df['국어'])
print('\n')


     국어  영어   수학
둘리   60  70   80
또치   70  80   90
도우너  80  90  100


     국어  영어   수학
둘리   60  70   80
또치   70  80   90
도우너  80  90  100


둘리의 국어점수 : 60


도우너의 수학점수 : 100


모든학생의 국어점수 : 
 둘리     60
또치     70
도우너    80
Name: 국어, dtype: int64




## 데이터 프레임에 새로운 열 추가

In [60]:
# 새로운 과목 추가
# 새로운 열 = 리스트
# 맨 뒤에 추가됨
df['과학'] = [60,70,80]
print(df)
# 이번에는 2번째 위치에 '미술' 과목 추가
# insert(위치, 컬럼명, 값리스트)
df.insert(2, '미술', [70,80,90])
df

     국어  영어  미술   수학  과학
둘리   60  70  70   80  60
또치   70  80  80   90  70
도우너  80  90  90  100  80


## 데이터 프레임에서 열 삭제  
- del : 원본에서 바로 삭제  
- drop : 원본은 그대로, (임시)결과만 보여줌  

In [62]:
# 과학 과목 삭제
print(df)
del df['과학']
df

     국어  영어  미술   수학  과학
둘리   60  70  70   80  60
또치   70  80  80   90  70
도우너  80  90  90  100  80


Unnamed: 0,국어,영어,미술,수학
둘리,60,70,70,80
또치,70,80,80,90
도우너,80,90,90,100


In [65]:
# 수학 과목 삭제
# drop(행 또는 열의 이름, 방향)
# axis=1 또는 axis='columns'
# drop 은 원본에 영향이 없다
result = df.drop('수학', axis=1) # 엑시스(축, 방향)
print(result)
# 결과를 반영하려면, 교체한다 (덮어 씌운다)
df = df.drop('수학', axis=1)
df

     국어  영어  미술
둘리   60  70  70
또치   70  80  80
도우너  80  90  90


Unnamed: 0,국어,영어,미술
둘리,60,70,70
또치,70,80,80
도우너,80,90,90


### 행 삭제

In [78]:
# # 또치 학생 삭제 (행삭제)
# # axis = 0 또는 axis = 'row'
# result = (df.drop('또치', axis = 0))
# print(result)
# print('\n')
# # 결과를 원본에 교체
# df = df.drop('또치', axis = 0)

### 연습문제

In [83]:
data = np.array([[30,50],[20,40]])
df = pd.DataFrame(data, index=['사과','배'],
                columns=['판매량', '재고'])
df

Unnamed: 0,판매량,재고
사과,30,50
배,20,40


In [84]:
# 사과의 판매량
df.loc['사과']

판매량    30
재고     50
Name: 사과, dtype: int64

In [87]:
# 가격 열 추가
# 새로운 열 = 리스트
print(df)
df['가격'] = [1000,1200]
df

    판매량  재고    가격
사과   30  50  1000
배    20  40  1200


Unnamed: 0,판매량,재고,가격
사과,30,50,1000
배,20,40,1200


In [88]:
data = [[950,1200],[500,800]]
df = pd.DataFrame(data, index=['서울','부산'],
                  columns=['인구','면적'])
df

Unnamed: 0,인구,면적
서울,950,1200
부산,500,800


In [89]:
df.iloc[0]

인구     950
면적    1200
Name: 서울, dtype: int64

In [90]:
df.insert(2, '특산물', ['김치','어묵'])
df

Unnamed: 0,인구,면적,특산물
서울,950,1200,김치
부산,500,800,어묵


In [101]:
data = np.array([[15000, '홍길동전'],[20000,'해리포터']])
df = pd.DataFrame(data, index=['책1','책2'],
                  columns=['가격','제목'])
df

Unnamed: 0,가격,제목
책1,15000,홍길동전
책2,20000,해리포터


In [102]:
df.loc['책2', '가격']

'20000'

In [100]:
df.insert(1, '저자', ['허균', 'J.K 롤링'])
df

Unnamed: 0,가격,저자,제목
책1,15000,허균,홍길동전
책2,20000,J.K 롤링,해리포터


In [103]:
data = np.array([[9.0,14000],[8.2,9500]])
df = pd.DataFrame(data, index=['기생충','인터스텔라'],
                  columns=['평점','관객수'])
df.loc['기생충','평점']

np.float64(9.0)

In [104]:
del df['관객수']
df

Unnamed: 0,평점
기생충,9.0
인터스텔라,8.2


### 4.3 데이터 계산과 처리

시리즈에서 계산과 조건 검색

In [107]:
# 숫자가담긴 리스트 생성
lis = [-2,-1,0,1,2]
# 모든 원소에 1만큼 더하기
for i in lis :
    print(i + 1)

-1
0
1
2
3


In [109]:
# 숫자가 담긴 시리즈 생성
s = pd.Series([-2,-1,0,1,2])
# 모든 원소에 1만큼 더하기
# 판다스의 시리즈는 for 없이 반복 수행 가능
# 아래 계산식은 자동으로 더하기가 5번 반복 수행됨
s + 1

0   -1
1    0
2    1
3    2
4    3
dtype: int64

In [110]:
# 각 원소에 1만큼 더하기
# s + 1
s.add(1)

0   -1
1    0
2    1
3    2
4    3
dtype: int64

In [118]:
# 조건 검색 (양수만 찾기)
print(s)
# 불리언 배열 만들기
# Series > int => 시리즈의 전체 데이터와 0을 비교
print(s > 0)
# 불리언 배열은 시리즈의 인덱스로 사용할 수 있다
# true 인 값만 남음
s[s > 0]

0   -2
1   -1
2    0
3    1
4    2
dtype: int64
0    False
1    False
2    False
3     True
4     True
dtype: bool


3    1
4    2
dtype: int64

In [140]:
# 조건검색2 (짝수만 찾기 )
# 넘파이의 arange 함수(시작, 마지막-1)
# 1~10 숫자가 담긴 시리즈 생성
s = pd.Series(np.arange(1,11))
print(s)
# 시리즈 전체 데이터에 계산식이 적용됨 -> bool 10개 반환
print(s % 2 == 0)
# bool 배열을 시리즈의 인덱스로 사용
s[s % 2 == 0]

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
dtype: int64
0    False
1     True
2    False
3     True
4    False
5     True
6    False
7     True
8    False
9     True
dtype: bool


1     2
3     4
5     6
7     8
9    10
dtype: int64

### 연습문제

In [141]:
s = pd.Series([80,90,75,85], index=['국어','영어','수학','과학'])
print(s)
print('총점:',s.sum())
print('평균:',s.mean())
print('최고점수:',s.max())
print('최저점수:',s.min())

국어    80
영어    90
수학    75
과학    85
dtype: int64
총점: 330
평균: 82.5
최고점수: 90
최저점수: 75


In [145]:
t = pd.Series([2,5,-1,0,7,-3,4], index=['월','화','수','목','금','토','일'])
print(t)
print(t >= 0)
t[t >= 0]

월    2
화    5
수   -1
목    0
금    7
토   -3
일    4
dtype: int64
월     True
화     True
수    False
목     True
금     True
토    False
일     True
dtype: bool


월    2
화    5
목    0
금    7
일    4
dtype: int64

## 데이터 프레임에서 계산과 처리

In [199]:
# 학생 성적 데이터 만들기
data = np.array([[60,70,80],[70,80,90],[80,90,10]])
# 성적데이터를 담아서 프레임 생성
df = pd.DataFrame(data,
                  index = ['둘리','또치','도우너'],
                  columns=['국어','영어','수학'])
df

Unnamed: 0,국어,영어,수학
둘리,60,70,80
또치,70,80,90
도우너,80,90,10


In [158]:
# 국어 과목만 조회
print(df['국어'])
# 국어과목에 담겨있는 값의 자료형
print(df['국어'].dtype)
# 국어과목의 자료구조
type(df['국어'])
# 데이터프레임은 여러 시리즈의 묶음

둘리     60
또치     70
도우너    80
Name: 국어, dtype: int64
int64


pandas.core.series.Series

In [159]:
# 전체점수에 1점씩 더하기
df + 1

Unnamed: 0,국어,영어,수학
둘리,61,71,81
또치,71,81,91
도우너,81,91,11


In [160]:
# 국어 점수만 10점씩 더하기
df['국어'] + 10

둘리     70
또치     80
도우너    90
Name: 국어, dtype: int64

In [161]:
# 조건 검색(국어점수가 70점 이상인 학생만 찾기)
df

Unnamed: 0,국어,영어,수학
둘리,60,70,80
또치,70,80,90
도우너,80,90,10


In [164]:
print(df['국어'] >= 70)
df[df['국어'] >= 70]

둘리     False
또치      True
도우너     True
Name: 국어, dtype: bool


Unnamed: 0,국어,영어,수학
또치,70,80,90
도우너,80,90,10


## 연습문제

In [173]:
data = np.array([[12000,9.0],[8000,8.5],[15000,9.3]])
df = pd.DataFrame(data,
                  index=['기생충','인터스텔라','아바타'],
                  columns=['관객수','평점'])
print(df['관객수'] + 1000)
print(df['평점'] >= 9.0)
df[df['평점'] >= 9.0]


기생충      13000.0
인터스텔라     9000.0
아바타      16000.0
Name: 관객수, dtype: float64
기생충       True
인터스텔라    False
아바타       True
Name: 평점, dtype: bool


Unnamed: 0,관객수,평점
기생충,12000.0,9.0
아바타,15000.0,9.3


In [195]:
data = np.array([[25000,30000],[40000,15000]])
df = pd.DataFrame(data,
                  index=['치마','바지'],
                  columns=['1월 매출','2월 매출'])
print(df)

    1월 매출  2월 매출
치마  25000  30000
바지  40000  15000


In [196]:
# Series + Series
# 시리즈 끼리 더하면, 인덱스를 기준으로 합계 반환
df['합계'] = df['1월 매출'] + df['2월 매출']    # 결과는 시리즈
print(df['1월 매출'].index)
print(df['2월 매출'].index)
df

Index(['치마', '바지'], dtype='object')
Index(['치마', '바지'], dtype='object')


Unnamed: 0,1월 매출,2월 매출,합계
치마,25000,30000,55000
바지,40000,15000,55000


In [197]:
df['합계_만원'] = df['합계'] / 10000
df

Unnamed: 0,1월 매출,2월 매출,합계,합계_만원
치마,25000,30000,55000,5.5
바지,40000,15000,55000,5.5


## 데이터 프레임의 정렬  
시험 성적 순위를 매길 때 사용

In [203]:
# 시험성적에서 국어점수를 기준으로 정렬
df.sort_values('국어')
# 국어 점수를 기준으로 내림차순 정렬
# 정렬 기준 : 오름차순 (1 -> 10) / 내림차순 (10 -> 1)
# ascending : 오름차순 (True) 내림차순(False)
df.sort_values('국어', ascending=False)

Unnamed: 0,국어,영어,수학
도우너,80,90,10
또치,70,80,90
둘리,60,70,80


In [208]:
# 랜덤 함수로 시험 점수 생성
# 범위 : 60~100점, 개수 : 9개
data = np.random.randint(60,100,9)
print(data)
# 3행 3열 크기의 2차원 배열로 변환
arr = data.reshape(3,3)
print(arr)
# 프레임 생성
df = pd.DataFrame(arr, index=['둘리','또치','도우너'],
                  columns=['수학','영어','과학'])
print(df)
# 영어 점수가 높은사람 순으로 정렬
df.sort_values('영어', ascending=False)

[79 78 92 95 65 79 93 86 93]
[[79 78 92]
 [95 65 79]
 [93 86 93]]
     수학  영어  과학
둘리   79  78  92
또치   95  65  79
도우너  93  86  93


Unnamed: 0,수학,영어,과학
도우너,93,86,93
둘리,79,78,92
또치,95,65,79


## nan 처리  
누락된 값, 빈값  
예를 들어 엑셀에서 빈셀을 표현할 때 사용
- nan 은 float 타입에서만 표현 가능

In [209]:
df

Unnamed: 0,수학,영어,과학
둘리,79,78,92
또치,95,65,79
도우너,93,86,93


In [216]:
# 둘리의 영어점수를 빈값(nan) 으로 표시
# 빈값을 넣으면 해당 값이 들어간 열이 float 타입으로 자동 형변환됨
df.loc['둘리','영어'] = np.nan
print(df)
df['영어'].dtype

     수학    영어  과학
둘리   79   NaN  92
또치   95  65.0  79
도우너  93  86.0  93


dtype('float64')

In [219]:
# 점수가 없는 학생 데이터 삭제
# 빈값이 있는 행 또는 열 삭제
# 엑시스 0 'row' => 행
# dropna -> 원본에 영향 없다
print(df.dropna(axis=0))
df = df.dropna(axis=0)
df


     수학    영어  과학
또치   95  65.0  79
도우너  93  86.0  93


Unnamed: 0,수학,영어,과학
또치,95,65.0,79
도우너,93,86.0,93


In [220]:
# 또치의 과학 점수를 빈값으로 설정
df.loc['또치','과학'] = np.nan
df

Unnamed: 0,수학,영어,과학
또치,95,65.0,
도우너,93,86.0,93.0


In [221]:
# 비어있는 점수를 모두 0으로 설정
df.fillna(0)


Unnamed: 0,수학,영어,과학
또치,95,65.0,0.0
도우너,93,86.0,93.0


### 연습문제

In [261]:
data = np.array([[20,25,15],[18,22,19],[25,27,23]])
df = pd.DataFrame(data,
                  index=['서울','부산','대구'],
                  columns=['봄','여름','겨울'])
df.loc['서울','여름'] = np.nan
df

Unnamed: 0,봄,여름,겨울
서울,20,,15
부산,18,22.0,19
대구,25,27.0,23


In [262]:
df = df.dropna(axis=0)
df

Unnamed: 0,봄,여름,겨울
부산,18,22.0,19
대구,25,27.0,23


In [263]:
df.loc['부산','봄'] = np.nan
df

Unnamed: 0,봄,여름,겨울
부산,,22.0,19
대구,25.0,27.0,23


In [264]:
df = df.fillna(0)

In [254]:
data = np.array([[80,75,90],[85,88,82],[70,65,78]])
df = pd.DataFrame(data,
                  index=['국어','영어','수학'],
                  columns=['1반','2반','3반'])
df

Unnamed: 0,1반,2반,3반
국어,80,75,90
영어,85,88,82
수학,70,65,78


In [255]:
df.loc['영어','2반'] = np.nan
df

Unnamed: 0,1반,2반,3반
국어,80,75.0,90
영어,85,,82
수학,70,65.0,78


In [256]:
# 빈값이 포함된 열 삭제
df = df.dropna(axis=1)
df

Unnamed: 0,1반,3반
국어,80,90
영어,85,82
수학,70,78


In [257]:
df.loc['수학','3반'] = np.nan
df

Unnamed: 0,1반,3반
국어,80,90.0
영어,85,82.0
수학,70,


In [260]:
df = df.fillna(100)
df

Unnamed: 0,1반,3반
국어,80,90.0
영어,85,82.0
수학,70,100.0
