## 판다스 (pandas)  
판다스는 데이터를 관리하기 위한 모듈로 시리즈와 데이터 프레임을 제공해주는 모듈이다.

In [1]:
import numpy as np
import pandas as pd

### 4.1 시리즈 (series)  
데이터를 한줄로 담는 자료구조이다.  
리스트와 다른 점은 데이터에 이름을 붙일 수 있다.

In [7]:
tems = pd.Series([1, 2, 3, 4])
print(tems)
print(tems.index)

0    1
1    2
2    3
3    4
dtype: int64
RangeIndex(start=0, stop=4, step=1)


값을 가진 배열과 인덱스의 명칭을 순서대로 넣어줌으로써 인덱스에 명칭을 넣을 수 있다.

In [15]:
tems = pd.Series([1, 2, 3], ['a', 'b', 'c'])
print(tems, '\n')
print(tems.index)

a    1
b    2
c    3
dtype: int64 

Index(['a', 'b', 'c'], dtype='object')


시리즈에서 값을 가져올 때는 인덱스에 숫자를 넣은것처럼 내가 설정한 인덱스 문자열을 넣으면 된다.  
예) print(tems['a'])  
또한 loc 함수나(인덱스 이름으로 데이터를 찾음) iloc 함수(인덱스 위치로 데이터를 찾음)를 써서도 찾을 수 있다.

In [13]:
print(tems)
print(tems.loc['a'])
print(tems.iloc[0])
print(tems['a'])

a    1
b    2
c    3
dtype: int64
1
1
1


시리즈 값 수정하기

In [19]:
tems = pd.Series([1, 2, 3], ['a', 'b', 'c'])
print(tems, '\n')
tems['a'] = 4
tems.loc['b'] = 5
tems.iloc[2] = 6
print(tems)

a    1
b    2
c    3
dtype: int64 

a    4
b    5
c    6
dtype: int64


### 4.2 데이터프레임 (DataFrame)  
표 형식의 2차원 데이터를 담기 위한 자료 구조

In [23]:
temdic = {'city' : ['서울' , '인천'], 'cloud' : [990, 240]}
temd = pd.DataFrame(temdic)
print(temd)

  city  cloud
0   서울    990
1   인천    240


데이터 프레임 생성 2

In [33]:
# 넘파이의 다차원 배열을 사용하여 2차원 배열 생성
temarr = np.array([[60, 70, 80], [70, 80, 90], [80, 90, 100]])
print(temarr)
temd = pd.DataFrame(temarr)
print(temd)
temd = pd.DataFrame(temarr, ['둘리', '또치', '도우너'], ['국어', '영어', '수학'])
print(temd.index)
print(temd.columns)
temd

[[ 60  70  80]
 [ 70  80  90]
 [ 80  90 100]]
    0   1    2
0  60  70   80
1  70  80   90
2  80  90  100
Index(['둘리', '또치', '도우너'], dtype='object')
Index(['국어', '영어', '수학'], dtype='object')


Unnamed: 0,국어,영어,수학
둘리,60,70,80
또치,70,80,90
도우너,80,90,100


데이터 프레임에서 데이터 꺼내기  
loc : 행열 이름으로 데이터를 꺼낸다  
iloc : 행열 위치로 데이터를 꺼낸다  
[] : 행열 이름으로 데이터를 꺼낸다  

In [41]:
print(temd.loc['둘리', '국어'])
print(temd.iloc[0, 0])
print(temd['국어']['둘리'])

60
60
60


데이터 프레임에 새로운 열 추가

In [54]:
# temd['과학'] = [60, 70, 80]
# temd.loc['타조', :] = [30, 60, 90, 100]
# temd.insert(2, '사회', [60, 20, 70, 40]
temd

Unnamed: 0,국어,영어,사회,수학,과학
둘리,60.0,70.0,60,80.0,60.0
또치,70.0,80.0,20,90.0,70.0
도우너,80.0,90.0,70,100.0,80.0
타조,30.0,60.0,40,90.0,100.0


데이터의 삭제

In [58]:
# del temd['과학']

#drop(행 또는 열의 이름, 방향)
result = temd.drop('둘리', axis = 0)
result = temd.drop('수학', axis = 1)
result

Unnamed: 0,국어,영어,사회,과학
둘리,60.0,70.0,60,60.0
또치,70.0,80.0,20,70.0
도우너,80.0,90.0,70,80.0
타조,30.0,60.0,40,100.0


In [60]:
temd

Unnamed: 0,국어,영어,사회,수학,과학
둘리,60.0,70.0,60,80.0,60.0
또치,70.0,80.0,20,90.0,70.0
도우너,80.0,90.0,70,100.0,80.0
타조,30.0,60.0,40,90.0,100.0


In [62]:
# temd = temd.drop('타조', axis = 0)
temd

Unnamed: 0,국어,영어,사회,수학,과학
둘리,60.0,70.0,60,80.0,60.0
또치,70.0,80.0,20,90.0,70.0
도우너,80.0,90.0,70,100.0,80.0


### 4.3 데이터 계산과 처리  
시리즈에서 계산과 조건 검색

In [66]:
# 모든 원소에 1 더하기
lis = [-2, -1, 0, 1, 2]
a = 0
for i in lis:
    lis[a] = i + 1
    a += 1
print(lis)

tems = pd.Series([-2, -1, 0, 1, 2])
tems += 1
print(tems)

temd += 1
temd

[-1, 0, 1, 2, 3]
0   -1
1    0
2    1
3    2
4    3
dtype: int64


Unnamed: 0,국어,영어,사회,수학,과학
둘리,62.0,72.0,62,82.0,62.0
또치,72.0,82.0,22,92.0,72.0
도우너,82.0,92.0,72,102.0,82.0


In [68]:
# 조건 검색(양수만 찾기)
print(tems > 0)
print(tems[tems > 0])

0    False
1    False
2     True
3     True
4     True
dtype: bool
2    1
3    2
4    3
dtype: int64


In [72]:
temd[temd > 70]

Unnamed: 0,국어,영어,사회,수학,과학
둘리,,72.0,,82.0,
또치,72.0,82.0,,92.0,72.0
도우너,82.0,92.0,72.0,102.0,82.0


In [76]:
tems = pd.Series(np.arange(1, 11))
tems[tems % 2 == 0]

1     2
3     4
5     6
7     8
9    10
dtype: int64

데이터 프레임에서 계산과 처리

In [78]:
data = np.array([[60, 70, 80], [70, 80, 90], [80, 90, 10]])
temd = pd.DataFrame(data, ['둘리', '또치', '도우너'], ['국어', '영어', '수학'])
temd

Unnamed: 0,국어,영어,수학
둘리,60,70,80
또치,70,80,90
도우너,80,90,10


In [85]:
print(temd.loc['둘리'].sum())

210


데이터프레임의 정렬

In [92]:
temd.sort_values('국어', ascending = True)

Unnamed: 0,국어,영어,수학
둘리,60,70,80
또치,70,80,90
도우너,80,90,10


In [96]:
# 랜덤함수로 시험점수 생성
temd = np.random.randint(60, 100, 9)
arr = temd.reshape(3, 3)
temd = pd.DataFrame(arr, ['둘리', '또치', '도우너'], ['국어', '영어', '수학'])
temd.sort_values('국어', ascending = True)

Unnamed: 0,국어,영어,수학
또치,61,78,83
도우너,66,88,86
둘리,90,96,66


nan 처리  
누락된 값, 빈값  
예를들어 엑셀에서 빈셀을 표현할 때 사용  

In [97]:
temd.loc['둘리', '영어'] = np.nan
temd

Unnamed: 0,국어,영어,수학
둘리,90,,66
또치,61,78.0,83
도우너,66,88.0,86


### 4.4 데이터 탐색  
데이터의 상태나 특징을 파악하는 작업

In [2]:
tems = pd.Series(['사과', '배', '사과', '배', '바나나'])
tems.unique()

array(['사과', '배', '바나나'], dtype=object)

In [5]:
tems.value_counts()

사과     2
배      2
바나나    1
Name: count, dtype: int64