## 판다스(Pandas)
----
* 판다스: 파이썬 데이터 처리를 위한 패키지

In [2]:
## 사용방법
import pandas as pd

* 총 세 가지의 데이터 구조 사용
    - 시리즈(Series)
    - 데이터프레임(DataFrame)
    - 패널(Panel)

이 중 데이터프레임이 가장 많이 사용됨

### 1) 데이터프레임(DataFrame)

* 행(index)과 열(column)을 가지는 자료구조
* 데이터 각각을 값(value)이라고 함

In [3]:
values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
index = ['one', 'two', 'three']
columns = ['A', 'B', 'C']

df = pd.DataFrame(values, index=index, columns=columns)

print('데이터프레임 출력 :')
print('-'*18)
print(df)


데이터프레임 출력 :
------------------
       A  B  C
one    1  2  3
two    4  5  6
three  7  8  9


In [4]:
print('데이터프레임의 인덱스 : {}'.format(df.index))
print('데이터프레임의 열이름: {}'.format(df.columns))
print('데이터프레임의 값 :')
print('-'*18)
print(df.values)


데이터프레임의 인덱스 : Index(['one', 'two', 'three'], dtype='object')
데이터프레임의 열이름: Index(['A', 'B', 'C'], dtype='object')
데이터프레임의 값 :
------------------
[[1 2 3]
 [4 5 6]
 [7 8 9]]


### 2) 데이터프레임의 생성
* ```List```, ```Dict```, ```numpy.ndarray``` 등을 이용해 생성

In [5]:
# 리스트로 생성하기
data = [
    ['1000', 'Steve', 90.72], 
    ['1001', 'James', 78.09], 
    ['1002', 'Doyeon', 98.43], 
    ['1003', 'Jane', 64.19], 
    ['1004', 'Pilwoong', 81.30],
    ['1005', 'Tony', 99.14],
]

df = pd.DataFrame(data)
print(df)


      0         1      2
0  1000     Steve  90.72
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14


In [6]:
df = pd.DataFrame(data, columns=['학번', '이름', '점수'])
print(df)

     학번        이름     점수
0  1000     Steve  90.72
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14


In [7]:
# 딕셔너리로 생성하기
data = {
    '학번' : ['1000', '1001', '1002', '1003', '1004', '1005'],
    '이름' : [ 'Steve', 'James', 'Doyeon', 'Jane', 'Pilwoong', 'Tony'],
    '점수': [90.72, 78.09, 98.43, 64.19, 81.30, 99.14]
    }

df = pd.DataFrame(data)
print(df)


     학번        이름     점수
0  1000     Steve  90.72
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14


In [8]:
# 넘파이 ndarray로 생성하기
import numpy as np
data = np.array([
    ['1000', 'Steve', 90.72], 
    ['1001', 'James', 78.09], 
    ['1002', 'Doyeon', 98.43], 
    ['1003', 'Jane', 64.19], 
    ['1004', 'Pilwoong', 81.30],
    ['1005', 'Tony', 99.14],
])
df = pd.DataFrame(data, columns=['학번', '이름', '점수'])
print(df)

     학번        이름     점수
0  1000     Steve  90.72
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong   81.3
5  1005      Tony  99.14


### 3) 데이터프레임 조회하기

In [9]:
# 앞부분 조회
print(df.head())  # 기본값 5
print(df.head(3)) # 3개 행 조회

     학번        이름     점수
0  1000     Steve  90.72
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong   81.3
     학번      이름     점수
0  1000   Steve  90.72
1  1001   James  78.09
2  1002  Doyeon  98.43


In [10]:
# 뒷부분 조회
print(df.tail())  # 기본값 5
print(df.tail(2)) # 2개 행 조회

     학번        이름     점수
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong   81.3
5  1005      Tony  99.14
     학번        이름     점수
4  1004  Pilwoong   81.3
5  1005      Tony  99.14


In [12]:
# 해당 열(column) 조회
print(df["학번"])

0    1000
1    1001
2    1002
3    1003
4    1004
5    1005
Name: 학번, dtype: object
