# 데이터 분석을 위한 Pandas 기초

In [2]:
import pandas as pd
import numpy as np

### Pandas 기본 자료형
1. Series (시리즈) : 시트의 열 1개를 의미
2. DataFrame (데이터프레임) : 엑셀에서 볼 수 있는 시트(sheet)와 동일한 개념

### Series
- pandas의 기본 객체 중 하나
- numpy의 ndarray를 기반으로 인덱싱 기능을 추가하여 1차원 배열을 나타냄
- index를 지정하지 않을 경우, 기본적으로 ndarray와 같이 0-based 인덱스 생성, 지정할 경우 명시적으로 지정된 index를 사용
- 같은 타입의 0개 이상의 데이터를 가질 수 있음

- data로만 생성하기
    - index는 기본적으로 0부터 자동적으로 생성, 왼쪽이 인덱스, 오른쪽이 value

In [4]:
n1 = pd.Series([1,2,3])
n1

0    1
1    2
2    3
dtype: int64

In [6]:
n2 = pd.Series(['a','b','c'])
n2

0    a
1    b
2    c
dtype: object

In [7]:
n3 = pd.Series(np.arange(200))
n3 # 길이와 타입도 같이 알려줌

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int32

- data, index함께 생성하기

In [9]:
n4 = pd.Series([1,2,3],[100,200,300])
n4 # docstring 확인하면 처음이 value, 두번째가 index

100    1
200    2
300    3
dtype: int64

In [10]:
n5 = pd.Series([1,2,3],['a','b','c'])
n5

a    1
b    2
c    3
dtype: int64

- data, index, data type 함꼐 생성하기

In [12]:
n6 = pd.Series(np.arange(5), np.arange(100, 105), dtype=np.int32)
n6

100    0
101    1
102    2
103    3
104    4
dtype: int32

### 인덱스 활용하기

In [13]:
 n6.index

Int64Index([100, 101, 102, 103, 104], dtype='int64')

In [14]:
n6.values

array([0, 1, 2, 3, 4])

In [15]:
n6[0] # n6에서 인덱스가 0인 건 없다. 100부터 시작하니까

KeyError: 0

- 인덱스를 통한 데이터 접근

In [16]:
n6[104]

4

- 인덱스를 통한 데이터 업데이트

In [17]:
n6[104] = 15 # 104번 인덱스 값이 바뀜.
n6

100     0
101     1
102     2
103     3
104    15
dtype: int32

In [18]:
n6[200] = 10   # 만약 인덱스가 존재 하지 않을 때 값을 넣으면, 새로운 인덱스와 값을 추가하여 만든다.
n6 

100     0
101     1
102     2
103     3
104    15
200    10
dtype: int64

- 인덱스 재활용 하기 : 다른 시리즈의 인덱스를 재사용 가능함

In [19]:
n7 = pd.Series(np.arange(6),n6.index)
n7 # 인덱스 값은 n6의 인덱스 값이 와서 같음.

100    0
101    1
102    2
103    3
104    4
200    5
dtype: int32

# 보충내용
- 딕셔너리 받아서 시리즈 생성 가능

In [20]:
sdata = {'Jin' : 1000, 'Daon' : 300, 'Ryan' : 500, 'Tom' : 100}

In [22]:
obj1 = pd.Series(sdata)
obj1 # 이경우 key = 인덱스, values = value....

Jin     1000
Daon     300
Ryan     500
Tom      100
dtype: int64

- 인덱스를 직접 지정해줄 수 있음

In [23]:
Name = ['John','Jin','Daon','Ryan']
obj2 = pd.Series(sdata,index=Name)
obj2

John       NaN
Jin     1000.0
Daon     300.0
Ryan     500.0
dtype: float64

In [24]:
# John이 NaN인 이유는 값을 찾을 수 없어서.
# Tom이 빠진 이유는 name에 포함되어 있지 않아서

- 누락된 데이터를 찾고 싶을 때? - isnull, notnull 함수 이용

In [25]:
pd.isnull(obj2) # John이 누락되었구나

John     True
Jin     False
Daon    False
Ryan    False
dtype: bool

In [26]:
pd.notnull(obj2) # John이 누락되었구나

John    False
Jin      True
Daon     True
Ryan     True
dtype: bool

- Series안에 있는 name 속성

In [29]:
obj2.name = 'total_score' # 시리즈 객체
obj2.index.name = 'Friends name' #시리즈 인덱스 네임
obj2

Friends name
John       NaN
Jin     1000.0
Daon     300.0
Ryan     500.0
Name: total_score, dtype: float64