## 1) Index 객체
* 인덱스 객체 = 불변 배열(한 번 값이 설정되면 그 값을 변경할 수 없음)

In [2]:
import pandas as pd
import numpy as np

In [3]:
ind = pd.Index([2,3,5,7,11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [4]:
ind[1]

3

In [5]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [7]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)
# size 크기, shape = 모양, ndim = 차원, dtype = 타입

5 (5,) 1 int64


In [10]:
# 인덱스 객체 변경 x
ind[1] = 0

TypeError: Index does not support mutable operations

### 집합 연산

In [11]:
#교집합:공통의 요솟값만 추출하여 새로운 집합 생성
indA = pd.Index([1,3,5,7,9])
indB = pd.Index([2,3,5,7,11])
indA & indB 

Int64Index([3, 5, 7], dtype='int64')

In [12]:
#합집합 : 두 객체의 요솟값을 모두 포함하는 집합 생성
indA | indB

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [13]:
#대칭 차(두 집합의 상대 여집합의 합)
indA ^ indB

Int64Index([1, 2, 9, 11], dtype='int64')

### 인덱서

#### loc vs iloc
* loc : 인덱스 이름 : 범위 지정 가능(범위의 끝 포함)
* iloc : 정수형 위치 인덱스 : 범위 지정 가능(범위의 끝 포함x)

In [14]:
data = pd.Series([0.25,0.5,0.75,1.0],index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [15]:
data.loc['a']

0.25

In [16]:
data.loc['a':'c'] # 'c' 포함

a    0.25
b    0.50
c    0.75
dtype: float64

In [18]:
data.iloc[1]

0.5

In [19]:
data.iloc[1:3]

b    0.50
c    0.75
dtype: float64

In [20]:
area = pd.Series({'California': 38332521,'Texas':26448393,'New York':19651127,'Florida':19552860,'Illinois':12882135})
pop = pd.Series({'California': 38332521,'Texas':26448393,'New York':19651127,'Florida':19552860,'Illinois':12882135})
data = pd.DataFrame({'area':area,'pop':pop})
data

Unnamed: 0,area,pop
California,38332521,38332521
Texas,26448393,26448393
New York,19651127,19651127
Florida,19552860,19552860
Illinois,12882135,12882135


In [21]:
# 딕셔너리 스타일로
data['area']

California    38332521
Texas         26448393
New York      19651127
Florida       19552860
Illinois      12882135
Name: area, dtype: int64

In [22]:
# 문자열인 열 사용하여
data.area

California    38332521
Texas         26448393
New York      19651127
Florida       19552860
Illinois      12882135
Name: area, dtype: int64

In [24]:
area = pd.Series({'California': 38332521,'Texas':26448393,'New York':19651127,'Florida':19552860,'Illinois':12882135})
pop = pd.Series({'California': 38332521,'Texas':26448393,'New York':19651127,'Florida':19552860,'Illinois':12882135})
states = pd.DataFrame({'area':area,'pop':pop})
states

Unnamed: 0,area,pop
California,38332521,38332521
Texas,26448393,26448393
New York,19651127,19651127
Florida,19552860,19552860
Illinois,12882135,12882135


In [25]:
# 딕셔너리에서 사용하는 명령어 스타일 사용하여 데이터프레임 내용 변경
states['density'] = states['pop'] / states['area']
states

Unnamed: 0,area,pop,density
California,38332521,38332521,1.0
Texas,26448393,26448393,1.0
New York,19651127,19651127,1.0
Florida,19552860,19552860,1.0
Illinois,12882135,12882135,1.0


In [26]:
# values 속성을 통해 데이터 배열 확인
states.values

array([[3.8332521e+07, 3.8332521e+07, 1.0000000e+00],
       [2.6448393e+07, 2.6448393e+07, 1.0000000e+00],
       [1.9651127e+07, 1.9651127e+07, 1.0000000e+00],
       [1.9552860e+07, 1.9552860e+07, 1.0000000e+00],
       [1.2882135e+07, 1.2882135e+07, 1.0000000e+00]])

In [27]:
# T 속성을 활용하면 행과 열 바꾸기 가능
states.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,38332521.0,26448393.0,19651127.0,19552860.0,12882135.0
pop,38332521.0,26448393.0,19651127.0,19552860.0,12882135.0
density,1.0,1.0,1.0,1.0,1.0


In [28]:
# Value 속성에 단일 인덱스를 전달 -> 행에 접근
states.values[0]

array([3.8332521e+07, 3.8332521e+07, 1.0000000e+00])

In [29]:
# DataFrame에 열 이름을 전달-> 열에 접근
states['area']

California    38332521
Texas         26448393
New York      19651127
Florida       19552860
Illinois      12882135
Name: area, dtype: int64

In [30]:
states.iloc[:3, :2]

Unnamed: 0,area,pop
California,38332521,38332521
Texas,26448393,26448393
New York,19651127,19651127


In [31]:
states.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,38332521,38332521
Texas,26448393,26448393
New York,19651127,19651127
Florida,19552860,19552860
Illinois,12882135,12882135


### 산술 연산

In [32]:
student = pd.Series({'국어':96, '영어':90, '수학':80})
p_student = student / 100 
p_student

국어    0.96
영어    0.90
수학    0.80
dtype: float64

In [33]:
# 시리즈와 시리즈 사이에도 연산 가능
student1 = pd.Series({'국어':96, '영어':90, '수학':80})
student2 = pd.Series({'국어':56, '영어':70, '수학':95})
avg_student = (student1 + student2) / 2
avg_student

국어    76.0
영어    80.0
수학    87.5
dtype: float64

In [35]:
# 인덱스가 다른 경우에도 산술연산 적용 가능
student1 = pd.Series({'영어':90, '수학':80, '국어':96})
student2 = pd.Series({'수학':94,'국어':86, '영어':100})
sum_student = student1 + student2
sum_student
# 가나다 순으로 반환

국어    182
수학    174
영어    190
dtype: int64

##### 연산 메소드
*  '+' = add
*  '-' = sub
*  '*' = mul
*  '/' = div
*  NaN = fill_value = 0

In [36]:
student1 = pd.Series({'국어':96, '영어':np.nan, '수학':80})
student2 = pd.Series({'영어':70, '수학':95})
sum_student = student1.add(student2, fill_value=0)
sum_student

국어     96.0
수학    175.0
영어     70.0
dtype: float64

In [44]:
korean = pd.Series({'s1':96, 's2':80, 's3':96})
english= pd.Series({'s1':94, 's2':100, 's3':88})
math= pd.Series({'s1':930, 's2':83, 's3':92})
score = pd.DataFrame({'kor':korean, 'eng':english, 'mat':math})
score

Unnamed: 0,kor,eng,mat
s1,96,94,930
s2,80,100,83
s3,96,88,92


In [45]:
score3 = score /100
score

Unnamed: 0,kor,eng,mat
s1,96,94,930
s2,80,100,83
s3,96,88,92


In [46]:
score1 = score + np.random.randint(-10, 10)
score1

Unnamed: 0,kor,eng,mat
s1,100,98,934
s2,84,104,87
s3,100,92,96


In [47]:
score2 = score + np.random.randint(-10, 10)
score2

Unnamed: 0,kor,eng,mat
s1,89,87,923
s2,73,93,76
s3,89,81,85


In [48]:
sum_score = score1 + score2
sum_score

Unnamed: 0,kor,eng,mat
s1,189,185,1857
s2,157,197,163
s3,189,173,181


In [49]:
music = pd.Series({'s1':96, 's2':98, 's3':85})
score1['mus'] = music
score1

Unnamed: 0,kor,eng,mat,mus
s1,100,98,934,96
s2,84,104,87,98
s3,100,92,96,85


In [50]:
sum_score = score1 + score2
sum_score
# scroe2에는 mus 열 없기 때문에 NaN으로 표시

Unnamed: 0,eng,kor,mat,mus
s1,185,189,1857,
s2,197,157,163,
s3,173,189,181,
