# 1. Series 

- pandas에서 사용하는 1차원 배열
- index를 사용할 수 있음. (Series에서는 음수 인덱스는 적용되지 않음.)
- Series에서는 인덱스가 숫자뿐 아니라 추가로 지정한 인덱스에도 접근 가능함. 
```pandas 
names = pd.Series(['kim','lee','park'], index= ['a','b','c'])
```
    - .ndim : 차원 정보
    - .shape : (배열의 형태를 튜플로 반환)
- dataframe : Series들의 모음

In [1]:
import pandas as pd
import numpy as np

In [6]:
arr = np.arange(100,110)

In [7]:
# 1-1 Series : 위에서 부터 아래로 쌓임.

s = pd.Series(arr) #pandas 안에 있는 클래스
print(s)

0    100
1    101
2    102
3    103
4    104
5    105
6    106
7    107
8    108
9    109
dtype: int64


In [8]:
s = pd.Series(arr,dtype='float32')
print(s)

0    100.0
1    101.0
2    102.0
3    103.0
4    104.0
5    105.0
6    106.0
7    107.0
8    108.0
9    109.0
dtype: float32


In [10]:
#object : 여러가지 데이터가 섞일 경우 object로 나옴. (datatype : 포괄적인 전체의 타입이 나옴)

s = pd.Series(['kim','lee','park'])
print(s)

0     kim
1     lee
2    park
dtype: object


In [11]:
s = pd.Series([1,2,3,'1','2','hello'])
print(s)

0        1
1        2
2        3
3        1
4        2
5    hello
dtype: object


In [12]:
s[5]

'hello'

In [18]:
# Series에서는 음수 인덱스는 적용되지 않음.
# s[-1]

In [17]:
s.index

RangeIndex(start=0, stop=6, step=1)

In [20]:
# Series에서는 인덱스가 숫자뿐 아니라 추가로 지정한 인덱스에도 접근 가능함. 

names = pd.Series(['kim','lee','park'], index= ['a','b','c'])

In [24]:
# names['a']

# index 값을 따로 지정했을경우 iloc로 숫자 인덱스로 접근 가능
names.iloc[0]

'kim'

In [25]:
names.values

array(['kim', 'lee', 'park'], dtype=object)

In [26]:
names.ndim #차원

1

In [28]:
names.shape

(3,)

# 2. NaN (nat a number) 

In [29]:
s = pd.Series([1,2,3,np.nan])
print(s)

0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64


## 2-1 fancy indexing
- 특정 인덱스만 뽑고 싶을 때 사용

In [31]:
f = ['banana','apple','grape',np.nan]
s = pd.Series(f, index=list('abcd'))
print(s)

a    banana
b     apple
c     grape
d       NaN
dtype: object


In [32]:
s[['d','a']]

d       NaN
a    banana
dtype: object

In [35]:
#s.iloc[[3,1]]

s[[3,1]]

  s[[3,1]]


d      NaN
b    apple
dtype: object

In [36]:
s

a    banana
b     apple
c     grape
d       NaN
dtype: object

In [37]:
s[[True, False, True, False]]

a    banana
c     grape
dtype: object

In [38]:
s == 'banana'

a     True
b    False
c    False
d    False
dtype: bool

In [39]:
s[s == 'banana']

a    banana
dtype: object

In [43]:
s = pd.Series([1,2,3,4,5,6])
s[s > 3]

3    4
4    5
5    6
dtype: int64

## 2-2 결측치(NaN) 처리

In [44]:
s = pd.Series([1,3, np.nan, 10,11, np.nan])
print(s)

0     1.0
1     3.0
2     NaN
3    10.0
4    11.0
5     NaN
dtype: float64


In [45]:
# isnull() : nan인 값만 True로 나옴.
s.isnull()

0    False
1    False
2     True
3    False
4    False
5     True
dtype: bool

In [47]:
s[s.isnull()]

# s[s.isna()] 

2   NaN
5   NaN
dtype: float64

In [49]:
s[s.notnull()]

# s[s.notna()]

0     1.0
1     3.0
3    10.0
4    11.0
dtype: float64

## 2-3 slicing

In [50]:
s[1:3]

1    3.0
2    NaN
dtype: float64

In [52]:
s = pd.Series([1,2,3], index = list('abc'))
s[1:2]
s['a':'b']

a    1
b    2
dtype: int64

# 3. DataFrame
- 2차원 데이터 구조 (exel, sheet와 유사)
- 행(row), 열(column) 구조
- 데이터프레임은 원본은 바꾸지 않음.
      - 원본을 바꾸기 위해서는 변수에 저장해야함.

In [55]:
d = pd.DataFrame([
    [1,2,3],
    [4,5,6],
    [7,8,9]
])

d #DataFrame에서는 그냥 출력이 더 좋음.

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [57]:
d = pd.DataFrame([
    [1,2,3],
    [4,5,6],
    [7,8,9]
], columns= ['가','나','다']) #세로줄에 대한 인덱싱

d

Unnamed: 0,가,나,다
0,1,2,3
1,4,5,6
2,7,8,9


In [58]:
# 3-3 딕셔너리 활용 데이터프레임

info = {
    'name' : ['kim','lee','park'], #길이가 맞아야 함. (3,3)
    'age' : [10,20,30]
}

In [59]:
pd.DataFrame(info)

Unnamed: 0,name,age
0,kim,10
1,lee,20
2,park,30


In [60]:
info_df = pd.DataFrame(info)

In [62]:
info_df.index #0부터 3까지의 인덱스 (가로)

RangeIndex(start=0, stop=3, step=1)

In [64]:
info_df.columns #세로에 대한 정보

Index(['name', 'age'], dtype='object')

In [65]:
info_df.values

array([['kim', 10],
       ['lee', 20],
       ['park', 30]], dtype=object)

In [66]:
info_df.dtypes

name    object
age      int64
dtype: object

In [68]:
info_df.T #전치

Unnamed: 0,0,1,2
name,kim,lee,park
age,10,20,30


## index 지정

In [69]:
info_df.index = list('abc')

In [70]:
info_df

Unnamed: 0,name,age
a,kim,10
b,lee,20
c,park,30


# column 다루기

In [71]:
info_df.columns

Index(['name', 'age'], dtype='object')

In [74]:
# 데이터프레임의 한 컬럼을 가져올 경우 데이터 타입은 series로 인식 (1차원만 가져오므로)

print(info_df['name'])
print(type(info_df['name']))

a     kim
b     lee
c    park
Name: name, dtype: object
<class 'pandas.core.series.Series'>


In [75]:
# 2개 이상의 컬럼을 가져올 경우 : fancy indexing 사용 (순서 바꿀 수 있고, 필요한 컬럼만 가져올 수 있음.)
# 선언 : [[]]

info_df[['age','name']]

Unnamed: 0,age,name
a,10,kim
b,20,lee
c,30,park


In [80]:
# 컬럼 수정하기 var_name.rername(columns = {})

# 1) 
a = info_df.rename(columns={'name':'이름'})
b = info_df.rename(columns = {'age': '나이'})

a
b

Unnamed: 0,이름,나이
a,kim,10
b,lee,20
c,park,30


In [79]:
# 2) inplace로 수정하는 경우
info_df.rename(columns={'name':'이름'}, inplace = True)
info_df

Unnamed: 0,이름,age
a,kim,10
b,lee,20
c,park,30
