# pandas structure
- data frame : 2차원 배열
- ![데이터프레임의 그림]()

## Series

- pandas에서 사용하는 1차원의 ndarray
- index 사용 가능

성명

---
홍길동
김윤식
아무개
문동주

이런 형식이 하나의 시리즈

In [1]:
import pandas as pd
import numpy as np

In [4]:
arr = np.arange(100, 110)
print(arr)

[100 101 102 103 104 105 106 107 108 109]


In [6]:
s = pd.Series(arr, dtype='float32') # S가 대문자인것은 클래스이기 때문이다
print(s)

0    100.0
1    101.0
2    102.0
3    103.0
4    104.0
5    105.0
6    106.0
7    107.0
8    108.0
9    109.0
dtype: float32


In [18]:
s = pd.Series(['kim', 'lee', 'park'])
print(s) # str이 아닌 object라고 표현한다

0     kim
1     lee
2    park
dtype: object


In [12]:
s1 = pd.Series([1, 2, 3, '1', '2', 'hello'])
print(s1)
print(type(s1[0]))
print(type(s1[3]))

0        1
1        2
2        3
3        1
4        2
5    hello
dtype: object
<class 'int'>
<class 'str'>


In [13]:
s1[5]

'hello'

In [16]:
# Series에서 음수인덱싱은 적용되지 않는다. 실행하면 에러 길게 남
# s[-1]

In [17]:
s1.index

RangeIndex(start=0, stop=6, step=1)

In [22]:
names = pd.Series(['kim', 'lee', 'park'], index=['a', 'b', 'c'])
# 왼쪽에 보이는 인덱스가 숫자가 아니어도 된다

In [25]:
names[0] # 인덱스를 a,b,c로 만들엇는데 숫자로 접근하는경우에 뜨는 에러
# names.iloc[0] 이렇게 입력하라는 얘기다. index location

  names[0] # 인덱스를 a,b,c로 만들엇는데 숫자로 접근하는경우에 뜨는 에러


'kim'

In [26]:
names['a']

'kim'

In [27]:
names.index

Index(['a', 'b', 'c'], dtype='object')

In [28]:
names.values

array(['kim', 'lee', 'park'], dtype=object)

In [29]:
names.ndim

1

In [30]:
names.shape

(3,)

## NaN(Not a Number)

In [32]:
s = pd.Series([1, 2, 3, np.nan])
print(s) # 배열에 naa을 직접 넣을 수도 있다

0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64


## fancy indexing

In [35]:
f = ['banana', 'apple', 'grape', np.nan]
s = pd.Series(f, index=list('abcd'))
print(s)

a    banana
b     apple
c     grape
d       NaN
dtype: object


In [37]:
s[['d', 'a']] # 팬시인덱싱은 대괄호를 하나 더 만들고 인덱싱접근을 하면 된다

d       NaN
a    banana
dtype: object

In [39]:
s.iloc[[3, 1]]

d      NaN
b    apple
dtype: object

## bool indexing

In [40]:
s

a    banana
b     apple
c     grape
d       NaN
dtype: object

In [41]:
s[[True, False, True, False]]

a    banana
c     grape
dtype: object

In [42]:
s == 'banana'

a     True
b    False
c    False
d    False
dtype: bool

In [46]:
s[s == 'banana'] # 필터링 할때

a    banana
dtype: object

In [49]:
s = pd.Series(range(7))
s[s > 3]

4    4
5    5
6    6
dtype: int64

## 결측치(NaN)처리
- 값이 빠져잇는 부분을 찾을 때

In [51]:
s = pd.Series([1, 3, np.nan, 10, 11, np.nan])
print(s)

0     1.0
1     3.0
2     NaN
3    10.0
4    11.0
5     NaN
dtype: float64


In [56]:
s.isnull() # == s.isna() 처럼 아래의 null은 na로도 쓸 수 있다

0    False
1    False
2     True
3    False
4    False
5     True
dtype: bool

In [53]:
s[s.isnull()]

2   NaN
5   NaN
dtype: float64

In [54]:
s[s.notnull()]

0     1.0
1     3.0
3    10.0
4    11.0
dtype: float64

## slicing

In [59]:
s

0     1.0
1     3.0
2     NaN
3    10.0
4    11.0
5     NaN
dtype: float64

In [61]:
s[1:3] # 1이상 3 미만

1    3.0
2    NaN
dtype: float64

- 인덱싱을 문자로 할때는 조금 다르다
- a:b로 하면 a부터 b까지임

# Dataframe
- 2차원 데이터 구조 (엑셀, 스프레드시트와 유사)
- 행(row), 열(column) 구조

In [63]:
d = pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9],
])
d

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [74]:
d = pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9],
], columns=list('가나다'))
d

Unnamed: 0,가,나,다
0,1,2,3
1,4,5,6
2,7,8,9


In [72]:
info = {
    'name': ['kim', 'lee', 'park'],
    'age': [10, 20, 30], 
}

pd.DataFrame(info)

Unnamed: 0,name,age
0,kim,10
1,lee,20
2,park,30


In [75]:
info_df = pd.DataFrame(info)

In [76]:
info_df.index

RangeIndex(start=0, stop=3, step=1)

In [77]:
info_df.columns

Index(['name', 'age'], dtype='object')

In [78]:
info_df.values

array([['kim', 10],
       ['lee', 20],
       ['park', 30]], dtype=object)

In [80]:
info_df.dtypes

name    object
age      int64
dtype: object

In [83]:
info_df.T

Unnamed: 0,0,1,2
name,kim,lee,park
age,10,20,30


# index 지정

In [84]:
info_df.index = list('abc')

In [86]:
info_df # 근데 보통 숫자로 하는게 일반적이다

Unnamed: 0,name,age
a,kim,10
b,lee,20
c,park,30


## columns 다루기

In [87]:
info_df.columns

Index(['name', 'age'], dtype='object')

In [88]:
info_df['name']

a     kim
b     lee
c    park
Name: name, dtype: object

In [90]:
print(type(info_df['name'])) # 하나의 시리즈를 가지고 오는 작업을 보통 하게 될것

<class 'pandas.core.series.Series'>


In [94]:
info_df[['age', 'name']] # column의 팬시인덱싱은 [[]]임에 주의하자

Unnamed: 0,age,name
a,10,kim
b,20,lee
c,30,park


#### rename

In [93]:
info_df.rename(columns={'name': '이름'})

Unnamed: 0,이름,age
a,kim,10
b,lee,20
c,park,30


In [95]:
info_df # rename하고나서도 원본은 바뀌지 않기때문에 바꾸려면 재할당까지 해야 한다

Unnamed: 0,name,age
a,kim,10
b,lee,20
c,park,30


In [97]:
info_df = info_df.rename(columns={'name': '이름'})
info_df

Unnamed: 0,이름,age
a,kim,10
b,lee,20
c,park,30


In [98]:
# 바로 바꾸려면
info_df.rename(columns={'이름': 'last_name'}, inplace=True)
info_df

Unnamed: 0,last_name,age
a,kim,10
b,lee,20
c,park,30
