In [2]:
import pandas as pd

## Series

In [3]:
import numpy as np

In [16]:
arr = np.arange(10)
print(arr)

[0 1 2 3 4 5 6 7 8 9]


In [17]:
s = pd.Series(arr)
print(s)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64


In [20]:
s = pd.Series(arr, dtype='int32')
print(s)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32


In [22]:
person = ['kim', 'lee', 'park', 'hong']
s = pd.Series(person)
print(s)

0     kim
1     lee
2    park
3    hong
dtype: object


In [24]:
s = pd.Series([1, 2, 3, 4, 5, '99'])   #섞여있는 경우 확장된 개념 object
print(s)

0     1
1     2
2     3
3     4
4     5
5    99
dtype: object


### indexing

In [25]:
person = ['kim', 'lee', 'park', 'hong']
s = pd.Series(person)

In [26]:
s.index

RangeIndex(start=0, stop=4, step=1)

In [27]:
s[1]

'lee'

In [29]:
s[-1] #-> 음수 인덱싱 불가능

KeyError: -1

In [31]:
s = pd.Series(person, index = ['a', 'b', 'c', 'd'])
print(s)

a     kim
b     lee
c    park
d    hong
dtype: object


In [33]:
s['a']  #> 인덱스 접근

'kim'

In [35]:
s.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [36]:
s.values

array(['kim', 'lee', 'park', 'hong'], dtype=object)

In [38]:
s.ndim  #1차원

1

In [39]:
s.shape

(4,)

### NaN(Not a number)

In [40]:
s = pd.Series(person + [np.nan])
print(s)

0     kim
1     lee
2    park
3    hong
4     NaN
dtype: object


In [43]:
arr = np.arange(50, 55)
s = pd.Series(arr, dtype='float32')
print(s)

0    50.0
1    51.0
2    52.0
3    53.0
4    54.0
dtype: float32


In [44]:
f = ['바나나', np.nan, '사과', '포도', '복숭아']
s = pd.Series(f, index=list('가나다라마'))
print(s)

가    바나나
나    NaN
다     사과
라     포도
마    복숭아
dtype: object


### fancy indexing

In [47]:
s[['다', '가', '마']]

다     사과
가    바나나
마    복숭아
dtype: object

In [53]:
s[[2, 3]]
#s.iloc[[2, 3]]

s[['다', '라']]

  s[[2, 3]]


다    사과
라    포도
dtype: object

### bool

In [56]:
s[[True, False, True, False, True]]  #-> true번째 데이터 출력

가    바나나
다     사과
마    복숭아
dtype: object

In [57]:
a = [True, False, True, False, True]
s[a]

가    바나나
다     사과
마    복숭아
dtype: object

In [58]:
arr = np.arange(5, 20)
s = pd.Series(arr)
print(s)

0      5
1      6
2      7
3      8
4      9
5     10
6     11
7     12
8     13
9     14
10    15
11    16
12    17
13    18
14    19
dtype: int64


In [59]:
s < 10

0      True
1      True
2      True
3      True
4      True
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
dtype: bool

In [61]:
s[s < 10] # -> fancy indexing s[[True, False 유형...]]

0    5
1    6
2    7
3    8
4    9
dtype: int64

In [62]:
s[s == 5]

0    5
dtype: int64

## 결측치(NaN) 처리

In [65]:
s = pd.Series([2, 4, 5, 2, 6, 1, np.nan, 3, 2, 7, np.nan, 2, 9])
print(s)

0     2.0
1     4.0
2     5.0
3     2.0
4     6.0
5     1.0
6     NaN
7     3.0
8     2.0
9     7.0
10    NaN
11    2.0
12    9.0
dtype: float64


In [66]:
s.isnull()

0     False
1     False
2     False
3     False
4     False
5     False
6      True
7     False
8     False
9     False
10     True
11    False
12    False
dtype: bool

In [69]:
s[s.isnull()]

6    NaN
10   NaN
dtype: float64

In [70]:
s.isna()

0     False
1     False
2     False
3     False
4     False
5     False
6      True
7     False
8     False
9     False
10     True
11    False
12    False
dtype: bool

In [71]:
s[s.isna()]

6    NaN
10   NaN
dtype: float64

In [73]:
s[s.notnull()] #->결측치 제외한 나머지

0     2.0
1     4.0
2     5.0
3     2.0
4     6.0
5     1.0
7     3.0
8     2.0
9     7.0
11    2.0
12    9.0
dtype: float64

In [74]:
s[1:3]

1    4.0
2    5.0
dtype: float64

## DataFrame

In [75]:
arr = np.arange(9).reshape(3, 3)
print(arr)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [78]:
df = pd.DataFrame(arr)
df

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8


In [81]:
df = pd.DataFrame(arr, 
                  columns=['가', '나', '다'], 
                  index=list('abc')) #-> index값 바꾸는 경우는 거의 없음 원래 숫자
df

Unnamed: 0,가,나,다
a,0,1,2
b,3,4,5
c,6,7,8


In [82]:
data = {
    'name' : ['kim', 'lee', 'park'],
    'age' : [10, 15, 20],
    'location' : ['seoul', 'LA', 'Tokyo']
}

df = pd.DataFrame(data)
df

Unnamed: 0,name,age,location
0,kim,10,seoul
1,lee,15,LA
2,park,20,Tokyo


In [83]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [85]:
df.columns

Index(['name', 'age', 'location'], dtype='object')

In [86]:
df.values

array([['kim', 10, 'seoul'],
       ['lee', 15, 'LA'],
       ['park', 20, 'Tokyo']], dtype=object)

In [89]:
df.dtypes  #->columns 기준

name        object
age          int64
location    object
dtype: object

In [91]:
df.T  #-> index위치와 columns 위치 변경

Unnamed: 0,0,1,2
name,kim,lee,park
age,10,15,20
location,seoul,LA,Tokyo


In [93]:
df.index = list('abc')
df

Unnamed: 0,name,age,location
a,kim,10,seoul
b,lee,15,LA
c,park,20,Tokyo


## column

In [94]:
df['name']

a     kim
b     lee
c    park
Name: name, dtype: object

In [95]:
type(df['name'])

pandas.core.series.Series

In [96]:
df[['name', 'location']]

Unnamed: 0,name,location
a,kim,seoul
b,lee,LA
c,park,Tokyo


In [98]:
type(df[['name', 'location']])

pandas.core.frame.DataFrame

In [101]:
df.rename(columns={'location': 'hometown'}, inplace=True)
df

Unnamed: 0,name,age,hometown
a,kim,10,seoul
b,lee,15,LA
c,park,20,Tokyo
