In [1]:
import pandas as pd

# Series

In [7]:
import numpy as np
arr = np.arange(100, 110)
print(arr)

[100 101 102 103 104 105 106 107 108 109]


In [8]:
s = pd.Series(arr, dtype='int32')
print(s)

0    100
1    101
2    102
3    103
4    104
5    105
6    106
7    107
8    108
9    109
dtype: int32


In [10]:
person = ['kim', 'lee', 'park', 'hong']
s = pd.Series(person)
print(s)

0     kim
1     lee
2    park
3    hong
dtype: object


In [12]:
s = pd.Series([1, 2, 3, 4, 5, '99'])
print(s)

0     1
1     2
2     3
3     4
4     5
5    99
dtype: object


### indexing

In [13]:
person = ['kim', 'lee', 'park', 'hong']
s = pd.Series(person)

In [14]:
s.index

RangeIndex(start=0, stop=4, step=1)

In [16]:
s[2]

'park'

In [19]:
s[-1]

In [23]:
s = pd.Series(person, index=['a', 'b', 'c', 'd'])
s = pd.Series(person, index=list('abcd'))
print(s)

a     kim
b     lee
c    park
d    hong
dtype: object


In [24]:
s['a']

'kim'

In [25]:
s.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [26]:
s.values

array(['kim', 'lee', 'park', 'hong'], dtype=object)

In [27]:
s.ndim

1

In [28]:
s.shape

(4,)

## NaN(Not A Number)

In [31]:
s = pd.Series(person + [np.nan])
print(s)

0     kim
1     lee
2    park
3    hong
4     NaN
dtype: object


In [34]:
arr = np.arange(50, 55)
s = pd.Series(arr, dtype='float32')
print(s)

0    50.0
1    51.0
2    52.0
3    53.0
4    54.0
dtype: float32


In [42]:
f = ['바나나', np.nan, '사과', '포도', '복숭아']
s = pd.Series(f, index=list('가나다라마'))
print(s)

가    바나나
나    NaN
다     사과
라     포도
마    복숭아
dtype: object


### fancy indexing

In [43]:
s[['다', '나']]

다     사과
나    NaN
dtype: object

In [46]:
#s.iloc[[2,3]]
s[['다', '라']]

다    사과
라    포도
dtype: object

### bool

In [47]:
s[[True, False, True, False, True]]

가    바나나
다     사과
마    복숭아
dtype: object

In [48]:
a = [True, False, False, True, True]
s[a]

가    바나나
라     포도
마    복숭아
dtype: object

In [51]:
s = pd.Series(np.arange(16))
s < 10

0      True
1      True
2      True
3      True
4      True
5      True
6      True
7      True
8      True
9      True
10    False
11    False
12    False
13    False
14    False
15    False
dtype: bool

In [53]:
s[s < 10]

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [54]:
s[s == 5]

5    5
dtype: int64

## 결측치(NaN) 처리

In [55]:
s = pd.Series([2, 5, 2, 1, np.nan, 2, 4, 9, np.nan])
print(s)

0    2.0
1    5.0
2    2.0
3    1.0
4    NaN
5    2.0
6    4.0
7    9.0
8    NaN
dtype: float64


In [56]:
s.isnull()

0    False
1    False
2    False
3    False
4     True
5    False
6    False
7    False
8     True
dtype: bool

In [57]:
s[s.isnull()]

4   NaN
8   NaN
dtype: float64

In [61]:
s[s.isna()]

4   NaN
8   NaN
dtype: float64

In [59]:
s[s.notnull()]

0    2.0
1    5.0
2    2.0
3    1.0
5    2.0
6    4.0
7    9.0
dtype: float64

In [63]:
s[1:3]

1    5.0
2    2.0
dtype: float64

In [66]:
f = ['바나나', np.nan, '사과', '포도', '복숭아']
s = pd.Series(f, index=list('가나다라마'))
print(s['가':'라']) #숫자랑 글자랑 다름 ! '라'까지

가    바나나
나    NaN
다     사과
라     포도
dtype: object


# DataFrame

In [67]:
arr = np.arange(9).reshape(3,3)
print(arr)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [68]:
df = pd.DataFrame(arr)
df

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8


In [71]:
df = pd.DataFrame(
    arr,
    columns=['가', '나', '다'],
    index=['a', 'b', 'c'] #인덱스는 잘 안바꿈 !
)
df

Unnamed: 0,가,나,다
a,0,1,2
b,3,4,5
c,6,7,8


In [72]:
data = {
    'name' : ['kim', 'lee', 'park'],
    'age' : [10, 15, 20],
    'location' : ['seoul', 'LA', 'tokyo']
}
df = pd.DataFrame(data)
df

Unnamed: 0,name,age,location
0,kim,10,seoul
1,lee,15,LA
2,park,20,tokyo


In [73]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [74]:
df.columns

Index(['name', 'age', 'location'], dtype='object')

In [75]:
df.values

array([['kim', 10, 'seoul'],
       ['lee', 15, 'LA'],
       ['park', 20, 'tokyo']], dtype=object)

In [76]:
df.dtypes

name        object
age          int64
location    object
dtype: object

In [79]:
df.index = list('abc')
df

Unnamed: 0,name,age,location
a,kim,10,seoul
b,lee,15,LA
c,park,20,tokyo


## column

In [80]:
df ['name']

a     kim
b     lee
c    park
Name: name, dtype: object

In [81]:
type(df['name'])

pandas.core.series.Series

In [83]:
df[['name', 'location']] #age 빠지고 두개만 뽑혀나옴 필요한 것만 !

Unnamed: 0,name,location
a,kim,seoul
b,lee,LA
c,park,tokyo


In [87]:
type(df[['name', 'location']]) #데이터프레임 형태 ! - 2개 이상

pandas.core.frame.DataFrame

In [93]:
df.rename(columns={'location': 'hometown'}) #rename 결과만 출력 -> 다시 저장 필요 !
df #location 원본

Unnamed: 0,name,age,location
a,kim,10,seoul
b,lee,15,LA
c,park,20,tokyo


In [95]:
df.rename(columns={'location': 'hometown'}, inplace=True) # -> 원본 변화
df

Unnamed: 0,name,age,hometown
a,kim,10,seoul
b,lee,15,LA
c,park,20,tokyo
