# 판다스
---

In [40]:
# !pip install pandas --upgrade

In [41]:
import pandas as pd
import numpy as np
pd.__version__

'1.4.4'

![](https://www.runoob.com/wp-content/uploads/2021/04/df-dp.png)

## Series

In [42]:
sr = pd.Series([1,2,3,4,5],name='Apple')
print(sr)

0    1
1    2
2    3
3    4
4    5
Name: Apple, dtype: int64


In [43]:
print(sr.index)
print(sr.shape)

RangeIndex(start=0, stop=5, step=1)
(5,)


In [44]:
sr[1:3]

1    2
2    3
Name: Apple, dtype: int64

In [45]:
sr = pd.Series([1,2,3,4,5],name='Apple',index=['a','b','c','d','e'])
sr

a    1
b    2
c    3
d    4
e    5
Name: Apple, dtype: int64

In [46]:
sr.index,sr.values,sr.to_numpy()

(Index(['a', 'b', 'c', 'd', 'e'], dtype='object'),
 array([1, 2, 3, 4, 5], dtype=int64),
 array([1, 2, 3, 4, 5], dtype=int64))

In [47]:
sr.reset_index()

Unnamed: 0,index,Apple
0,a,1
1,b,2
2,c,3
3,d,4
4,e,5


In [48]:
sr = pd.Series([1,np.nan,2,3,np.nan,4,5]) #np.nan 값이 없음을 뜻함
sr

0    1.0
1    NaN
2    2.0
3    3.0
4    NaN
5    4.0
6    5.0
dtype: float64

In [49]:
#fancy indexing
sr[[1,2,4]]

1    NaN
2    2.0
4    NaN
dtype: float64

In [50]:
# boolean indexing
idx = [False,True,True,False,True,False,False]
sr[idx]

1    NaN
2    2.0
4    NaN
dtype: float64

In [51]:
# 조건
sr[sr>3]

5    4.0
6    5.0
dtype: float64

In [55]:
# 결측치 (Missing Value)

print(sr.isna()) #결측치파트만 True로 반환
sr[sr.isna()] #isna() == isnull()
sr[sr.isnull()]

0    False
1     True
2    False
3    False
4     True
5    False
6    False
dtype: bool


1   NaN
4   NaN
dtype: float64

In [58]:
sr.isna().sum() #내가 가진 데이터에서 결측치가 몇개인지 알 수 있다

2

In [63]:
x = sr.copy()
x[x.isna()] = x.mean() #결측치에 x의 평균값을 넣는 문장
x

0    1.0
1    3.0
2    2.0
3    3.0
4    3.0
5    4.0
6    5.0
dtype: float64

In [69]:
y = sr.copy()
y = y.dropna()  #결측치를 날린 상태로 y에 복사하는 방법
y

0    1.0
2    2.0
3    3.0
5    4.0
6    5.0
dtype: float64

In [68]:
z = sr.copy()
z.dropna(inplace=True) #inplace 는 기본적으로 False로 돼 있다. True로 바꾸면 바로 바뀐다.
z

0    1.0
2    2.0
3    3.0
5    4.0
6    5.0
dtype: float64

In [73]:
# x = sr.copy()
# x[x.isna()] = x.mean()

w = sr.copy()
w.fillna(w.mean()) #fillna 역시 위 식과 같은 결과가 나온다. 내부를 뭘로 채울지 정할 수 있음

0    1.0
1    3.0
2    2.0
3    3.0
4    3.0
5    4.0
6    5.0
dtype: float64

## 슬라이싱

In [92]:
sr = pd.Series([10, 15, 12, 17, 13], index = ['john', 'eva','james','lian','zoe'])
sr

john     10
eva      15
james    12
lian     17
zoe      13
dtype: int64

In [93]:
sr['eva':'lian'] #index로 slicing할 경우 마지막 범위까지 포함된다

eva      15
james    12
lian     17
dtype: int64

In [94]:
sr[:-1]

john     10
eva      15
james    12
lian     17
dtype: int64

In [95]:
sr[:]

john     10
eva      15
james    12
lian     17
zoe      13
dtype: int64

In [96]:
# 값 기준 정렬 
sr.sort_values() #오름차순
sr.sort_values(ascending = False) #내림차순 (ascending은 기본적으로 True로 돼있다)

lian     17
eva      15
zoe      13
james    12
john     10
dtype: int64

In [97]:
## op3 멤버를 뽑는다면
sr.sort_values(ascending = False)[:3]

lian    17
eva     15
zoe     13
dtype: int64

In [98]:
# index 기준 정렬
sr.sort_index()

eva      15
james    12
john     10
lian     17
zoe      13
dtype: int64

## DataFrame

In [99]:
doc = [['Joe', 20, 85.10, 'A', 'Swimming'],
        ['Nat', 21, 77.80, 'B', 'Reading'],
        ['Harry', 19, 91.54, 'A', 'Music'],
        ['Sam', 20, 88.78, 'A', 'Painting'],
        ['Monica', 22, 60.55, 'B', 'Dancing']]

c_name = ['Name', 'Age', 'Marks', 'Grade', 'Hobby']
idx = ['s1', 's2', 's3', 's4', 's5']

In [109]:
df = pd.DataFrame(doc, columns = c_name, index = idx)
print(df)
df.shape

      Name  Age  Marks Grade     Hobby
s1     Joe   20  85.10     A  Swimming
s2     Nat   21  77.80     B   Reading
s3   Harry   19  91.54     A     Music
s4     Sam   20  88.78     A  Painting
s5  Monica   22  60.55     B   Dancing


(5, 5)

In [108]:
df.head() #데이터중에서 제일 위에 있는 5개의 데이터만 표시하는 함수

Unnamed: 0,Name,Age,Marks,Grade,Hobby
s1,Joe,20,85.1,A,Swimming
s2,Nat,21,77.8,B,Reading
s3,Harry,19,91.54,A,Music
s4,Sam,20,88.78,A,Painting
s5,Monica,22,60.55,B,Dancing


In [None]:
doc = {'Name' :['Joe','Nat','Harry','Sam','Monica',],
        'Age':[20, 21, 19, 20, 22],
        'Marks':[85.10, 77.80, 91.54, 88.78, 60.55],
        'Grade':['A', 'B', 'A', 'A', 'B',],
        'Hobby':['Swmming', 'Reading', 'Music', 'Painting', 'Dancing']}