### 1. Series

In [6]:
import numpy as np
import pandas as pd

- Series 생성
    - numpy 1차원 어레이 + index

In [7]:
s =pd.Series([9904312,3448737,2890451,2466052],
             index=["서울","부산","인천","대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [8]:
type(s)

pandas.core.series.Series

In [10]:
#index를 별도로 설정하지 않으면,인덱스는 0,1,2,3.....이된다.
pd.Series(np.arange(10,15))    #index 을 지정안해서 

0    10
1    11
2    12
3    13
4    14
dtype: int32

In [13]:
s.index,type(s.index)

(Index(['서울', '부산', '인천', '대구'], dtype='object'),
 pandas.core.indexes.base.Index)

In [14]:
s.values, type(s.values)

(array([9904312, 3448737, 2890451, 2466052], dtype=int64), numpy.ndarray)

In [16]:
s.name = '인구'
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

- 연산(Operation)

In [18]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

- 인덱싱

In [34]:
s['부산'],s[1]  ,s.부산  # 결과는 scalar

(3448737, 3448737, 3448737)

In [36]:
s['대구'], s[3],s[-1],s.대구

(2466052, 2466052, 2466052, 2466052)

In [23]:
s  [[0, 1]]             ## ✔ [ [ ] ] 

도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64

In [24]:
s[['서울','부산']]

도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64

In [27]:
s[(s > 2500000)&(s < 5000000)]      # 250만 초과 500만 미만

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [29]:
s[ s>5000000]

도시
서울    9904312
Name: 인구, dtype: int64

- 슬라이싱

In [31]:
# 숫자 인덱스로 하는 슬라이싱은 넘파이와 동일
s[:2]

도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64

In [33]:
# 인덱스 문자열로 하는 경우에는  : 뒤 인덱스를 포함
s['서울':'인천']

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

- 시리즈와 딕셔너리

In [37]:
'서울' in s

True

In [38]:
for k,v in s.items():
    print(f'{k}:{v}')

서울:9904312
부산:3448737
인천:2890451
대구:2466052


In [41]:
d ={"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158}
s2 = pd.Series(d)
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [42]:
# 순서를 정하고 싶으면,인덱스를 별도로 설정해야 함
s2 = pd.Series(d,index=['서울','부산','인천','대전'])
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

- 인덱스 기반 연산

In [43]:
ds = s -s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [44]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [45]:
ds[ds.notnull()]         #트루만 가져옴

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [49]:
rs =(s - s2) / s2 *100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

- 데이터의 갱신,삭제,추가

In [54]:
rs['부산'] = 1.64
rs[1] = 2.83
rs.인천 = 9.85
rs

부산    1.64
서울    2.83
인천    9.85
dtype: float64

In [56]:
del rs['인천']            # rs.인천, rs[2]는 사용할 수 없음
rs

부산    1.64
서울    2.83
dtype: float64

In [58]:
rs['광주'] = 1.51            # rs.인천, rs[2]는 사용할 수 없음
rs

부산    1.64
서울    2.83
광주    1.51
dtype: float64

In [65]:
A =pd.Series(np.arange(11,15),index='a b c d '.split())
B =pd.Series(np.arange(21,25),index='a b c d '.split())
print(A,B)

a    11
b    12
c    13
d    14
dtype: int32 a    21
b    22
c    23
d    24
dtype: int32


- 중요한 method

In [67]:
dice = pd.Series(np.random.randint(1,7,10))
dice

0    4
1    3
2    5
3    3
4    1
5    4
6    5
7    5
8    3
9    1
dtype: int32

In [68]:
# element 갯수
dice.count()

10

In [69]:
# 고유한 값
dice.unique()

array([4, 3, 5, 1])

In [70]:
#고유한 값의 갯수
dice.nunique()

4

In [71]:
# 고유한 값 별로 갯수
dice.value_counts()

3    3
5    3
4    2
1    2
Name: count, dtype: int64

In [72]:
np.unique(dice.values,return_counts=True)

(array([1, 3, 4, 5]), array([2, 3, 2, 3], dtype=int64))

In [74]:
dice.min(),dice.max(),dice.sum(),dice.mean()

(1, 5, 34, 3.4)

In [75]:
#요약 기술통계
dice.describe()

count    10.000000
mean      3.400000
std       1.505545
min       1.000000
25%       3.000000
50%       3.500000
75%       4.750000
max       5.000000
dtype: float64

In [76]:
# sort
dice.sort_values()

4    1
9    1
1    3
3    3
8    3
0    4
5    4
2    5
6    5
7    5
dtype: int32

In [77]:
s.sort_values()           # 밸류값들만 내림차순

도시
대구    2466052
인천    2890451
부산    3448737
서울    9904312
Name: 인구, dtype: int64

In [78]:
# 데이터 기준 내림차순
s.sort_values(ascending=False)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [79]:
# 인덱스 기준 오름차순
s.sort_index()

도시
대구    2466052
부산    3448737
서울    9904312
인천    2890451
Name: 인구, dtype: int64

In [80]:
# 인덱스 기준 내림 차순
s.sort_index(ascending=False)

도시
인천    2890451
서울    9904312
부산    3448737
대구    2466052
Name: 인구, dtype: int64

In [81]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [82]:
# inplace 옵션을 True로 하면 자기파괴적 메소드가 됨
s.sort_index(inplace=True)
s

도시
대구    2466052
부산    3448737
서울    9904312
인천    2890451
Name: 인구, dtype: int64

- 걸측치(Na,NaN,Null)처리

In [83]:
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [84]:
ds.isna()            # 값이 있는 테이터를 F,T로 변경해줌

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [85]:
ds.isnull()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [87]:
# 0이 아닌 값이 나오면 데이터 안에 결측치가 있음
ds.isna().sum()

2

In [89]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [91]:
survived = titanic['survived']
age = titanic['age']

In [93]:
survived.isna().sum()   #결측치가 없음

0

In [92]:
age.isna().sum()             # 결측치가 177개 있음

177

In [94]:
age.count()

714

In [95]:
survived.count()            # 결측치를 제외한 데이터 갯수

891

In [101]:
# 결측치를 제거
#결측치란 말 그대로 데이터에 값이 없는 것을 뜻한다. 줄여서 NA
ds.dropna(inplace=True)
ds

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [102]:
ds = s -s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [103]:
# 결측치를 중앙값으로 대체
ds.fillna(ds.median())

대구    258416.0
대전    258416.0
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [105]:
# 결측치를 평균값으로 대체하고 ds를 변경
ds.fillna(ds.mean(),inplace=True)
ds

대구    195597.333333
대전    195597.333333
부산     55546.000000
서울    272830.000000
인천    258416.000000
dtype: float64

In [108]:
#결측치를 0으로 설정하고,데이터 타입을 정수형으로 변경
ds = s -s2
ds=ds.fillna(0).astype(int)
ds

대구         0
대전         0
부산     55546
서울    272830
인천    258416
dtype: int32