# Pandas - Series

In [1]:
import numpy as np
import pandas as pd

### 1. 시리즈 생성

- Numpy 1차원 배열+인덱스

In [2]:
pop = [9904312, 344873, 2890451, 2466052] # 서울,부산,인천,대구
pop[0] , pop[2]

(9904312, 2890451)

In [4]:
metro = pd.Series(pop, index=['서울','부산','인천','대구'])

In [5]:
metro

서울    9904312
부산     344873
인천    2890451
대구    2466052
dtype: int64

In [6]:
# 값 하나를 인덱싱 할 경우
metro[0], metro['서울']

(9904312, 9904312)

In [8]:
# 여러 값을 가져올 경우
metro[[0,1]]

서울    9904312
부산     344873
dtype: int64

In [9]:
metro[['서울','부산']]

서울    9904312
부산     344873
dtype: int64

In [7]:
# metro 데이터 타입
metro.values, type(metro.values)

(array([9904312,  344873, 2890451, 2466052], dtype=int64), numpy.ndarray)

In [33]:
dice = pd.Series(np.random.randint(1,7,10))
dice

0    6
1    2
2    1
3    1
4    2
5    6
6    2
7    3
8    3
9    1
dtype: int32

In [12]:
# 시리즈 데이터는 넘파이 어레이 이므로 수식을 바로 적용할 수 있음
metro / 1000000

서울    9.904312
부산    0.344873
인천    2.890451
대구    2.466052
dtype: float64

In [13]:
dice * 10

0    40
1    40
2    60
3    60
4    60
5    60
6    50
7    20
8    50
9    60
dtype: int32

### 2. 시리즈와 딕셔너리

In [15]:
# 딕셔너리의 키가 시리즈의 인덱스가 됨
city = {'서울':9631482,'부산':3393191,'인천':2632035,'대전':1490158}
metro2 = pd.Series(city)
metro2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [18]:
for key,value in metro2.items():
    print(key,value)

서울 9631482
부산 3393191
인천 2632035
대전 1490158


In [19]:
metro - metro2

대구          NaN
대전          NaN
부산   -3048318.0
서울     272830.0
인천     258416.0
dtype: float64

In [21]:
# 무한대, 결측치
a = np.array([np.inf, np.nan,0,1,2])
a

array([inf, nan,  0.,  1.,  2.])

### 속성

In [22]:
metro.values

array([9904312,  344873, 2890451, 2466052], dtype=int64)

In [23]:
metro.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [24]:
metro

서울    9904312
부산     344873
인천    2890451
대구    2466052
dtype: int64

In [25]:
metro.name = '광역시'
metro

서울    9904312
부산     344873
인천    2890451
대구    2466052
Name: 광역시, dtype: int64

### 4. Method

- count,unique,nunique, value_counts

In [34]:
dice

0    6
1    2
2    1
3    1
4    2
5    6
6    2
7    3
8    3
9    1
dtype: int32

In [29]:
# element 의 갯수
dice.count()

10

In [35]:
# 고유한 값
dice.unique()

array([6, 2, 1, 3])

In [36]:
# 고유한 값의 갯수
dice.nunique()

4

In [37]:
# 고유한 값 별로 갯수
dice.value_counts()

2    3
1    3
6    2
3    2
dtype: int64

- sum, min,max, mean

In [38]:
dice.sum(), dice.min(), dice.max(), dice.mean()

(27, 1, 6, 2.7)

In [39]:
metro.mean()

3901422.0

In [40]:
#요약통계
metro.describe()

count    4.000000e+00
mean     3.901422e+06
std      4.153957e+06
min      3.448730e+05
25%      1.935757e+06
50%      2.678252e+06
75%      4.643916e+06
max      9.904312e+06
Name: 광역시, dtype: float64

- Sorting

In [41]:
# 데이터를 기준으로 오름차순
metro.sort_values()

부산     344873
대구    2466052
인천    2890451
서울    9904312
Name: 광역시, dtype: int64

In [42]:
# 내림차순
metro.sort_values(ascending=False)

서울    9904312
인천    2890451
대구    2466052
부산     344873
Name: 광역시, dtype: int64

In [43]:
metro.sort_values()[::-1]

서울    9904312
인천    2890451
대구    2466052
부산     344873
Name: 광역시, dtype: int64

In [44]:
metro.sort_index()

대구    2466052
부산     344873
서울    9904312
인천    2890451
Name: 광역시, dtype: int64

- 결측치 (Na,NaN, Null) 처리   - isna,fillna,dropna

In [45]:
dm = metro - metro2
dm

대구          NaN
대전          NaN
부산   -3048318.0
서울     272830.0
인천     258416.0
dtype: float64

In [46]:
dm.isna()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [47]:
dm.isnull()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [48]:
# 0이 아닌 값이 나오면 결측치가 있다는 의미
dm.isna().sum()

2

In [50]:
# metro 에는 결측치가 없음
metro.isnull().sum()

0

In [51]:
# 결측치를 평균으로 대체
dm.fillna(dm.mean())

대구    -839024.0
대전    -839024.0
부산   -3048318.0
서울     272830.0
인천     258416.0
dtype: float64

In [52]:
# 결측치를 중앙값으로 대체
dm.fillna(dm.median())

대구     258416.0
대전     258416.0
부산   -3048318.0
서울     272830.0
인천     258416.0
dtype: float64

In [54]:
# 결측치를 0으로 대체 하고 타입을 정수형으로 변경
dm.fillna(0).astype(int)

대구          0
대전          0
부산   -3048318
서울     272830
인천     258416
dtype: int32

In [55]:
# 결측치를 제거
dm.dropna()

부산   -3048318.0
서울     272830.0
인천     258416.0
dtype: float64

In [56]:
dm

대구          NaN
대전          NaN
부산   -3048318.0
서울     272830.0
인천     258416.0
dtype: float64

In [57]:
dm2 = dm.dropna()
dm2

부산   -3048318.0
서울     272830.0
인천     258416.0
dtype: float64

In [58]:
dm.dropna(inplace=True)
dm

부산   -3048318.0
서울     272830.0
인천     258416.0
dtype: float64

In [59]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [61]:
age = titanic['age']
age.isna().sum(), age.count()

(177, 714)

In [62]:
age.fillna(age.mean())

0      22.000000
1      38.000000
2      26.000000
3      35.000000
4      35.000000
         ...    
886    27.000000
887    19.000000
888    29.699118
889    26.000000
890    32.000000
Name: age, Length: 891, dtype: float64