# Pandas - Series

In [1]:
import numpy as np
import pandas as pd

### 1. 시리즈 구성
- Nunpy 1차원 배열 + 인덱스

In [2]:
pop = [9904312, 3448737, 2890451, 2466052]      # '서울','부산','인천','대구'


In [3]:
metro = pd.Series(pop, index=['서울','부산','인천','대구'])
metro

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [4]:
#인덱싱 : 값이 1개
metro[0],metro['서울']

(9904312, 9904312)

In [46]:
#Series 인덱싱 : 값이 여러개
metro[[1,3]]

부산    3448737
대구    2466052
Name: 광역시, dtype: int64

In [6]:
metro[['서울','부산']]      #리스트 두개 씌워 줘야한다


서울    9904312
부산    3448737
dtype: int64

In [7]:
#metro 데이터 타입
metro.values, type(metro.values)

(array([9904312, 3448737, 2890451, 2466052], dtype=int64), numpy.ndarray)

In [56]:
dice = pd.Series(np.random.randint(1,7,10))
dice

0    6
1    5
2    4
3    6
4    5
5    4
6    2
7    6
8    4
9    6
dtype: int32

In [9]:
#Series data는 넘파이 어레이 이므로 수식을 바로 적용할수 있다.
metro /1000000

서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
dtype: float64

In [10]:
dice*10

0    30
1    30
2    20
3    30
4    60
5    50
6    30
7    50
8    40
9    50
dtype: int32

### 2. 시리즈와 딕셔너리

In [11]:
# 딕셔너리의 키가 시리즈의 인덱스가 됨
city = {'서울' : 9631482, '부산':3448737, '인천':2890451, '대전':2466052}
metro2 = pd.Series(city)
metro2

서울    9631482
부산    3448737
인천    2890451
대전    2466052
dtype: int64

In [12]:
for key,value in metro2.items():
    print(key,value)

서울 9631482
부산 3448737
인천 2890451
대전 2466052


In [13]:
metro - metro2

대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천         0.0
dtype: float64

In [14]:
## np에서 빠진 내용
 
np.inf  ##무한대
np.nan  ##결측치(값이 없다) --> 타입이 실수

a = np.array([np.inf,np.nan,0, 1, 2])  # 이 값들은 모두 실수
a

array([inf, nan,  0.,  1.,  2.])

### 3. 속성

In [15]:
metro.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [16]:
metro.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [17]:
metro.name = '광역시'
metro

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 광역시, dtype: int64

### 4. Method

- count, unique, nunique, value_counts

In [18]:
#element의 갯수
dice.count()

10

In [19]:
#고유한 값
dice.unique()

array([3, 2, 6, 5, 4])

In [20]:
#고유값의 갯수
dice.nunique()

5

In [21]:
#고유한 값별로 갯수
dice.value_counts()
#1은 4개 있고, 2는 2개있고 ..이런 의미!

3    4
5    3
2    1
6    1
4    1
dtype: int64

- sum, min, max, mean

In [22]:
dice.sum(), dice.min(), dice.max(), dice.mean()

(39, 2, 6, 3.9)

In [23]:
metro.sum(), metro.mean()

(18709552, 4677388.0)

In [24]:
metro.describe()
#요약통계를 보여준다. 

count    4.000000e+00
mean     4.677388e+06
std      3.507776e+06
min      2.466052e+06
25%      2.784351e+06
50%      3.169594e+06
75%      5.062631e+06
max      9.904312e+06
Name: 광역시, dtype: float64

- sorting = .sort_values(), .sort_index()

In [25]:
metro.sort_values()
# 데이터 기준으로 작은것 부터 오름차순

대구    2466052
인천    2890451
부산    3448737
서울    9904312
Name: 광역시, dtype: int64

In [26]:
metro.sort_values(ascending=False)
#데이터기준 내림차순

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 광역시, dtype: int64

In [27]:
metro.sort_values()[::-1]

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 광역시, dtype: int64

In [28]:
metro.sort_index()
#가나다 순으로 오름차순

대구    2466052
부산    3448737
서울    9904312
인천    2890451
Name: 광역시, dtype: int64

- 결측치(Nam NaN, Null) 처리

In [29]:
dm = metro - metro2
dm

대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천         0.0
dtype: float64

In [30]:
#결측치의 여부를 물어보는 함수
dm.isna()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [31]:
dm.isnull()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [32]:
#결측치의 갯수를 구하려면
dm.isna().sum()
# 0 이 아닌 값이 나오면 결측치가 있다는 의미, sum으로 더해준다

2

In [33]:
metro.isnull().sum()

0

In [34]:
#결측치 존재시 전처리
# 1. 결측치를 제거하는 방법
# 2. 결측치를 대체하는 방법 : 
#       1) 평균, 중앙값 =수치형 데이터  
#       2) 최빈값  = 카테고리형 데이터

In [35]:
#결측치를 평균으로 대체
dm.fillna(dm.mean())

#결측치였던 대구와 대전이 평균값으로 채워진다.

대구     90943.333333
대전     90943.333333
부산         0.000000
서울    272830.000000
인천         0.000000
dtype: float64

In [36]:
#결측치를 중앙값으로 대체
dm.fillna(dm.median())

대구         0.0
대전         0.0
부산         0.0
서울    272830.0
인천         0.0
dtype: float64

In [60]:
#결측치를 0으로 대체하고 정수형으로 변경
dm.fillna(0).astype(int)

부산         0
서울    272830
인천         0
dtype: int32

In [38]:
#결측치를 제거하는 방법
dm.dropna()

부산         0.0
서울    272830.0
인천         0.0
dtype: float64

In [39]:
dm
#dm값은 바뀌지 않았다!

대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천         0.0
dtype: float64

In [61]:
dm2 = dm.dropna()
dm2

부산         0.0
서울    272830.0
인천         0.0
dtype: float64

In [41]:
dm.dropna(inplace=True)
#(inplace=True)를 써줘야 dm 자체 값이 바뀐다.어디든지 값을 아예 바꾸려면 써줘야한다.

In [42]:
dm

부산         0.0
서울    272830.0
인천         0.0
dtype: float64

In [43]:
###논외###
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [44]:
age = titanic['age']
age.isna().sum(), age.count()

(177, 714)