### Pandas 란?
<pre>1. 데이터 분석에 가장 많이 사용되는 파이선 패키지
2. 열과 행으로 구성된 테이블 형태의 데이터를 다루는데 주로 사용
3. Series 클래스와 DataFrame 클래스로 구성
4. 사용하는 방법이 매우 다양하고 어려워 데이터 분석을 하는 동안 계속 배워나가는 패키지</pre>

#### Pandas - Series

In [1]:
import pandas as pd
import numpy as np

#### 1. Series 생성
- Numpy 1차원 배열 + 인덱스(0부터 시작하는 인덱스 말고 의미있는 인덱스)


In [2]:
po = [9904312, 3448737, 2890451, 2466052]#광역시의 인구(서울 부산 인천 대구)
po[0], po[2]#서울과 인천의 인구인지 확인하기 힘들다.

(9904312, 2890451)

In [3]:

metro = pd.Series(po, index=['서울', '부산', '인천', '대구'])
print(metro)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


In [4]:
#값 하나를 인덱싱 하는 경우
metro['서울'], metro[0]

(9904312, 9904312)

In [9]:
#여러 값을 가져올 경우 - 시리지 형식
metro[[0,1]], metro[['서울', '부산']]# 첫 []는 인덱스, 안의 []는 리스트

(서울    9904312
 부산    3448737
 dtype: int64,
 서울    9904312
 부산    3448737
 dtype: int64)

In [10]:
metro.values, type(metro.values)

(array([9904312, 3448737, 2890451, 2466052], dtype=int64), numpy.ndarray)

In [11]:
dice = pd.Series(np.random.randint(1,7,10))
dice


0    6
1    4
2    2
3    5
4    2
5    3
6    3
7    1
8    2
9    2
dtype: int32

In [12]:
# 시리즈 데이터는 넘파이 어레이이므로 수식을 바로 적용할 수 있음.
metro/1000000

서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
dtype: float64

In [13]:
dice*10

0    60
1    40
2    20
3    50
4    20
5    30
6    30
7    10
8    20
9    20
dtype: int32

#### 2.시리즈와 딕셔너리

In [14]:
ci={'서울':9904312,'부산' :3448737,'인천': 2890451,'대구': 2466052}
metro2 = pd.Series(ci)
metro2

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [17]:
for key, value in metro2.items() :
    print( key, value)

서울 9904312
부산 3448737
인천 2890451
대구 2466052


In [18]:
metro - metro2

서울    0
부산    0
인천    0
대구    0
dtype: int64

In [21]:
#무한대, 결측치(계산 X) -- type 실수
np.inf, np.nan

(inf, nan)

#### 3. 속성

In [22]:
metro.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [23]:
metro.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [24]:
metro.name='광역시'
metro

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 광역시, dtype: int64

#### 4. method
- count, unique, nunique, value_counts

In [26]:
dice.count()#element의 개수

10

In [28]:
dice.unique()#element의 값(중복 제외)

array([6, 4, 2, 5, 3, 1])

In [29]:
dice.nunique()#고유한 값의 개수

6

In [30]:
dice.value_counts()#각 원소의 개수를 알려준다.

2    4
3    2
6    1
4    1
5    1
1    1
dtype: int64

- sum, min, max, mean

In [32]:
metro.mean()

4677388.0

In [33]:
metro.describe()#요약 통계

count    4.000000e+00
mean     4.677388e+06
std      3.507776e+06
min      2.466052e+06
25%      2.784351e+06
50%      3.169594e+06
75%      5.062631e+06
max      9.904312e+06
Name: 광역시, dtype: float64

In [37]:
metro.max()

9904312

- sorting

In [43]:
metro.sort_values(), metro.sort_values(ascending=False)#오름차순, 내림차순

(대구    2466052
 인천    2890451
 부산    3448737
 서울    9904312
 Name: 광역시, dtype: int64,
 서울    9904312
 부산    3448737
 인천    2890451
 대구    2466052
 Name: 광역시, dtype: int64)

In [45]:
metro.sort_index(), metro.sort_index(ascending=False)

(대구    2466052
 부산    3448737
 서울    9904312
 인천    2890451
 Name: 광역시, dtype: int64,
 인천    2890451
 서울    9904312
 부산    3448737
 대구    2466052
 Name: 광역시, dtype: int64)

In [46]:
metro.sort_index()[::-1]

인천    2890451
서울    9904312
부산    3448737
대구    2466052
Name: 광역시, dtype: int64

-결측치(Na,NaN, Null)처리

In [49]:
metro2[[0,1]] = np.NaN
dm = metro - metro2
dm

서울           NaN
부산           NaN
인천   -26014059.0
대구   -22194468.0
dtype: float64

In [51]:
dm.isna(), dm.isnull()

(서울     True
 부산     True
 인천    False
 대구    False
 dtype: bool,
 서울     True
 부산     True
 인천    False
 대구    False
 dtype: bool)

In [53]:
dm.isna().sum()# 0보다 크면 결측치가 있다는 뜻

2

In [54]:
metro.isnull().sum()

0

In [56]:
#결측치를 평균으로 대체
dm.fillna(dm.mean())

서울   -24104263.5
부산   -24104263.5
인천   -26014059.0
대구   -22194468.0
dtype: float64

In [57]:
#결측치를 중앙값으로 대체
dm.fillna(dm.median())

서울   -24104263.5
부산   -24104263.5
인천   -26014059.0
대구   -22194468.0
dtype: float64

In [59]:
#결측치를 0으로 대체
dm.fillna(0).astype(int)

서울           0
부산           0
인천   -26014059
대구   -22194468
dtype: int32

In [63]:
#결측치 제거
dm.dropna()

인천   -26014059.0
대구   -22194468.0
dtype: float64

In [61]:
dm2 = dm.dropna()
dm2

인천   -26014059.0
대구   -22194468.0
dtype: float64

In [64]:
dm.dropna(inplace=True)#자기 자신의 값이 바뀜
dm

인천   -26014059.0
대구   -22194468.0
dtype: float64

In [65]:
import seaborn as sns
tit=sns.load_dataset('titanic')
tit.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [66]:
age = tit['age']
age.isna().sum(), age.count()

(177, 714)

In [67]:
age.fillna(age.mean())

0      22.000000
1      38.000000
2      26.000000
3      35.000000
4      35.000000
         ...    
886    27.000000
887    19.000000
888    29.699118
889    26.000000
890    32.000000
Name: age, Length: 891, dtype: float64