In [84]:
import numpy as np 
import pandas as pd 

## Pandas

Pandas는 크게 2개로 나뉜다  
1. Series
- 1차원 데이터
- indexing 요소가 추가된 list 혹은 dict와 유사
- DataFrame 내에서 하나의 column이 됨

2. DataFrame
- 2차원 표의 형태

# Series

- 첫 번째 열: index(0부터 정수형으로 자동 설정)
- 두 번째 열: 실제 데이터를 저장 

In [85]:
S = pd.Series([11, 28, 82, 3, 6, 8]) #list 형태로 전달
S

0    11
1    28
2    82
3     3
4     6
5     8
dtype: int64

In [86]:
print(type(S))
print(len(S))

<class 'pandas.core.series.Series'>
6


In [87]:
capital=pd.Series({'Korea':'Seoul','Japan':'Tokyo'})
print(capital, '\n')
print(capital.index, type(capital.index),'\n')  # index
print(capital.values, type(capital.values))     # value로 구분되고 value는 ndarray 형태를 취하고 있다

Korea    Seoul
Japan    Tokyo
dtype: object 

Index(['Korea', 'Japan'], dtype='object') <class 'pandas.core.indexes.base.Index'> 

['Seoul' 'Tokyo'] <class 'numpy.ndarray'>


In [88]:
pd.Series(list('abc'))   # list

0    a
1    b
2    c
dtype: object

In [89]:
pd.Series((1,2,3,4,5))   # tuple

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [90]:
pd.Series({'a':2, 'b':4})  # dict : key-->series의 index, value-->series의 values

a    2
b    4
dtype: int64

In [91]:
pd.Series(np.array([1,2.,1]))   # ndarray

0    1.0
1    2.0
2    1.0
dtype: float64

In [92]:
pd.Series(np.random.randint(1,8,10)) #ndarray

0    4
1    1
2    1
3    3
4    3
5    7
6    2
7    4
8    4
9    7
dtype: int32

In [93]:
pd.Series(np.arange(4).reshape(2,2))  # 2차원 이상 불가 -> Error

ValueError: Data must be 1-dimensional, got ndarray of shape (2, 2) instead

In [None]:
# index와 value
# pd.Series(data, index, dtype, name)이기 때문에 data, index를 명시하지 않으면 첫 번째 인자가 data, 두 번째 인자가 index로 인식된다
Z=pd.Series([11,28,82,3,6,8],
            ['1st','2nd','3rd','4th','5th','6th'])
Z

1st    11
2nd    28
3rd    82
4th     3
5th     6
6th     8
dtype: int64

## pd.Series의 attributes 과 method

In [95]:
np.random.seed(42)
x=pd.Series(np.random.randint(1,8,10), name="random num")
print(x.name, '\n')     #series 생성할 때의 이름, 지정 안 해주면 없다
print(x.index, '\n')    # index, 따로 없으면 RangeIndex로 표시됨
print(x.values, '\n')   # values
x.array

random num 

RangeIndex(start=0, stop=10, step=1) 

[7 4 5 7 3 5 5 7 2 3] 



<PandasArray>
[7, 4, 5, 7, 3, 5, 5, 7, 2, 3]
Length: 10, dtype: int32

## value 추가 삭제

In [96]:
# value 추가

print(x)
# x = x.append(pd.Series({10:8})) --> 최근에 Pandas에서 Series의 append가 삭제되었다
x = pd.concat([x, pd.Series({10:8})])   # 대체로 concat을 이용하여 값을 추가할 수 있다
x[11]=92                                # pd[index] = new_value 꼴로도 추가 가능하다
x

0    7
1    4
2    5
3    7
4    3
5    5
6    5
7    7
8    2
9    3
Name: random num, dtype: int32


0      7
1      4
2      5
3      7
4      3
5      5
6      5
7      7
8      2
9      3
10     8
11    92
dtype: int64

In [97]:
# value 제거

del x[10]       # del은 자동적으로 반영, 없는 index가 입력되면 KeyError가 발생
x=x.drop([11])  # drop은 반환값을 재할당해야함, inplace 추가로도 가능
x

0    7
1    4
2    5
3    7
4    3
5    5
6    5
7    7
8    2
9    3
dtype: int64

## pd.Series의 method

In [98]:
x.value_counts() #각각의 value가 몇개 있는지 [value값 : 개수] Series로 반환

7    3
5    3
3    2
4    1
2    1
Name: count, dtype: int64

In [99]:
print(x.value_counts().sort_index(), '\n')  # index 기준 오름차순 정렬
print(x.value_counts().sort_values(), '\n') # values기준 오름차순 정렬
print(x.value_counts().sort_values(ascending=False)) # 내림차순

2    1
3    2
4    1
5    3
7    3
Name: count, dtype: int64 

4    1
2    1
3    2
7    3
5    3
Name: count, dtype: int64 

7    3
5    3
3    2
4    1
2    1
Name: count, dtype: int64


In [100]:
print(x.unique(), '\n')             # 고유한 값의 종류 
print(x.value_counts().index, '\n') # 값의 종류만 추출하므로 비슷한 기능을 수행
                            
print(x.nunique())                  # 고유한 값의 수(number of unique)

[7 4 5 3 2] 

Index([7, 5, 3, 4, 2], dtype='int64') 

5


### Series 기술 통계량 

In [101]:
print('min:', x.min())
print('max:', x.max())
print('mean:', x.mean())
print('std:', x.std())
print('var:', x.var())

min: 2
max: 7
mean: 4.8
std: 1.8135294011647258
var: 3.288888888888889


In [102]:
x.describe()

count    10.000000
mean      4.800000
std       1.813529
min       2.000000
25%       3.250000
50%       5.000000
75%       6.500000
max       7.000000
dtype: float64

### Series indexing, slicing

- indexing : 해당하는 index를 갖고 있는 value를 선택

- slicing : index의 값이 중요한게 아니라 몇 번째 위치한 값인가를 기준으로 start, stop(미포함)으로 부분을 추출

In [103]:
print(x, '\n')
print(x[1])     # index 1에 해당하는 value 4가 출력
print(x[0])     # index 0에 해당하는 value 7이 출력
print(x[0:2])   # index 0번째부터 1번째까지(2불포함)의 value 출력

0    7
1    4
2    5
3    7
4    3
5    5
6    5
7    7
8    2
9    3
dtype: int64 

4
7
0    7
1    4
dtype: int64


In [104]:
del x[9]
x[100] = 3
x[57] = 5
print(x)
print(x[3:8]) # index값이 일치하는게 아니라 3번째부터 7번째가지 출력 --> 총 5개 출력

0      7
1      4
2      5
3      7
4      3
5      5
6      5
7      7
8      2
100    3
57     5
dtype: int64
3    7
4    3
5    5
6    5
7    7
dtype: int64


In [109]:
Z=pd.Series([11,28,82,3,6,8],
            ['1st','2nd','3rd','4th','5th','6th'])
Z
print(Z.iloc[[1,3]])           #행 번호를 이용한 인덱싱
print(Z.loc[['2nd','5th']])    #행 이름을 이용한 인덱싱

2nd    28
4th     3
dtype: int64
2nd    28
5th     6
dtype: int64


## 결측치 Nan

In [110]:
a=pd.Series(np.arange(5))
b=pd.Series(np.arange(10,15))

print(a)
print(b)
a+b #index 기준으로 연산

0    0
1    1
2    2
3    3
4    4
dtype: int32
0    10
1    11
2    12
3    13
4    14
dtype: int32


0    10
1    12
2    14
3    16
4    18
dtype: int32

In [118]:
s1 = pd.Series({'a': 0.1, 'b': 1.2, 'c': 2.3})
s2 = pd.Series({'a': 1.0, 'b': 2.0, 'c': 3.0})
s3 = pd.Series({'c': 0.1, 'd': 1.2, 'e': 2.3})
print(s1+s2,"\n")

print(s1+s3)

a    1.1
b    3.2
c    5.3
dtype: float64 

a    NaN
b    NaN
c    2.4
d    NaN
e    NaN
dtype: float64


In [119]:
# 결측치 확인
s4=s1+s3
print(s4.info(), '\n')  # 5개의 index인데 1 개의 non-null값
print(s4.isna(), '\n')  # NaN, None 값인 경우 T
# pandas는 isnan()은 없다

<class 'pandas.core.series.Series'>
Index: 5 entries, a to e
Series name: None
Non-Null Count  Dtype  
--------------  -----  
1 non-null      float64
dtypes: float64(1)
memory usage: 80.0+ bytes
None 

a     True
b     True
c    False
d     True
e     True
dtype: bool 



In [121]:
# 결측치 처리
print(s4.fillna(value=0))   # 결측치 0으로 채우기, inplace 조건 추가 가능

print(s4.dropna())          # 결측치 drop, inplace 조건 추가 가능

a    0.0
b    0.0
c    2.4
d    0.0
e    0.0
dtype: float64
c    2.4
dtype: float64
