#### Pandas : 구조화된 데이터(Array)를 효과적으로 처리하고 저장할 수 있도록 도와주는 라이브러리. numpy와 관련하여 다양한 기능을 제공한다.

In [37]:
import pandas as pd
import numpy as np

In [2]:
# Series : numpy array보다 자세한 구조로서 Data뿐만 아니라 Index도 갖는다.

In [3]:
arr = pd.Series([10, 20, 30, 40])
arr # index | Data

0    10
1    20
2    30
3    40
dtype: int64

In [4]:
arr = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd']) # index 지정 가능
arr['c']

30

In [5]:
dic = {'a': 10, 'b': 20, 'c': 30, 'd': 40}  # dict => Series
arr = pd.Series(dic)
arr

a    10
b    20
c    30
d    40
dtype: int64

In [None]:
# ======================================================================================================================

In [30]:
# DataFrame : 여러 개의 Series를 모아서 행과 열로 구성된 데이터
dic = {'a': 10, 'b': 20, 'c': 30, 'd': 40}  
arr = pd.Series(dic)
arr2 = pd.Series(['M', 'W', 'M', 'W'], index=['a', 'b', 'c', 'd'])
arr3 = pd.DataFrame({'num': arr, 'sex': arr2})
arr3

Unnamed: 0,num,sex
a,10,M
b,20,W
c,30,M
d,40,W


In [8]:
arr3.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [9]:
arr3.columns

Index(['num', 'sex'], dtype='object')

In [10]:
arr3['sex']

a    M
b    W
c    M
d    W
Name: sex, dtype: object

In [31]:
# numpy처럼 연산자를 사용하여 연산 가능
arr3['new'] = arr3['num'] * arr3['num']
arr3

Unnamed: 0,num,sex,new
a,10,M,100
b,20,W,400
c,30,M,900
d,40,W,1600


In [7]:
# ======================================================================================================================

In [11]:
# csv / excel 파일 읽기
arr.to_csv("./file_name.csv")
arr.to_excel("./file_name.xlsx")

arr = pd.read_csv('file_name.csv')
arr = pd.read_excel('file_name.xlsx')

In [None]:
# ======================================================================================================================

In [15]:
# Indexing / Slicing
# loc : 명시적인 인덱스를 참조하는 인덱싱 및 슬라이싱
arr3.loc['b':'d', :'sex']

Unnamed: 0,num,sex
b,20,W
c,30,M
d,40,W


In [45]:
arr3.iloc[0]

num      10
sex       M
new     100
name    NaN
Name: a, dtype: object

In [24]:
arr3.iloc[0:3, :2]

Unnamed: 0,num,sex
a,10,M
b,20,W
c,30,M


In [32]:
# DataFrame 행 데이터 추가
print(arr3)
arr3.loc['z'] = [100, 'W', 10000]
print(arr3)

   num sex   new
a   10   M   100
b   20   W   400
c   30   M   900
d   40   W  1600
   num sex    new
a   10   M    100
b   20   W    400
c   30   M    900
d   40   W   1600
z  100   W  10000


In [38]:
arr3['name'] = np.nan
arr3

Unnamed: 0,num,sex,new,name
a,10,M,100,
b,20,W,400,
c,30,M,900,
d,40,W,1600,
z,100,W,10000,


In [41]:
arr3.loc['c', 'name'] = "Lee"
arr3.loc['z', 'name'] = "Kim"
arr3

Unnamed: 0,num,sex,new,name
a,10,M,100,
b,20,W,400,
c,30,M,900,Lee
d,40,W,1600,
z,100,W,10000,Kim


In [42]:
# 행 개수
len(arr3)

5

In [43]:
# 열 개수
len(arr3.columns)

4

In [46]:
# ======================================================================================================================

In [47]:
# 데이터 누락 여부 확인
print(arr3.isnull())
print(arr3.notnull())

     num    sex    new   name
a  False  False  False   True
b  False  False  False   True
c  False  False  False  False
d  False  False  False   True
z  False  False  False  False
    num   sex   new   name
a  True  True  True  False
b  True  True  True  False
c  True  True  True   True
d  True  True  True  False
z  True  True  True   True


In [49]:
# 누락이 없는 데이터만
arr3.dropna()

Unnamed: 0,num,sex,new,name
c,30,M,900,Lee
z,100,W,10000,Kim


In [51]:
# 누락된 항목 default 값 지정하여서 초기화 
arr3['name'] = arr3['name'].fillna('Unknown')
arr3

Unnamed: 0,num,sex,new,name
a,10,M,100,Unknown
b,20,W,400,Unknown
c,30,M,900,Lee
d,40,W,1600,Unknown
z,100,W,10000,Kim


In [51]:
# ======================================================================================================================

In [55]:
# Series 연산
A = pd.Series([1, 3, 5], index=[0, 1, 2])
B = pd.Series([2, 4, 6], index=[1, 2, 3])
print(A)
print(B)
print(A + B)
print(A.add(B, fill_value=0)) # 빈 칸은 0으로 채워서 연산

0    1
1    3
2    5
dtype: int64
1    2
2    4
3    6
dtype: int64
0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64
0    1.0
1    5.0
2    9.0
3    6.0
dtype: float64


In [56]:
# add(+), sub(-), mul(*), div(/)
print(A.mul(B, fill_value=1))

0     1.0
1     6.0
2    20.0
3     6.0
dtype: float64


In [58]:
# 다양한 DataFrame 생성 방법 cloumns 지정
C = pd.DataFrame(np.arange(10).reshape(2, 5), columns=list("XYGBA"))
C

Unnamed: 0,X,Y,G,B,A
0,0,1,2,3,4
1,5,6,7,8,9


In [59]:
data = {
    'X': [ i**2 for i in range(1, 4)],
    'Y': [ i+10 for i in range(5, 8)]
}
D = pd.DataFrame(data)
D

Unnamed: 0,X,Y
0,1,15
1,4,16
2,9,17
