# Pandas 기초

* Pandas는 1차원 Series와 2차원 DataFrame과 두 객체를 구성하는 이름인 Index가 있다.

* Series : index, values로 구성
* DataFrame : index, Columns, values로 구성
* Index : Series, DataFrame에 접근할 때 사용하는 이름


## Series 생성



In [5]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

print(np.__version__)
print(pd.__version__)


1.20.1
1.2.4


In [6]:
# 파이썬의 list를 이용하여 Series 생성

s = pd.Series([1, 3, 5, 7, 9])

print(s)

0    1
1    3
2    5
3    7
4    9
dtype: int64


In [8]:
list_data = [11, 13, 15, 17, 19, np.nan]
list_name = ['coffee', 'is', 'always', 'right', 'everyday', 'drink']

s2 = pd.Series(data = list_data, index = list_name )

print(s2)
# np.nan not a number 가 들어가서 float 라고 하네요~

print(s2.index)
print(s2.values)

coffee      11.0
is          13.0
always      15.0
right       17.0
everyday    19.0
drink        NaN
dtype: float64
Index(['coffee', 'is', 'always', 'right', 'everyday', 'drink'], dtype='object')
[11. 13. 15. 17. 19. nan]


In [10]:
# Python 의 dictionary 를 이용하여 Series 생성

dic= {'A': 21, 'B':73, 'C':31}

s3 = pd.Series(data = dic, dtype=np.float64, name='mySeries' )
print(s3)

A    21.0
B    73.0
C    31.0
Name: mySeries, dtype: float64


## DataFrame 생성 및 주요연산

* DataFrame은 2차원의 테이블 형식의 Pandas 데이터
* DataFrame()이라는 클래스를 이용해 생성 가능하다.
* 데이터 분석을 위한 많은 양의 데이터는 직접 생성하기보다는 파일의 형태로 읽어들인다

### DataFrame 속성
* df.index
* df.columns
* df.values
* df.dtypes
* df.select_dtypes([include, exclude])
* df.ndim
* df.size
* df.shape

### DataFrame 연산-1

* df.head([n])
* df.tail([n])

* df.loc
* df.iloc
* df.at
* df.iat



### DataFrame 연산-2

* df.insert(위치, 열, 값)
* df.get(키[, 기본값])
* df.isin(값)
* df.pop()
* df.items()
* df.keys()
* df.where(조건[, other])
* df.mask(조건[, other])

* info()
* describe([include=“object|all”])

* df.astype(dtype)

In [15]:
raw_data = {
    'First Name' : ['Americano', 'Latte', 'Espresso', 'Frap', 'Baylies' ]
    ,'Age':[31, 25, 78, 145,37]
    ,'Phone Number':['010-1111', '010-2222', '010-3333', '010-4444', '010-5555']
    ,'Location' : ['Paris', 'New York', 'Vancouver', 'Tokyo', 'Seoul']
}

df = pd.DataFrame(data = raw_data)
display(df)

Unnamed: 0,First Name,Age,Phone Number,Location
0,Americano,31,010-1111,Paris
1,Latte,25,010-2222,New York
2,Espresso,78,010-3333,Vancouver
3,Frap,145,010-4444,Tokyo
4,Baylies,37,010-5555,Seoul


In [16]:
df2 = pd.DataFrame(raw_data, columns = ['Name', 'Age', 'Phone Number', 'Grade'])
display(df2)

Unnamed: 0,Name,Age,Phone Number,Grade
0,,31,010-1111,
1,,25,010-2222,
2,,78,010-3333,
3,,145,010-4444,
4,,37,010-5555,


In [18]:
# 데이터 추출 (Series 추출)

df['First Name']


0    Americano
1        Latte
2     Espresso
3         Frap
4      Baylies
Name: First Name, dtype: object

In [20]:
# Column 두개 추출은...DataFrame 형식이기 때문에... [[]] 사용
df[['First Name', 'Age']]

Unnamed: 0,First Name,Age
0,Americano,31
1,Latte,25
2,Espresso,78
3,Frap,145
4,Baylies,37


In [21]:
df[['First Name']]

# 2차원으로 추출 하면 DataFrame 이 되버린다구~

Unnamed: 0,First Name
0,Americano
1,Latte
2,Espresso
3,Frap
4,Baylies


In [22]:
pd.DataFrame([{'A':1, 'B':3, 'C':9},{'A':10, 'B':31, 'D': 45}])

Unnamed: 0,A,B,C,D
0,1,3,9.0,
1,10,31,,45.0


### [ 문제 ] 평균 0, 표준편차 1 을 갖는 DataFrame 생성
    - size : 5X5 

In [26]:
import numpy as np

ran_data = np.random.normal(size=(5,5))
pd.DataFrame(ran_data, index=[1,2,3,4,5])

Unnamed: 0,0,1,2,3,4
1,0.009892,0.297125,0.182284,0.243206,-0.231213
2,-0.675017,-1.817984,1.45098,2.786311,-0.821788
3,-0.175372,1.26047,-0.089116,-0.094376,1.431217
4,-0.378548,1.317023,-1.29446,0.781371,-0.748252
5,-1.24895,-1.711557,1.675975,1.305791,-1.752206


In [27]:
rData = np.random.normal(size=(5,5))
rColumns = ['A', 'B', 'C', 'D', 'E']
rIndex = [1, 2, 3, 4, 5]

pd.DataFrame(data = rData, columns = rColumns, index = rIndex)

Unnamed: 0,A,B,C,D,E
1,-0.434588,-0.994483,0.510552,1.108177,0.226574
2,0.821402,-0.054653,-0.952664,-1.676897,-0.191375
3,0.693979,-0.681405,-0.431238,-0.709897,-0.511136
4,-1.282551,1.249319,0.083511,1.090778,-0.258888
5,0.349634,-0.395781,-0.320646,0.088145,-0.478991


In [28]:
print(df2.index)

RangeIndex(start=0, stop=5, step=1)


In [31]:
print(df2.columns)

Index(['Name', 'Age', 'Phone Number', 'Grade'], dtype='object')


In [33]:
print(df2.values)
type(df2.values)

[[nan 31 '010-1111' nan]
 [nan 25 '010-2222' nan]
 [nan 78 '010-3333' nan]
 [nan 145 '010-4444' nan]
 [nan 37 '010-5555' nan]]


numpy.ndarray

## Index 생성

### Index 객체 (종류?)

* <span style="color:red">RangeIndex</span>
* CategoricalIndex
* <span style="color:red">MultiIndex</span>
* IntervalIndex
* <span style="color:red">DatetimeIndex</span>
* Int64Index
* Float64Index


### Index 연산

* append()
* difference()
* intersection()
* union()
* isin()
* delete()
* drop()
* insert()
* is_unique()
* unique()

In [37]:
# Index 객체 생성

idx1 = pd.Index([1, 2, 4, 6, 13])
idx2 = pd.Index([-1, 3, 6, 17, 4])

idx1.append(idx2)

# index의 elements 들이 unique 할 필요는 없다


Int64Index([1, 2, 4, 6, 13], dtype='int64')


In [40]:
# 차집합 difference

print(idx1.difference(idx2))
print(idx2.difference(idx1))

Int64Index([1, 2, 13], dtype='int64')
Int64Index([-1, 3, 17], dtype='int64')


In [42]:
# 교집합 intersection

print(idx1.intersection(idx2))

Int64Index([4, 6], dtype='int64')


In [43]:
# 합집합 union

print(idx1.union(idx2))

Int64Index([-1, 1, 2, 3, 4, 6, 13, 17], dtype='int64')


In [46]:
# parameter 로 index 값을 (그러니까 index객체의 index)를 받는다.

idx3 = idx1.delete(0)
print(idx1)
print(idx3)

Int64Index([1, 2, 4, 6, 13], dtype='int64')
Int64Index([2, 4, 6, 13], dtype='int64')


In [51]:
# drop : parameter로 index객체의 값을 받는다.

idx1.drop(4)

# 존재 하지 않는 값을 drop 하면 key Error 발생
# idx1.drop(17)

Int64Index([1, 2, 6, 13], dtype='int64')

In [53]:
print(idx1 - idx2)
print(idx1 - 5)

Int64Index([2, -1, -2, -11, 9], dtype='int64')
Int64Index([-4, -3, -1, 1, 8], dtype='int64')


## [ 연습 ] Series, DataFrame 생성 및 연산

In [54]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### Series 생성

In [55]:
score_math = {
    'First':45
    ,'Second':63
    ,'Third':89
    ,'Fourth': 75
    ,'Fifth': 100
}

mat = pd.Series(score_math)
display(mat)

First      45
Second     63
Third      89
Fourth     75
Fifth     100
dtype: int64

In [56]:
mat['Fourth']

75

In [62]:
print(mat[1:4])
print()
print(mat['Second':'Fourth'])


Second    63
Third     89
Fourth    75
dtype: int64

Second    63
Third     89
Fourth    75
dtype: int64


In [63]:
mat.index

Index(['First', 'Second', 'Third', 'Fourth', 'Fifth'], dtype='object')

In [64]:
mat.values

array([ 45,  63,  89,  75, 100], dtype=int64)

In [65]:
'Sixth' in mat

False

In [66]:
mat.isin([100, 88])

First     False
Second    False
Third     False
Fourth    False
Fifth      True
dtype: bool

### Series 안의 데이터가 이산형일 경우 (?)

In [71]:
stu_major = {
    'First': '수학과'
    ,'Second': '디지털 영상'
    ,'Third': '컴퓨터 공학'
    ,'Fourth': '수학과'
    ,'Fifth': '물리학과'
}

major = pd.Series(stu_major)
print(major)

First        수학과
Second    디지털 영상
Third     컴퓨터 공학
Fourth       수학과
Fifth       물리학과
dtype: object


In [72]:
major.values

array(['수학과', '디지털 영상', '컴퓨터 공학', '수학과', '물리학과'], dtype=object)

In [74]:
major.value_counts()

수학과       2
물리학과      1
컴퓨터 공학    1
디지털 영상    1
dtype: int64

In [75]:
score_eng = {
    'First':97
    ,'Second':75
    ,'Third':43
    ,'Fourth': 50
    ,'Fifth': 90
}

eng = pd.Series(score_eng)
display(eng)

First     97
Second    75
Third     43
Fourth    50
Fifth     90
dtype: int64

### Series 합쳐서 DataFrame 만들기