# Pandas  사용하기

In [1]:
import numpy as np
import pandas as pd

In [3]:
#판다스 정의하기
a = pd.Series([4,7,-5,3])
a

0    4
1    7
2   -5
3    3
dtype: int64

In [4]:
#Series의 값만 확인하기
a.values

array([ 4,  7, -5,  3], dtype=int64)

In [5]:
#인덱스 확인하기
a.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
#Series의 자료형 확인하기
a.dtype

dtype('int64')

In [8]:
#인덱스를 바꿀 수 있다
b = pd.Series([5,6,7,8,-1], index=['a','b','c','d','e'])
b

a    5
b    6
c    7
d    8
e   -1
dtype: int64

In [14]:
#파이썬의 dic 자료형을 Series data로 만들 수 있다
#dic의 key가 index가 된다
c = {'Yoo': 100000, 'Park':200000, 'Kim' : 300000}
d = pd.Series(c)
d
d.name = 'Family name'
d.index.name = 'Name'
d

Name
Yoo     100000
Park    200000
Kim     300000
Name: Family name, dtype: int64

In [16]:
#index 변경
d.index =['A','B','C']
d

A    100000
B    200000
C    300000
Name: Family name, dtype: int64

# Data Frame 사용하기

In [25]:
#data frame 정의하기
#파이썬의 dic 또는 numpy의 array로 정의할 수 있다
data = {'name':['Sun','minju','Junior'],
         'year':[1989,1989,2021],
           'point':[1,2,3]}
df = pd.DataFrame(data)
df
# 행과 열의 구조를 가진 데이터가 생긴다

Unnamed: 0,name,year,point
0,Sun,1989,1
1,minju,1989,2
2,Junior,2021,3


In [26]:
# 행방향 인덱스
df.index

RangeIndex(start=0, stop=3, step=1)

In [27]:
#열방향 인덱스
df.columns

Index(['name', 'year', 'point'], dtype='object')

In [28]:
#값 얻기
df.values

array([['Sun', 1989, 1],
       ['minju', 1989, 2],
       ['Junior', 2021, 3]], dtype=object)

In [29]:
# 각인덱스(index, column) 이름 변경하기

df.index.name = 'Num'
df.columns.name = 'Info'
df

Info,name,year,point
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Sun,1989,1
1,minju,1989,2
2,Junior,2021,3


In [35]:
# dataFrame을 만들어서 Column와 index를 설정할 수 있다.(추가할 수 있다)
df2 = pd.DataFrame(data, columns=['year', 'name', 'penalty', 'point'], index=['one', 'two', 'three'])
df2

Unnamed: 0,year,name,penalty,point
one,1989,Sun,,1
two,1989,minju,,2
three,2021,Junior,,3


DataFrame을 정의하면서, data로 들어가는 python dictionary와 columns의 순서가 달라도 알아서 맞춰서 정의된다.

하지만 data에 포함되어 있지 않은 값은 NaN(Not a Number)으로 나타나게 되는데,

이는 null과 같은 개념이다.

NaN값은 추후에 어떠한 방법으로도 처리가 되지 않는 데이터이다.

따라서 올바른 데이터 처리를 위해 추가적으로 값을 넣어줘야 한다.



출처: https://doorbw.tistory.com/172 [Tigercow.Door]

In [37]:
# Describe() 함수는 DataFrame의 계산 가능한 값들에 대한 다양한 계산 값을 보여준다
df2.describe()

Unnamed: 0,year,point
count,3.0,3.0
mean,1999.666667,2.0
std,18.475209,1.0
min,1989.0,1.0
25%,1989.0,1.5
50%,1989.0,2.0
75%,2005.0,2.5
max,2021.0,3.0


# DataFrame Indexing

In [44]:
df3 = pd.DataFrame(data, columns=['name', 'year', 'point', 'penalty'], index=[1,2,3])
df3

Unnamed: 0,name,year,point,penalty
1,Sun,1989,1,
2,minju,1989,2,
3,Junior,2021,3,


In [48]:
# DataFrame에서 열을 선택하고 조작하기

In [47]:
df['year']

Num
0    1989
1    1989
2    2021
Name: year, dtype: int64

In [49]:
# 동일한 의미를 갖는, 다른방법

In [53]:
df3.year

1    1989
2    1989
3    2021
Name: year, dtype: int64

In [55]:
df3[['year','point']]

Unnamed: 0,year,point
1,1989,1
2,1989,2
3,2021,3


In [59]:
# 특정 열에 대해 위와 같이 선택하고, 우리가 원하는 값을 대입할 수 있다.
df3.penalty = 0.5
df3

Unnamed: 0,name,year,point,penalty
1,Sun,1989,1,0.5
2,minju,1989,2,0.5
3,Junior,2021,3,0.5


In [60]:
# 또는
df3['penalty']=[0.1,0.2,0.3]
df3

Unnamed: 0,name,year,point,penalty
1,Sun,1989,1,0.1
2,minju,1989,2,0.2
3,Junior,2021,3,0.3


In [62]:
# 새로운 열을 추가하기
df3['zeros'] = np.arange(3)
df3

Unnamed: 0,name,year,point,penalty,zeros
1,Sun,1989,1,0.1,0
2,minju,1989,2,0.2,1
3,Junior,2021,3,0.3,2


In [64]:
#Series 를 추가할 수 있다
city = pd.Series(['Anyang','Cheonan'],index = [2,1])
df3['city'] = city
df3

Unnamed: 0,name,year,point,penalty,zeros,city
1,Sun,1989,1,0.1,0,Cheonan
2,minju,1989,2,0.2,1,Anyang
3,Junior,2021,3,0.3,2,


하지만 Series로 넣을 때는 변수 city와 같이 넣으려는 data의 index에 맞춰서 데이터가 들어간다.

이점이 python list나 numpy array로 데이터를 넣을때와 가장 큰 차이점이다.



출처: https://doorbw.tistory.com/172 [Tigercow.Door]

In [68]:
df3['net_point']=df3['point']-df3['penalty']
df3

Unnamed: 0,name,year,point,penalty,zeros,city,net_point
1,Sun,1989,1,0.1,0,Cheonan,0.9
2,minju,1989,2,0.2,1,Anyang,1.8
3,Junior,2021,3,0.3,2,,2.7


In [69]:
df3['high_point'] = df3['net_point'] > 2
df3

Unnamed: 0,name,year,point,penalty,zeros,city,net_point,high_point
1,Sun,1989,1,0.1,0,Cheonan,0.9,False
2,minju,1989,2,0.2,1,Anyang,1.8,False
3,Junior,2021,3,0.3,2,,2.7,True


In [70]:
df3

Unnamed: 0,name,year,point,penalty,zeros,city,net_point,high_point
1,Sun,1989,1,0.1,0,Cheonan,0.9,False
2,minju,1989,2,0.2,1,Anyang,1.8,False
3,Junior,2021,3,0.3,2,,2.7,True
