# Pandas
![image.png](attachment:image.png)

- pandas의 DataFrame은 엑셀시트와 비슷한 테이블 형태
- SQL처럼 테이블에 쿼리나 조인을 수행할 수 있음

In [44]:
import pandas as pd
import numpy as np

In [36]:
data = {'Name': ["John", "Anna", "Peter"],
        'Location': ["New York", "Paris", "Berlin"],
        'Age': [24, 13, 26]
        }
df = pd.DataFrame(data)
display(df)
# data_pandas

Unnamed: 0,Name,Location,Age
0,John,New York,24
1,Anna,Paris,13
2,Peter,Berlin,26


### 테이블에 질의하기

In [37]:
display(df[data_pandas.Age > 20])

Unnamed: 0,Name,Location,Age
0,John,New York,24
2,Peter,Berlin,26


# more About DataFrame

In [38]:
# 행 방향 인덱스
df.index

RangeIndex(start=0, stop=3, step=1)

In [39]:
# 열 방향 인덱스
df.columns

Index(['Name', 'Location', 'Age'], dtype='object')

In [40]:
# 값 얻기
df.values

array([['John', 'New York', 24],
       ['Anna', 'Paris', 13],
       ['Peter', 'Berlin', 26]], dtype=object)

In [41]:
# 형태 얻기
df.shape

(3, 3)

In [42]:
# 각 인덱스에 대한 이름 설정하기
df.index.name = 'Num'
df.columns.name = 'Info'
df

Info,Name,Location,Age
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,John,New York,24
1,Anna,Paris,13
2,Peter,Berlin,26


In [56]:
# DataFrame을 만듦과 동시에 행, 열 설정하기
data2 = np.zeros((3,3))
df2 = pd.DataFrame(data2, columns=['year', 'name', 'points'],
                  index=['one', 'two', 'three'])
df2

Unnamed: 0,year,name,points
one,0.0,0.0,0.0
two,0.0,0.0,0.0
three,0.0,0.0,0.0


In [57]:
# DataFrame의 다양한 값들 제공
df2.describe()

Unnamed: 0,year,name,points
count,3.0,3.0,3.0
mean,0.0,0.0,0.0
std,0.0,0.0,0.0
min,0.0,0.0,0.0
25%,0.0,0.0,0.0
50%,0.0,0.0,0.0
75%,0.0,0.0,0.0
max,0.0,0.0,0.0


### DataFrame Indexing

In [59]:
data = {"names": ["Kilho", "Kilho", "Kilho", "Charles", "Charles"],
           "year": [2014, 2015, 2016, 2015, 2016],
           "points": [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data, columns=["year", "names", "points", "penalty"],
                          index=["one", "two", "three", "four", "five"])
df

Unnamed: 0,year,names,points,penalty
one,2014,Kilho,1.5,
two,2015,Kilho,1.7,
three,2016,Kilho,3.6,
four,2015,Charles,2.4,
five,2016,Charles,2.9,


DataFrame에서 열을 선택하고 조작하기

In [63]:
df['names']
# df.names # 둘 다 똑같다

one        Kilho
two        Kilho
three      Kilho
four     Charles
five     Charles
Name: names, dtype: object

In [65]:
df[['year', 'names']]

Unnamed: 0,year,names
one,2014,Kilho
two,2015,Kilho
three,2016,Kilho
four,2015,Charles
five,2016,Charles


In [67]:
# 특정 열 선택, 값 넣기
df['penalty']=0.5
df

Unnamed: 0,year,names,points,penalty
one,2014,Kilho,1.5,0.5
two,2015,Kilho,1.7,0.5
three,2016,Kilho,3.6,0.5
four,2015,Charles,2.4,0.5
five,2016,Charles,2.9,0.5


In [69]:
# 또는
df['penalty']=[1,2,3,4,5]
df

Unnamed: 0,year,names,points,penalty
one,2014,Kilho,1.5,1
two,2015,Kilho,1.7,2
three,2016,Kilho,3.6,3
four,2015,Charles,2.4,4
five,2016,Charles,2.9,5


In [71]:
# 새로운 열 추가하기
df['zeros']=0
df

Unnamed: 0,year,names,points,penalty,zeros
one,2014,Kilho,1.5,1,0
two,2015,Kilho,1.7,2,0
three,2016,Kilho,3.6,3,0
four,2015,Charles,2.4,4,0
five,2016,Charles,2.9,5,0


In [74]:
# 열 삭제하기
del df['zeros']
df

Unnamed: 0,year,names,points,penalty
one,2014,Kilho,1.5,1
two,2015,Kilho,1.7,2
three,2016,Kilho,3.6,3
four,2015,Charles,2.4,4
five,2016,Charles,2.9,5


In [81]:
# 인덱싱(슬라이싱)
df[0:2] # 행을 가져옴

Unnamed: 0,year,names,points,penalty
one,2014,Kilho,1.5,1
two,2015,Kilho,1.7,2


In [83]:
# 행 이름 기준 인덱싱
df['two':'four'] # 두번 째 인자의 항목의 행을 빼지 않는다.

Unnamed: 0,year,names,points,penalty
two,2015,Kilho,1.7,2
three,2016,Kilho,3.6,3
four,2015,Charles,2.4,4


In [88]:
# 열을 기준으로 가져오기
df.loc['two']

year        2015
names      Kilho
points       1.7
penalty        2
Name: two, dtype: object

... 너무 지엽적이어서 일단 PASS!

### DataFrame에서의 boolean Indexing

In [92]:
df

Unnamed: 0,year,names,points,penalty
one,2014,Kilho,1.5,1
two,2015,Kilho,1.7,2
three,2016,Kilho,3.6,3
four,2015,Charles,2.4,4
five,2016,Charles,2.9,5


In [94]:
# year가 2015보다 큰 boolean data
df['year'] > 2015

one      False
two      False
three     True
four     False
five      True
Name: year, dtype: bool

In [181]:
# df[df['year'] > 2015]
df.loc[df['year'] > 2015,:]

Unnamed: 0,year,names,points,penalty,hello
three,2016.0,Kilho,3.6,3.0,
five,2016.0,Charles,2.9,5.0,1.0


In [182]:
df.loc[df['names'] == 'Kilho',['names','points']]

Unnamed: 0,names,points
one,Kilho,1.5
two,Kilho,1.7
three,Kilho,3.6


### NaN 없애기

In [183]:
df['hello']= [np.nan, np.nan, np.nan, np.nan, 1, 1]
# df.drop(['hello'])
# del df['hello']
df

Unnamed: 0,year,names,points,penalty,hello
one,2014.0,Kilho,1.5,1.0,
two,2015.0,Kilho,1.7,2.0,
three,2016.0,Kilho,3.6,3.0,
four,2015.0,Charles,2.4,4.0,
five,2016.0,Charles,2.9,5.0,1.0
hello,,,,,1.0


In [190]:
# 행의 값 중 하나라도 NaN이면 그 행을 없앤다.
df.dropna(how='any')
# how='all' => 행의 모든 값이 NaN일 때 그 행을 없앤다.

Unnamed: 0,year,names,points,penalty,hello
five,2016.0,Charles,2.9,5.0,1.0


In [196]:
# nan값에 값 넣기
df2 = df.fillna(value=0.5)
df2

Unnamed: 0,year,names,points,penalty,hello
one,2014.0,Kilho,1.5,1.0,0.5
two,2015.0,Kilho,1.7,2.0,0.5
three,2016.0,Kilho,3.6,3.0,0.5
four,2015.0,Charles,2.4,4.0,0.5
five,2016.0,Charles,2.9,5.0,1.0
hello,0.5,0.5,0.5,0.5,1.0


### 데이터 분석용 함수들

In [199]:
df2

Unnamed: 0,year,names,points,penalty,hello
one,2014.0,Kilho,1.5,1.0,0.5
two,2015.0,Kilho,1.7,2.0,0.5
three,2016.0,Kilho,3.6,3.0,0.5
four,2015.0,Charles,2.4,4.0,0.5
five,2016.0,Charles,2.9,5.0,1.0
hello,0.5,0.5,0.5,0.5,1.0


In [201]:
# 행 기준 합(각 열의 합)
df2.sum(axis=0)

year       10076.5
points        12.6
penalty       15.5
hello          4.0
dtype: float64

In [207]:
# 열 기준 합(각 행의 합)
df2.sum(axis=1)

one      2017.0
two      2019.2
three    2023.1
four     2021.9
five     2024.9
hello       2.5
dtype: float64

In [208]:
# NaN값을 배제하고 계산이 되는데, NaN값을 포함시키려면 skipna에 false 지정
df.sum(axis=1, skipna=False)

one         NaN
two         NaN
three       NaN
four        NaN
five     2024.9
hello       NaN
dtype: float64

### 그 외 pandas에서 계산에 도움되는 함수들

sum() 함수 이외에도 pandas에서 DataFrame에 적용되는 함수는 다음의 것들이 있다.

count 전체 성분의 (NaN이 아닌) 값의 갯수를 계산

min, max 전체 성분의 최솟, 최댓값을 계산

argmin, argmax 전체 성분의 최솟값, 최댓값이 위치한 (정수)인덱스를 반환

idxmin, idxmax 전체 인덱스 중 최솟값, 최댓값을 반환

quantile 전체 성분의 특정 사분위수에 해당하는 값을 반환 (0~1 사이)

sum 전체 성분의 합을 계산

mean 전체 성분의 평균을 계산

median 전체 성분의 중간값을 반환

mad 전체 성분의 평균값으로부터의 절대 편차(absolute deviation)의 평균을 계산

std, var 전체 성분의 표준편차, 분산을 계산

cumsum 맨 첫 번째 성분부터 각 성분까지의 누적합을 계산 (0에서부터 계속 더해짐)

cumprod 맨 첫번째 성분부터 각 성분까지의 누적곱을 계산 (1에서부터 계속 곱해짐)