# 판다스(Pandas) 사용법
판다스는 파이썬에서 사용하는 데이터 분석 라이브러리.

 행과 열로 이루어진 데이터 객체를 만들어 다룰수 있음.
 
 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리함.

In [1]:
import pandas as pd
import numpy as np

## Pandas자료구조
기본적으로 정의되는 자료구조인 Series와 DataFrame을 사용

### 2-1.Seires
복수의 행으로 이루어진 하나의 열 구조

In [2]:
#Series 정의하기
obj = pd.Series([4,7,-5,3])
print(obj)#print생략가능

0    4
1    7
2   -5
3    3
dtype: int64


In [3]:
#Series의 값만 확인하기
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [4]:
#Series의 인덱스만 확인하기
obj.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
#Series의 자료형 확인하기
obj.dtypes

dtype('int64')

In [6]:
#인덱스를 바꿀 수 있다.
obj2=pd.Series([4,7,-5,3],index=['d','b','a',3])
print(obj2)
print(obj2.index)

d    4
b    7
a   -5
3    3
dtype: int64
Index(['d', 'b', 'a', 3], dtype='object')


In [7]:
#python의 dictionary 자료형을 Series Data로 만들 수 있다.
#dic의 key가 Series의 indx가 된다.
ssdata=[1,2,3,4,5,6]
obj4=pd.Series(ssdata)
print(obj4)
sdata={'kim':35000,'lee':47000,'park':52000,'jung':18000}
obj3=pd.Series(sdata)
print(obj3)

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
kim     35000
lee     47000
park    52000
jung    18000
dtype: int64


In [8]:
#index 변경
obj3.index=['A','B','C','D']
print(obj3)

A    35000
B    47000
C    52000
D    18000
dtype: int64


In [9]:
obj3.name='Salary'
obj3.index.name='Names'
print(obj3)

Names
A    35000
B    47000
C    52000
D    18000
Name: Salary, dtype: int64


In [10]:
#index 변경
obj3.index=['A','B','C','D']
print(obj3)
print(obj3.index)

A    35000
B    47000
C    52000
D    18000
Name: Salary, dtype: int64
Index(['A', 'B', 'C', 'D'], dtype='object')


## 2-2.DataFrame

In [11]:
#DataFrame정의하기
#그전에 DataFrame에 들어갈 데이터를 정의해주어야 하는데.
#이는 python의 dictionary 또는 numpy의 array로 정의할 수 있다.
data={'name':['geno', 'keno', 'zano', 'uuno', 'mukno','muhano']
      ,'year':[2020, 2021, 2022, 2018, 2014, 2017]
      ,'points':[3.4, 4.3, 2.8, 3.6, 1.8, 4.0]}
df=pd.DataFrame(data)
df

Unnamed: 0,name,year,points
0,geno,2020,3.4
1,keno,2021,4.3
2,zano,2022,2.8
3,uuno,2018,3.6
4,mukno,2014,1.8
5,muhano,2017,4.0


### 행과 열의 구조를 가진 데이터가 생긴다.

In [12]:
#행 방향의 index
df.index

RangeIndex(start=0, stop=6, step=1)

In [13]:
#열 방향의 index
df.columns

Index(['name', 'year', 'points'], dtype='object')

In [14]:
#값 얻기
df.values

array([['geno', 2020, 3.4],
       ['keno', 2021, 4.3],
       ['zano', 2022, 2.8],
       ['uuno', 2018, 3.6],
       ['mukno', 2014, 1.8],
       ['muhano', 2017, 4.0]], dtype=object)

In [15]:
#각 인덱스에 대한 이름 설정하기
df.index.name="Num"
df.columns.name='info'
df

info,name,year,points
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,geno,2020,3.4
1,keno,2021,4.3
2,zano,2022,2.8
3,uuno,2018,3.6
4,mukno,2014,1.8
5,muhano,2017,4.0


In [16]:
#DataFrame을 만들면서 columns와 index를 설정할수 있다.
df2=pd.DataFrame(data, columns=['year', 'name', 'points', 'penalty']
                 ,index=['one', 'two', 'three', 'four', 'five', 'six'])
df2

Unnamed: 0,year,name,points,penalty
one,2020,geno,3.4,
two,2021,keno,4.3,
three,2022,zano,2.8,
four,2018,uuno,3.6,
five,2014,mukno,1.8,
six,2017,muhano,4.0,


### DataFrame을 정의하면서 data로 들어가는 dic과 columns의 순서가 달라도 알아서 정의
하지만 data에 포함되어 있지 않은 값은 NaN으로 나타남

NaN은 추후에 어떠한 방법으로도 처리가 되지않는 데이터. 

따라서 올바른 데이터를 위해 추가적으로 값을 넣어줘야한다.

In [17]:
#describe() 함수는 DataFrame의 계산 가능한 값들에 대한 다양한 값을 보여준다.
df2.describe()

Unnamed: 0,year,points
count,6.0,6.0
mean,2018.666667,3.316667
std,2.94392,0.904249
min,2014.0,1.8
25%,2017.25,2.95
50%,2019.0,3.5
75%,2020.75,3.9
max,2022.0,4.3


### 3.DataFrame Indexing

In [18]:
data2={"names" : ["kilho","chaeho","hyeonho","gaho","junho"]
      ,"year":[1994,1993,1994,1992,1993]
      ,"points":[1.5, 1.7, 3.6, 2.4, 2.9]}
df3=pd.DataFrame(data2, columns=["year", "names", "points", "penalty"]
                ,index=["one", "two", "three", "four", "five"])
df3

Unnamed: 0,year,names,points,penalty
one,1994,kilho,1.5,
two,1993,chaeho,1.7,
three,1994,hyeonho,3.6,
four,1992,gaho,2.4,
five,1993,junho,2.9,


#### 3-1.DataFrame에서 열을 선택하고 조작하기

In [19]:
df3["year"]

one      1994
two      1993
three    1994
four     1992
five     1993
Name: year, dtype: int64

In [20]:
#동일한 의미를갖는 명령어.
df3.year

one      1994
two      1993
three    1994
four     1992
five     1993
Name: year, dtype: int64

In [21]:
df3[['year',"points"]]

Unnamed: 0,year,points
one,1994,1.5
two,1993,1.7
three,1994,3.6
four,1992,2.4
five,1993,2.9


In [22]:
#특정열에 대해 위와 같이 선택하고, 우리가 원하는 값을 대입할 수 있다.
df3["penalty"]=0.5
df3

Unnamed: 0,year,names,points,penalty
one,1994,kilho,1.5,0.5
two,1993,chaeho,1.7,0.5
three,1994,hyeonho,3.6,0.5
four,1992,gaho,2.4,0.5
five,1993,junho,2.9,0.5


In [23]:
#각 자리에도 넣을 수 있다.
df3['penalty']=[0.1, 0.2, 0.3, 0.4, 0.5]#python의 list나 numpy의 array로도 가능
print(df3)

       year    names  points  penalty
one    1994    kilho     1.5      0.1
two    1993   chaeho     1.7      0.2
three  1994  hyeonho     3.6      0.3
four   1992     gaho     2.4      0.4
five   1993    junho     2.9      0.5


In [24]:
#새로운 열을 추가하기
df3['zeros']=np.arange(5)
df3

Unnamed: 0,year,names,points,penalty,zeros
one,1994,kilho,1.5,0.1,0
two,1993,chaeho,1.7,0.2,1
three,1994,hyeonho,3.6,0.3,2
four,1992,gaho,2.4,0.4,3
five,1993,junho,2.9,0.5,4


In [25]:
#Series를 추가할 수도 있다.
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
df3['debt']=val
df3

Unnamed: 0,year,names,points,penalty,zeros,debt
one,1994,kilho,1.5,0.1,0,
two,1993,chaeho,1.7,0.2,1,-1.2
three,1994,hyeonho,3.6,0.3,2,
four,1992,gaho,2.4,0.4,3,-1.5
five,1993,junho,2.9,0.5,4,-1.7


#### 하지만 Series로 넣을 때는 val와 같이 넣으려는 data의 index에 맞춰서 데이터가 들어간다.
이점이 python의 list나 numpy의 array로 데이터를 넣을때와 가장 큰 차이점이다.

In [26]:
df3['net_points']=df3['points']-df3['penalty']
df3['hight_points']=df3['net_points']>2.0
df3.loc['six',:] = [2013,"mino",4.0,0.1,5,0.8,0,0]
df3

Unnamed: 0,year,names,points,penalty,zeros,debt,net_points,hight_points
one,1994.0,kilho,1.5,0.1,0.0,,1.4,False
two,1993.0,chaeho,1.7,0.2,1.0,-1.2,1.5,False
three,1994.0,hyeonho,3.6,0.3,2.0,,3.3,True
four,1992.0,gaho,2.4,0.4,3.0,-1.5,2.0,False
five,1993.0,junho,2.9,0.5,4.0,-1.7,2.4,True
six,2013.0,mino,4.0,0.1,5.0,0.8,0.0,0


#### 3-2.DataFrame에서 행을 선택하고 조작하기
pandas에서는 DataFrame에서 행을 인덱싱하는 방법이 무수히많다. 열 또한 그러하다

In [27]:
#0번째 부터 2(3-1)번째 까지 가져온다.
#뒤에 써준 숫자번째의 행은 뺀다.
df3[0:3]

Unnamed: 0,year,names,points,penalty,zeros,debt,net_points,hight_points
one,1994.0,kilho,1.5,0.1,0.0,,1.4,False
two,1993.0,chaeho,1.7,0.2,1.0,-1.2,1.5,False
three,1994.0,hyeonho,3.6,0.3,2.0,,3.3,True


In [28]:
#two~four까지 가져온다.
#뒤에 써준 이름의 행을 빼지 않는다.
df3['two':'four'] #비추

Unnamed: 0,year,names,points,penalty,zeros,debt,net_points,hight_points
two,1993.0,chaeho,1.7,0.2,1.0,-1.2,1.5,False
three,1994.0,hyeonho,3.6,0.3,2.0,,3.3,True
four,1992.0,gaho,2.4,0.4,3.0,-1.5,2.0,False


In [29]:
#아래 방법을 권장한다.
#.loc 또는 .ilco 함수를 사용하는 방법.
df3.loc['two'] #반환 형태는 Series

year            1993.0
names           chaeho
points             1.7
penalty            0.2
zeros              1.0
debt              -1.2
net_points         1.5
hight_points     False
Name: two, dtype: object

In [30]:
df3.loc['two':'four']

Unnamed: 0,year,names,points,penalty,zeros,debt,net_points,hight_points
two,1993.0,chaeho,1.7,0.2,1.0,-1.2,1.5,False
three,1994.0,hyeonho,3.6,0.3,2.0,,3.3,True
four,1992.0,gaho,2.4,0.4,3.0,-1.5,2.0,False


In [31]:
df3.loc['two':'four','points']#two~four가져오는데 ,'points'만 가져온다.

two      1.7
three    3.6
four     2.4
Name: points, dtype: float64

### [인덱스:인덱스,[인덱스,인덱스]]인덱스\~인덱스 까지 [인덱스~인덱스]에 대한 정보를 가져옴
    columns의 index    rows의 index
       (rows)           (colums)

In [32]:
df3.loc[:,'year'] #==df3['year']

one      1994.0
two      1993.0
three    1994.0
four     1992.0
five     1993.0
six      2013.0
Name: year, dtype: float64

In [33]:
df3.loc[:,['year', 'names']]#0부터 끝까지.

Unnamed: 0,year,names
one,1994.0,kilho
two,1993.0,chaeho
three,1994.0,hyeonho
four,1992.0,gaho
five,1993.0,junho
six,2013.0,mino


In [34]:
df3.loc['three':'five','year':'penalty']

Unnamed: 0,year,names,points,penalty
three,1994.0,hyeonho,3.6,0.3
four,1992.0,gaho,2.4,0.4
five,1993.0,junho,2.9,0.5


In [35]:
df3.loc['two','names']="miyao"
df3

Unnamed: 0,year,names,points,penalty,zeros,debt,net_points,hight_points
one,1994.0,kilho,1.5,0.1,0.0,,1.4,False
two,1993.0,miyao,1.7,0.2,1.0,-1.2,1.5,False
three,1994.0,hyeonho,3.6,0.3,2.0,,3.3,True
four,1992.0,gaho,2.4,0.4,3.0,-1.5,2.0,False
five,1993.0,junho,2.9,0.5,4.0,-1.7,2.4,True
six,2013.0,mino,4.0,0.1,5.0,0.8,0.0,0


In [36]:
df3.index.name='Order'
df3.columns.name="info"

In [37]:
#새로운 행 삽입하기
df3.loc['six',:] = [2013,"mino",4.0,0.1,5,0.8, np.nan, np.nan] #기존의 columns에 해당하는 모든 값을 얺어주어야함
df3###교수님챈스@@

info,year,names,points,penalty,zeros,debt,net_points,hight_points
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
one,1994.0,kilho,1.5,0.1,0.0,,1.4,False
two,1993.0,miyao,1.7,0.2,1.0,-1.2,1.5,False
three,1994.0,hyeonho,3.6,0.3,2.0,,3.3,True
four,1992.0,gaho,2.4,0.4,3.0,-1.5,2.0,False
five,1993.0,junho,2.9,0.5,4.0,-1.7,2.4,True
six,2013.0,mino,4.0,0.1,5.0,0.8,,


In [38]:
df3#위에 있던 net_points와 hight_points에 대한 로직을 실행 시켜주어야 정상 작동.

info,year,names,points,penalty,zeros,debt,net_points,hight_points
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
one,1994.0,kilho,1.5,0.1,0.0,,1.4,False
two,1993.0,miyao,1.7,0.2,1.0,-1.2,1.5,False
three,1994.0,hyeonho,3.6,0.3,2.0,,3.3,True
four,1992.0,gaho,2.4,0.4,3.0,-1.5,2.0,False
five,1993.0,junho,2.9,0.5,4.0,-1.7,2.4,True
six,2013.0,mino,4.0,0.1,5.0,0.8,,


In [39]:
#.iloc 사용:index번호를 사용한다.
df3.iloc[3]#3번째 행을 가져온다.

info
year            1992.0
names             gaho
points             2.4
penalty            0.4
zeros              3.0
debt              -1.5
net_points         2.0
hight_points     False
Name: four, dtype: object

In [40]:
#3번째\~5번째 행에서 0번째~5번째 열을 가져온다
df3.iloc[3:5,0:5]

info,year,names,points,penalty,zeros
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
four,1992.0,gaho,2.4,0.4,3.0
five,1993.0,junho,2.9,0.5,4.0


In [41]:
##0번째 1번째 3번째 행에서 1번째 2번째 열을 가져온다
df3.iloc[[0,1,3],[1,2]]

info,names,points
Order,Unnamed: 1_level_1,Unnamed: 2_level_1
one,kilho,1.5
two,miyao,1.7
four,gaho,2.4


In [42]:
df3.iloc[[2,4,5],[1,3,5]]

info,names,penalty,debt
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
three,hyeonho,0.3,
five,junho,0.5,-1.7
six,mino,0.1,0.8


In [43]:
#1행 1열을 가져온다 (배열은 0번째부터이므로 0행 0열이 첫번째)
df3.iloc[1,1]

'miyao'

### DataFrame에서의 boolean indexing

In [44]:
df3

info,year,names,points,penalty,zeros,debt,net_points,hight_points
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
one,1994.0,kilho,1.5,0.1,0.0,,1.4,False
two,1993.0,miyao,1.7,0.2,1.0,-1.2,1.5,False
three,1994.0,hyeonho,3.6,0.3,2.0,,3.3,True
four,1992.0,gaho,2.4,0.4,3.0,-1.5,2.0,False
five,1993.0,junho,2.9,0.5,4.0,-1.7,2.4,True
six,2013.0,mino,4.0,0.1,5.0,0.8,,


In [45]:
#year가 1993보다 큰 boolean data
df3['net_points'] > 2

Order
one      False
two      False
three     True
four     False
five      True
six      False
Name: net_points, dtype: bool

In [46]:
df3['year']>1993

Order
one       True
two      False
three     True
four     False
five     False
six       True
Name: year, dtype: bool

In [47]:
df3.loc[df3['net_points']>2,:]

info,year,names,points,penalty,zeros,debt,net_points,hight_points
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
three,1994.0,hyeonho,3.6,0.3,2.0,,3.3,True
five,1993.0,junho,2.9,0.5,4.0,-1.7,2.4,True


In [48]:
df3.loc[df3['year']>1993,:]

info,year,names,points,penalty,zeros,debt,net_points,hight_points
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
one,1994.0,kilho,1.5,0.1,0.0,,1.4,False
three,1994.0,hyeonho,3.6,0.3,2.0,,3.3,True
six,2013.0,mino,4.0,0.1,5.0,0.8,,


In [49]:
df3.loc[df3['names']=='mino',['names','points','penalty']]

info,names,points,penalty
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
six,mino,4.0,0.1


In [50]:
#numpy에서와 같이 논리연산을 응용할 수 잇다.
df3.loc[(df3['points']>2)&(df3['points']<4.0),:]

info,year,names,points,penalty,zeros,debt,net_points,hight_points
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
three,1994.0,hyeonho,3.6,0.3,2.0,,3.3,True
four,1992.0,gaho,2.4,0.4,3.0,-1.5,2.0,False
five,1993.0,junho,2.9,0.5,4.0,-1.7,2.4,True


In [51]:
#새로운 값을 대입할 수도 있다.
df3.loc[df3['points']>3,'penalty']=0
df3

info,year,names,points,penalty,zeros,debt,net_points,hight_points
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
one,1994.0,kilho,1.5,0.1,0.0,,1.4,False
two,1993.0,miyao,1.7,0.2,1.0,-1.2,1.5,False
three,1994.0,hyeonho,3.6,0.0,2.0,,3.3,True
four,1992.0,gaho,2.4,0.4,3.0,-1.5,2.0,False
five,1993.0,junho,2.9,0.5,4.0,-1.7,2.4,True
six,2013.0,mino,4.0,0.0,5.0,0.8,,


### Data

In [52]:
#DataFrame을 만들때 index, column을 설정하지 않으면 기본값으로 0부터 시작하는 정수형 숫자로 입력됨
df4=pd.DataFrame(np.random.randn(6,4))
df4

Unnamed: 0,0,1,2,3
0,-0.108346,0.320142,1.079314,0.580064
1,2.093869,-0.483802,0.889111,-0.386967
2,0.550184,-0.922827,0.368164,-2.847038
3,1.17326,-1.220306,-0.253222,0.932102
4,-0.85316,0.167455,0.542193,0.371943
5,-0.351024,-1.343317,-1.445147,0.820281


In [53]:
df4.columns=['A','B','C','D']
df4.index=pd.date_range('20160701',periods=6)
#pandas함수data_range() : datatime자료형으로 구성된 날짜 시각 등을 표기할수있는 자료형을 만드는 함수.
print(df4.index)
df4

DatetimeIndex(['2016-07-01', '2016-07-02', '2016-07-03', '2016-07-04',
               '2016-07-05', '2016-07-06'],
              dtype='datetime64[ns]', freq='D')


Unnamed: 0,A,B,C,D
2016-07-01,-0.108346,0.320142,1.079314,0.580064
2016-07-02,2.093869,-0.483802,0.889111,-0.386967
2016-07-03,0.550184,-0.922827,0.368164,-2.847038
2016-07-04,1.17326,-1.220306,-0.253222,0.932102
2016-07-05,-0.85316,0.167455,0.542193,0.371943
2016-07-06,-0.351024,-1.343317,-1.445147,0.820281


In [54]:
#np.nan은 NaN값을 의미한다.
df4['F']=[1.0, np.nan, 3.5, 6.1, np.nan, 7.0]
df4

Unnamed: 0,A,B,C,D,F
2016-07-01,-0.108346,0.320142,1.079314,0.580064,1.0
2016-07-02,2.093869,-0.483802,0.889111,-0.386967,
2016-07-03,0.550184,-0.922827,0.368164,-2.847038,3.5
2016-07-04,1.17326,-1.220306,-0.253222,0.932102,6.1
2016-07-05,-0.85316,0.167455,0.542193,0.371943,
2016-07-06,-0.351024,-1.343317,-1.445147,0.820281,7.0


In [55]:
#행의 값중 하나라도 nan인 경우 그 행을 없앤다. 
df5=df4.dropna(how='any')
##drop()는 반환해주는거라 기존의 DataFrame은 그대로 남아있다.
df4
#inplace=True

Unnamed: 0,A,B,C,D,F
2016-07-01,-0.108346,0.320142,1.079314,0.580064,1.0
2016-07-02,2.093869,-0.483802,0.889111,-0.386967,
2016-07-03,0.550184,-0.922827,0.368164,-2.847038,3.5
2016-07-04,1.17326,-1.220306,-0.253222,0.932102,6.1
2016-07-05,-0.85316,0.167455,0.542193,0.371943,
2016-07-06,-0.351024,-1.343317,-1.445147,0.820281,7.0


In [56]:
df5

Unnamed: 0,A,B,C,D,F
2016-07-01,-0.108346,0.320142,1.079314,0.580064,1.0
2016-07-03,0.550184,-0.922827,0.368164,-2.847038,3.5
2016-07-04,1.17326,-1.220306,-0.253222,0.932102,6.1
2016-07-06,-0.351024,-1.343317,-1.445147,0.820281,7.0


#### 주의
drop함수는 특정 행 또는 열을 drop하고 난 DataFrame을 반환.

즉, 반환을 받지 않으면 기존의 DataFrame은 그대로 이다.

아니면, inplace=Ture라는 인자를 추가하여,반환을 받지 않고 기존의 DataFrame이 변경되도록 한다.

In [57]:
df4 ##NaN이 지워지지 않고 그대로 있는 기존의 df4

Unnamed: 0,A,B,C,D,F
2016-07-01,-0.108346,0.320142,1.079314,0.580064,1.0
2016-07-02,2.093869,-0.483802,0.889111,-0.386967,
2016-07-03,0.550184,-0.922827,0.368164,-2.847038,3.5
2016-07-04,1.17326,-1.220306,-0.253222,0.932102,6.1
2016-07-05,-0.85316,0.167455,0.542193,0.371943,
2016-07-06,-0.351024,-1.343317,-1.445147,0.820281,7.0


In [58]:
#nan값에 값 넣기
df4.fillna(value=0.5) #fillna()함수 역시 기존의 DataFrame은 그대로이다.

Unnamed: 0,A,B,C,D,F
2016-07-01,-0.108346,0.320142,1.079314,0.580064,1.0
2016-07-02,2.093869,-0.483802,0.889111,-0.386967,0.5
2016-07-03,0.550184,-0.922827,0.368164,-2.847038,3.5
2016-07-04,1.17326,-1.220306,-0.253222,0.932102,6.1
2016-07-05,-0.85316,0.167455,0.542193,0.371943,0.5
2016-07-06,-0.351024,-1.343317,-1.445147,0.820281,7.0


In [59]:
df4

Unnamed: 0,A,B,C,D,F
2016-07-01,-0.108346,0.320142,1.079314,0.580064,1.0
2016-07-02,2.093869,-0.483802,0.889111,-0.386967,
2016-07-03,0.550184,-0.922827,0.368164,-2.847038,3.5
2016-07-04,1.17326,-1.220306,-0.253222,0.932102,6.1
2016-07-05,-0.85316,0.167455,0.542193,0.371943,
2016-07-06,-0.351024,-1.343317,-1.445147,0.820281,7.0


In [60]:
#nan값인지 확인하기
df4.isnull()

Unnamed: 0,A,B,C,D,F
2016-07-01,False,False,False,False,False
2016-07-02,False,False,False,False,True
2016-07-03,False,False,False,False,False
2016-07-04,False,False,False,False,False
2016-07-05,False,False,False,False,True
2016-07-06,False,False,False,False,False


In [61]:
#F열에서 nan값을 포함하는 행만 추출하기
df4.loc[df4.isnull()['F'],:]

Unnamed: 0,A,B,C,D,F
2016-07-02,2.093869,-0.483802,0.889111,-0.386967,
2016-07-05,-0.85316,0.167455,0.542193,0.371943,


In [62]:
pd.to_datetime('20160701')

Timestamp('2016-07-01 00:00:00')

In [63]:
#특정 행 drop하기
df4.drop(pd.to_datetime('20160701'))

Unnamed: 0,A,B,C,D,F
2016-07-02,2.093869,-0.483802,0.889111,-0.386967,
2016-07-03,0.550184,-0.922827,0.368164,-2.847038,3.5
2016-07-04,1.17326,-1.220306,-0.253222,0.932102,6.1
2016-07-05,-0.85316,0.167455,0.542193,0.371943,
2016-07-06,-0.351024,-1.343317,-1.445147,0.820281,7.0


In [64]:
#2개이상도 가능
df4.drop([pd.to_datetime('20160702'),pd.to_datetime('20160705')])

Unnamed: 0,A,B,C,D,F
2016-07-01,-0.108346,0.320142,1.079314,0.580064,1.0
2016-07-03,0.550184,-0.922827,0.368164,-2.847038,3.5
2016-07-04,1.17326,-1.220306,-0.253222,0.932102,6.1
2016-07-06,-0.351024,-1.343317,-1.445147,0.820281,7.0


In [65]:
#특정 열 삭제하기
df4.drop('F',axis=1)

Unnamed: 0,A,B,C,D
2016-07-01,-0.108346,0.320142,1.079314,0.580064
2016-07-02,2.093869,-0.483802,0.889111,-0.386967
2016-07-03,0.550184,-0.922827,0.368164,-2.847038
2016-07-04,1.17326,-1.220306,-0.253222,0.932102
2016-07-05,-0.85316,0.167455,0.542193,0.371943
2016-07-06,-0.351024,-1.343317,-1.445147,0.820281


#### axis?
① aixs=0(index)은 행을 따라 동작합니다. 각 컬럼의 모든 행에 대해서 작용합니다
 
② aixs=1(columns)은 열을 따라 동작합니다. 각 행의 모든 컬럼에 대해서 작동합니다.

In [66]:
#두개 이상의 열도 가능
df4.drop(['B','D'], axis=1)

Unnamed: 0,A,C,F
2016-07-01,-0.108346,1.079314,1.0
2016-07-02,2.093869,0.889111,
2016-07-03,0.550184,0.368164,3.5
2016-07-04,1.17326,-0.253222,6.1
2016-07-05,-0.85316,0.542193,
2016-07-06,-0.351024,-1.445147,7.0


#### 6. Data 분석용 함수들
axis 활용

In [67]:
data = [[1.4,np.nan],
       [7.1,-4.5],
       [np.nan,np.nan],
       [0.75,-1.3]]
df6=pd.DataFrame(data,columns=["one","two"],index=["a","b","c","d"])
df6

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [68]:
#행방향으로의 합(즉, 각 열의 합)
df6.sum(axis=0)

one    9.25
two   -5.80
dtype: float64

In [69]:
#열방향으로의 합(즉, 각 행의 합)
df6.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

###### NaN값은 배제하고 계산
배제하지 않고 계산하려면 아래와 같이 skipna에 대해 false를 지정

In [70]:
df6.sum(axis=1, skipna=False) ##NaN이 포함될경우 NaN으로 출력.

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

In [71]:
#특정 행 또는 특정 열에서만 계산하기
print(df6['one'].sum())
print(df6.loc['b'].sum())

9.25
2.5999999999999996


#### pandas에서 DataFrame에 적용되는 함수들
sum() 함수 이외에도 pandas에서 DataFrame에 적용되는 함수는 다음의 것들이 있다.

count 전체 성분의 (NaN이 아닌/제외하고) 값의 갯수를 계산

min, max 전체 성분의 최솟, 최댓값을 계산

argmin, argmax 전체 성분의 최솟값, 최댓값이 위치한 (정수)인덱스를 반환

idxmin, idxmax 전체 인덱스 중 최솟값, 최댓값을 반환

quantile 전체 성분의 특정 사분위수에 해당하는 값을 반환 (0~1 사이)

sum 전체 성분의 합을 계산

mean 전체 성분의 평균을 계산

median 전체 성분의 중간값을 반환

mad 전체 성분의 평균값으로부터의 절대 편차(absolute deviation)의 평균을 계산

std, var 전체 성분의 표준편차, 분산을 계산

cumsum 맨 첫 번째 성분부터 각 성분까지의 누적합을 계산 (0에서부터 계속 더해짐)

cumprod 맨 첫번째 성분부터 각 성분까지의 누적곱을 계산 (1에서부터 계속 곱해짐)

In [72]:
df6

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [73]:
df6.min() #최소값

one    0.75
two   -4.50
dtype: float64

In [74]:
print(df6.loc['a'].max()) #최대값
df6.max()

1.4


one    7.1
two   -1.3
dtype: float64

In [75]:
df6.count() #NaN을 제외한 성분의 개수

one    3
two    2
dtype: int64

In [76]:
df6['one'].argmin() #최솟값이 위치한 인덱스(정수로) 반환

3

In [77]:
df6['two'].argmax() #최댓값이 위치한 인덱스 반환

3

In [78]:
df6.idxmin() #전체 인덱스중 최솟값을 반환

one    d
two    b
dtype: object

In [79]:
df6.idxmax() #전체 인덱스중 최댓값을 반환

one    b
two    d
dtype: object

In [80]:
df6.quantile() #전체 성분의 특정 사분위수에 해당하는 값을 반환(0~1사이)

one    1.4
two   -2.9
Name: 0.5, dtype: float64

##### 사분위수 : 
자료를 크기 순으로 배열하고, 누적 백분율을 4 등분한 각 점에 해당하는 값을 말한다. 

제1사분위수는 누적 백분율이 25%에 해당하는 점수이고, 

제2사분위수는 누적 백분율이 50%, 

제3사분위수는 75%, 

제4사분위수는 100%에 해당하는 점수이다.


In [81]:
df6.sum() #전체 성분의 합을 계산

one    9.25
two   -5.80
dtype: float64

In [82]:
df6.mean() #전체 성분의 평균을 계산

one    3.083333
two   -2.900000
dtype: float64

In [83]:
df6.median() #전체 성분의 중간값을 반환

one    1.4
two   -2.9
dtype: float64

In [84]:
df6

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [85]:
df6.mad() #성분의 평균값으로부터의 절대편차의 평균을 계산

one    2.677778
two    1.600000
dtype: float64

#### 편차
편차는 자료값 또는 변량과 평균의 차이를 나타내는 수치이다. 편차를 살펴보면 자료들이 평균을 중심으로 얼마나 퍼져 있는지를 알 수 있다.

자료값이 평균보다 크면 편차는 양의 값을, 평균보다 작으면 음의 값을 갖는다. 편차의 크기는 차이의 크기를 나타낸다.

편차의 절댓값은 절대편차, 편차의 제곱은 제곱편차라고 한다.

In [86]:
df6.std() #전체성분의 표준편차

one    3.493685
two    2.262742
dtype: float64

#### 표준편차 : 자료가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 대표적인 수치

In [87]:
df6.var() #전체 성분의 분산

one    12.205833
two     5.120000
dtype: float64

#### 분산 : 분산이란 변수의 흩어진 정도를 계산하는 지표이다

In [88]:
df6.cumsum()#첫번째 성분부터 각 성분까지의 누적합을 계산 (0부터 시작)

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [89]:
df6.cumprod()#첫번째 성분부터 각 성분까지의 누적곱을 계산(1부터 시작)

Unnamed: 0,one,two
a,1.4,
b,9.94,-4.5
c,,
d,7.455,5.85


In [90]:
df7=pd.DataFrame(np.random.randn(6,4),columns=['A','B','C','D'],index=pd.date_range("20160701",periods=6))
df7                                                                  #pd.date_range("시계열형태"부터 periods="시작일 포함 몇일")

Unnamed: 0,A,B,C,D
2016-07-01,-0.563441,1.129752,0.21186,1.619142
2016-07-02,0.474687,-1.564357,-0.584922,-1.136708
2016-07-03,2.200475,-0.239388,-0.100124,-0.955532
2016-07-04,-0.452786,0.256233,0.297131,1.659575
2016-07-05,1.027364,-0.080136,0.143622,-1.191923
2016-07-06,0.309722,0.061851,0.299368,-0.757101


random : https://yang-wistory1009.tistory.com/95

* np.random.rand()
0부터 1 사이에서 균일한 확률 분포로 실수 난수를 생성합니다. (random.random()과 동일해요.)

* np.random.rand(p)
0부터 1사이 균일 분포 난수 n개 배열 생성

* np.random.rand(p, q)
0부터 1사이 균일 분포 난수를 matrix array(p, q)로 생성
* np.random.randn()
randn은 기댓값이 0이고, 표준편차가 1인 가우시안 표준 정규 분포를 따르는 난수를 생성합니다. 

 -가우시안 표준 정규 분포 : 종모양이 나오는 분포도를 가지는 것을 의미함
 \<ex>┐
![image.png](attachment:image.png)

In [91]:
#A열과 B열의 상관계수 구하기 상관계수 : 연속형 변수 간의 연관성에 대한 측도.
df7['A'].corr(df7['B'])

-0.41689111763431985

In [92]:
#B열과 C열의 공분산 구하기 공분산 : 두 변수(變數)의 관계를 나타내는 양(量)을 말한다.
df7['B'].cov(df7['C'])

0.25617708153520874

#### 정렬함수 및 기타함수

In [93]:
dates=df7.index #인덱스를 뽑아오고
dates

DatetimeIndex(['2016-07-01', '2016-07-02', '2016-07-03', '2016-07-04',
               '2016-07-05', '2016-07-06'],
              dtype='datetime64[ns]', freq='D')

In [94]:
random_dates=np.random.permutation(dates) #인덱스를 섞는 과정
random_dates

array(['2016-07-06T00:00:00.000000000', '2016-07-04T00:00:00.000000000',
       '2016-07-01T00:00:00.000000000', '2016-07-03T00:00:00.000000000',
       '2016-07-05T00:00:00.000000000', '2016-07-02T00:00:00.000000000'],
      dtype='datetime64[ns]')

In [95]:
df7=df7.reindex(index=random_dates,columns=["D",'B','C',"A"])
df7

Unnamed: 0,D,B,C,A
2016-07-06,-0.757101,0.061851,0.299368,0.309722
2016-07-04,1.659575,0.256233,0.297131,-0.452786
2016-07-01,1.619142,1.129752,0.21186,-0.563441
2016-07-03,-0.955532,-0.239388,-0.100124,2.200475
2016-07-05,-1.191923,-0.080136,0.143622,1.027364
2016-07-02,-1.136708,-1.564357,-0.584922,0.474687


In [96]:
#index를 오름차순으로 정렬
df7.sort_index(axis=0)

Unnamed: 0,D,B,C,A
2016-07-01,1.619142,1.129752,0.21186,-0.563441
2016-07-02,-1.136708,-1.564357,-0.584922,0.474687
2016-07-03,-0.955532,-0.239388,-0.100124,2.200475
2016-07-04,1.659575,0.256233,0.297131,-0.452786
2016-07-05,-1.191923,-0.080136,0.143622,1.027364
2016-07-06,-0.757101,0.061851,0.299368,0.309722


In [97]:
#column기준
df7.sort_index(axis=1)

Unnamed: 0,A,B,C,D
2016-07-06,0.309722,0.061851,0.299368,-0.757101
2016-07-04,-0.452786,0.256233,0.297131,1.659575
2016-07-01,-0.563441,1.129752,0.21186,1.619142
2016-07-03,2.200475,-0.239388,-0.100124,-0.955532
2016-07-05,1.027364,-0.080136,0.143622,-1.191923
2016-07-02,0.474687,-1.564357,-0.584922,-1.136708


In [98]:
#내림차순
df7.sort_index(axis=1,ascending=False)

Unnamed: 0,D,C,B,A
2016-07-06,-0.757101,0.299368,0.061851,0.309722
2016-07-04,1.659575,0.297131,0.256233,-0.452786
2016-07-01,1.619142,0.21186,1.129752,-0.563441
2016-07-03,-0.955532,-0.100124,-0.239388,2.200475
2016-07-05,-1.191923,0.143622,-0.080136,1.027364
2016-07-02,-1.136708,-0.584922,-1.564357,0.474687


In [99]:
#값 기준 정렬하기
#D열의 값이 오름차순이 되도록 정렬하기
df7.sort_values(by='D')

Unnamed: 0,D,B,C,A
2016-07-05,-1.191923,-0.080136,0.143622,1.027364
2016-07-02,-1.136708,-1.564357,-0.584922,0.474687
2016-07-03,-0.955532,-0.239388,-0.100124,2.200475
2016-07-06,-0.757101,0.061851,0.299368,0.309722
2016-07-01,1.619142,1.129752,0.21186,-0.563441
2016-07-04,1.659575,0.256233,0.297131,-0.452786


In [100]:
#B열의 값이 내림차순이 되도록 정렬하기
df7.sort_values(by="B",ascending=False) ##오름차순은 ascending=true << 기본값.

Unnamed: 0,D,B,C,A
2016-07-01,1.619142,1.129752,0.21186,-0.563441
2016-07-04,1.659575,0.256233,0.297131,-0.452786
2016-07-06,-0.757101,0.061851,0.299368,0.309722
2016-07-05,-1.191923,-0.080136,0.143622,1.027364
2016-07-03,-0.955532,-0.239388,-0.100124,2.200475
2016-07-02,-1.136708,-1.564357,-0.584922,0.474687


In [101]:
df7["E"]=np.random.randint(0,6,size=6)
df7["F"]=["alpha", "beta", "gamma","gamma","alpha","gamma"]
df7

Unnamed: 0,D,B,C,A,E,F
2016-07-06,-0.757101,0.061851,0.299368,0.309722,5,alpha
2016-07-04,1.659575,0.256233,0.297131,-0.452786,3,beta
2016-07-01,1.619142,1.129752,0.21186,-0.563441,3,gamma
2016-07-03,-0.955532,-0.239388,-0.100124,2.200475,0,gamma
2016-07-05,-1.191923,-0.080136,0.143622,1.027364,5,alpha
2016-07-02,-1.136708,-1.564357,-0.584922,0.474687,5,gamma


In [102]:
#E열과 F열을 동시에 고려하여, 오름차순으로 하려면?
df7.sort_values(by=["E","F"])

Unnamed: 0,D,B,C,A,E,F
2016-07-03,-0.955532,-0.239388,-0.100124,2.200475,0,gamma
2016-07-04,1.659575,0.256233,0.297131,-0.452786,3,beta
2016-07-01,1.619142,1.129752,0.21186,-0.563441,3,gamma
2016-07-06,-0.757101,0.061851,0.299368,0.309722,5,alpha
2016-07-05,-1.191923,-0.080136,0.143622,1.027364,5,alpha
2016-07-02,-1.136708,-1.564357,-0.584922,0.474687,5,gamma


In [103]:
df7.sort_values(by=["F","E"])

Unnamed: 0,D,B,C,A,E,F
2016-07-06,-0.757101,0.061851,0.299368,0.309722,5,alpha
2016-07-05,-1.191923,-0.080136,0.143622,1.027364,5,alpha
2016-07-04,1.659575,0.256233,0.297131,-0.452786,3,beta
2016-07-03,-0.955532,-0.239388,-0.100124,2.200475,0,gamma
2016-07-01,1.619142,1.129752,0.21186,-0.563441,3,gamma
2016-07-02,-1.136708,-1.564357,-0.584922,0.474687,5,gamma


In [104]:
#지정한 행 또는 열에서 중복값을 제외한 유니크한 값만 얻기
df7["F"].unique()

array(['alpha', 'beta', 'gamma'], dtype=object)

In [105]:
#지정한 행 또는 열에서 값에 따른 개수 얻기
df7["F"].value_counts()

gamma    3
alpha    2
beta     1
Name: F, dtype: int64

In [114]:
df7.loc["20160701"].value_counts()

D         B         C        A          E  F    
1.619142  1.129752  0.21186  -0.563441  3  gamma    1
dtype: int64

In [110]:
#지정한 행 또는 열에서 입력한 값이 있는지 확인하기
df7["F"].isin(["alpha","beta"]) #alpha 와 beta의 값이 있는가
#아래와 같이 응용가능

2016-07-06     True
2016-07-04     True
2016-07-01    False
2016-07-03    False
2016-07-05     True
2016-07-02    False
Name: F, dtype: bool

In [117]:
#F열의 값이 alpha나 beta인 모든 행 구하기
df7.loc[df7["F"].isin(['alpha','beta']),:]

Unnamed: 0,D,B,C,A,E,F
2016-07-06,-0.757101,0.061851,0.299368,0.309722,5,alpha
2016-07-04,1.659575,0.256233,0.297131,-0.452786,3,beta
2016-07-05,-1.191923,-0.080136,0.143622,1.027364,5,alpha


##### 사용자가 직접 만든 함수를 적용하기

In [120]:
df8=pd.DataFrame(np.random.randn(4,3),
                 columns=['a','b','c'],
                 index=["seoul",'incheon','busan','daegu'])
df8

Unnamed: 0,a,b,c
seoul,-0.578072,0.511563,-0.366825
incheon,0.648775,0.582663,-0.520253
busan,2.231189,-1.502905,-0.308888
daegu,-0.019078,-0.819806,-0.366034


In [125]:
func= lambda x : x.max()-x.min() #쓰는 모양 기억해두기.

In [126]:
df8.apply(func,axis=0)

a    2.809261
b    2.085568
c    0.211365
dtype: float64