# Pandas : 데이터 분석 기능을 제공하는 라이브러리.  
- 예를 들면, CSV파일 등의 데이터를 읽고 원하는 데이터 형식으로 변환해줌

**Pandas 자료구조**  
- Series, DataFrame
- Series는 일차원 배열 같은 자료구조

In [1]:
import pandas as pd

obj = pd.Series(['a','b','c','d'])
print(obj)
print(obj.index)
print(obj.values)

0    a
1    b
2    c
3    d
dtype: object
RangeIndex(start=0, stop=4, step=1)
['a' 'b' 'c' 'd']


In [2]:
obj2 = pd.Series([1,2,3,4],index=['c','ddd','e','f'])

print(obj2)

c      1
ddd    2
e      3
f      4
dtype: int64


In [3]:
obj2['c']

1

In [4]:
obj2[['e','c']]

e    3
c    1
dtype: int64

In [5]:
obj2*2

c      2
ddd    4
e      6
f      8
dtype: int64

In [6]:
'c' in obj2

True

In [7]:
2 in obj2.values

True

In [8]:
import numpy as np
data = [1,2,3,4,5,6,6,7,9]
obj3 = pd.Series(data,index = np.arange(len(data)))
print(obj3)

0    1
1    2
2    3
3    4
4    5
5    6
6    6
7    7
8    9
dtype: int64


In [9]:
dic={
    'Kim':3400,
    'Hong':2000,
    'Lee':2400,
    'Kang':1000,    
}
a = pd.Series(dic)
print(a)

Kim     3400
Hong    2000
Lee     2400
Kang    1000
dtype: int64


In [10]:
a['Ha']=4333
print(a) #파이썬 딕셔너리를 그대로 대체해서 쓸수있음

Kim     3400
Hong    2000
Lee     2400
Kang    1000
Ha      4333
dtype: int64


In [11]:
dictt ={
    'My':[1,2,3,45],
    'ss':[],
    'Hey':'4444',
    2:'Hi',
    'hh':[5,67,3,4,2],
}
pd.Series(dictt)

My        [1, 2, 3, 45]
ss                   []
Hey                4444
2                    Hi
hh     [5, 67, 3, 4, 2]
dtype: object

In [12]:
dic={
    'Kim':3400,
    'Hong':2000,
    'Lee':2400,
    'Kang':1000,    
}
a = pd.Series(dic,index=['Kim','Woo','Kang'])
#딕셔너리를 데이터로 넣고 인덱스를 주면 key값에 맞는 value가 나오고, 없으면 Nan
print(a)

Kim     3400.0
Woo        NaN
Kang    1000.0
dtype: float64


In [13]:
#누락된 데이터를 찾을 때 사용하는 함수 isnull,notnull
print(pd.isnull(a),end='\n\n')
print(pd.notnull(a),end='\n\n')
print(~pd.isnull(a),end='\n\n')
print(pd.isnull(a)==0,end='\n\n')

Kim     False
Woo      True
Kang    False
dtype: bool

Kim      True
Woo     False
Kang     True
dtype: bool

Kim      True
Woo     False
Kang     True
dtype: bool

Kim      True
Woo     False
Kang     True
dtype: bool



In [14]:
import pandas as pd

data = {
    'Seoul':4000,
    'Busan':2000,
    'Incheon':1500,
    'Kwangju':1000
}

obj = pd.Series(data)
print(obj)

#인덱스 바꾸기
cities = ['Seoul','Incheon','Kwangju','Daegu',]
obj2 = pd.Series(data,index=cities) 
print(obj2)

#두개 더하면?
print(obj+obj2) #있는 놈들은 더해지고 부산은 2000+NaN이므로 NaN 리턴

Seoul      4000
Busan      2000
Incheon    1500
Kwangju    1000
dtype: int64
Seoul      4000.0
Incheon    1500.0
Kwangju    1000.0
Daegu         NaN
dtype: float64
Busan         NaN
Daegu         NaN
Incheon    3000.0
Kwangju    2000.0
Seoul      8000.0
dtype: float64


Series 객체와 색인(index)은 모두 name이라는 속성이 있다.

In [15]:
obj2.name="인구수"
print(obj2)

Seoul      4000.0
Incheon    1500.0
Kwangju    1000.0
Daegu         NaN
Name: 인구수, dtype: float64


In [16]:
obj2.index.name="도시"
print(obj2)

도시
Seoul      4000.0
Incheon    1500.0
Kwangju    1000.0
Daegu         NaN
Name: 인구수, dtype: float64


In [17]:
# 인덱스 그냥 바꿀수도 있음
obj2.index=['Daejeon','Busan','Seoul','Jeju']
print(obj2)

Daejeon    4000.0
Busan      1500.0
Seoul      1000.0
Jeju          NaN
Name: 인구수, dtype: float64


# 데이터 프레임  
- DataFrame은 2차원 리스트(2차원 배열) 같은 자료구조  
- R언어 data.frame과 비슷하다.

In [18]:
a = pd.DataFrame([
    [1,2,3],
    [4,5,6],
    [7,8,9]
])
print(a)

   0  1  2
0  1  2  3
1  4  5  6
2  7  8  9


In [19]:
#사전형식으로도 사용할수 있음
data = {
    'city':['Seoul','Busan','광주','대구'],
    'year':[2000,2001,2002,2001,],
    'Pop':[4000,2000,1000,1000]
}

a = pd.DataFrame(data)
a

Unnamed: 0,city,year,Pop
0,Seoul,2000,4000
1,Busan,2001,2000
2,광주,2002,1000
3,대구,2001,1000


In [20]:
#순서 지정해줄수도 있음
a = pd.DataFrame(data, columns=['year','city','Pop'])
a

Unnamed: 0,year,city,Pop
0,2000,Seoul,4000
1,2001,Busan,2000
2,2002,광주,1000
3,2001,대구,1000


In [21]:
a = pd.DataFrame(data, columns=sorted(data.keys()))
a

Unnamed: 0,Pop,city,year
0,4000,Seoul,2000
1,2000,Busan,2001
2,1000,광주,2002
3,1000,대구,2001


In [22]:
# 없는 콜럼 넣으면 NaN으로 나옴
df = pd.DataFrame(data,columns=['year','city','Pop','debt'],index=['일','이','삼','사'])#range(1,5))
df

Unnamed: 0,year,city,Pop,debt
일,2000,Seoul,4000,
이,2001,Busan,2000,
삼,2002,광주,1000,
사,2001,대구,1000,


In [23]:
#요소 선택가능
df[['city','year',]]

Unnamed: 0,city,year
일,Seoul,2000
이,Busan,2001
삼,광주,2002
사,대구,2001


In [24]:
#컬럼,인덱스만 떼오기
print(df.columns)
print(df.index)

Index(['year', 'city', 'Pop', 'debt'], dtype='object')
Index(['일', '이', '삼', '사'], dtype='object')


In [25]:
df[' gk']=[1,3,4,5]
df

Unnamed: 0,year,city,Pop,debt,gk
일,2000,Seoul,4000,,1
이,2001,Busan,2000,,3
삼,2002,광주,1000,,4
사,2001,대구,1000,,5


In [26]:
#인덱스 기준으로 가져올때는?
#df.loc['일','year']
print(df.ix['일']) #ix : 행의 위치 접근할 때 사용하는 메소드
# 색인을 name속성의 값으로 할당한다.

year     2000
city    Seoul
Pop      4000
debt      NaN
 gk         1
Name: 일, dtype: object


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  This is separate from the ipykernel package so we can avoid doing imports until


In [27]:
#모든 행, 열 초기화
df['debt']=100
print(df)
df.loc['일'] = 1
print(df)

   year   city   Pop  debt   gk
일  2000  Seoul  4000   100    1
이  2001  Busan  2000   100    3
삼  2002     광주  1000   100    4
사  2001     대구  1000   100    5
   year   city   Pop  debt   gk
일     1      1     1     1    1
이  2001  Busan  2000   100    3
삼  2002     광주  1000   100    4
사  2001     대구  1000   100    5


In [28]:
import numpy as np

df['debt'] = np.arange(4.)
print(df)
df['debt'] = np.zeros(4)
print(df)

   year   city   Pop  debt   gk
일     1      1     1   0.0    1
이  2001  Busan  2000   1.0    3
삼  2002     광주  1000   2.0    4
사  2001     대구  1000   3.0    5
   year   city   Pop  debt   gk
일     1      1     1   0.0    1
이  2001  Busan  2000   0.0    3
삼  2002     광주  1000   0.0    4
사  2001     대구  1000   0.0    5


In [29]:
df.shape

(4, 5)

In [30]:
#Series 로 넣어줄수도 있는데 인덱스 맞춰줘야함
val = pd.Series([1000,2000,3000,4000],index=['일','이','삼','사'])
df['debt']=val
print(df)

#인덱스 안맞으면 NaN
val = pd.Series([1000,2000,3000,4000],index=['일','이','삼','오'])
df['debt']=val
print(df)

   year   city   Pop  debt   gk
일     1      1     1  1000    1
이  2001  Busan  2000  2000    3
삼  2002     광주  1000  3000    4
사  2001     대구  1000  4000    5
   year   city   Pop    debt   gk
일     1      1     1  1000.0    1
이  2001  Busan  2000  2000.0    3
삼  2002     광주  1000  3000.0    4
사  2001     대구  1000     NaN    5


In [31]:
# 불린 처리도 가능
df['aa'] = df.city == '대구'
df

Unnamed: 0,year,city,Pop,debt,gk,aa
일,1,1,1,1000.0,1,False
이,2001,Busan,2000,2000.0,3,False
삼,2002,광주,1000,3000.0,4,False
사,2001,대구,1000,,5,True


In [32]:
#지울땐 del
del df[' gk']
df

Unnamed: 0,year,city,Pop,debt,aa
일,1,1,1,1000.0,False
이,2001,Busan,2000,2000.0,False
삼,2002,광주,1000,3000.0,False
사,2001,대구,1000,,True


In [33]:
df.transpose()

Unnamed: 0,일,이,삼,사
year,1,2001,2002,2001
city,1,Busan,광주,대구
Pop,1,2000,1000,1000
debt,1000,2000,3000,
aa,False,False,False,True


In [34]:
#키에 사전을 넣으면?
data = {
    'seoul':{2001:20,2002:30},
    'busan':{200:5454}
}
df3 = pd.DataFrame(data)
df3

Unnamed: 0,seoul,busan
200,,5454.0
2001,20.0,
2002,30.0,


In [35]:
'''
daf = {
    'a':[i for i in range(1,21)],
    'b':[i for i in range(1,41,2)]
}
dff = pd.DataFrame(daf)
dff'''

"\ndaf = {\n    'a':[i for i in range(1,21)],\n    'b':[i for i in range(1,41,2)]\n}\ndff = pd.DataFrame(daf)\ndff"

In [36]:
'''
start = list(dff['a']>10).index(True)
end = list(dff['b']<29).index(False)
a = dff.iloc[start:end]
a.index = range(1,len(a)+1)
'''

"\nstart = list(dff['a']>10).index(True)\nend = list(dff['b']<29).index(False)\na = dff.iloc[start:end]\na.index = range(1,len(a)+1)\n"

In [37]:
import pandas as pd

data = [
    [1,2,3],
    [1,2,3],
    [1,2,3]
]
df = pd.DataFrame(data, index=['가','나','다'])
print(df)
print(df.T)

   0  1  2
가  1  2  3
나  1  2  3
다  1  2  3
   가  나  다
0  1  1  1
1  2  2  2
2  3  3  3


In [38]:
df.values # 저장된 데이터를 2차원 배열로 리턴한다.

array([[1, 2, 3],
       [1, 2, 3],
       [1, 2, 3]], dtype=int64)

**색인 (index) 객체**  
- pandas의 색인 객체는 표현식의 데이터에서 각 행과 열에 대한 헤더(이름)와 다른 메타데이터(축의 이름)을 저장하는 객체
- Series나 DataFrame객체를 생성할 때 사용되는 배열이나 또는 순차적인 이름은 내부적으로 색인으로 변환된다.

In [39]:
import pandas as pd
import numpy as np

obj = pd.Series(range(3),index = ['a','b','c'])
print(obj)

a    0
b    1
c    2
dtype: int64


In [40]:
idx = obj.index
print(idx)
print(idx[1]) #이렇게 하나씩 받을수도 있음

#슬라이싱을 하고싶다면
print(idx[1:])
print(obj[1:])


#인덱스를 바꾸고 싶다면
print('------------')
#idx[1] = 'd' #이렇게 대입은 안됨
#print(idx)

# 색인 객체는 변경할수 없다!!!!

Index(['a', 'b', 'c'], dtype='object')
b
Index(['b', 'c'], dtype='object')
b    1
c    2
dtype: int64
------------


**↑↑ Series에서 색인 객체는 변경할 수 없다.**  

---

In [41]:
#인덱스 객체 생성가능
index2 = pd.Index(np.arange(3))
print(index2)

Int64Index([0, 1, 2], dtype='int64')


**재색인 (reindex)** : 새로운 색인에 맞도록 객체를 새로 생성하는 기능

In [42]:
obj = pd.Series([2.3,4.2,-4.1,3.5],index=['d','b','a','c'])
print(obj)

d    2.3
b    4.2
a   -4.1
c    3.5
dtype: float64


In [43]:
obj2 = obj.reindex(['a','b','c','d','e'])
print(obj2)

a   -4.1
b    4.2
c    3.5
d    2.3
e    NaN
dtype: float64


**Index 갯수가 처음과 다르더라도 같은 부분의 데이터만 긁어오고 나머지는 Nan으로 객체 만듦**

In [44]:
obj3 = obj.reindex(['a','b','c','c','e','f'],fill_value=0.0)
print(obj3)

a   -4.1
b    4.2
c    3.5
c    3.5
e    0.0
f    0.0
dtype: float64


In [45]:
obj4 = pd.Series(['blue','red','yellow'],index=[0,2,4])
print(obj4,end='\n-----------------')
obj4.reindex(range(8),method='ffill') #method에 ffill 옵션을 주면 없는 인덱스에 앞에 값을 땡겨놓을수 있음(보간법)

0      blue
2       red
4    yellow
dtype: object
-----------------

0      blue
1      blue
2       red
3       red
4    yellow
5    yellow
6    yellow
7    yellow
dtype: object

**빈 곳을 어떻게 채울지 지정해줄수도 있음**

In [46]:
np.full([5,5],np.NaN)

array([[nan, nan, nan, nan, nan],
       [nan, nan, nan, nan, nan],
       [nan, nan, nan, nan, nan],
       [nan, nan, nan, nan, nan],
       [nan, nan, nan, nan, nan]])

---
**DataFrame에서는??**

In [47]:
df = pd.DataFrame(np.arange(9).reshape(3,3),index=['a','b','d'],columns=['x','y','z'])
print(df)

   x  y  z
a  0  1  2
b  3  4  5
d  6  7  8


In [48]:
df2 = df.reindex(['a','b','c','d'])
print(df2)

     x    y    z
a  0.0  1.0  2.0
b  3.0  4.0  5.0
c  NaN  NaN  NaN
d  6.0  7.0  8.0


**DF에서도 기본적으로 Nan**  
열도 변경가능

In [49]:
col = ['w','m','n']
df2.reindex(columns=col)

Unnamed: 0,w,m,n
a,,,
b,,,
c,,,
d,,,


---


In [54]:
import pandas as pd

df = pd.DataFrame(np.arange(9).reshape(3,3),index=['a','b','d'],columns=['x','y','z'])
col = ['w','x','y','z']
df3 = df.reindex(index=['a','b','c','d'],columns = col) #method = 'ffill', 
# 보간을 했는데 열도 비어있으면 어떻게 처리될까??
print('보간 하기전\n',df3,end='\n\n')
df3 = df.reindex(index=['a','b','c','d'],method = 'ffill',columns = col) 
print('보간 후\n',df3)

보간 하기전
     w    x    y    z
a NaN  0.0  1.0  2.0
b NaN  3.0  4.0  5.0
c NaN  NaN  NaN  NaN
d NaN  6.0  7.0  8.0

보간 후
     w  x  y  z
a NaN  0  1  2
b NaN  3  4  5
c NaN  3  4  5
d NaN  6  7  8


***↑행만 보간 됨***  
- 데이터프레임에서 보간은 row에 대해서만 이루어진다.(axis=0)  
---

In [59]:
#재색인은 ix을 이용해서 처리할 수도 있다.
df4 = df.loc[['a','b','c','d'],col] #df.ix[['a','b','c','d'],col] #비교적 간단함
print(df4)

    w    x    y    z
a NaN  0.0  1.0  2.0
b NaN  3.0  4.0  5.0
c NaN  NaN  NaN  NaN
d NaN  6.0  7.0  8.0


Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  


## 데이터 삭제하기

In [68]:
obj = pd.Series(np.arange(5),index = ['a','b','c','d','e'],dtype=np.int32)
print(obj)
obj2 = obj.drop('c') #인덱스 기준으로 지우기
print(obj2)

a    0
b    1
c    2
d    3
e    4
dtype: int32
a    0
b    1
d    3
e    4
dtype: int32


In [73]:
obj3 = obj.drop(['b','d']) #두개 지우기
print(obj3)

a    0
c    2
e    4
dtype: int32


---  
DataFrame의 경우

In [81]:
df = pd.DataFrame(np.arange(16).reshape(4,4),index = ['Seoul','Busan','Daegu','Incheon'],columns = ['one','two','three','four'])
print(df)

         one  two  three  four
Seoul      0    1      2     3
Busan      4    5      6     7
Daegu      8    9     10    11
Incheon   12   13     14    15


In [87]:
new_df = df.drop(['Seoul','Busan'])
print(new_df)

         one  two  three  four
Daegu      8    9     10    11
Incheon   12   13     14    15


In [94]:
#열기준으로 지우기
df.drop('one',axis=1)

Unnamed: 0,two,three,four
Seoul,1,2,3
Busan,5,6,7
Daegu,9,10,11
Incheon,13,14,15


In [92]:
np.arange(9).reshape(3,3)#.sum(axis=0)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [93]:
np.arange(9).reshape(3,3).sum(axis=0)

array([ 9, 12, 15])

---
슬라이싱 (Slicing)

In [101]:
obj = pd.Series(np.arange(4.),index = ['a','b','c','d'])
print(obj)
print(obj['b':'c'])

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64
b    1.0
c    2.0
dtype: float64
