# Pandas : 데이터 분석 기능을 제공하는 라이브러리.  
- 예를 들면, CSV파일 등의 데이터를 읽고 원하는 데이터 형식으로 변환해줌

**Pandas 자료구조**  
- Series, DataFrame
- Series는 일차원 배열 같은 자료구조

In [1]:
import pandas as pd

obj = pd.Series(['a','b','c','d'])
print(obj)
print(obj.index)
print(obj.values)

0    a
1    b
2    c
3    d
dtype: object
RangeIndex(start=0, stop=4, step=1)
['a' 'b' 'c' 'd']


In [2]:
obj2 = pd.Series([1,2,3,4],index=['c','ddd','e','f'])

print(obj2)

c      1
ddd    2
e      3
f      4
dtype: int64


In [3]:
obj2['c']

1

In [4]:
obj2[['e','c']]

e    3
c    1
dtype: int64

In [5]:
obj2*2

c      2
ddd    4
e      6
f      8
dtype: int64

In [6]:
'c' in obj2

True

In [7]:
2 in obj2.values

True

In [8]:
import numpy as np
data = [1,2,3,4,5,6,6,7,9]
obj3 = pd.Series(data,index = np.arange(len(data)))
print(obj3)

0    1
1    2
2    3
3    4
4    5
5    6
6    6
7    7
8    9
dtype: int64


In [9]:
dic={
    'Kim':3400,
    'Hong':2000,
    'Lee':2400,
    'Kang':1000,    
}
a = pd.Series(dic)
print(a)

Kim     3400
Hong    2000
Lee     2400
Kang    1000
dtype: int64


In [10]:
a['Ha']=4333
print(a) #파이썬 딕셔너리를 그대로 대체해서 쓸수있음

Kim     3400
Hong    2000
Lee     2400
Kang    1000
Ha      4333
dtype: int64


In [11]:
dictt ={
    'My':[1,2,3,45],
    'ss':[],
    'Hey':'4444',
    2:'Hi',
    'hh':[5,67,3,4,2],
}
pd.Series(dictt)

My        [1, 2, 3, 45]
ss                   []
Hey                4444
2                    Hi
hh     [5, 67, 3, 4, 2]
dtype: object

In [12]:
dic={
    'Kim':3400,
    'Hong':2000,
    'Lee':2400,
    'Kang':1000,    
}
a = pd.Series(dic,index=['Kim','Woo','Kang'])
#딕셔너리를 데이터로 넣고 인덱스를 주면 key값에 맞는 value가 나오고, 없으면 Nan
print(a)

Kim     3400.0
Woo        NaN
Kang    1000.0
dtype: float64


In [13]:
#누락된 데이터를 찾을 때 사용하는 함수 isnull,notnull
print(pd.isnull(a),end='\n\n')
print(pd.notnull(a),end='\n\n')
print(~pd.isnull(a),end='\n\n')
print(pd.isnull(a)==0,end='\n\n')

Kim     False
Woo      True
Kang    False
dtype: bool

Kim      True
Woo     False
Kang     True
dtype: bool

Kim      True
Woo     False
Kang     True
dtype: bool

Kim      True
Woo     False
Kang     True
dtype: bool



In [14]:
import pandas as pd

data = {
    'Seoul':4000,
    'Busan':2000,
    'Incheon':1500,
    'Kwangju':1000
}

obj = pd.Series(data)
print(obj)

#인덱스 바꾸기
cities = ['Seoul','Incheon','Kwangju','Daegu',]
obj2 = pd.Series(data,index=cities) 
print(obj2)

#두개 더하면?
print(obj+obj2) #있는 놈들은 더해지고 부산은 2000+NaN이므로 NaN 리턴

Seoul      4000
Busan      2000
Incheon    1500
Kwangju    1000
dtype: int64
Seoul      4000.0
Incheon    1500.0
Kwangju    1000.0
Daegu         NaN
dtype: float64
Busan         NaN
Daegu         NaN
Incheon    3000.0
Kwangju    2000.0
Seoul      8000.0
dtype: float64


Series 객체와 색인(index)은 모두 name이라는 속성이 있다.

In [15]:
obj2.name="인구수"
print(obj2)

Seoul      4000.0
Incheon    1500.0
Kwangju    1000.0
Daegu         NaN
Name: 인구수, dtype: float64


In [16]:
obj2.index.name="도시"
print(obj2)

도시
Seoul      4000.0
Incheon    1500.0
Kwangju    1000.0
Daegu         NaN
Name: 인구수, dtype: float64


In [17]:
# 인덱스 그냥 바꿀수도 있음
obj2.index=['Daejeon','Busan','Seoul','Jeju']
print(obj2)

Daejeon    4000.0
Busan      1500.0
Seoul      1000.0
Jeju          NaN
Name: 인구수, dtype: float64


# 데이터 프레임  
- DataFrame은 2차원 리스트(2차원 배열) 같은 자료구조  
- R언어 data.frame과 비슷하다.

In [18]:
a = pd.DataFrame([
    [1,2,3],
    [4,5,6],
    [7,8,9]
])
print(a)

   0  1  2
0  1  2  3
1  4  5  6
2  7  8  9


In [19]:
#사전형식으로도 사용할수 있음
data = {
    'city':['Seoul','Busan','광주','대구'],
    'year':[2000,2001,2002,2001,],
    'Pop':[4000,2000,1000,1000]
}

a = pd.DataFrame(data)
a

Unnamed: 0,city,year,Pop
0,Seoul,2000,4000
1,Busan,2001,2000
2,광주,2002,1000
3,대구,2001,1000


In [20]:
#순서 지정해줄수도 있음
a = pd.DataFrame(data, columns=['year','city','Pop'])
a

Unnamed: 0,year,city,Pop
0,2000,Seoul,4000
1,2001,Busan,2000
2,2002,광주,1000
3,2001,대구,1000


In [21]:
a = pd.DataFrame(data, columns=sorted(data.keys()))
a

Unnamed: 0,Pop,city,year
0,4000,Seoul,2000
1,2000,Busan,2001
2,1000,광주,2002
3,1000,대구,2001


In [22]:
# 없는 콜럼 넣으면 NaN으로 나옴
df = pd.DataFrame(data,columns=['year','city','Pop','debt'],index=['일','이','삼','사'])#range(1,5))
df

Unnamed: 0,year,city,Pop,debt
일,2000,Seoul,4000,
이,2001,Busan,2000,
삼,2002,광주,1000,
사,2001,대구,1000,


In [23]:
#요소 선택가능
df[['city','year',]]

Unnamed: 0,city,year
일,Seoul,2000
이,Busan,2001
삼,광주,2002
사,대구,2001


In [24]:
#컬럼,인덱스만 떼오기
print(df.columns)
print(df.index)

Index(['year', 'city', 'Pop', 'debt'], dtype='object')
Index(['일', '이', '삼', '사'], dtype='object')


In [25]:
df[' gk']=[1,3,4,5]
df

Unnamed: 0,year,city,Pop,debt,gk
일,2000,Seoul,4000,,1
이,2001,Busan,2000,,3
삼,2002,광주,1000,,4
사,2001,대구,1000,,5


In [26]:
#인덱스 기준으로 가져올때는?
#df.loc['일','year']
print(df.ix['일']) #ix : 행의 위치 접근할 때 사용하는 메소드
# 색인을 name속성의 값으로 할당한다.

year     2000
city    Seoul
Pop      4000
debt      NaN
 gk         1
Name: 일, dtype: object


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  This is separate from the ipykernel package so we can avoid doing imports until


In [27]:
#모든 행, 열 초기화
df['debt']=100
print(df)
df.loc['일'] = 1
print(df)

   year   city   Pop  debt   gk
일  2000  Seoul  4000   100    1
이  2001  Busan  2000   100    3
삼  2002     광주  1000   100    4
사  2001     대구  1000   100    5
   year   city   Pop  debt   gk
일     1      1     1     1    1
이  2001  Busan  2000   100    3
삼  2002     광주  1000   100    4
사  2001     대구  1000   100    5


In [28]:
import numpy as np

df['debt'] = np.arange(4.)
print(df)
df['debt'] = np.zeros(4)
print(df)

   year   city   Pop  debt   gk
일     1      1     1   0.0    1
이  2001  Busan  2000   1.0    3
삼  2002     광주  1000   2.0    4
사  2001     대구  1000   3.0    5
   year   city   Pop  debt   gk
일     1      1     1   0.0    1
이  2001  Busan  2000   0.0    3
삼  2002     광주  1000   0.0    4
사  2001     대구  1000   0.0    5


In [29]:
df.shape

(4, 5)

In [30]:
#Series 로 넣어줄수도 있는데 인덱스 맞춰줘야함
val = pd.Series([1000,2000,3000,4000],index=['일','이','삼','사'])
df['debt']=val
print(df)

#인덱스 안맞으면 NaN
val = pd.Series([1000,2000,3000,4000],index=['일','이','삼','오'])
df['debt']=val
print(df)

   year   city   Pop  debt   gk
일     1      1     1  1000    1
이  2001  Busan  2000  2000    3
삼  2002     광주  1000  3000    4
사  2001     대구  1000  4000    5
   year   city   Pop    debt   gk
일     1      1     1  1000.0    1
이  2001  Busan  2000  2000.0    3
삼  2002     광주  1000  3000.0    4
사  2001     대구  1000     NaN    5


In [31]:
# 불린 처리도 가능
df['aa'] = df.city == '대구'
df

Unnamed: 0,year,city,Pop,debt,gk,aa
일,1,1,1,1000.0,1,False
이,2001,Busan,2000,2000.0,3,False
삼,2002,광주,1000,3000.0,4,False
사,2001,대구,1000,,5,True


In [32]:
#지울땐 del
del df[' gk']
df

Unnamed: 0,year,city,Pop,debt,aa
일,1,1,1,1000.0,False
이,2001,Busan,2000,2000.0,False
삼,2002,광주,1000,3000.0,False
사,2001,대구,1000,,True


In [33]:
df.transpose()

Unnamed: 0,일,이,삼,사
year,1,2001,2002,2001
city,1,Busan,광주,대구
Pop,1,2000,1000,1000
debt,1000,2000,3000,
aa,False,False,False,True


In [34]:
#키에 사전을 넣으면?
data = {
    'seoul':{2001:20,2002:30},
    'busan':{200:5454}
}
df3 = pd.DataFrame(data)
df3

Unnamed: 0,seoul,busan
200,,5454.0
2001,20.0,
2002,30.0,


In [35]:
'''
daf = {
    'a':[i for i in range(1,21)],
    'b':[i for i in range(1,41,2)]
}
dff = pd.DataFrame(daf)
dff'''

"\ndaf = {\n    'a':[i for i in range(1,21)],\n    'b':[i for i in range(1,41,2)]\n}\ndff = pd.DataFrame(daf)\ndff"

In [36]:
'''
start = list(dff['a']>10).index(True)
end = list(dff['b']<29).index(False)
a = dff.iloc[start:end]
a.index = range(1,len(a)+1)
'''

"\nstart = list(dff['a']>10).index(True)\nend = list(dff['b']<29).index(False)\na = dff.iloc[start:end]\na.index = range(1,len(a)+1)\n"