# Pandas
### : 구조화된 데이터의 처리를 지원하는 python 라이브러리. python계의 엑셀

* 구조화된 데이터의 처리를 지원하는 python 라이브러리
* 고성능 array 계산 라이브러리인 numpy와 통합하여 강력한 '스프레드시트' 처리 기능을 제공
* 인덱싱, 연산용 함수, 전처리 함수 등을 제공함
* 데이터 처리 및 통계 분석을 위해 사용

In [2]:
import pandas as pd # 라이브러리 호출

In [9]:
data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data'
df_data = pd.read_csv(data_url, sep='\s+', header=None) 
# csv type 데이터 로드, separate는 정규표현식으로 빈 공간으로 지정, column은 없음
# \s : 띄어쓰기 (single space), + : 뒤에 몇 자가 붙어도 됨

In [12]:
df_data.head(5) # 처음 5줄을 출력

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


In [13]:
 df_data.columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO','B', 'LSTAT', 'MEDV']
 # Column Header 이름 지정
 df_data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


## Series
* DataFrame 중 하나의 column에 해당하는 데이터의 모음 object

In [18]:
from pandas import Series
import pandas as pd
import numpy as np

* subclass of numpy.ndarray
* numpy array와 다른 점 : index값이 있고, index값을 따로 지정해줄 수도 있고, index의 이름도 지정할 수 있다.
* 모든 타입의 데이터가 들어갈 수 있다.

In [16]:
list_data = [1,2,3,4,5]
example_obj = Series(data = list_data)
example_obj

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [20]:
list_data = [1,2,3,4,5]
list_name = ['a','b','c','d','e']
example_obj = Series(data=list_data, index=list_name)
example_obj

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [19]:
dict_data = {'a':1, 'b':2, 'c':3, 'd':4, 'e':5}
example_obj = Series(dict_data, dtype=np.float32, name = "example_data")
# dtype 설정, Series의 이름 설정 가능
example_obj

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
Name: example_data, dtype: float32

In [21]:
example_obj.index # type은 index object

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [23]:
example_obj.values # type은 ndarray

array([1, 2, 3, 4, 5], dtype=int64)

* index에 접근 및 할당 가능

In [27]:
example_obj['a'] = 3.6
example_obj

a    3.6
b    2.0
c    3.0
d    4.0
e    5.0
dtype: float64

* astype() : type 변환 가능

In [28]:
example_obj = example_obj.astype(int) # 소수점 아래 값은 버림
example_obj

a    3
b    2
c    3
d    4
e    5
dtype: int32

* index 값을 기준으로 series가 생성됨

In [30]:
dict_data_1 = {'a':1, 'b':2, 'c':3, 'd':4, 'e':5}
indexes = ['a','b','c','d','e','f','g','h']
series_obj_1 = Series(dict_data_1, index = indexes)
series_obj_1

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
f    NaN
g    NaN
h    NaN
dtype: float64

## DataFrame

* Data Table 전체를 포함하는 Object

In [32]:
from pandas import DataFrame

* numpy array와 비슷함
* 각 column은 다른 type을 가질 수 있음
* Series를 모아서 만든 Data Table (기본 2차원)

In [41]:
# 지금은 연습을 위해서 이렇게 생성하지만 실제로는 이렇게 생성을 잘 안함
# file로 불러옴
raw_data = {
    'first_name' : ['Jason', 'Molly','Tina','Jake','Amy'],
    'last_name' : ['Miller','Jacobson','Ali','Milner','Cooze'],
    'age' : [42,52,36,24,73],
    'city' : ['San Francisco','Baltimore','Miami','Douglas','Boston']
}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name','age','city'])
df

Unnamed: 0,first_name,last_name,age,city
0,Jason,Miller,42,San Francisco
1,Molly,Jacobson,52,Baltimore
2,Tina,Ali,36,Miami
3,Jake,Milner,24,Douglas
4,Amy,Cooze,73,Boston


* Series를 기준으로 dataframe을 생성하기 때문에 data가 없어도 NaN 값으로 채워서 column을 생성

In [80]:
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name','age','city','debt'])
df

Unnamed: 0,first_name,last_name,age,city,debt
0,Jason,Miller,42,San Francisco,
1,Molly,Jacobson,52,Baltimore,
2,Tina,Ali,36,Miami,
3,Jake,Milner,24,Douglas,
4,Amy,Cooze,73,Boston,


* Data 추출

In [81]:
df.first_name

0    Jason
1    Molly
2     Tina
3     Jake
4      Amy
Name: first_name, dtype: object

In [82]:
df['first_name']

0    Jason
1    Molly
2     Tina
3     Jake
4      Amy
Name: first_name, dtype: object

* dataframe indexing
  * loc : index의 이름
  * iloc : index의 number

In [83]:
s = pd.Series(np.nan, index = [49,48,47,46,45,1,2,3,4,5])

# 3이라는 값까지
s.loc[:3]

49   NaN
48   NaN
47   NaN
46   NaN
45   NaN
1    NaN
2    NaN
3    NaN
dtype: float64

In [84]:
# 3번째 index 이전까지
s.iloc[:3]

49   NaN
48   NaN
47   NaN
dtype: float64

In [85]:
# indexing할 때 column은 list형태로 호출해야 함
df.loc[:, ['first_name','last_name']]

Unnamed: 0,first_name,last_name
0,Jason,Miller
1,Molly,Jacobson
2,Tina,Ali
3,Jake,Milner
4,Amy,Cooze


In [86]:
df['age'].iloc[1:]

1    52
2    36
3    24
4    73
Name: age, dtype: int64

* column에 새로운 데이터 할당

In [87]:
df.debt = df.age > 40 # boolean type의 Series를 할당
df

Unnamed: 0,first_name,last_name,age,city,debt
0,Jason,Miller,42,San Francisco,True
1,Molly,Jacobson,52,Baltimore,True
2,Tina,Ali,36,Miami,False
3,Jake,Milner,24,Douglas,False
4,Amy,Cooze,73,Boston,True


* dataframe의 모든 index에 대응되는 Series가 아니더라도 새로운 데이터 할당 가능 (NaN 값으로 채워짐)

In [88]:
values = Series(data = ['M','F','F'], index = [0,1,3])
values

0    M
1    F
3    F
dtype: object

In [89]:
df['sex'] = values
df

Unnamed: 0,first_name,last_name,age,city,debt,sex
0,Jason,Miller,42,San Francisco,True,M
1,Molly,Jacobson,52,Baltimore,True,F
2,Tina,Ali,36,Miami,False,
3,Jake,Milner,24,Douglas,False,F
4,Amy,Cooze,73,Boston,True,


* column 삭제
  * drop() : column이 삭제된 dataframe만 반환 (본래 df는 변화 없음)
  * del : 본래 df에서 메모리 주소 자세가 삭제됨

In [95]:
# axis를 이용해 행, 열 모두 drop 가능
df.drop('debt', axis = 1), df

(  first_name last_name  age       city  sex
 1      Molly  Jacobson   52  Baltimore    F
 2       Tina       Ali   36      Miami  NaN
 3       Jake    Milner   24    Douglas    F
 4        Amy     Cooze   73     Boston  NaN,
   first_name last_name  age           city  sex
 0      Jason    Miller   42  San Francisco    M
 1      Molly  Jacobson   52      Baltimore    F
 2       Tina       Ali   36          Miami  NaN
 3       Jake    Milner   24        Douglas    F
 4        Amy     Cooze   73         Boston  NaN)

In [None]:
del df['debt']
df

* transpose

In [75]:
df.T

Unnamed: 0,0,1,2,3,4
first_name,Jason,Molly,Tina,Jake,Amy
last_name,Miller,Jacobson,Ali,Milner,Cooze
age,42,52,36,24,73
city,San Francisco,Baltimore,Miami,Douglas,Boston
debt,True,True,False,False,True
sex,M,F,,F,


* csv 변환

In [77]:
df.to_csv()

',first_name,last_name,age,city,debt,sex\r\n0,Jason,Miller,42,San Francisco,True,M\r\n1,Molly,Jacobson,52,Baltimore,True,F\r\n2,Tina,Ali,36,Miami,False,\r\n3,Jake,Milner,24,Douglas,False,F\r\n4,Amy,Cooze,73,Boston,True,\r\n'