<h3> Pandas </h3>

**pandas(panel data)**는 구조화된 데이터의 처리를 지원하는 Python 라이브러리이다. <br>
 numpy와 통합해 강력한 '스프레드시트' 처리 기능을 제공하며 인덱싱, 연산용 함수, 전처리 함수 등을 제공한다. <br> 일반적으로 데이터 처리 및 통계 분석을 위해 사용한다.

In [1]:
import pandas as pd

In [2]:
data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data' # 데이터 url
df_data = pd.read_csv(data_url, sep='\s+', header = None) # csv 타입 데이터를 로드한다.

In [3]:
df_data.head() # 처음 다섯줄 출력, 출력할 수의 개수는 인자로 전달 가능

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


In [4]:
df_data.columns = ["CRIM", "ZN", "INDUS", "CHAS", "NOX", "RM", "AGE", "DIS", 
                   "RAD", "TAX","PTRATIO","B","LSTAT","MEDV"] 
# columns 속성을 이용해 column의 이름을 지정할 수 있다.
df_data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


In [None]:
print(df_data.values)
print(type(df_data.values))

[[6.3200e-03 1.8000e+01 2.3100e+00 ... 3.9690e+02 4.9800e+00 2.4000e+01]
 [2.7310e-02 0.0000e+00 7.0700e+00 ... 3.9690e+02 9.1400e+00 2.1600e+01]
 [2.7290e-02 0.0000e+00 7.0700e+00 ... 3.9283e+02 4.0300e+00 3.4700e+01]
 ...
 [6.0760e-02 0.0000e+00 1.1930e+01 ... 3.9690e+02 5.6400e+00 2.3900e+01]
 [1.0959e-01 0.0000e+00 1.1930e+01 ... 3.9345e+02 6.4800e+00 2.2000e+01]
 [4.7410e-02 0.0000e+00 1.1930e+01 ... 3.9690e+02 7.8800e+00 1.1900e+01]]
<class 'numpy.ndarray'>


<h4> Series </h4>

Series란 DataFrame 중 하나의 Column에 해당하는 데이터의 모음이다. <br>
이때 DataFrame은 Data Table 전체를 포함하는 객체이다.

**series**
* **Subclass of numpy.ndarray**
* Data: any type
* Index labels need not be ordered
* Duplicates are possible(but result in reduced functionality)

In [None]:
list_data = [1, 2, 3, 4, 5]
example_obj = pd.Series(list_data)
example_obj

0    1
1    2
2    3
3    4
4    5
dtype: int64

**index 매개변수**를 이용해 행 인덱스의 이름을 지정할 수 있다.

In [None]:
list_data = [1, 2, 3, 4, 5]
list_name = ['a', 'b', 'c', 'd', 'e']
example_obj = pd.Series(list_data, index=list_name)
example_obj

a    1
b    2
c    3
d    4
e    5
dtype: int64

dict type으로도 series를 생성할 수 있다. <br>
그리고 **dtype 매개변수**로 data type을 설정할 수 있고, **name 매개변수**로 series의 이름을 설정할 수 있다.

In [None]:
import numpy as np
dict_data = {'a':1, 'b':2, 'c':3, 'd':4, 'e':5}
example_obj = pd.Series(dict_data, dtype=np.float32, name='example_data')
example_obj

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
Name: example_data, dtype: float32

**index 속성**과 **values 속성**을 이용해 행과 데이터 값에 각각 접근할 수 있다.

In [None]:
example_obj.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [None]:
example_obj.values

array([1., 2., 3., 4., 5.], dtype=float32)

아래와 같이 **data index에 접근하고 값을 할당**할 수 있다.

In [None]:
example_obj["a"]

1.0

In [None]:
example_obj["a"] = 3.2
example_obj

a    3.2
b    2.0
c    3.0
d    4.0
e    5.0
Name: example_data, dtype: float32

astype() 메소드를 사용하면 dtype을 바꿀 수 있다.

In [None]:
example_obj = example_obj.astype(int)
example_obj

a    3
b    2
c    3
d    4
e    5
Name: example_data, dtype: int64

<h4> DataFrame </h4>

* NumPy array-like
* Each columns can have a different type
* Row and column index
* size mutable: insert and delete columns

In [30]:
raw_data = {'first_name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'],
            'last_name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze'],
            'age': [42, 52, 36, 24, 73],
            'city': ['San Francisco', 'Baltimore', 'Miami', 'Douglas', 'Boson']}

df = pd.DataFrame(raw_data)
df

Unnamed: 0,first_name,last_name,age,city
0,Jason,Miller,42,San Francisco
1,Molly,Jacobson,52,Baltimore
2,Tina,Ali,36,Miami
3,Jake,Milner,24,Douglas
4,Amy,Cooze,73,Boson


아래와 같이 **column을 선택하거나 추가해 DataFrame을 생성**할 수 있다. <br>
없는 column을 추가하면 np.NaN값으로 지정된다. 

In [31]:
pd.DataFrame(raw_data, columns = ['age', 'city'])

Unnamed: 0,age,city
0,42,San Francisco
1,52,Baltimore
2,36,Miami
3,24,Douglas
4,73,Boson


In [32]:
pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'city', 'debt'])

Unnamed: 0,first_name,last_name,age,city,debt
0,Jason,Miller,42,San Francisco,
1,Molly,Jacobson,52,Baltimore,
2,Tina,Ali,36,Miami,
3,Jake,Milner,24,Douglas,
4,Amy,Cooze,73,Boson,


아래와 같이 **column에 접근**할 수 있다.

In [33]:
df.first_name

0    Jason
1    Molly
2     Tina
3     Jake
4      Amy
Name: first_name, dtype: object

In [34]:
df['first_name']

0    Jason
1    Molly
2     Tina
3     Jake
4      Amy
Name: first_name, dtype: object

인덱스에 접근하려면 **loc(index location) 인덱서** 혹은 **iloc(index position) 인덱서**를 사용한다. <br>
loc은 index label, iloc은 index number를 입력한다.

In [35]:
import numpy as np
s = pd.Series(np.nan, index = [49, 48, 47, 46, 45, 1, 2, 3, 4, 5])
# 49~3 모두 출력한다.(3 포함)
s.loc[:3]

49   NaN
48   NaN
47   NaN
46   NaN
45   NaN
1    NaN
2    NaN
3    NaN
dtype: float64

In [36]:
# 0~2(49, 48, 47) 인덱스 값을 출력한다.
s.iloc[:3]

49   NaN
48   NaN
47   NaN
dtype: float64

새로운 column을 추가하면 **행 인덱스를 기준**으로 추가한다.

In [37]:
values = pd.Series(data = ['M', 'F', 'F'], index=[0, 1, 3])
values

0    M
1    F
3    F
dtype: object

In [38]:
df['sex'] = values
df

Unnamed: 0,first_name,last_name,age,city,sex
0,Jason,Miller,42,San Francisco,M
1,Molly,Jacobson,52,Baltimore,F
2,Tina,Ali,36,Miami,
3,Jake,Milner,24,Douglas,F
4,Amy,Cooze,73,Boson,


**T속성**으로 transpose가 가능하다.

In [39]:
df.T

Unnamed: 0,0,1,2,3,4
first_name,Jason,Molly,Tina,Jake,Amy
last_name,Miller,Jacobson,Ali,Milner,Cooze
age,42,52,36,24,73
city,San Francisco,Baltimore,Miami,Douglas,Boson
sex,M,F,,F,


**values 속성**으로 값에 접근할 수 있다.

In [40]:
df.values

array([['Jason', 'Miller', 42, 'San Francisco', 'M'],
       ['Molly', 'Jacobson', 52, 'Baltimore', 'F'],
       ['Tina', 'Ali', 36, 'Miami', nan],
       ['Jake', 'Milner', 24, 'Douglas', 'F'],
       ['Amy', 'Cooze', 73, 'Boson', nan]], dtype=object)

**index 속성**으로 행 label에 접근할 수 있다.

In [41]:
df.index

RangeIndex(start=0, stop=5, step=1)

**to_csv() 메소드**로 csv 형태로 변환할 수 있다.

In [42]:
df.to_csv()

',first_name,last_name,age,city,sex\n0,Jason,Miller,42,San Francisco,M\n1,Molly,Jacobson,52,Baltimore,F\n2,Tina,Ali,36,Miami,\n3,Jake,Milner,24,Douglas,F\n4,Amy,Cooze,73,Boson,\n'

column 삭제방법은 아래와 같은 방식이 있다.

* del df['debt'] # df 자체에서 삭제
* df.drop('debt', axis = 1) # df는 그대로

In [43]:
df.drop('sex', axis=1)

Unnamed: 0,first_name,last_name,age,city
0,Jason,Miller,42,San Francisco
1,Molly,Jacobson,52,Baltimore
2,Tina,Ali,36,Miami
3,Jake,Milner,24,Douglas
4,Amy,Cooze,73,Boson


In [44]:
df

Unnamed: 0,first_name,last_name,age,city,sex
0,Jason,Miller,42,San Francisco,M
1,Molly,Jacobson,52,Baltimore,F
2,Tina,Ali,36,Miami,
3,Jake,Milner,24,Douglas,F
4,Amy,Cooze,73,Boson,


In [45]:
del df['sex']

In [46]:
df

Unnamed: 0,first_name,last_name,age,city
0,Jason,Miller,42,San Francisco
1,Molly,Jacobson,52,Baltimore
2,Tina,Ali,36,Miami
3,Jake,Milner,24,Douglas
4,Amy,Cooze,73,Boson
