In [None]:
import os
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

<a name='top'></a>
# I. Pandas Basics
* [1. Generate DataFrame](#1_1)
* [2. Select Columns](#1_2)
* [3. Select Records](#1_3)
* [4. Modify Dataframes](#1_4)
* [5. Aggregate](#1_5)
* [6. Merge and Concatenate](#1_6)

# II. [Visualization Basics](#visualization)
* [1.Seaborn](#sns_1)
* [2. matplotlib](#plt_1)

# III. [Pandas plot](#pandasplot_1)

# I. Pandas Basics
pandas는 python에서 data를 다루기 쉽게 해주는 모듈입니다. DBMS의 sql과 흡사한 부분이 있습니다.

<a name="1_1"></a>
## 1. Generate DataFrame

#### 1. DataFrame by dict

* 데이터 프레임을 생성하기 위해서 pd.DataFrame()을 활용할 수 있습니다.
* 파이썬 dict형태로 인자를 넘겨주면 됩니다.
* **Remarks** : 각 키값에 해당하는 레코드들이 같은 길이를 가지고 있어야 합니다.
* 생성된 데이터 프레임 객체의 메소드 .head(n)를 통해 간단히 데이터 테이블을 미리 볼 수 있습니다.

In [None]:
D = {
    'col1':['a','b','c'],
    'cash':[10000,5000,100]
}
df = pd.DataFrame(D)

In [None]:
df.head()

#### 2. DataFrame by lists

* 각 레코드별로 한 리스트에 넣고, 레코드 Attributes의 길이와 같은 Column이름을 한 리스트에 지정하여 넘겨주면 됩니다.

In [None]:
name = ['a','b','c']
cash = [10000,np.nan,100]
records = list(zip(name,cash))
print(f"zipped records: {records}")

columns = ['name','cash']

df2 = pd.DataFrame(records , columns=columns)
df2

#### 3. DataFrame by CSV file

In [None]:
csv_addr = os.path.join('data','train.csv')
df_train = pd.read_csv(csv_addr)

In [None]:
df_train.head()

##### .info() 메소드를 활용하여 데이터프레임의 좀 더 세부적인 정보들을 확인할 수 있습니다.

In [None]:
df_train.info()

### Problem 1
밑에 사전이나 리스트를 활용하여, 자신이 좋아하는 음식과 영화가 몇개 담긴 pandas의 DataFrame을 생성해보세요.

In [None]:
records = [['육개장','아이언맨'],['회','스파이더맨'],['순댓국밥','해리포터']]
columns = ["음식",'영화']
a = pd.DataFrame(records, columns = columns)
a.head()

<a id="1_2"></a>
## 2. Select columns

#### 1. Select Columns

* df[{col_name}]
* df.col_name

선택하고자 하는 칼럼의 이름이 General rule of variable naming에 맞다면, 클래스의 attribute처럼 선택할 수 있습니다.

다수의 칼럼을 선택하고자 할 시에는 칼럼의 이름들로 하나의 리스트를 만들어 아래와 같이 할 수 있습니다.
```python
cols = ['price', 'date', 'view']
df_train[cols]
```

In [None]:
a.음식

In [None]:
a["영화"]

In [None]:
a[['음식','영화']]

* df.columns 를 통해 DataFrame이 가진 column들의 이름을 가져올 수 있습니다. 참고 .index

In [None]:
a.columns, a.index

##### 선택한 칼럼의 갯수에 따른 반환값의 형태를 확인해봅시다.

In [None]:
print(type(df_train.view))
print(type(df_train[['view','price']]))

##### numpy Array형태로 값을 반환 받기 위해서는?!
.values

* **Remarks**: 메소드 아님.

In [None]:
print(df_train.view.values)
print(type(df_train.view.values))

<a id="1_3"></a>
## 3. Select Records

#### 1. Select Row by index
pandas 데이터프레임에서 레코드에 접근하기 위해서는 [], loc[], .iloc[]를 사용합니다. (.ix[])

In [None]:
print(type(df_train.iloc[5]))
df_train.iloc[5]# 5th row

##### Slicing 또한 사용 가능합니다.

In [None]:
df_train.iloc[4:7,6] # data at [4][ b

In [None]:
df_train.iloc[4:7,:]

#### 2. Select by boolean(Logic)
또한, 데이터프레임에 [] or .loc[] 속에 논리식을 넣어 선택할 수 있습니다.
* `>, <, <=, >=, !=, ==`


다중 논리식
* | : or
* & : and
* etc.
**Remarks**: 복수개의 논리식을 사용할 때에는 () 괄호를 사용하여 논리식을 구분해 주어야 합니다.

In [None]:
df_train[(df_train.view != 0) & (df_train.view < 4)].head()

In [None]:
df_train.loc[df_train.view>2].head()

In [None]:
dfA = df_train[(df_train.view != 0) & (df_train.view < 4)]
dfB = df_train.loc[(df_train.view != 0) & (df_train.view < 4)]

In [None]:
print(type(dfA), type(dfB))

#### 3. reset Indices
위 조건식 맨 앞의 인덱스를 확인해보시면, 조건식에 따라 선택되었기 때문에, 연속적인 값이 아닙니다. 데이터 프레임을 부분집합으로 새로 구성하고자 할 때, 인덱스를 다시 매길 수 있습니다.

In [None]:
dfA.head()

In [None]:
dfA.reset_index(drop = False, inplace = True)
dfA.head()

##### 이전 인덱스들이 index라는 칼럼으로 새로 생성되어 추가된 것을 알 수 있습니다. 이를 없애기 위해서는 `drop = True` 로 주면 됩니다.
##### inplace를 통해 반환값만 주는 것에서 더해 데이터프레임자체를 변경시킬 수 있습니다.

In [None]:
dfB
dfC=dfB.reset_index(drop = False, inplace = False)
dfB.head()

In [None]:
dfC.head()

## Problem 2
csv파일로부터 생성된 df_train에서 waterfront가 1이고, sqft_above가 3000이하인 데이터를 모아서 df_tmp에 저장하고, .tail(10)를 통해 뒤에서부터 10개의 레코드를 확인해보세요.

In [None]:
df_tmp = df_train.loc[(df_train.waterfront == 1) & (df_train['sqft_above'] <= 3000)]
df_tmp.tail(10)

* .shape 을 통해 해당 DataFrame이 가지고 있는 Dimension정보를 얻을 수 있습니다.

In [None]:
df_tmp.shape

<a id="1_4"></a>
## 4. Modify Dataframes
데이터 프레임을 조작할 때 많은 경우 칼럼 단위로 조작하게 됩니다. 이에 대해 알아봅시다.

#### 1. Add a column
사전에 새로운 키값에 새로운 값을 넣어주듯이 새로운 Column을 DataFrame에 추가시킬 수 있습니다.

In [None]:
len_df = df_train.shape[0]
print("Shape of dataframe: {}".format(df_train.shape))

random_noise = np.random.randn(len_df,1)


df_train['Gaussian_noise'] = random_noise
df_train.head()

In [None]:
df_train.gauss = random_noise

#### 2. with a single value
한 값만을 가지고 있는 column 역시 쉽게 추가시킬 수 있습니다.

In [None]:
df_train["단일 값으로 생성"]= 'Hello Pandas'
df_train.head()

#### 3. Add a column with manipulating with others
다른 column들을 조작하며 추가시킬 수도 있습니다.

In [None]:
df_train['sqft_sum']=df_train.sqft_living15 + df_train.sqft_lot15
df_train.head()

#### 4. Apply custom function to each data in a coulmn
람다 함수 등을 선언하여 파이썬 map 함수처럼 column에 적용할 수 있습니다.

이 때 사용하는 method가 .apply()입니다.

##### i. Apply lambda function into a column

In [None]:
df_train['NewColumnByLambda'] = df_train['long'].apply(lambda x: abs(x)+100)

In [None]:
df_train.head()

##### ii. Apply lambda function using rows
axis = 1을 추가하여 넘겨줌을 통해 row에 적용할 수 있습니다.

In [None]:
lambda_fn = lambda row : row['lat'] + row['long']
df_train['NewColumnByRows'] = df_train.apply(lambda_fn, axis=1)
# DataFrame에서 .apply()를 호출하였습니다.

In [None]:
df_train.head()

#### 5. .drop()

.drop() 메소드를 통해서 원하는 row 또는 column을 DataFrame에서 제거할 수 있습니다.
* row 제거: `df.drop([1,6,3])`
* col 제거: `df.drop(['col1','col2'],axis=1)`

In [None]:
df_train.drop([1,6])

* 해당사항이 적용된 DataFrame을 반환하지만, 원래의 DataFrame이 변하지는 않습니다. 반환값 없이 적용하기 위해서는 inplace = True로 넘겨주면 됩니다.

In [None]:
df_train.drop(['date','단일 값으로 생성'], axis=1, inplace=True)

In [None]:
df_train.head()

## Problem 3
df_train의 bathrooms 속성이 2보다 크면 1을, 2보다 같거나 작으면 0을 가지도록 하는 새로운 열 'mask_bathrooms'을 추가해보세요. 

In [None]:
def mask_bath(x):
    if x > 2:
        return 1
    else:
        return 0
    
df_train['mask_bathrooms'] = df_train['bathrooms'].apply(mask_bath)
df_train.head()

<a name="1_5"></a>
## 5. Aggregates
특정한 column을 대표할만 한 숫자를 뽑아내는 것을 Aggregate라고 이해할 수 있습니다.
$Aggregate : column -> R$

###### 아래와 같은 예들이 있습니다.
 * mean
 * std
 * median
 * max
 * min
 * count
 * nunique
 * unique

In [None]:
df_train.Gaussian_noise.mean()

DataFrame에 적용하면 칼럼별로 적용된 값을 얻을 수 있습니다.

In [None]:
df_train.mean()

#### 1. .groupby()
groupby를 활용하여 특정한 columns에 있는 내용을 그룹화하여 Aggregate 할 수 있습니다.

In [None]:
df_train.groupby('bedrooms').min()

위의 dataframe을 보면 bedrooms 으로 인덱스로 그룹화 된 것을 알 수 있습니다. 다시 말해, bedrooms 에 속한 data를 같은 것 끼리 묶은 다음 Aggretate하는 것입니다. 두개 이상의 columns을 이용해서 groupby하면 data들의 조합으로 그룹들이 만들어지게 됩니다.

In [None]:
df_train.groupby(['bedrooms','bathrooms']).max()

Groupby를 통해 Aggregate된 Dataframe의 column을 선택하여 .apply를 적용시킬 수도 있습니다.
예를들어 밑의 예는 
df_train안에 있는 bedrooms column에 들어있는 값들을 종류별로 그룹화하여 median값을 나타내는 dataframe을 새로 만들고, 이 dataframe의 bathrooms에 해당 lambda 함수를 적용한 것입니다.

In [None]:
grouped_lambda_apply = df_train.groupby('bedrooms').median().bathrooms.apply(lambda x:3 if x<1 else 7)

In [None]:
grouped_lambda_apply

## Problem 4
df_train에서 'bedrooms'의 속성별로 모인 값들이 가지는 'price'의 중앙값을 얻어보세요.

In [None]:
df_train['bedrooms'].unique()

In [None]:
for i in range(11):
    target = df_train.loc[df_train['bedrooms'] == i].median().loc["price"]
    print(f"bedrooms:{i} median of price:{target}")

In [None]:
df_train.groupby('bedrooms').median().price

<a name="1_6"></a>
## 6. Merge and Concatenate

#### 1. Inner Merge

In [None]:
D = {
   "id" : [1,2,3,4,5],
    "food":["순댓국밥","파스타","짜장면","스테이크","라면"]
}

df1 = pd.DataFrame(D)

a = [1,3,5]
b = ["할매", "공화춘", "농심"]

df2 = pd.DataFrame(zip(a,b),columns=["id","company"])

In [None]:
df1

In [None]:
df2

* pd.merge()는 자동으로 같은 칼럼 이름을 찾아 합쳐주며, 기본적으로 없는 레코드를 지우며 합쳐주는 innermerge를 시켜줍니다.

In [None]:
merged_df = pd.merge(df1, df2)
merged_df

* 공통된 이름의 column이 없다면 left_on, right_on을 통해 직접 정해줄 수 있습니다.

In [None]:
df3 = pd.DataFrame(zip(a,b),columns=["id2","com"])
df3

In [None]:
merged_df2 = pd.merge(df1, df3, left_on="id", right_on="id2")
merged_df2

* merge 하는 두 DataFrame에 합치는 기준이 되는 칼럼 이외에 같은 이름의 칼럼이 있다면, suffixes를 통해 구분해 줄 수 있습니다.

In [None]:
df3 = pd.DataFrame(zip(a,b),columns=["id2","food"])
df3

In [None]:
merged_df2 = pd.merge(df1, df3, left_on="id", right_on="id2", suffixes=['_df1','_df3'])
merged_df2

In [None]:
df1.merge(df2)

#### 2. outer merge

In [None]:
pd.merge(df1, df2, how="outer")

In [None]:
pd.merge(df1, df2, how="left")

In [None]:
pd.merge(df1, df2, how="right")

#### 3. pd.concat & pd.join

In [None]:
pd.concat([df1,df2])

In [None]:
pd.concat([df1,df2],axis=1)

In [None]:
df1.join(df2,lsuffix='_l',rsuffix='_r')

<hr>

<a name="visualization"></a>
# II. Visualization
1. seaborn
2. [matplotlib.pyplot](#plt_1)

<a name="sns_1"></a>
## 1. Seaborn
Seaborn은 pandas의 DataFrame곽 함께 사용되는 데에 최적화되어 있습니다. 

* relplot (Relational plot)
    * scatterplot()
    * lineplot()
    
* catplot (Categorical plot)
    - i. scatter plot
        * stripplot() default
        * swarmplot()
    - ii. distribution plot
        * boxplot()
        * violinplot()
        * boxenplot()
    - iii. estimate plot
        * pointplot()
        * barplot()
        * countplot()
        
* visualize data distribution
    * distplot()
    * kdeplot()
    * jointplot()
    * rugplot()
    * pairplot()

In [None]:
for column in df_train.columns:
    num_col=len(pd.unique(df_train[column]))
    print(f"{column:20}: {num_col}")

#### 1. relplot (Relational plot)

#### i. scatterplot()

In [None]:
sns.relplot(x='sqft_living', y="price", kind='scatter',hue="waterfront",data=df_train)

In [None]:
# sns.relplot(x='sqft_living', y="price", kind='scatter',hue="waterfront",size="grade",style="floors",data=df_train)

#### ii. lineplot()

In [None]:
sns.lineplot(data=df_train, x="grade", y="price")

In [None]:
df_train.groupby("grade").count()["id"]

In [None]:
a= df_train.loc[df_train["grade"] == 8]["price"]
sns.kdeplot(a)

In [None]:
sns.relplot(x="yr_built", y="grade", kind='line', ci=95, data=df_train)

#### 2. Categorical Plot

#### i. Bar plot

In [None]:
sns.countplot(x = "bedrooms", data=df_train)

In [None]:
sns.barplot(x="bathrooms", y="price", data=df_train)

#### iii. box plot

In [None]:
sns.boxplot(x="bedrooms", y="price", data=df_train)

In [None]:
sns.catplot(x="grade", y="price", data=df_train, kind='box')

#### iv. Violin plot (box + kde plot)
* white point in the center: median
* Thick black bar: interquartile range
* Thin black bar: confidence interval
* Shaded area: KDE

In [None]:
sns.violinplot(x="view" ,y="grade",data=df_train)

#### 3. Data distribution

#### ii. kde plot (kernel density estimator)

In [None]:
sns.kdeplot(df_train["bathrooms"], shade=True, color='y')

In [None]:
sns.kdeplot(df_train['grade'],df_train['view'], shade=False, n_levels=5, cmap='jet')

fig, ax = plt.subplots(1,1, figsize=(15,13))

ax = sns.kdeplot(df_train['grade'],df_train['view'], shade=False, n_levels=20, cmap='jet')
ax.axis([5.5,9.5,-0.5,0.5])

#### Joint Plot & Joint Grid

In [None]:
sns.jointplot(x="grade", y="condition", data=df_train)

* kind : 'scatter', 'reg', 'resid', 'kde', 'hex'

In [None]:
sns.jointplot(x="grade", y="condition", data=df_train, kind='kde')

In [None]:
sns.jointplot(x="grade", y="price", data=df_train, kind='reg')

**Joint Grid**
* bivariate + univariate

Initialize Grid

In [None]:
a = sns.JointGrid(x='sqft_above', y='sqft_living', data=df_train)
a.plot(plt.scatter, sns.distplot)
#a.plot_joint()
#a.plot_marginals()

#### FacetGrid

1. var = sns.FacetGrid(data, row, col, hue)
2. var.map(fcn, *args, **kwargs)

In [None]:
g = sns.FacetGrid(data=df_train, row='view', col='condition', hue='waterfront')
g.map(plt.scatter, 'grade','price').add_legend()

#### Pairplot & PairGrid
1. var = sns.PairGrid(dataframe)
2. var.map(fcn)
* var.map_diag(fcn)
* var.map_offdiag(fcn)

In [None]:
iris = sns.load_dataset('iris')

In [None]:
var = sns.PairGrid(iris, hue="species")
var.map(plt.scatter)

## Problem 5
    df_train에서 'sqft_living'의 분포를 확인하는 그래프를 그려보세요.
   

In [None]:
sns.kdeplot(df_train['sqft_living'], shade=True)

<a name="plt_1"></a>
## 2. matplotlib.pyplot

그려진 그래프를 좀 더 세부적으로 조작하기 위해서는 matplotlib에 대해 아는 것이 도움이 많이 됩니다.

#### 1. Simple Plot

In [None]:
x = np.arange(1,10,0.1)
y = np.sin(x)

In [None]:
plt.plot(x,y)

#### 2. Line Style

- i. color: "green", "g", "#191919",etc 
- ii. linestyle: '--', ':'
- iii. marker: 'o', 's', '*'


**official documents**
- [matplotlib.pyplot plot](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.plot.html)
- [functions in plt](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.html?highlight=matplotlib%20pyplot#module-matplotlib.pyplot)

In [None]:
sns.set(style="whitegrid")

In [None]:
plt.plot(x,y,'g:')

#### 3. Axis, Labels, and legend

- plt.axis([xlb, xub, ylb, yub])
    * lb: lower boundary
    * ub: upper boundary

- plt.xlabel({str})   // ax.set_xlabel({str})
- plt.ylabel({str})   // ax.set_ylabel({str})

- plt.legend([legend1, legend2 ..])


[matplotlib text properties](https://matplotlib.org/api/text_api.html#matplotlib.text.Text)

In [None]:
plt.plot(x,y,'g:')
plt.axis([4, 10, 0.5, 1.0])
plt.xlabel('x'); plt.ylabel('y')
plt.plot(x,np.cos(x),'b*')
plt.legend(['sin','cos'])

#### 4. Modify Ticks
- ax.set_xticks({list})
- ax.set_xticklabels({list})
- ax.set_yticks({list})
- ax.set_yticklabels({list})

In [None]:
fig, ax = plt.subplots(1,1, figsize=(10,5))

plt.plot(x,y,'g:')
plt.plot(x,np.cos(x),'b*')


ticks = list(range(1, 13))
ticklabel = ['Jan', 'Feb', 'Mar', "Apr", "May", "Jun", "Jul", "Aug", "Sep", "Oct", "Nov", "Dec"]
ax.set_xticks(ticks)
ax.set_xticklabels(ticklabel)


plt.axis([4, 10, 0.5, 1.0])
plt.xlabel('x'); plt.ylabel('y')
plt.legend(['sin','cos'])

#### plt.bar() 
plt.bar(x, height)

In [None]:
a = plt.bar([1,2,3,4],[40, 15, 25, 65], tick_label=['a','b','c','d'])

#### plt.pie()
plt.pie(x)

In [None]:
a = plt.pie([20,60,70,97,54], labels=['a','b','c','d','e'], explode=[0,0.5,0.3,0,0], shadow=True, autopct='%d%%')

#### plt.hist()

In [None]:
a = plt.hist(df_train.bedrooms.values, bins=6)

## Problem 6
seaborn의 sns.kdeplot을 활용하여, df_train의 'sqft_above'와 'sqft_living'의 분포를 함께 확인해보고,
matplotlib.pyplot 을 결합하여 각 축의 label, title을 조정해보세요.

In [None]:
fig, ax = plt.subplots(1,1, figsize=(13,13))

ax = sns.kdeplot(df_train.sqft_above, df_train.sqft_living, shade=True, cmap='jet')

plt.axis([0,4000,0,4000])
ax.set_xlabel('SQFT_ABOVE',fontsize=15)
ax.set_ylabel('SQFT_LIVING', fontsize=15)
ax.set_title("SQFT_ABOVE VS SQFT_LIVING", fontsize='xx-large')

start, end = ax.get_xlim()
dum = ax.set_xticks(np.arange(start,end,1000))

## matplotlib의 axes와 seaborn을 연동하기 위해서는 relplot, catplot 이 아닌 다른 세부 함수를 사용해야 합니다!

<a name="pandasplot_1"></a>
## pandas plot

pandas DatafFrame 자체가 여러 plot 메소드들을 가지고 있습니다.



* DataFrame.plot(x, y, kind, ax)
* Series.plot.kind(ax, fontsize, colormap, rot, **kwargs)



**Official Document**
[pandas.DataFrame.plot](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html)

In [None]:
plt.close('all')
fig,ax = plt.subplots(1,2, figsize=(20,10))

df_train.plot(x='sqft_living',y='price',kind='scatter',ax=ax[0])
df_train["price"].plot.kde(ax=ax[1], fontsize=15, title="kde of sqft_living")

## Heat map and correlation

## Cross Tab

# [맨위로 가기](#top)