# Pandas Practice

## 서울시 아파트 유형 데이터
- 데이터 출처: 공공데이터포털
- https://www.data.go.kr/data/15066101/fileData.do

## 0. 데이터 이름 변환
- pandas_practice_data.csv

In [62]:
!pwd

/home/kang/dev_ws/EDA/src


### 1. 사용할 라이브러리 불러오기

In [63]:
import pandas as pd
import numpy as np
import matplotlib.pylab as plt

### 2. 데이터 불러오기

In [64]:
apart_data = pd.read_csv('../data/pandas_practice_data.csv', encoding='euc-kr')

In [65]:
apart_data.head()

Unnamed: 0,연번,분류,건물명,행정동,주소,세대수,위도,경도
0,1,아파트,노량진우성,노량진1동,서울특별시 동작구 만양로8길 50,901,37.510304,126.946866
1,2,아파트,노량진삼익,노량진1동,서울특별시 동작구 만양로 84,175,37.511367,126.945226
2,3,아파트,"신동아리버파크\r(분양 1,696,임대 925)",노량진1동,서울특별시 동작구 만양로 19,2621,37.507073,126.945718
3,4,아파트,노량진쌍용예가,노량진1동,서울특별시 동작구 장승배기로16길 134,299,37.510265,126.943676
4,5,아파트,형인한강,노량진1동,서울특별시 동작구 만양로 36,73,37.507664,126.948235


### 3. 데이터프레임 정보를 확인해주세요

In [12]:
apart_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 167 entries, 0 to 166
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   연번      167 non-null    int64  
 1   분류      167 non-null    object 
 2   건물명     167 non-null    object 
 3   행정동     167 non-null    object 
 4   주소      167 non-null    object 
 5   세대수     167 non-null    int64  
 6   위도      163 non-null    float64
 7   경도      163 non-null    float64
dtypes: float64(2), int64(2), object(4)
memory usage: 10.6+ KB


### 4. 누락 데이터 처리

- isnull() 누락 데이터 확인
- notnull() 누락 데이터가 아닌 것만 확인
- dropna() 누락 데이터 삭제
- fillna() 누락 데이터 대체

#### 4-1. 누락 데이터가 있는 데이터 프레임만 출력해주세요

In [17]:
apart_data.columns.unique()

Index(['연번 ', '분류 ', '건물명', '행정동', '주소', '세대수', '위도', '경도'], dtype='object')

In [21]:
apart_data.tail()

Unnamed: 0,연번,분류,건물명,행정동,주소,세대수,위도,경도
162,163,연립주택,유성,사당5동,서울특별시 동작구 사당로10길 1,24,37.484815,126.970192
163,164,연립주택,신남성연립,사당5동,서울특별시 동작구 사당로2가길 131,36,37.489332,126.964193
164,165,연립주택,연우연립,사당5동,서울특별시 동작구 사당로8길 68,21,37.48279,126.967112
165,166,연립주택,능내연립,사당5동,서울특별시 동작구 사당로8길 39,22,37.483599,126.968672
166,167,연립주택,천록,대방동,서울특별시 동작구 등용로 43,29,37.505475,126.933434


In [41]:
apart_data[apart_data['경도'].isnull()]

Unnamed: 0,연번,분류,건물명,행정동,주소,세대수,위도,경도
18,19,아파트,관악현대(관악구),상도1동\r,서울특별시 동작구 상도로 421\r관악로 304,405,,
20,21,아파트,관악현대아파트201동,상도1동,서울특별시 동작구 사당로24길 10-5,38,,
111,112,아파트,대방동신일해피트리,대방동,서울특별시 동작구 여의대방로62길 7\r여의대방로62길 8,130,,
158,159,연립주택,태평빌라주택,사당1동,서울특별시 동작구 사당동 282-6,21,,


In [39]:
apart_data[apart_data['경도'].notnull()]

Unnamed: 0,연번,분류,건물명,행정동,주소,세대수,위도,경도
0,1,아파트,노량진우성,노량진1동,서울특별시 동작구 만양로8길 50,901,37.510304,126.946866
1,2,아파트,노량진삼익,노량진1동,서울특별시 동작구 만양로 84,175,37.511367,126.945226
2,3,아파트,"신동아리버파크\r(분양 1,696,임대 925)",노량진1동,서울특별시 동작구 만양로 19,2621,37.507073,126.945718
3,4,아파트,노량진쌍용예가,노량진1동,서울특별시 동작구 장승배기로16길 134,299,37.510265,126.943676
4,5,아파트,형인한강,노량진1동,서울특별시 동작구 만양로 36,73,37.507664,126.948235
...,...,...,...,...,...,...,...,...
162,163,연립주택,유성,사당5동,서울특별시 동작구 사당로10길 1,24,37.484815,126.970192
163,164,연립주택,신남성연립,사당5동,서울특별시 동작구 사당로2가길 131,36,37.489332,126.964193
164,165,연립주택,연우연립,사당5동,서울특별시 동작구 사당로8길 68,21,37.482790,126.967112
165,166,연립주택,능내연립,사당5동,서울특별시 동작구 사당로8길 39,22,37.483599,126.968672


In [51]:
apart_data['위도'].notnull()

0      True
1      True
2      True
3      True
4      True
       ... 
162    True
163    True
164    True
165    True
166    True
Name: 위도, Length: 167, dtype: bool

#### 4-2. 누락 데이터가 있는 데이터 프레임 중, 한 개를 선택하여 NaN 값을 채워주세요

In [None]:
# 특정 조건 데이터프레임 필터링
# df['column] == 'value'


#### 4-3. 다시 누락 데이터가 있는 데이터 프레임만 출력해주세요

#### 4-4. 누락 데이터가 있는 행을 모두 삭제해주세요

#### 4-5. 데이터 프레임의 정보를 출력해주세요

#### 5. 특정 컬럼에 불필요한 문자열이 들어간 경우가 있습니다. 불필요한 문자열을 제거해주세요.

#### 6. 컬럼 이름을 아래와 같이 변경해주세요

```
"연번": "num"
"분류": "type"
"건물명": "name"
"행정동": "town"
"주소": "address"
"세대수": "pop"
"위도": "lat"
"경도": "lng"
```

#### 7. num 컬럼을 삭제해주세요.

#### 8. type 별로 세대수(pop)를 출력해주세요

#### 12. pop 컬럼에 대한 boxplot 을 그려주세요