## 파이썬과 판다스를 활용한 실전 데이터 분석

이번 과제는 캐글의 에이비엔비(https://www.kaggle.com/datasets/dgomonov/new-york-city-airbnb-open-data?select=AB_NYC_2019.csv)데이터를 더 깊게 분석합니다.

데이터 사이언티스트로서 데이터를 분석할 때 가장 필수적인 스킬은 프로그래밍 언어 파이썬([Python](https://www.python.org/)), 데이터 분석 패키지 판다스([Pandas](https://pandas.pydata.org/)), 그리고 데이터 시각화 패키지 씨본([Seaborn](https://seaborn.pydata.org))과 [matplotlib](https://matplotlib.org)입니다. 데이터 분석가는 언제나 주변 동료들의 요청(ex: 운영팀, 재무팀, 마케팅팀)에 맞게 데이터를 뽑아내 그 통계치를 제공하고 시각화 결과를 전달해줘야 하는데, 파이썬과 판다스, 시각화 스킬이 부족하면 주어진 시간 내에 이를 전달해 줄 수 없습니다.

2008년부터 게스트와 호스트는 에어비앤비를 사용하여 여행 가능성을 확장하고 더 독특하고 개인화된 세상 경험 방법을 제시해 왔습니다. 이 데이터 세트는 2019년 뉴욕 NYC의 상장 활동 및 지표를 설명합니다.
이 데이터 파일에는 호스트, 지리적 가용성, 예측을 하고 결론을 도출하는 데 필요한 메트릭에 대해 자세히 알아보는 데 필요한 모든 정보가 포함되어 있습니다. 결국 뉴욕 에어비앤비 숙소에 대해 가격을 예측하는 회귀분석 프로젝트 입니다.

* **다른 호스트와 지역에 대해 무엇을 배울 수 있습니까?**
* **예측에서 무엇을 배울 수 있습니까? (예: 위치, 가격, 리뷰 등)**
* **어떤 호스트가 가장 바쁘고 그 이유는 무엇입니까?**
* **지역에 따라 눈에 띄는 트래픽 차이가 있으며 그 이유는 무엇입니까?**

이번 노트북에는 에이비엔비 데이터를 활용하여, 현업에서 충분히 발생할 만한 사례를 모아 총 N개의 문제를 만들어 보았습니다. 주어진 시간 내에 모든 문제를 해결해보세요. DS School의 내부 테스트 결과, 현업에서 데이터 사이언티스트로 일 하고 있는 분들은 아무리 늦어도 반나절(3~4시간) 내에는 모든 문제를 풀 수 있었습니다. 즉, 3시간 안에 모든 문제를 풀 수 있다면 합격입니다.

문제를 풀 때 구글에 검색하는 것 모두 허용합니다. (문제 중에는 구글에 검색하지 않으면 풀 수 없는 문제도 몇 개 준비해놓았습니다) 관련 자료는 [10 minutes to pandas](https://pandas.pydata.org/pandas-docs/stable/10min.html) 를 강력 추천합니다.

또한 아래 문제를 풀면서 어려움을 느끼거나, 주어진 시간 내에 풀 수 없다는 생각이 들면 DS School의 [실전 데이터분석 과정](https://dsschool.co.kr/suggestions)을 수강하는 것을 권장 드립니다.

## 칼럼 설명

* **id** : 생존여부
* **name** : 에어비엔비 이름
* **host_id** : 호스트 id
* **host_name** : 호스트 성명
* **neighbourhood_group** : 지구 명
* **neighbourhood** : 지역명
* **latitude** : 위도
* **longitude** : 경도
* **room_type** : 방 타입
* **price** : 가격
* **minimum_nights** : 최소 숙박일수
* **number_of_reviews** : 리뷰 개수
* **last_reviews** : 최근 리뷰 일자
* **reviews_per_month** : 월 평균 리뷰 수
* **calculated_host_listings_count** : 호스트에게 대여 가능한 에어비엔비의 총 개수
* **availability_365** : 1년 중 가능한 대여일수

## 라이브러리 불러오기

In [None]:
# 데이터 시각화 패키지 matplotlib에게 inline출력,
# 즉 시각화 결과를 파일로 저장하거나 하지 않고 화면에 바로 출력하도록 명령합니다.
# (Seaborn이 matplotlib를 기반으로 동작하기 때문에, Seaborn에도 동일한 명령이 전달됩니다.)
%matplotlib inline

# 파이썬의 데이터 분석 패키지 판다스(Pandas)를 가져오고, 이를 pd라는 이름의 축약어로 사용합니다.
import pandas as pd

# 파이썬의 데이터 시각화 패키지 시본(Seaborn)을 가져오고, 이를 sns라는 이름의 축약어로 사용합니다.
import seaborn as sns
import matplotlib as plt

### 데이터 불려오기

In [None]:
# airbnb.csv 파일을 읽어옵니다. 여기서 id라는 컬럼을 인덱스(index)로 지정한 뒤, airbnb 변수에 할당합니다.
# 변수에 할당한 결과값을 판다스 전문 용어로 데이터프레임(DataFrame)이라고 부릅니다.
airbnb = pd.read_csv("data/AB_NYC_2019.csv", index_col="id")

# airbnb 변수에 할당된 데이터의 행렬 사이즈를 출력합니다.
# 출력은 (row, column) 으로 표시됩니다.
print(airbnb.shape)

# head()로 train 데이터의 상위 5개를 출력합니다.
airbnb.head()

(48895, 15)


Unnamed: 0_level_0,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
2539,Clean & quiet apt home by the park,2787,John,Brooklyn,Kensington,40.64749,-73.97237,Private room,149,1,9,2018-10-19,0.21,6,365
2595,Skylit Midtown Castle,2845,Jennifer,Manhattan,Midtown,40.75362,-73.98377,Entire home/apt,225,1,45,2019-05-21,0.38,2,355
3647,THE VILLAGE OF HARLEM....NEW YORK !,4632,Elisabeth,Manhattan,Harlem,40.80902,-73.9419,Private room,150,3,0,,,1,365
3831,Cozy Entire Floor of Brownstone,4869,LisaRoxanne,Brooklyn,Clinton Hill,40.68514,-73.95976,Entire home/apt,89,1,270,2019-07-05,4.64,1,194
5022,Entire Apt: Spacious Studio/Loft by central park,7192,Laura,Manhattan,East Harlem,40.79851,-73.94399,Entire home/apt,80,10,9,2018-11-19,0.1,1,0


### 데이터 정리 + 기본 분석 - 문제만들기(토마스랑)

**1.** 칼럼별 누락값 확인. 특히, 투숙객 이름과 호스트에 누락값이 있다. 중요한 정보이므로 이를 대체하든 삭제하든 선택하자.

In [None]:
##Write your code!!

2. (목표 설정)
*

**2.** 분석하지 않아도 되는 칼럼 삭제 (ex. host_id, last_review)

In [None]:
##Write your code!!

**3.** 각 칼럼 분석**(호스트 정보, 뉴욕의 구역별, 방 타입, 가격, 리뷰, 숙박 가능일)**

In [None]:
##Write your code!!

**4.** 가장 많이 에어비앤비에 리스트 된 호스트는? 호스트의 특징이나 경영 방침을 분석하면 **고객들이 원하는 니즈 파악 가능**

In [None]:
##Write your code!!

**5.** 지역별로 가장 비싼 방의 분포 지역과 저렴한 방의 분포 지역은? **(availability칼럼이용)** 형성된 가격이 고객들의 숙소 선택에 영향을 끼치는지 확인 필요

In [None]:
##Write your code!!

**6.** 룸 타입의 숙소에 따라 에이비엔비의 형성된 가격대나 룸의 형태를 보고 **부자동네**를 찾아보고 혹은 더욱 **에어비앤비가 필요한 지역**을 찾아보자

In [None]:
##Write your code!!

**7.** 숙박 가능한**(minimum_nights, calculated_host_listings_count, availability_365)** 등의 칼럼을 이용하여 고객들이 작성한 **리뷰**와도 연관지어보자.

In [None]:
##Write your code!!

**8.** **(심화)** 뉴욕 에어비앤비 지역별 분포는? (산점도 이용하면 분포가 나온다)
참고로 위도와 경도 자료가 나오므로 제공받았던 이미지 파일(New_York_City_.png)을 활용하여 덮어 씌워보자

In [None]:
##Write your code!!

airbnb.plot.scatter(x="longitude' , y="latitude", c="price", figsize=(10,8), sharex=False)
위 코드로 입력하면 c옵션이나 colorbar=True를 이용해서 컬러바까지 나오게 되면 x축 눈금이 보이지 않을 때가 있다.
이럴땐 sharex=False 옵션을 주면 x축 눈금이 정상적으로 보이게 된다.
c="price"를 입력해서 가격별로 색까을 달리하려 했는데 뭔가 원하는 결과가 나오지 않았다 그 이유를 기술통계에서 찾아보자
airbnb.price.describe() > 결과값을 보면 3사분위까지의 가격은 175달러지만 최대값이 10000달러 이므로 격차가 너무 커서 색깔의 격차가 커짐

그래서, 백분위 95%까지의 값을 이용
airbnb.price.quantile([0.05, 0.25, 0.5, 0.75, 0.95]) visual_data.price.describe(percentiles = [0.05, 0.25, 0.5, 0.75, 0.95])
백분위 95%까지의 가격값도 355달러 이다.
355달러 미만인 행만 남겨서 다시 지도를 그려보자
임의변수visual_airbnb = airbnb[airbnb.price < airbnb.price.quantile(0.95)]
visual_airbnb.shape(46408, 16)
visual_airbnb.plot.scatter(x="longitude' , y="latitude", c="price", figsize=(10,8), sharex=False) 너무 흑백이 나오니 컬러수정
colorbar, cmap, alpha 설정
visual_airbnb.plot.scatter(x="longitude' , y="latitude", c="price", sharex=False, cmap=plt.get_cmap('jet), colorbar=True, alpha=0.4, figsize(10,8))
plt.show()

기존 제공받은 이미지에 합하기
임의변수 newyorkcity = plt.imread("data/New_York_City_.png")
plt.imshow(newyorkcity, zorder=0, extent=[-74.258, -73.7, 40.49, 40.92])
ax=plt.gca()
plt.scatter(x="longitude' , y="latitude", c="price, data = visual_Data, cmap=plt.get_cmap('jet'), alpha=0.4)
plt.colorbar()
plt.show()