# **Sprint 1 Mini Project**


## Sprint 학습 목표

- EDA & Data Wrangling 과정을 코드로 구현할 수 있다.
- 목적에 맞는 시각화를 활용하여 비지니스 인사이트를 도출할 수 있다.

## Project 문제 정의

### 배경
> 여러분은 웹사이트와 더불어 오프라인 매장을 함께 운영하고 있는 **자전거 거래 플랫폼 회사**에서 데이터 분석 업무를 담당하고 있습니다.<br>
해당 회사의 주요 타겟 지역은 **호주**이며, 매출액을 늘리기 위해서는 자전거 거래 데이터를 분석하여 **인사이트를 도출**하는 작업이 필요합니다.<br>
회사 Database에 적재 되어있는 데이터를 추출하여 확보한 **고객 데이터**와 **거래 데이터**를 분석에 용이한 형태로 정제하는 것이 이번 프로젝트의 주요 과제입니다.<br>
가능하다면 데이터 분석을 통해 현재 상황과 매출액 증가를 위한 방안에 대한 **비즈니스 인사이트를 도출**하고 **실행 가능한 계획까지 수립**하는 프로젝트를 완성해보세요.




### 목표

#### 기본 과제
> - 주어진 데이터셋을 **이해하고 분석**할 수 있다.
- 주어진 질문에 대해 **시각화를 통해 설명**할 수 있다.
- **품질의 문제와 구조적 문제**를 파악하여 **정제**할 수 있다.


#### 도전 과제
> - 현재 플랫폼 내 자전거 거래의 **동향(trend)**을 파악한다.<br>
- **고객 세분화(Customer Segmentation)**를 통해 비슷한 특성을 가진 **고객군 각각의 특징을 파악**한다. <br>
- 고객군 별로 매출을 증가시키기 위해 적용할 수 있는 마케팅 전략을 수립하고 **실행 계획(action plan)**을 제시할 수 있다.

## **N111**

### 오늘의 목표
- 주어진 데이터셋을 불러올 수 있다.
- 데이터셋에 대해 pandas 메서드를 통해 기본 정보를 확인할 수 있다.


### `Topic 1`: 데이터셋 불러오기
본격적인 분석에 앞서, 아래의 데이터셋 설명을 통해 어떤 정보를 가진 데이터셋인지 파악 후 코드를 통해 데이터셋을 불러오도록 합시다.

<br>

> **customer 데이터셋 설명 (description)** <br>
우리 플랫폼에 등록된 고객 정보 데이터

- `customer_id`: 고객 고유번호
- `first_name`: 이름
- `last_name`: 성
- `gender`: 성별
- `past_3_years_bike_related_purchases`: 자전거 관련 구매 이력 (3년)
- `DOB`: 생년월일
- `job_title`: 직업명
- `job_industry_category`: 직무
- `wealth_segment`: 재력
- `deceased_indicator`: 사망 여부
- `default`: 정보
- `owns_car`: 차 소유 여부
- `tenure`: 재직 기간


#### **1-1. 라이브러리와 메서드는 무엇인가요?**
> 앞으로 여러분은 다양한 라이브러리를 사용하여 분석, 모델링을 진행하시게 될 텐데요.
>
> 오늘 Lecture Note에서도 pandas라는 라이브러리를 활용하고 있습니다.
>
> 그렇다면 라이브러리는 무엇이며, 왜 사용을 하는 것일까요? 이와 더불어 라이브러리와 함께 자주 등장하는 개념인 메서드는 무엇인지에 대해서도 함께 찾아본 후 내용을 정리하여 노션의 **진행내용**에 남겨주세요.


#### **1-2. pandas의 `read_csv` 함수를 활용하여 주어진 csv 파일(customer_info.csv)을 `customer`라는 이름으로 불러오세요.**


### `Topic 2`: 기본 정보 확인
> 위에서 불러온 데이터셋에 대해 pandas 메서드를 활용하여 기본 정보를 확인해봅시다.

#### **2-1. `customer`는 몇 개의 행과 열로 구성되어 있는지 확인해보세요.**

> 💡 **Hint)** shape

#### **2-2. `customer`의 정보(column 이름, 결측치 개수, 데이터타입 ...)를 pandas 메서드를 활용하여 확인해보세요.**
> 💡 **Hint)** info

- 몇 개의 column을 가지고 있는 데이터셋인지 확인해보세요.
  - 각 column에 어떤 정보가 들어있는지 확인한 뒤, 무의미한 데이터가 들어있는 column이 있는지도 함께 논의해보세요.

#### **2-3. `customer`에 결측치가 있는지 확인한 뒤, 어떻게 처리하는 것이 좋을지 생각해보세요.**
> 💡 **Hint)** missing value, nan, isnull
- 결측치 처리 방식에는 크게 두 가지가 있습니다.
  - 결측치 대체: 특정 값으로 결측치를 채우는 것
  - 결측치 제거: 결측치가 있는 행 또는 열을 제거하는 것

- 결측치가 있는 column에는 어떤 것이 있는지 확인해보세요.
- 각 column 별로 결측치를 어떻게 처리하는 것이 좋을지 생각해보세요.
  - 결측치 처리에 무조건적인 정답은 없으며, 조에서 논의 후 내린 결론을 논리적으로 설명하는 것이 무엇보다 중요합니다.

#### **2-4. `customer`에 중복값이 있는지 확인한 뒤, 있다면 제거하세요.**
> 💡 **Hint)** duplicated

### **Conclusion**
> 오늘 논의한 내용을 바탕으로 아래 항목에 대해 논의하고 답변을 정리해보세요.

 * 해당 데이터셋은 어떻게 구성되어 있는지 정리해보세요.
  - 몇 개의 행과 열로 구성되어 있는 데이터셋인가요?
  - 각 컬럼이 어떤 데이터 타입에 속해있나요?
 * 데이터 전처리 과정을 정리해보세요. (결측치 처리, 중복값 제거)
  - 결측치는 몇 개가 있었나요? 어떤 기준으로 제거/대치하셨나요?
  - 중복값은 몇 개가 있었나요? 어떤 메소드로 제거하셨나요?
