# 데이터 분석 (Data Analysis)

### 1. 데이터 구조 이해하기
1.1 범주형 데이터
   - 명목형 데이터 : 단순 분류를 위해 사용되는 데이터, 위계가 없이 이름의 성격을 가지는 데이터 (예. 남/여 성별, A/B/O/AB 혈액형)
   - 순서형 데이터 : 서열이나 순위를 나타낼 수 있는 데이터 (예. 학점 A/B/C/D)

1.2 수치형 데이터
   - 이산형 데이터 : 가질 수 있는 숫자가 정수로 딱딱 떨어지는 경우, 명확히 잘리는 형태의 데이터 (예. 손님 145명)
   - 연속형 데이터 : 데이터 사이가 이러져 있어서 그 사이의 어떠한 값도 가질 수 있는 데이터 (예. 15cm 와 16cm 사이 값)

### 2. 데이터를 다루는 도구
2.1 Numpy (Numerical Python)
   - 파이썬에서 산술적인 계산을 할 때 핵심적으로 사용되는 라이브러리

2.2 pandas
   - 형태가 정해져 있는 정형 데이터를 손쉽게 다룰 수 있도록 제작된 라이브러리
  

## [Pandas]

### 1. Pandas 개요
**import pandas as np**


#### 1.1. csv 파일 불러오기
- **data = pd.read_csv("데이터 파일 경로와 이름")**

---
#### 1.2. 데이터 확인
  1) 데이터의 처음 부분 확인 (5개 데이터): **data.head()**

  2) 데이터의 끝 부분 확인 (5개 데이터) : **data.tail()**

-> head 와 tail은 큰 데이터에서 일부를 먼저 확인하고, 데이터의 전체적인 윤곽을 알수 있게 해주는 유용한 도구임

---
#### 1.3. 특정 데이터 검색

  1) 특정 부분의 컬럼 확인 : **data[시작 숫자 : 끝 숫자 + 1]**

  2) 시작부터 특정 번호까지 : **data[: 숫자]**

  3) 특정번호부터 끝까지 : **data[숫자 :]**

  4) 데이터의 특성 이름 전부 확인 : **data.columns**

  5) 원하는 특성 선택하여 확인 : **data['특성이름']**

  6) 행과 열을 동시에 선택하여 데이터 확인 : **data.iloc[행의숫자, 열의 숫자]**

  7) 여러개의 행과 열 선택하여 데이터 확인 : **data.iloc[시작 행 숫자: 끝 행 숫자 +1, 시작 열 숫자: 끝 열 숫자 +1]**

---
#### 1.4. 데이터 복사
**새로운 이름 = data.copy()**

  1) 원하는 특성만 복사 : **새로운 이름 = data[['특성이름','특성이름'...]]

---
#### 1.5. 특성의 생성과 삭제

  1) 특성의 이름 수정 : **data.rename(columns={'기존특성이름','변경할특성이름'},inplace = True)**

2) 새로운 특성 생성 : **data['새로운 특성이름'] = data['기존특성']**

    예. data[time_mimute'] = data['time'] * 60
       -> time_minute 특성을 만들어서 time에 60을 곱한 값
    
    예. data['price_time'] = data['price'] / data['time']
        -> price 특성을 time 특성으로 나눈 값

3) 특성 삭제: **del date['특성이름']**

---
#### 1.6. 특정 조건으로 탐색

  1) 조건 설정 : **data2 = data[(data['특성이름'] 조건)]**
    
    예. data[(data['grade'] > 3)] -> grage 변수가 3보다 큰 데이터

  2) 조건 결합 : **data2 = data[(data['특성이름'] 조건) & (data['특성이름'] 조건)]**
    
    예. data2 = data[(data['gender']=='male') & (data['age'] <30)]
    -> 성별이 남성이면서 나이가 30 미만인 데이터

### 2. 결측치 (NaN, Na, Null)
 - 데이터가 있어야할 자리에 정상적으로 데이터가 없는 것을 의미
 
#### 2.1 결측치 종류

   - 완전 무작위 결측: 실수로 마킹을 하지 못해서 생기거나 데이터 수집 시스템의 오류 등 예기치 못하게 발생
   
   - 비 무작위 결측: 여러 문항 중 유독 어려운 문제가 있어 답변을 못한 사람이 많다면 문항의 난이도가 결측치에 영향을 미침
   
---
#### 2.2 구멍난 데이터 찾기
   - 결측치 개수 확인 : **info()**
       - 1. Rangeindex : 항목에 전체 데이터 수 표시
       - 2. Data columns : 항목에 데이터 특성의 수 표시
       - 3. Non-Null Count :  항목에 각 특성별 결측이 아닌 값이 표시
       - 4. Non-Null Count < Rangeindex : 결측값이 존재
   
   
   - 결측치 위치 확인 : **data.isna() / data.isnull()**
      - 결측치인 경우 True / 결측치가 아닌 경우 False

### 3. 이상치
 - 데이터 값이 나머지 다른 데이터와 극명하게 다른 데이터 (정상범위를 벗어남)
 - 이상치의 경우 분석 결과에 영향을 많이 미치기 때문에 처리해야함
----

#### 3.1 이상치 확인
 - 히스토그램 (가장 쉬운 방법)
 
   **import matplotlib.pyplot as plt**
   
   **plt.hist(data['특성이름'])**
   
---
#### 3.2 이상치 위치 확인
 - index 함수
 
   **data[(data['특성이름']조건)].index**   

### 4. 결측치와 이상치의 처리
4.1 결측치의 제거

- 결측치에 비해 데이터의 수가 많으면 결측치를 제거해도 데이터의 손실이 크지 않음
- 특히 완전 무작위 결측 같은 오류나 실수로 인해 발생한 결측치는 제거하는 것이 가장 효율적인 방법
- 결측치가 나타난 데이터의 행을 삭제할 수도 있고, 열(특성) 자체를 삭제할 수도 있음
- 열 자체를 삭제할 경우, 그만큼 사용 가능한 데이터의 특성이 사라지는 것이기 때문에 대부분 행을 삭제함

----
- 결측치가 있는 행 삭제 : **새로운 데이터 변수 = dropna()** 
     - 새로운 데이터 변수에 할당하므로 원본 데이터 변수는 그대로 유지


4.2 이상치 제거
- 실수나 오류로 인해 생긴 이상값이라면 제거하는 것이 옳지만, 그 자체로 의미를 갖는 이상치의 경우 삭제하기 전에 신중한 판단이 필요함
---
1) 인덱스 번호 찾기 : **index_number = data[(data['특성이름'] 조건)].index**

2) 이상치값 제거하기: **data.drop(인덱스번호, axis = 0)**


- index 행 삭제 : axis = 0

- index 열 삭제 : axis = 1


### 5. 데이터 살펴보기
#### 5.1 탐색적 데이터 분석
 1) 데이터 속성 확인 : **data.info()**  
  -> 범주형 데이터인지 수치형 데이터인지 확인
 
--- 
#### 5.2 범주형 데이터 탐색 

**data['특성이름'].value_counts()**

-> 빈도 분석: 각 범주의 개수를 파악
 
---
#### 5.3 수치형 데이터 탐색

**data.describe()**

- 기초 통계를 활용하여 데이터 정보 요약 : 평균, 표준편차, 최솟값, 최댓값, 사분위수

1) 평균(mean)과 표준편차(std): 수치형 데이터를 파악할 때 가장 많이 사용되는 통계치
 - 평균: 데이터의 중심을 표현
 - 표준편차: 데이터들이 평균을 중심으로 얼마나 떨어져 있는지 확인, 표준편차가 크면 평균에서부터 멀리 떨어진 데이터 多/ 표준편차가 작으면 데이터 값들이 평균근처에 존재
             
2) 최댓값(max)과 최솟값(min): 데이터의 전체 범위를 알 수 있음

3) 사분위수(25%, 50%, 75%): 데이터의 값이 퍼져 있는 모양 확인 가능

---
#### 5.4 데이터 시각화 (matplotlib)

1) 막대그래프 (범주형 데이터의 빈도)

**x = data['특성이름'].value_counts().index**

**y = data['특성이름'].value_counts()**

**plt.bar(x,y)**

- x(가로) : 특성의 범주 이름 (예. 남자, 여자)
- y(세로) : 범주 별 빈도 값 (예. 15명)

2) 히스토그램 (수치형 데이터) : **plt.hist(data['특성이름'])**


- 가로축이 구간의 성격을 가짐
- 구간을 정하여 범위 안에 포함된 데이터의 빈도를 나타냄

### 6. 상관관계 파악하기
#### 6.1 상관관계란
- 데이터 특성간의 관계로 두 데이터가 서로 어떤 관계에 있는지 파악하기 위함
![image.png](attachment:image.png)

1) 상관계수 r
 - 두 데이터 사이에 얼마나 관계가 있는지 계산한 값 ( -1 ~ + 1 )
 - r = -1 : 하나의 데이터가 증가하는 만큼 다른 데이터는 감소 (음의 상관관계)
 - r = 0 : 두 데이터는 상관관계가 없음
 - r = +1 : 하나의 데이터가 증가하는 만큼 다른 데이터도 증가 (양의 상관관계)
 
 2) 상관계수 강도
 - 상관계수 r의 수치를 통해 데이터 간 얼마나 강한 상관이 있는지 확인 가능
 ![image-2.png](attachment:image-2.png)
 ![image-3.png](attachment:image-3.png)
 
 ---
 #### 6.2 상관관계 분석
 - 상관관계는 값의 변화를 기준으로 판단하기 때문에 **'수치형 데이터'**로 구성된 특성들끼리만 분석이 가능
 
1) 수치형 데이터 선택 : **새로운 데이터 변수 = data[['특성이름','특성이름'....]**
 
 2) 상관관계 계산 (corr) : **data이름.corr()**
 
 - 데이터 세트 안에 있는 모든 특성간의 상관관계 분석 가능

### 7. 그룹별 연산
#### 7.1 group by
**data.groupby('그룹범주특성').연산함수()**

- 그룹범주특성 예시 : 성별, 학년, 반 등 그룹으로 나눌 수 있는 범주형 특성
- 연산함수의 예시 : 합(sum), 최댓값(max), 최솟값(min), 평균(mean)등 기초 통계량

##### groupby 예시
1. gender 특성을 기준으로 그룹을 나누어 평균값을 계산하고,
2. 계산결과를 result 변수에 할당 하여 출력해보세요.

import pandas as pd

data = pd.read_csv('파일경로/파일이름')

result = data.groupby('gender').mean()

print(result)

---
#### 7.2 그룹별 다중 연산 (aggregate)
**data.groupby('그룹범주특성').aggregate(['연산함수 1','연산함수 2'....])

##### aggregate 예시
1. gender 특성을 기준으로 그룹을 나누어 평균, 최댓값을 계산하고,
2. 계산결과를 result 변수에 할당 하여 출력해보세요.

import pandas as pd

data = pd.read_csv('파일경로/파일이름')

result = data.groupby('gender').aggregate(['mean', 'max'])

print(result)