### <개념>
단일분석 데이터
- 데이터 분석은 변수 유형과 변수 개수에 따른 구분에서 시작됨
- 한 개 변수 분석
- 변수유형 : 범주(빈도분석을 주로 함, 교차분석) / 연속(기술통계)
- 빈도분석 : 반복하는 횟수를 기록
- 교차분석

-------
- 연속형 데이터 = 시계열 데이터
- 데이터의 전반적인 특성을 이해하는 것이 중요
- 자료의 특성을 찾는 분석 접근 방법이 좋음
- '인사이트'를 찾는 것이 주목적이다.

-------
빅데이터 분석의 목적
- 전체적인 흐름을 알려주는 것
- '분석 결과 이렇게 나왔습니다.' = 분석한 결과를 주는 것일뿐 결정은 고객이! = 100%는 없다

지도데이터 = 공간데이터 = 파이썬에서 활용하기 어려운 편

# 3day 빈도 및 교차 데이터 만들기

## tips 데이터셋 읽어들이기

In [5]:
# 라이브러리 불러오기
# 데이터 처리를 위한 라이브러리
import pandas as pd

In [6]:
# seaborn에 있는 데이터를 가져오기 위해서 연동되어 있는 라이브러리인 matplotlib을 불러옴
import matplotlib as mpl
import matplotlib.pylab as plt
import seaborn as sns

In [7]:
# 행의 위치를 찾기위해서 필요한 함수를 포함하는 라이브러리
import numpy as np

In [8]:
# seaborn 안에 있는 내장 데이터 가지고 오기
# 손님들의 유형별 팁을 얼마나 주나..
# load_dataset = 내장되어 있는 데이터를 불러올 때 사용하는 함수
# 범주형 데이터 = sex, smoker, day, time
# 범주형 데이터 -> 빈도 분석이 가능 -> 빈도표 작성
tips = sns.load_dataset("tips")

tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


### 빈도분석

In [9]:
# sex 데이터 출력하기
tips[["sex"]]

Unnamed: 0,sex
0,Female
1,Male
2,Male
3,Male
4,Female
...,...
239,Male
240,Female
241,Male
242,Male


In [10]:
# sex 빈도분석
# 함수를 이용할 때 데이터의 형태는 '시리즈'여야 한다.
tips["sex"].value_counts()

Male      157
Female     87
Name: sex, dtype: int64

In [11]:
# 표와 그림(시각화)는 한 세트이다!

In [12]:
# day 빈도분석
tips["day"].value_counts()

Sat     87
Sun     76
Thur    62
Fri     19
Name: day, dtype: int64

In [13]:
# smoker 빈도분석
tips['smoker'].value_counts()

No     151
Yes     93
Name: smoker, dtype: int64

In [14]:
# time 빈도분석
tips['time'].value_counts()

Dinner    176
Lunch      68
Name: time, dtype: int64

In [15]:
# 성별/월별 교차분석
# crosstab
pd.crosstab(tips['sex'], tips['day'])

day,Thur,Fri,Sat,Sun
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Male,30,10,59,58
Female,32,9,28,18


In [16]:
# 성별/월별 교차분석 총괄표
# margins = True -> 데이터의 총괄을 확인할 수 있음
pd.crosstab(tips['sex'],
            tips['day'],
            margins = True)

day,Thur,Fri,Sat,Sun,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Male,30,10,59,58,157
Female,32,9,28,18,87
All,62,19,87,76,244


In [17]:
# 빈도 비율 확인
pd.crosstab(tips['sex'],
            tips['day']).apply(lambda r : r/len(tips),
                               axis = 1)

day,Thur,Fri,Sat,Sun
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Male,0.122951,0.040984,0.241803,0.237705
Female,0.131148,0.036885,0.114754,0.07377


In [18]:
tips.dtypes

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
dtype: object

In [19]:
# std : 중앙값
tips.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


In [22]:
# sex_kor 컬럼에 남여로 만들기
tips['sex_kor'] = 0

tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,sex_kor
0,16.99,1.01,Female,No,Sun,Dinner,2,0
1,10.34,1.66,Male,No,Sun,Dinner,3,0
2,21.01,3.50,Male,No,Sun,Dinner,3,0
3,23.68,3.31,Male,No,Sun,Dinner,2,0
4,24.59,3.61,Female,No,Sun,Dinner,4,0
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,0
240,27.18,2.00,Female,Yes,Sat,Dinner,2,0
241,22.67,2.00,Male,Yes,Sat,Dinner,2,0
242,17.82,1.75,Male,No,Sat,Dinner,2,0


### <개념>
데이터 클린징
- 결측, 이상, 중복 데이터를 걸러내는 것(정제하는 것)

결측값
- info()
- NaN(Not a Number)
- None
- NULL
- 결측값을 처리하는 방법 : 제거, 대체
- 처리방법 : 결측치 확인 -> 제거/대체 -> 결과 확인

결측 데이터 확인
- isnull() : 결측 데이터이면 True, 유효한 데이터가 존재하면 False / 주로 이거 사용
- notnull() : 유효한 데이터가 존재하면 True, 누락 데이터면 False 

-------
과정 사이에 복사본 만들어서 데이터 손실을 예방
- 1. 결측치 확인 : isnull()
- 2. 대체 값 확인 : isnull()의 True값(결측치) 확인
- 3. 결측치 대체
- 4. 대체값 확인 : notnull()의 True값(유효한 데이터) 확인

- 결측치 확인 -> 대체 컬럼을 확인 -> 복사본 생성 -> 대체할 데이터를 넣어줌 -> notnull() -> 대체되지 않은 결측 데이터를 제외하고 나머지 데이터 출력(자연스럽게 정제)

- 0(행), 1(열)

------
결측치 제거
- 행 삭제 : dropna(axis = 0) / 디폴트
- 열 삭제 : dropna(axis = 1)

결측치 대체
- 결측값을 '특정 값'으로 채우기 : df.fillna(0)
- 결측값을 '문자열'으로 채우기 : df.fillna(' ')
- 결측값을 변수별 '평균'으로 채우기 : df.fillna(df.mean())

결측 데이터 유의사항
- Null의미 : 숫자 0과 null과 같은 결측치는 완전히 다른 개념!
- 공백이 있는지 확인해보는 것도 좋음
- 결측치 제거 전에 데이터 백업


In [23]:
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
 7   sex_kor     244 non-null    int64   
dtypes: category(4), float64(2), int64(2)
memory usage: 9.3 KB
