ใ # Mathematical_Statistics ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค๋ฅผ ์ํ ์๋ฆฌํต๊ณํ ํ์ต ๋ ธํธ
- ํ๋ฅ ๋ณ์(random variable): ํ๋ฅ ์ ์ผ๋ก ๊ฐ์ด ๊ฒฐ์ ๋๋ ๋ณ์(e.g., ๋์ ๋์ง๊ธฐ์ ์์์ ๋์ ์ ๋์ก์ ๋ ์๋ฉด์ด ๋ฌด์์ธ์ง)
- ํ๋ฅ ๋ถํฌ(probability distribution): ํ๋ฅ ๋ณ์๊ฐ ์ทจํ ์ ์๋ ๋ชจ๋ ๊ฐ๊ณผ ๊ทธ ๊ฐ๋ค์ด ๋ํ๋ ํ๋ฅ ์ ๋์ดํ ํ/๊ทธ๋ฆผ/ํจ์์(e.g., ๋์ ๋์ง๊ธฐ์ ์์์ ์๋ฉด์ด ์๋ฉด(๋ท๋ฉด)์ผ ๋ ํ๋ฅ ์ด ์ผ๋ง์ธ์ง ์๋ ค์ฃผ๋ ํจ์)
- ํ๋ฅ (probability): ์ด๋ค ์ฌ๊ฑด์ด ์ผ์ด๋ฌ์ ์ง์ ๋ํ ๊ฐ๋ฅ์ฑ์ 0~1 ์ฌ์ด์ ์ซ์๋ก ํํํ ๊ฐ(e.g., ๋์ ๋์ง๊ธฐ์ ์์์ ํ๋ฅ ๋ณ์๊ฐ ์๋ฉด(๋ท๋ฉด)์ผ ๊ฐ๋ฅ์ฑ์ ๊ฐ)
- ์ฌ๊ฑด(event): ํ๋ฅ ๋ณ์์์ ๊ด์ธก๋ ์ ์๋ ๊ฒฐ๊ณผ์ ์งํฉ
- ํ๋ณธ ๊ณต๊ฐ(sample space): ๊ฐ๋ฅํ ๋ชจ๋ ์ฌ๊ฑด์ ์งํฉ
- P(X = head) = p์์ P๋ ํ๋ฅ ๋ถํฌ, X๋ ํ๋ฅ ๋ณ์, head๋ ์ฌ๊ฑด, p๋ ํ๋ฅ
-
๊ท ์ผ ๋ถํฌ(Uniform distribution): ์ฌ๊ฑด์ด ๋ฌด์์ธ์ง์ ๋ฌด๊ดํ๊ฒ ํ๋ฅ ์ด ๋์ผํ ๋ถํฌ
-
๋ฒ ๋ฅด๋์ด ๋ถํฌ(Bernoulli distribution): ํ๋ฅ ๋ณ์ X์ ๊ฐ์ด 2๊ฐ(0 or 1)์ธ ๋ถํฌ โ ๋ ๊ฐ์ง์ธ ์๋, ์์ปจ๋ ์์กด/์ฌ๋ง์ด๋ ์ ํ/๋ถ๋ ๋ฑ์ ์๋ง์ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฐ ์ ์์
-
- "P(X = x)": ํ๋ฅ ๋ณ์ X๊ฐ ๊ฐ x(์๋ฅผ ๋ค์ด, 1)๋ฅผ ๊ฐ์ง ๋์ ํ๋ฅ
- ";" ๋ค์ p๋ p๊ฐ ๋ชจ์(parameter)๋ก ์ฃผ์ด์ง๋ค๋ ์๋ฏธ
- ํ๋ฅ ๋ถํฌ์์์ ๋ชจ์(parameter): ํ๋ฅ ๋ถํฌ์ ํน์ฑ์ ๋ํ๋ด๋ ์(e.g., ๋ฒ ๋ฅด๋์ด ๋ถํฌ์์ ๋์ ์์ ์๋ฉด์ด ๋์ฌ ํ๋ฅ , ์ ๊ท ๋ถํฌ์์๋ ํ๊ท ๊ณผ ๋ถ์ฐ, ํต๊ณํ์์ ๋ชจ์๋ ํญ์ ๊ทธ๋ฆฌ์ค ๋ฌธ์๋ก ํ๊ธฐ)
- "{": x์ ์ฌ๋ฌ ๊ฐ์ง ์ผ์ด์ค๋ค์ ๋๋ ์ ๋ณด๋ ๊ฒ
- ์ฑ์ง
-
-
์ง์ง์ญ(support): ํ๋ฅ ๋ถํฌ์์ ํ๋ฅ ๊ฐ์ด 0์ด ์๋ ํ๋ฅ ๋ณ์ x์ ์งํฉ(์ฆ, ๋ฐ์ ๊ฐ๋ฅํ ์ฌ๊ฑด(์: head, tail)์ ์ง์ง์ญ์ผ๋ก ๋ฐ๋ ์ ์์ผ๋ฉฐ, ๋ฐ์ ๋ถ๊ฐ๋ฅํ ์ฌ๊ฑด(์: ๋์ ์ ๋์ก๋๋ฐ head๋ tail๋ ์๋ ๋์ ์ด ์ธ์์ง๋ค๋์ง)์ ๋ถ๊ฐ๋ฅํ ์ฌ๊ฑด์ด๋๊น ํ๋ฅ ์ด 0์ด๋ฉฐ, ๋ฐ๋ผ์ ์ง์ง์ญ์ผ๋ก ๋ฐ๋ ์ ์์)
-
์ด์ฐํ ํ๋ฅ ๋ถํฌ(Discrete probability distribution): ํ๋ฅ ๋ณ์ X์ ๊ฐ์ด ์ด์ฐ์ (discrete)์ผ ๋์ ํ๋ฅ ๋ถํฌ(e.g., ๋ฒ ๋ฅด๋์ด ๋ถํฌ)
- ์ด์ฐํ๋ณธ๊ณต๊ฐ์์ ์ ์๋ ํ๋ฅ ๋ณ์์ ๊ฐ์ด ์ ํํ๊ฑฐ๋ countably infinite
- ์ข ๋ฅ: ๋ฒ ๋ฅด๋์ด ๋ถํฌ, ์ดํญ ๋ถํฌ, ๊ธฐํ ๋ถํฌ, ๋คํญ ๋ถํฌ, ํฌ์์ก ๋ถํฌ
-
์ฐ์ํ ํ๋ฅ ๋ถํฌ(Continuous probability distribution): ํ๋ฅ ๋ณ์ X์ ๊ฐ์ด ์ฐ์์ (continuous)์ผ ๋์ ํ๋ฅ ๋ถํฌ(e.g., ์ฐ์ ๊ท ๋ฑ ๋ถํฌ)
- ํ๋ฅ ๋ณ์์ ๊ฐ์ด ๋ฌดํ๊ฐ์ด๋ฉฐ ์ ์ ์์
- ์ฐ์ํ ํ๋ฅ ๋ณ์์ ํ๋ฅ ๊ฐ์ ๊ตฌํ ๋๋ ๋ฉด์ ์ ๊ตฌํ๊ธฐ ์ํด ์ ๋ถ์ ์ด์ฉ(e.g., ์๋๋ ์ฐ์ ๊ท ๋ฑ ๋ถํฌ๋ฅผ ํธ๋ ์์)
- ์ข ๋ฅ: ๊ท ๋ฑ๋ถํฌ, ์ ๊ท๋ถํฌ, ์นด์ด์ ๊ณฑ ๋ถํฌ, t-๋ถํฌ, F ๋ถํฌ
- ์ดํญ๋ถํฌ์ ํ๋ฅ ์ง๋ ํจ์(pmf)
-
ํ๋ฅ ์ง๋ ํจ์(Probability mass function): ์ด์ฐํ ํ๋ฅ ๋ถํฌ์ ๋ํ ํ๋ฅ ํจ์, ์ด์ฐํ๋ฅ ๋ณ์ X์ ๊ฐ x1, ..., xn์ ๊ฐ ํ๋ฅ ์ ๋์
-
ํ๋ฅ ๋ฐ๋ ํจ์(Probability density function): ์ฐ์ํ ํ๋ฅ ๋ถํฌ์ ๋ํ ํ๋ฅ ํจ์, ํ๋ฅ ๋ณ์ X๊ฐ ์ด๋ค ๊ตฌ๊ฐ [l, u]์ ๋ชจ๋ ๊ฐ์ ์ทจํ๊ณ ์ด ๊ตฌ๊ฐ์์์ ํจ์ f(x)
- ํ๋ฅ ๋ฐ๋ ํจ์์์๋ X๊ฐ ์ฃผ์ด์ง ๋ฒ์(ํ๋ณธ ๊ณต๊ฐ) ๋ด์์ ์์์ ์ค์ ๊ฐ์ ๊ฐ์ง
- ์ ๊ท๋ถํฌ(Normal distribuiton): ์ฐ์ ํ๋ฅ ๋ถํฌ์ ํ๋๋ก, ์์ฐ์ ์ผ๋ก ํํ ๋ณผ ์ ์๋ ๋ถํฌ. ๊ฐ์ฐ์ค ๋ถํฌ
- ํน์ง: ๋์นญ(symmetric)์ด๋ฉฐ ์ข ๋ชจ์์ ํํ(bell shape)
- ์ค์ฌ๊ทนํ์ ๋ฆฌ(CLT, Central Limit Theorem): ํ๋ณธ ํ๊ท ์ ๋ถํฌ๊ฐ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๋ ์ ๋ฆฌ
- ํ์ค ์ ๊ท ๋ถํฌ(Z-distribution, Standard normal distribution): ํ๊ท ์ด 0์ด๊ณ ํ์ค ํธ์ฐจ๊ฐ 1์ธ ์ ๊ท๋ถํฌ
- ๋ชจ๋ ์ ๊ท ๋ถํฌ๋ ํ์ค ์ ๊ท ๋ถํฌ๋ก ๋ณํ(transformation)๋ ์ ์์.
- ์์์ ์ ๊ท ๋ถํฌ๋ฅผ ํ์ค ์ ๊ท ๋ถํฌ๋ก ๋ณํํ๋ ๊ณผ์
- ํ๊ท ์ด ฮผ์ด๊ณ ๋ถ์ฐ์ด ฯยฒ์ธ ์ ๊ท ๋ถํฌ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ํ์: X ~ Normal(ฮผ, ฯยฒ)
- Y(Z-score) = (X - ฮผ) / ฯ
- Y ~ Normal(0, 1)
-
์ดํญ ๋ถํฌ(Binomial distribution): 1ํ์ ์๋์์ ์ฑ๊ณต/์คํจ๋ฅผ ๋ค๋ฃจ์๋ ๋ถํฌ์ธ ๋ฒ ๋ฅด๋์ด ๋ถํฌ๋ฅผ n๋ฒ์ ์๋๋ก ํ์ฅํ ๋ถํฌ. ์ฆ, nํ์ ๋ฒ ๋ฅด๋์ด ์ํ์ ํฉํ ๊ฒ
-
๋คํญ ๋ถํฌ(Mulitinomial distribution): ์ดํญ ๋ถํฌ(0 or 1) โ ๋คํญ ๋ถํฌ(n1, n2, n3, ...)
-
๋ชจ์ ๊ณต๊ฐ(parameter space): ๋ชจ์๊ฐ ์๋ฏธ ์๋ ๊ฐ์ ๊ฐ์ง ์ ์๋ ๊ณต๊ฐ
- ์ดํญ ๋ถํฌ์์์ ๋ชจ์ ๊ณต๊ฐ: n์ 1๋ณด๋ค ํฌ๊ฑฐ๋ ๊ฐ์ ์ ์, p๋ 0๊ณผ 1 ์ฌ์ด์ ์ค์
- ์ ๊ท๋ถํฌ์์์ ๋ชจ์ ๊ณต๊ฐ: ํ๊ท ์ ์์์ ์ค์๊ฐ, ๋ถ์ฐ์ 0๋ณด๋ค ํฐ ์ค์
- ํฌ์์ก ๋ถํฌ(Poisson distribution): '๋จ์ ์๊ฐ/๊ณต๊ฐ ๋ด ์ฌ๊ฑด์ ๋ฐ์ ํ์'์ ๋ํ ํ๋ฅ ๋ถํฌ(e.g., 1์๊ฐ์ ๋ช ๊ฑด์ ๊ตฌ๋งค๊ฐ ๋ฐ์ํ๋์ง)
-
- ํน์ง: ํ๊ท ๊ณผ ๋ถ์ฐ ๋ชจ๋ ๋ชจ์์ธ ฮป๋ก ๋์ผ
- ์ค์ ๋ฐ์ดํฐ๋ก๋ถํฐ ํฌ์์ก ๊ด๋ จ ๋ชจ๋ธ๋ง์ ํ ๋๋ ๊ณผ์ฐํฌ์ธ ๊ฒฝ์ฐ๊ฐ ๋ง์๋ฐ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์์ดํญ ๋ถํฌ(negative binomial)์ ์ฌ์ฉํ๊ธฐ๋ ํจ
- ๊ณผ์ฐํฌ(overdispersion): ํ๊ท ๋ณด๋ค ๋ถ์ฐ์ด ํฐ ๊ฒฝ์ฐ
- ํฌ์์ก ๋ถํฌ๋ ์ดํญ ๋ถํฌ๋ก๋ถํฐ ์ ๋๋ ์๋ ์์. ์ดํญ ๋ถํฌ์์ n์ด ๋ฌด์ฒ ํฌ๊ณ p๊ฐ ๋ฎ์์ง๋ฉด ฮป = np์ธ ํฌ์์ก์ผ๋ก ๊ทผ์ฌ๊ฐ ๊ฐ๋ฅ
- ๋ํ์ ์ธ ์์: ์ฑ ์ ํ ํ์ด์ง์์ ๋ํ๋ ์ ์๋ ์คํ์์ ์
- ์๋ง์ ๊ธ์(n์ด ํฌ๊ณ ) ์ค ์คํ์์ ์๋ ๋ฌด์ฒ ์ ์(p๊ฐ ์์). ํฌ์์ก ๊ด์ ์์๋ ๊ฐ ํ์ด์ง๋ฅผ ๋จ์ ๊ณต๊ฐ์ผ๋ก ๋ณด๊ณ ํ์ด์ง ๋น ์คํ์์ ์๊ฐ ํฌ์์ก์ ๋ฐ๋ฅธ๋ค๊ณ ๋ณผ ์ ์์
-
-
์ค์ผ์ผ๋ง(Scaling): ์ซ์์ ์ค์ผ์ผ์ ์กฐ์ ํ๋ ๊ฒ์ผ๋ก ๋ํ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ํ์คํ์ ์ ๊ทํ๊ฐ ์์ผ๋ฉฐ, ๋ฐ์ดํฐ์ ๋ถํฌ ํํ๋ ๋ฐ๊พธ์ง ์์
-
ํ์คํ(Standardization): ํ๊ท ์ 0, ํ์คํธ์ฐจ๋ฅผ 1๋ก ๋ง์ถฐ์ฃผ๋ ๋ณํ
-
์ ๊ทํ(Normalization): ์ต์๊ฐ์ 0, ์ต๋๊ฐ์ 1๋ก ๋ง์ถฐ์ฃผ๋ ๋ณํ
- ๊ธฐ๋๊ฐ(expectation): ๊ธฐ๋๊ฐ์ ๋จ์ํ ํ๊ท ๊ทธ ์ด์์ผ๋ก ์ผ๋ฐํ๋ ๊ฐ๋
- ์์ธก/์ถ์ ํ๋ ค๋ ์ด๋ค ํน์ ๊ฐ์ด ์๋, ๊ธฐ๋๋๋ ์์ธก์น๋ค์ ํ๊ท ๊ฐ
- ์ฆ, ํ๋ฅ ์ ๋ถํฌ ๊ฐ๋
์ด ๊ณ ๋ ค๋ ํ๊ท
- ํ๋ฅ ๋ถํฌ์ ์ฑ๊ฒฉ์ ๊ฒฐ์ ์ง๋ ํ๋ฅ ์ ํ๊ท ์น(๋ฌด๊ฒ์ค์ฌ, ๊ท ํ์ )
- ํ๋ฅ ๋ณ์๊ฐ ๋ํ๋ด๋ ํ๋ฅ ๋ถํฌ์์, ์ค์ฌ ๊ฒฝํฅ / ๊ธฐ๋๋๋ ์์น(์ฆ, ์ค์ฌ์ ์ผ๋ก ๊ธฐ๋๋๋ ๋ํ ๊ฐ)
- ๊ฒฐ๊ตญ, ํ๋ฅ ๋ถํฌ๋ฅผ ๋ด๊ณ ์๋ ํ๋ฅ ๋ณ์์ ์ทจํด์ง๋ ํ๋ฅ ์ ๊ฐ์คํ๊ท
- ์กฐ๊ฑด๋ถ ํ๋ฅ (Conditional probability): ์ฃผ์ด์ง ์ฌ๊ฑด์ด ์ผ์ด๋ฌ๋ค๋ ๊ฐ์ ํ์ ๋ค๋ฅธ ํ ์ฌ๊ฑด์ด ์ผ์ด๋ ํ๋ฅ
- ๋ ๋ฆฝ(independence): ๋ ์ค ํ๋์ ์ฌ๊ฑด์ด ์ผ์ด๋ ํ๋ฅ ์ด ๋ค๋ฅธ ์ฌ๊ฑด์ด ์ผ์ด๋ ํ๋ฅ ์ ์ํฅ์ ๋ฏธ์น์ง ์๋๋ค๋ ๊ฒ
- ์ข ์(dependent): ๋ ๋ฆฝ์ด ์๋ ๊ด๊ณ
- ํ์์ ๋ฐ์ดํฐ ๋ถ์(exploratory data analysis): ์์ฝํต๊ณ๋(ํ๊ท , ์ค์๊ฐ, ๋ถ์์ ๋ฑ)๊ณผ ๊ฐ๋จํ ๋ํ(์์๊ทธ๋ฆผ, ์ฐ์ ๋ ๋ฑ)๋ฑ์ ํตํด ๋ณต์กํ ๋ฐ์ดํฐ์ ๊ฒฝํฅ์ฑ์ ํ์ ํ๋ ๊ฒ
- ๋ฐ์ดํฐ์ ์ข
๋ฅ
- ์์นํ, ์ฐ์ํ, ์ ์ํ(์ด์ฐ), ๋ฒ์ฃผํ, ์ด์ง, ์์ํ
- ํ
์ด๋ธ ๋ฐ์ดํฐ: ํํ ํ๊ณผ ์ด๋ก ์ด๋ฃจ์ด์ ธ์ ๋ฐ์ดํฐ๋ฅผ ํํํ๋ ๋ฐฉ๋ฒ ~ ํ๋ค์ค์์๋ ๋ฐ์ดํฐ ํ๋ ์ ๊ตฌ์กฐ(feature๋ ๊ฐ ์ด, record๋ ๊ฐ ํ์ ๋ํ๋)
- features are used to predict outcome.
-
- ์์น ์ถ์
- ๋ฐ์ดํฐ์ ๊ฐ๋ค์ด ์ด๋์ฏค์ ์์นํ๋์ง(์ค์ฌ๊ฒฝํฅ์ฑ)๋ฅผ ๋ํ๋ด๋ ์ถ์ ๊ฐ์ ํ์ธํ๋ ๊ณผ์
- ํ๊ท , ๊ฐ์คํ๊ท , ์ค์๊ฐ, ๋ฐฑ๋ถ์์, ๊ฐ์ค ์ค์๊ฐ, ์ ์ฌํ๊ท , ๊ทน๋จ๊ฐ(outlier) ๋ฑ์ ํ์ธ + robust
- ๊ฐ์ค ํ๊ท (weighted mean): ๊ฐ์ค์น๋ฅผ ๊ณฑํ ๊ฐ์ ์ดํฉ์ ๊ฐ์ค์น์ ์ดํฉ์ผ๋ก ๋๋ ๊ฐ
- ๊ฐ์ค ์ค์๊ฐ(weighted median): ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฌํ ํ, ๊ฐ ๊ฐ์ค์น ๊ฐ์ ์์์๋ถํฐ ๋ํ ๋, ์ดํฉ์ ์ค๊ฐ์ด ์์นํ๋ ๋ฐ์ดํฐ ๊ฐ, wquantiles ํจํค์ง์ median() ํจ์๋ฅผ ์ฌ์ฉํด์ ๊ตฌํ ์ ์์
- ์ ์ฌํ๊ท (trimmed mean): ์ ํด์ง ๊ฐ์์ ๊ทน๋จ๊ฐ์ ์ ์ธํ ๋๋จธ์ง ๊ฐ๋ค์ ํ๊ท ~ scipy.stats์ ์๋ trim_mean ํจ์ ์ฌ์ฉ
-
- ๋ณ์ด ์ถ์
- ๋ฐ์ดํฐ ๊ฐ์ด ์ผ๋ง๋ ๋ฐ์งํด ์๋์ง ํน์ ํผ์ ธ ์๋์ง๋ฅผ ๋ํ๋ด๋ ์ฐํฌ๋๋ฅผ ํ์ธํ๋ ๊ณผ์ , ์ผ๋ฐ์ ์ผ๋ก ํธ์ฐจ๋ฅผ ๊ธฐ๋ณธ์ผ๋ก ํจ(e.g., ํ๊ท ์ ๋ํธ์ฐจ)
- ํธ์ฐจ, ๋ถ์ฐ, ํ์คํธ์ฐจ(๋ถ์ฐ์ ์ ๊ณฑ๊ทผ), ํ๊ท ์ ๋ํธ์ฐจ(Manhattan norm, L1 norm), ์ค์๊ฐ์ ์ค์์ ๋ํธ์ฐจ(MAD), ์์ํต๊ณ๋, ๋ฒ์, ๋ฐฑ๋ถ์์, ์ฌ๋ถ์๋ฒ์(IQR)์ ํ์ธ
- ํ๊ท ์ ๋ํธ์ฐจ(mean absolute deviation): ํ๊ท ๊ณผ์ ํธ์ฐจ์ ์ ๋๊ฐ์ ํ๊ท (ํธ์ฐจ ์์ฒด์ ํ๊ท ์ ๊ตฌํ๊ฒ ๋๋ฉด ์์ ํธ์ฐจ๊ฐ ์์ ํธ์ฐจ๋ฅผ ์์์ํค๋ฏ๋ก ๋ฐ๋์งํ์ง ์์)
- ์ค์๊ฐ์ ์ค์์ ๋ํธ์ฐจ(median absolute deviation from the median): ์ค๊ฐ๊ฐ๊ณผ์ ํธ์ฐจ์ ์ ๋๊ฐ์ ์ค๊ฐ๊ฐ, statsmodels ํจํค์ง์ strong.scale.mad() ํจ์ ์ฌ์ฉ
- ์์ํต๊ณ๋(์์, order statistics): ์ ๋ ฌ(์์) ๋ฐ์ดํฐ๋ฅผ ๋ํ๋ด๋ ํต๊ณ๋, ๊ฐ์ฅ ๊ธฐ๋ณธ์ด ๋๋ ์ธก๋๊ฐ ๋ฒ์(range)
- ๋ฒ์(range): ์ต๋๊ฐ๊ณผ ์ต์๊ฐ์ ์ฐจ์ด(์ต๋๊ฐ - ์ต์๊ฐ), ๋ฒ์๋ ๊ทน๋จ๊ฐ์ ๋งค์ฐ ๋ฏผ๊ฐํ์ฌ ๋ฐ์ดํฐ์ ๋ณ์ด๋ฅผ ์ธก์ ํ๋๋ฐ ํฌ๊ฒ ์ ์ฉํ์ง ์์ ~ ์ฌ๋ถ์๋ฒ์(IQR)๋ฅผ ํ์ฉํด ๊ทน๋ณต
- ๋ถ์ฐ, ํ์คํธ์ฐจ, ํ๊ท ์ ๋ํธ์ฐจ ๋ชจ๋ ๊ทน๋จ๊ฐ์ ๋ก๋ฒ์คํธํ์ง ์์ โ robustํ ๋ณ์ด ์ถ์ ๊ฐ์ผ๋ก ์ค๊ฐ๊ฐ์ ์ค์์ ๋ํธ์ฐจ(MAD)๊ฐ ์์
- ๋ถ์ฐ๊ณผ ํ์คํธ์ฐจ๋ ์ ๊ณฑํธ์ฐจ๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ํนํ ๊ทน๋จ๊ฐ์ ๋ฏผ๊ฐํจ
-
- ๋ฐ์ดํฐ ๋ถํฌ ํ์
- ์ฃผ๋ก ๋ฐ์ดํฐ๊ฐ ์ ๋ฐ์ ์ผ๋ก ์ด๋ป๊ฒ ๋ถํฌํ๊ณ ์๋์ง๋ฅผ ์์๋ณด๋ ๊ณผ์
- ์์๊ทธ๋ฆผ(boxplot), ๋์๋ถํฌํ(frequency table), ํ์คํ ๊ทธ๋จ(histogram), ๋ฐ๋ ๊ทธ๋ฆผ(density plot)๋ฅผ ํ์ฉํ์ฌ ์๊ฐํ
- ๋ฐ๋ ๊ทธ๋ฆผ(density plot): ํ์คํ ๊ทธ๋จ์ ๋ถ๋๋ฌ์ด ๊ณก์ ์ผ๋ก ๋ํ๋ธ ๊ทธ๋ฆผ์ผ๋ก ์ปค๋๋ฐ๋์ถ์ ์ ์ฃผ๋ก ์ฌ์ฉ
-
- ์ด์ง ๋ฐ์ดํฐ์ ๋ฒ์ฃผ ๋ฐ์ดํฐ ํ์
- ์ด์ง ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ๋ 1๊ณผ ๊ฐ์ด ์ค์ํ ๋ฒ์ฃผ์ ๋น์จ์ด ์ด๋ ์ ๋ ๋๋์ง ์์๋ณด๋ฉด ๋จ - ๋ง๋ ๊ทธ๋ํ(count plot or bar plot) ํ์ฉํ์ฌ ์๊ฐํ ๊ฐ๋ฅ
- ๋ฒ์ฃผ ๋ฐ์ดํฐ๋ ๋ณดํต ๋น์จ๋ก ์์ฝํ ์ ์๊ณ ์๋์ ๊ฐ์ด 2๊ฐ์ง์ ๊ฒฝ์ฐ๋ก ์ฃผ๋ก ๋ถ๋ฅํด์ ๊ตฌํจ
- ๋ฒ์ฃผ๊ฐ ๋ช ๊ฐ ์ ๋๋ ๊ฒฝ์ฐ: ๋ง๋ ๊ทธ๋ํ(count plot or bar plot), ํ์ด์ฐจํธ(pie chart)
- ๋ง๋ ๊ทธ๋ํ๋ ํ์คํ ๊ทธ๋จ๊ณผ ์ ์ฌํ๋ฉฐ, ํต๊ณํ์๋ ๋ฐ์ดํฐ ์๊ฐํ ์ ๋ฌธ๊ฐ๋ค์ ํ์ด์ฐจํธ๊ฐ ์๊ฐ์ ์ผ๋ก ํจ๊ณผ์ ์ด์ง ์๋ค๋ ์ด์ ๋ก ์ ์ฌ์ฉํ์ง ์์
- ๋ฒ์ฃผ๊ฐ ๋ง์ ๊ฒฝ์ฐ: ์ต๋น๊ฐ(mode), ๊ธฐ๋๊ฐ(expected value)
- ๋ฒ์ฃผ๊ฐ ๋ช ๊ฐ ์ ๋๋ ๊ฒฝ์ฐ: ๋ง๋ ๊ทธ๋ํ(count plot or bar plot), ํ์ด์ฐจํธ(pie chart)
- ์ด์ง ๋ฐ์ดํฐ์ ๋ฒ์ฃผ ๋ฐ์ดํฐ ํ์
-
- ์๊ด๊ด๊ณ
- ์์ธก๊ฐ๊ณผ ๋ชฉํฏ๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ์กฐ์ฌํ๋ ๊ฒ์ผ๋ก์จ ์ด๋ณ๋๋ถ์์ ์ค์ํ ๋ฐฉ๋ฒ, ์๊ดํ๋ ฌ์ด๋ ์ฐ์ ๋๋ฅผ ํ์ฉํด์ ํ์
- X๊ฐ ํฐ ๊ฐ์ ๊ฐ์ง๋ฉด Y๋ ํฐ ๊ฐ์ ๊ฐ๊ณ , X๊ฐ ์์ ๊ฐ์ ๊ฐ์ง๋ฉด Y๋ ์์ ๊ฐ์ ๊ฐ์ง๋ ๊ฒฝ์ฐ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ๋๋ค๊ณ ํจ
- ์๊ด๊ณ์(correlation coefficient): ์์น์ ๋ณ์๋ค ๊ฐ์ ์ด๋ค ๊ด๊ณ๊ฐ ์๋์ง๋ฅผ ๋ํ๋ด๊ธฐ ์ํด ์ฌ์ฉ๋๋ ์ธก์ ๋(-1 ~ +1)
- ์ ๋๊ฐ์ด 1์ ๊ฐ๊น์ธ์๋ก ์๊ด๊ด๊ณ๊ฐ ๋์ผ๋ฉฐ 0์ ๊ฐ๊น์ธ์๋ก ์๊ด๊ด๊ณ๊ฐ ์๋ค๋ ๋ป(+ ์์ ์๊ด๊ด๊ณ, ์์ ์๊ด๊ด๊ณ)
- ์๊ดํ๋ ฌ(correlation matrix): ํ๊ณผ ์ด์ด ๋ณ์๋ค์ ์๋ฏธํ๋ ํ, ๊ฐ ์ ์ ๊ทธ ํ๊ณผ ์ด์ ํด๋นํ๋ ๋ณ์๋ค ๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ์๋ฏธ
- ์ฐ์ ๋(scatterplot): x์ถ๊ณผ y์ถ์ด ์๋ก ๋ค๋ฅธ ๋ ๊ฐ์ ๋ณ์๋ฅผ ๋ํ๋ด๋ ๋ํ
-
- ์ด๋ณ๋๋ถ์ & ๋ค๋ณ๋๋ถ์
-
์ก๊ฐํ ๊ตฌ๊ฐ(hexagonal binning), ๋ฑ๊ณ ์ ๋(contour plot), ํํธ๋งต(heatmap), ๋ถํ ํ(contingency table), ๋ฐ์ด์ฌ๋ฆฐ ๋ํ(violin plot)
-
์ก๊ฐํ ๊ตฌ๊ฐ: ๋ฐ์ดํฐ๋ฅผ ์ ์ผ๋ก ํ์ํ๋ ๋์ ๋ฐ์ดํฐ๋ฅผ ์ก๊ฐํ ๋ชจ์์ ๊ตฌ๊ฐ๋ค๋ก ๋๋๊ณ ๊ฐ ๊ตฌ๊ฐ์ ํฌํจ๋ ๊ธฐ๋ก๊ฐ์ ๊ฐ์์ ๋ฐ๋ผ ์๊น์ ํ์ํ ๋ํ(pandas ํจํค์ง์ hexbin() ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ์๊ฐํ ๊ฐ๋ฅ)
-
๋ฑ๊ณ ์ ๋: ์ฐ์ ๋ ์์ ๋ฑ๊ณ ์ ์ ์ฌ์ฉํ ๋ํ๋ก์จ ๋ฑ๊ณ ์ ์ '๊ผญ๋๊ธฐ'์ชฝ์ผ๋ก ๊ฐ์๋ก ๋ฐ๋๊ฐ ๋์์ง(seaborn ํจํค์ง์ kdeplot() ํจ์๋ฅผ ์ด์ฉํด ์๊ฐํ ๊ฐ๋ฅ)
-
๋ถํ ํ: ๋ ๋ฒ์ฃผํ ๋ณ์๋ฅผ ์์ฝํ๋ ๋ฐ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก, ๋ฒ์ฃผ๋ณ ๋น๋์๋ฅผ ๊ธฐ๋กํ ํ
-
๋ฐ์ด์ฌ๋ฆฐ ๋ํ: ์์๊ทธ๋ฆผ์ ๋ณด์ํ ํํ๋ก, y์ถ์ ๋ฐ๋ผ ๋ฐ๋์ถ์ ๊ฒฐ๊ณผ๋ฅผ ๋์์ ์๊ฐํ(seaborn ํจํค์ง์ violinplot() ํจ์๋ฅผ ์ด์ฉํด ์๊ฐํ ๊ฐ๋ฅ)