# **데이터 분석 및 시각화 연습 예제-1**

# <font color="blue">1. 데이터 시각화의 필요성</font>

데이터 시각화가 왜 필요한지 보여주는 대표적인 예제 중 하나로 *앤스콤 4분할 그래프(Anscombe's quartet)*가 있다. 앤스콤 4분할 그래프를 구성하는 데이터들은 총 4개의 그룹들로 나누어져 있으며, 각각의 데이터 그룹들은 2차원 좌표평면에 나타낼 수 있도록 여러 개의 x값과 y값으로 이루어져 있다.

그런데 이 데이터 그룹들은 <u>평균, 표준편차, 회귀선 등의 값이 일치</u>하는데, 그래서 얼핏 보면 **데이터 그룹들이 서로 비슷한 종류의 데이터들로 구성된 것으로 오해**할 수 있다. 하지만 실제로 각각의 데이터 그룹들을 시각화해보면 **서로 다른 패턴**을 띄는 것을 확인할 수 있다.

앤스콤 4분할 그래프 데이터셋은 <u>seaborn 라이브러리</u>를 통해 쉽게 가져올 수 있다.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

아래의 코드로 필요한 데이터셋을 가져올 수 있다.

In [None]:
# 데이터셋 불러오기
anscombe = sns.load_dataset("anscombe")

In [None]:
# 데이터셋 출력
display(anscombe)
print(type(anscombe))

가져온 데이터셋을 각각의 데이터 그룹으로 나눈다. 데이터프레임을 조작할 수 있는 방법은 다양하지만, 아래의 코드를 통해서 간단하게 나눌 수 있다.

In [None]:
# 데이터 그룹 분리
group1 = anscombe.loc[0:10, ["x", "y"]]
group2 = anscombe.loc[11:21, ["x", "y"]]
group3 = anscombe.loc[22:32, ["x", "y"]]
group4 = anscombe.loc[33:43, ["x", "y"]]

In [None]:
display(group1)
display(group2)
display(group3)
display(group4)

시각화를 진행하기 전에 각 데이터 그룹의 평균과 표준편차를 확인해본다. 데이터프레임 내 데이터의 통계 수치를 확인하는 `describe()` 함수를 호출하고, 행 슬라이싱을 통해 평균과 표준편차만 선택해서 출력하고 있다.

In [None]:
display(group1.describe()["mean":"std"])
display(group2.describe()["mean":"std"])
display(group3.describe()["mean":"std"])
display(group4.describe()["mean":"std"])

평균과 표준편차가 거의 일치하는 것을 확인할 수 있다.

---

아래의 코드를 통해 시각화를 진행할 수 있다.

In [None]:
# figure 객체 생성
fig = plt.figure()

# 서브플롯 생성
ax1 = fig.add_subplot(2, 2, 1)
ax2 = fig.add_subplot(2, 2, 2)
ax3 = fig.add_subplot(2, 2, 3)
ax4 = fig.add_subplot(2, 2, 4)

# 각 데이터 그룹의 x, y값을 이용해서 서브플롯에 그래프를 표시
ax1.plot(group1["x"], group1["y"], "co")
ax2.plot(group2["x"], group2["y"], "mo")
ax3.plot(group3["x"], group3["y"], "yo")
ax4.plot(group4["x"], group4["y"], "ko")

# 출력
plt.show()

네 개의 데이터 그룹들은 평균과 표준편차가 서로 거의 일치하지만 시각화를 통해 확인해보면 패턴이 크게 다른 것을 확인할 수 있다.

---

아래의 코드들을 통해 시각화 결과물을 좀 더 구체화시킬 것이다. 특히 이번 시각화에서는 선형 회귀선 또한 표시할 것이다. 선형 회귀선을 그리기 위해 먼저 numpy의 함수를 이용해서 선형 회귀 방정식을 구한다.

In [None]:
import numpy as np

In [None]:
# 선형 회귀선을 그리기 위해 필요한 기울기, y절편 생성
pf1 = np.polyfit(group1["x"], group1["y"], 1)
pf2 = np.polyfit(group2["x"], group2["y"], 1)
pf3 = np.polyfit(group3["x"], group3["y"], 1)
pf4 = np.polyfit(group4["x"], group4["y"], 1)

In [None]:
# 선형 회귀선을 그릴 객체 생성
f1 = np.poly1d(pf1)
f2 = np.poly1d(pf2)
f3 = np.poly1d(pf3)
f4 = np.poly1d(pf4)

`polyfit()` 함수를 통해 x값과 y값을 입력하면 선형 회귀선의 기울기와 y절편 값을 배열 형태로 얻을 수 있다. 얻어진 기울기와 y절편 값을 `poly1d()` 함수에 입력하면 선형 회귀선을 그리기 위한 객체를 생성할 수 있다.

---

생성된 선형 회귀선 함수 객체를 이용해서 서브플롯에 선형 회귀선을 그릴 수 있다.

In [None]:
# 서브플롯 생성
(fig, ((ax1, ax2), (ax3, ax4))) = plt.subplots(2, 2, sharex=True, sharey=True, figsize=(9.6, 7.2))

# 서브플롯에 선형 회귀선을 표시
ax1.plot(group1["x"], f1(group1["x"]), "r:")
ax2.plot(group2["x"], f2(group2["x"]), "r:")
ax3.plot(group3["x"], f3(group3["x"]), "r:")
ax4.plot(group4["x"], f4(group4["x"]), "r:")

# 각 데이터 그룹의 x, y값을 이용해서 서브플롯에 그래프를 표시
ax1.plot(group1["x"], group1["y"], "co")
ax2.plot(group2["x"], group2["y"], "mo")
ax3.plot(group3["x"], group3["y"], "yo")
ax4.plot(group4["x"], group4["y"], "ko")

# 서브플롯에 타이틀을 설정
ax1.set_title("Dataset I")
ax2.set_title("Dataset II")
ax3.set_title("Dataset III")
ax4.set_title("Dataset IV")

# figure 객체에 대한 타이틀을 설정하고 여백을 최소화
fig.suptitle("Anscombe Datasets", fontsize="xx-large")
fig.tight_layout()

# 시각화
plt.show()

# <font color="blue">2. 파일 불러오기/내보내기</font>

![image](https://pandas.pydata.org/docs/_images/02_io_readwrite.svg)

pandas에서는 다양한 형식의 파일을 불러와서 데이터프레임 객체로 변환하거나, 반대로 데이터프레임 내 데이터들을 다양한 형식의 파일로 저장할 수 있다. 파일로부터 데이터를 불러올 때는 `read_[파일 형식]()` 함수를, 내보낼 때는 `to_[파일 형식]()` 함수를 사용한다.

In [None]:
import pandas as pd

In [None]:
# colab에서 파일을 업로드하려면 아래의 코드를 사용
from google.colab import files
uploaded = files.upload()

타이타닉 탑승객 명단을 기록한 csv파일을 불러와서 데이터프레임 객체로 변환한다.

In [None]:
titanic = pd.read_csv("titanic.csv")

In [None]:
display(titanic)

데이터프레임 객체 내 데이터들을 엑셀 파일로 저장한다. 이때 시트명을 지정할 수도 있다.

In [None]:
titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False)

다시 엑셀 파일로부터 데이터를 불러와서 데이터프레임 객체를 생성할 수 있다. 마찬가지로 시트명을 지정할 수 있다.

In [None]:
titanic = pd.read_excel("titanic.xlsx", sheet_name="passengers")

In [None]:
display(titanic)

# <font color="blue">3. 데이터프레임 조작하기 예제</font>

In [None]:
# 데이터프레임에 대한 정보 확인
titanic.info()

*   PassengerId: 탑승객 고유 번호
*   Survived: 생존 여부(0: 사망, 1: 생존)
*   Pclass: 객실 등급(1: 상급, 2: 중급, 3: 하급)
*   Name: 탑승객 성명
*   Sex: 탑승객 성별(male: 남성, female: 여성)
*   Age: 탑승객 연령
*   SibSp: 동반 형제자매(Sibling) 및 배우자(Spouse) 수
*   Parch: 동반 부모(Parent) 및 자식(Child) 수
*   Ticket: 탑승권 고유 번호
*   Fare: 탑승권 요금
*   Cabin: 객실 번호
*   Embarked: 승선항(C: Cherbourg, Q: Queenstown, S: Southampton)






## <font color="green">특정 열 선택하기</font>

![image](https://pandas.pydata.org/docs/_images/03_subset_columns.svg)

*   `df["열 이름"]`
*   `df[["열1", "열2", ...]]`

열 이름을 이용한 인덱싱을 통해 특정 열의 데이터를 선택할 수 있다.

In [None]:
# 탑승객 연령 열을 선택해서 출력하기
titanic["Age"]

In [None]:
# 탑승객 성명, 연령 및 생존 여부 열을 모두 선택해서 한꺼번에 출력하기
titanic[["Name", "Age", "Survived"]]

In [None]:
# 객실 번호, 객실 등급, 승선항, 탑승권 고유 번호 및 탑승권 요금 열을 모두 선택해서 한꺼번에 출력하기
titanic[["Cabin", "Pclass", "Embarked", "Ticket", "Fare"]]

## <font color="green">특정 행 선택하기</font>

![image](https://pandas.pydata.org/docs/_images/03_subset_rows.svg)

*   `df["행1 이름" 또는 인덱스:"행2 이름" 또는 인덱스]`

행 이름 또는 인덱스를 이용한 슬라이싱을 통해 특정 행의 데이터를 선택할 수 있다.

In [None]:
# 10번 인덱스 행부터 20번 인덱스 행까지 선택해서 출력하기
titanic[10:21]

In [None]:
# 100, 200, 300, ..., 800번 인덱스 행을 모두 선택해서 한꺼번에 출력하기
titanic[100::100]

*   `df[(조건식)]`

조건식을 이용한 boolean indexing을 통해 특정 조건을 만족하는 행의 데이터를 선택할 수 있다. 조건식 부분은 boolean 값들로 구성된 Series 객체를 입력한다.

In [None]:
# 탑승객 연령 열을 선택해서 해당 열의 데이터들이 35를 넘는지 검사하기
titanic["Age"] > 35

In [None]:
# boolean indexing을 이용해서 연령이 35세를 넘는 모든 탑승객의 데이터 출력하기
titanic[titanic["Age"] > 35]

In [None]:
# 생존자 명단 출력하기
titanic[titanic["Survived"] > 0]

In [None]:
# 연령이 35세를 넘는 생존자 명단 출력하기
titanic[titanic["Age"] > 35][titanic["Survived"] > 0]
# titanic[(titanic["Age"] > 35) & (titanic["Survived"] > 0)]

In [None]:
# 연령 열을 선택해서 데이터가 na인지 여부 확인하기
titanic["Age"].isna()

In [None]:
# 연령 열의 데이터가 na인 탑승객 명단 출력하기
titanic[titanic["Age"].isna()]

## <font color="green">특정 행열 선택하기</font>

![image](https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg)

*   `df.loc["행 이름", "열 이름"]`
*   `df.iloc[(행 인덱스), (열 인덱스)]`
*   `df.loc[["행1 이름", "행2 이름", ...], ["열1 이름", "열2 이름", ...]]`
*   `df.iloc[[(행1 인덱스), (행2 인덱스), ...], [(열1 인덱스), (열2 인덱스), ...]]`

loc, iloc 속성을 이용해서 특정 행, 열의 데이터를 선택할 수 있다. 인덱싱, 슬라이싱, 다중 인덱싱, boolean indexing(iloc에서는 불가능) 등의 문법을 적용할 수 있다.



In [None]:
# 5번, 9번, 23번 행 및 탑승객 고유 번호, 객실 등급, 승선항 정보를 출력하기
titanic.loc[[5, 9, 23], ["PassengerId", "Pclass", "Embarked"]]

In [None]:
# 연령이 35세를 넘는 탑승객들의 이름만 출력하기
titanic[titanic["Age"] > 35]["Name"]
# titanic.loc[titanic["Age"] > 35, "Name"]

In [None]:
# 10번 인덱스 행, 10번 인덱스 열의 데이터 출력하기
titanic.iloc[10, 10]

In [None]:
# 10~25번 인덱스 행 및 3~5번 인덱스 열 데이터 출력하기
titanic.iloc[10:26, 3:6]

## <font color="green">통계 데이터 구하기</font>

![image](https://pandas.pydata.org/docs/_images/06_aggregate.svg)

*   `df.count()`
*   `df.sum()`
*   `df.mean()`
*   `df.median()`
*   `df.std()`
*   `df.min()`
*   `df.max()`

데이터프레임 객체에 대해 다양한 통계 관련 함수가 제공된다. 각각의 함수는, 각각의 열에 대해 독립적으로 적용된다. 특정 열 내 모든 행 데이터에 대해 연산한 결과를 반환한다.

In [None]:
# 탑승객 평균 연령 구하기
titanic["Age"].mean()

In [None]:
# 탑승권 요금 합계 구하기
titanic["Fare"].sum()

![image](https://pandas.pydata.org/docs/_images/06_reduction.svg)

In [None]:
# 탑승객 연령, 탑승권 요금 중앙값 구하기
titanic[["Age", "Fare"]].median()

In [None]:
# 생존자 최저 연령 구하기
titanic.loc[titanic["Survived"] > 0, "Age"].min()

In [None]:
# 사망자 최고 연령 구하기
titanic.loc[titanic["Survived"] == 0, "Age"].max()

## <font color="green">그룹화 응용하기</font>

![image](https://pandas.pydata.org/docs/_images/06_groupby.svg)

*   `df.groupby("열 이름")`
*   `df.groupby(["열1 이름", "열2 이름", ...])`

특정 열을 지정해 해당 열 내에 있는 데이터들끼리 그룹을 묶어 처리할 수 있다. groupby() 함수 실행 결과 groupby 객체가 생성되는데, 지정한 열의 데이터 값에 따라 별도로 묶인 데이터프레임들이 들어있다고 볼 수 있다. 그후 인덱싱, 슬라이싱, 통계 함수 등 추가 조작을 가해 결과 데이터프레임을 확인할 수 있다.

In [None]:
# 탑승객 성별에 따른 평균 연령 구하기(boolean indexing 활용)
print(titanic.loc[titanic["Sex"] == "female", "Age"].mean())
print(titanic.loc[titanic["Sex"] == "male", "Age"].mean())

In [None]:
# 탑승객 성별에 따른 평균 연령 구하기(groupby() 함수 활용)
titanic.groupby("Sex")["Age"].mean()

![image](https://pandas.pydata.org/docs/_images/06_groupby_select_detail.svg)

In [None]:
# 사망자, 생존자 평균 연령 구하기(boolean indexing 활용)
print(titanic.loc[titanic["Survived"] == 0, "Age"].mean())
print(titanic.loc[titanic["Survived"] > 0, "Age"].mean())

In [None]:
# 사망자, 생존자 평균 연령 구하기(groupby 함수 활용)
titanic.groupby("Survived")["Age"].mean()

In [None]:
# 생존 여부와 객실 등급에 따른 평균 연령 구하기
titanic.groupby(["Survived", "Pclass"])["Age"].mean()

In [None]:
# 객실 등급과 승선항에 따른 평균 탑승권 요금 구하기
titanic.groupby(["Pclass", "Embarked"])["Fare"].mean()

In [None]:
# 객실 등급 별 탑승객 수 구하기
titanic.groupby("Pclass")["Pclass"].count()

In [None]:
# 객실 등급 별 탑승객 수 구하기
titanic["Pclass"].value_counts()

![image](https://pandas.pydata.org/docs/_images/06_valuecounts.svg)

`value_counts()` 함수를 이용하면 `groupby()` 함수와 `count()` 함수의 효과를 빠르게 적용할 수 있다.

## <font color="green">데이터 정렬하기</font>

*   `df.sort_index()`: 행 이름 값에 따라 행을 정렬한다.
*   `df.sort_index(axis=1)`: 열 이름 값에 따라 열을 정렬한다.
*   `df.sort_values(by="열 이름")`: 지정한 열의 행을 정렬한다.
*   `df.sort_values(by=["열1", "열2", ...])`: 지정한 열들의 행을 정렬한다.



In [None]:
# 행 인덱스 내림차순 정렬하기
titanic.sort_index(ascending=False)

In [None]:
# 열 알파벳순 정렬하기
titanic.sort_index(axis=1)

In [None]:
# 탑승객 연령 오름차순 정렬하기
titanic.sort_values(by="Age")

In [None]:
# 객실 등급, 연령 내림차순 정렬하기
titanic.sort_values(by=["Pclass", "Age"], ascending=False)