# **데이터 분석 및 시각화 연습 예제-1**

# <font color="blue">1. 데이터 시각화의 필요성</font>

데이터 시각화가 왜 필요한지 보여주는 대표적인 예제 중 하나로 *앤스콤 4분할 그래프(Anscombe's quartet)*가 있다. 앤스콤 4분할 그래프를 구성하는 데이터들은 총 4개의 그룹들로 나누어져 있으며, 각각의 데이터 그룹들은 2차원 좌표평면에 나타낼 수 있도록 여러 개의 x값과 y값으로 이루어져 있다.

그런데 이 데이터 그룹들은 <u>평균, 표준편차, 회귀선 등의 값이 일치</u>하는데, 그래서 얼핏 보면 **데이터 그룹들이 서로 비슷한 종류의 데이터들로 구성된 것으로 오해**할 수 있다. 하지만 실제로 각각의 데이터 그룹들을 시각화해보면 **서로 다른 패턴**을 띄는 것을 확인할 수 있다.

앤스콤 4분할 그래프 데이터셋은 <u>seaborn 라이브러리</u>를 통해 쉽게 가져올 수 있다.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

아래의 코드로 필요한 데이터셋을 가져올 수 있다.

In [None]:
# 데이터셋 불러오기
anscombe = sns.load_dataset("anscombe")

In [None]:
# 데이터셋 출력
display(anscombe)
print(type(anscombe))

가져온 데이터셋을 각각의 데이터 그룹으로 나눈다. 데이터프레임을 조작할 수 있는 방법은 다양하지만, 아래의 코드를 통해서 간단하게 나눌 수 있다.

In [None]:
# 데이터 그룹 분리
group1 = anscombe.loc[0:10, ["x", "y"]]
group2 = anscombe.loc[11:21, ["x", "y"]]
group3 = anscombe.loc[22:32, ["x", "y"]]
group4 = anscombe.loc[33:43, ["x", "y"]]

In [None]:
display(group1)
display(group2)
display(group3)
display(group4)

시각화를 진행하기 전에 각 데이터 그룹의 평균과 표준편차를 확인해본다. 데이터프레임 내 데이터의 통계 수치를 확인하는 `describe()` 함수를 호출하고, 행 슬라이싱을 통해 평균과 표준편차만 선택해서 출력하고 있다.

In [None]:
display(group1.describe()["mean":"std"])
display(group2.describe()["mean":"std"])
display(group3.describe()["mean":"std"])
display(group4.describe()["mean":"std"])

평균과 표준편차가 거의 일치하는 것을 확인할 수 있다.

---

아래의 코드를 통해 시각화를 진행할 수 있다.

In [None]:
# figure 객체 생성
fig = plt.figure()

# 서브플롯 생성
axes1 = fig.add_subplot(2, 2, 1)
axes2 = fig.add_subplot(2, 2, 2)
axes3 = fig.add_subplot(2, 2, 3)
axes4 = fig.add_subplot(2, 2, 4)

# 각 데이터 그룹의 x, y값을 이용해서 서브플롯에 그래프를 표시
axes1.plot(group1["x"], group1["y"], "co")
axes2.plot(group2["x"], group2["y"], "mo")
axes3.plot(group3["x"], group3["y"], "yo")
axes4.plot(group4["x"], group4["y"], "ko")

# 출력
plt.show()

네 개의 데이터 그룹들은 평균과 표준편차가 서로 거의 일치하지만 시각화를 통해 확인해보면 패턴이 크게 다른 것을 확인할 수 있다.

---

아래의 코드들을 통해 시각화 결과물을 좀 더 구체화시킬 것이다. 특히 이번 시각화에서는 선형 회귀선 또한 표시할 것이다. 선형 회귀선을 그리기 위해 먼저 numpy의 함수를 이용해서 선형 회귀 방정식을 구한다.

In [None]:
import numpy as np

In [None]:
# 선형 회귀선을 그리기 위해 필요한 기울기, y절편 생성
pf1 = np.polyfit(group1["x"], group1["y"], 1)
pf2 = np.polyfit(group2["x"], group2["y"], 1)
pf3 = np.polyfit(group3["x"], group3["y"], 1)
pf4 = np.polyfit(group4["x"], group4["y"], 1)

In [None]:
# 선형 회귀선을 그릴 객체 생성
f1 = np.poly1d(pf1)
f2 = np.poly1d(pf2)
f3 = np.poly1d(pf3)
f4 = np.poly1d(pf4)

`polyfit()` 함수를 통해 x값과 y값을 입력하면 선형 회귀선의 기울기와 y절편 값을 배열 형태로 얻을 수 있다. 얻어진 기울기와 y절편 값을 `poly1d()` 함수에 입력하면 선형 회귀선을 그리기 위한 객체를 생성할 수 있다.

---

생성된 선형 회귀선 함수 객체를 이용해서 서브플롯에 선형 회귀선을 그릴 수 있다.

In [None]:
# 서브플롯 생성
(fig, ((ax1, ax2), (ax3, ax4))) = plt.subplots(2, 2, sharex=True, sharey=True, figsize=(9.6, 7.2))

# 서브플롯에 선형 회귀선을 표시
ax1.plot(group1["x"], f1(group1["x"]), "r:")
ax2.plot(group2["x"], f2(group2["x"]), "r:")
ax3.plot(group3["x"], f3(group3["x"]), "r:")
ax4.plot(group4["x"], f4(group4["x"]), "r:")

# 각 데이터 그룹의 x, y값을 이용해서 서브플롯에 그래프를 표시
ax1.plot(group1["x"], group1["y"], "co")
ax2.plot(group2["x"], group2["y"], "mo")
ax3.plot(group3["x"], group3["y"], "yo")
ax4.plot(group4["x"], group4["y"], "ko")

# 서브플롯에 타이틀을 설정
ax1.set_title("Dataset I")
ax2.set_title("Dataset II")
ax3.set_title("Dataset III")
ax4.set_title("Dataset IV")

# figure 객체에 대한 타이틀을 설정하고 여백을 최소화
fig.suptitle("Anscombe Datasets", fontsize="xx-large")
fig.tight_layout()

# 시각화
plt.show()

# <font color="blue">2. 파일 불러오기/내보내기</font>

![image](https://pandas.pydata.org/docs/_images/02_io_readwrite.svg)

pandas에서는 다양한 형식의 파일을 불러와서 데이터프레임 객체로 변환하거나, 반대로 데이터프레임 내 데이터들을 다양한 형식의 파일로 저장할 수 있다. 파일로부터 데이터를 불러올 때는 `read_[파일 형식]()` 함수를, 내보낼 때는 `to_[파일 형식]()` 함수를 사용한다.

In [None]:
import pandas as pd

In [None]:
# colab에서 파일을 업로드하려면 아래의 코드를 사용
from google.colab import files
uploaded = files.upload()

타이타닉 탑승객 명단을 기록한 csv파일을 불러와서 데이터프레임 객체로 변환한다.

In [None]:
titanic = pd.read_csv("titanic.csv")

In [None]:
display(titanic)

데이터프레임 객체 내 데이터들을 엑셀 파일로 저장한다. 이때 시트명을 지정할 수도 있다.

In [None]:
titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False)

다시 엑셀 파일로부터 데이터를 불러와서 데이터프레임 객체를 생성할 수 있다. 마찬가지로 시트명을 지정할 수 있다.

In [None]:
titanic = pd.read_excel("titanic.xlsx", sheet_name="passengers")

In [None]:
display(titanic)

# <font color="blue">3. 데이터프레임 조작하기 예제</font>

In [None]:
# 데이터프레임에 대한 정보 확인
titanic.info()

*   PassengerId: 탑승객 고유 번호
*   Survived: 생존 여부(0: 사망, 1: 생존)
*   Pclass: 객실 등급(1: 상급, 2: 중급, 3: 하급)
*   Name: 탑승객 성명
*   Sex: 탑승객 성별(male: 남성, female: 여성)
*   Age: 탑승객 연령
*   SibSp: 동반 형제자매(Sibling) 및 배우자(Spouse) 수
*   Parch: 동반 부모(Parent) 및 자식(Child) 수
*   Ticket: 탑승권 고유 번호
*   Fare: 탑승권 요금
*   Cabin: 객실 번호
*   Embarked: 승선항(C: Cherbourg, Q: Queenstown, S: Southampton)






## <font color="green">특정 열 선택하기</font>

![image](https://pandas.pydata.org/docs/_images/03_subset_columns.svg)

*   `df["열 이름"]`
*   `df[["열1 이름", "열2 이름", ...]]`

열 이름을 이용한 인덱싱을 통해 특정 열의 데이터를 선택할 수 있다.

In [None]:
# 탑승객 연령 열을 선택해서 출력하기


0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

In [None]:
# 탑승객 성명, 연령 및 생존 여부 열을 모두 선택해서 한꺼번에 출력하기


Unnamed: 0,Name,Age,Survived
0,"Braund, Mr. Owen Harris",22.0,0
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1
2,"Heikkinen, Miss. Laina",26.0,1
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1
4,"Allen, Mr. William Henry",35.0,0
...,...,...,...
886,"Montvila, Rev. Juozas",27.0,0
887,"Graham, Miss. Margaret Edith",19.0,1
888,"Johnston, Miss. Catherine Helen ""Carrie""",,0
889,"Behr, Mr. Karl Howell",26.0,1


In [None]:
# 객실 번호, 객실 등급, 승선항, 탑승권 고유 번호 및 탑승권 요금 열을 모두 선택해서 한꺼번에 출력하기
titanic[["Cabin", "Pclass", "Embarked", "Ticket", "Fare"]]

## <font color="green">특정 행 선택하기</font>

![image](https://pandas.pydata.org/docs/_images/03_subset_rows.svg)

*   `df["행1 이름" 또는 인덱스:"행2 이름" 또는 인덱스]`

행 이름 또는 인덱스를 이용한 슬라이싱을 통해 특정 행의 데이터를 선택할 수 있다.

In [None]:
# 10번 인덱스 행부터 20번 인덱스 행까지 선택해서 출력하기


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
12,13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S
16,17,0,3,"Rice, Master. Eugene",male,2.0,4,1,382652,29.125,,Q
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0,,S
18,19,0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,1,0,345763,18.0,,S
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.225,,C


In [None]:
# 100, 200, 300, ..., 800번 인덱스 행을 모두 선택해서 한꺼번에 출력하기


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
100,101,0,3,"Petranec, Miss. Matilda",female,28.0,0,0,349245,7.8958,,S
200,201,0,3,"Vande Walle, Mr. Nestor Cyriel",male,28.0,0,0,345770,9.5,,S
300,301,1,3,"Kelly, Miss. Anna Katherine ""Annie Kate""",female,,0,0,9234,7.75,,Q
400,401,1,3,"Niskanen, Mr. Juha",male,39.0,0,0,STON/O 2. 3101289,7.925,,S
500,501,0,3,"Calic, Mr. Petar",male,17.0,0,0,315086,8.6625,,S
600,601,1,2,"Jacobsohn, Mrs. Sidney Samuel (Amy Frances Chr...",female,24.0,2,1,243847,27.0,,S
700,701,1,1,"Astor, Mrs. John Jacob (Madeleine Talmadge Force)",female,18.0,1,0,PC 17757,227.525,C62 C64,C
800,801,0,2,"Ponesell, Mr. Martin",male,34.0,0,0,250647,13.0,,S


*   `df[(조건식)]`

조건식을 이용한 boolean indexing을 통해 특정 조건을 만족하는 행의 데이터를 선택할 수 있다. 조건식 부분은 boolean 값들로 구성된 Series 객체를 입력한다.

In [None]:
# 탑승객 연령 열을 선택해서 해당 열의 데이터들이 35를 넘는지 검사하기
titanic["Age"] > 35

0      False
1       True
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: Age, Length: 891, dtype: bool

In [None]:
# boolean indexing을 이용해서 연령이 35세를 넘는 모든 탑승객의 데이터 출력하기
titanic[titanic["Age"] > 35]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.2750,,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
865,866,1,2,"Bystrom, Mrs. (Karolina)",female,42.0,0,0,236852,13.0000,,S
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
873,874,0,3,"Vander Cruyssen, Mr. Victor",male,47.0,0,0,345765,9.0000,,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C


In [None]:
# 생존자 명단 출력하기


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
875,876,1,3,"Najib, Miss. Adele Kiamie ""Jane""",female,15.0,0,0,2667,7.2250,,C
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


In [None]:
# 연령이 35세를 넘는 생존자 명단 출력하기


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0000,,S
25,26,1,3,"Asplund, Mrs. Carl Oscar (Selma Augusta Emilia...",female,38.0,1,5,347077,31.3875,,S
52,53,1,1,"Harper, Mrs. Henry Sleeper (Myna Haxtun)",female,49.0,1,0,PC 17572,76.7292,D33,C
...,...,...,...,...,...,...,...,...,...,...,...,...
857,858,1,1,"Daly, Mr. Peter Denis",male,51.0,0,0,113055,26.5500,E17,S
862,863,1,1,"Swift, Mrs. Frederick Joel (Margaret Welles Ba...",female,48.0,0,0,17466,25.9292,D17,S
865,866,1,2,"Bystrom, Mrs. (Karolina)",female,42.0,0,0,236852,13.0000,,S
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S


In [None]:
# 연령 열을 선택해서 데이터가 na인지 여부 확인하기


0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888     True
889    False
890    False
Name: Age, Length: 891, dtype: bool

In [None]:
# 연령 열의 데이터가 na인 탑승객 명단 출력하기


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0000,,S
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.2250,,C
26,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.2250,,C
28,29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,,0,0,330959,7.8792,,Q
...,...,...,...,...,...,...,...,...,...,...,...,...
859,860,0,3,"Razi, Mr. Raihed",male,,0,0,2629,7.2292,,C
863,864,0,3,"Sage, Miss. Dorothy Edith ""Dolly""",female,,8,2,CA. 2343,69.5500,,S
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,,S
878,879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S


## <font color="green">특정 행열 선택하기</font>

![image](https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg)

*   `df.loc["행 이름", "열 이름"]`
*   `df.iloc[(행 인덱스), (열 인덱스)]`
*   `df.loc[["행1 이름", "행2 이름", ...], ["열1 이름", "열2 이름", ...]]`
*   `df.iloc[[(행1 인덱스), (행2 인덱스), ...], [(열1 인덱스), (열2 인덱스), ...]]`

loc, iloc 속성을 이용해서 특정 행, 열의 데이터를 선택할 수 있다. 인덱싱, 슬라이싱, 다중 인덱싱, boolean indexing(iloc에서는 불가능) 등의 문법을 적용할 수 있다.



In [None]:
# 5번, 9번, 23번 행 및 탑승객 고유 번호, 객실 등급, 승선항 정보를 출력하기


Unnamed: 0,PassengerId,Pclass,Embarked
5,6,3,Q
9,10,2,C
23,24,1,S


In [None]:
# 연령이 35세를 넘는 탑승객들의 이름만 출력하기


1      Cumings, Mrs. John Bradley (Florence Briggs Th...
6                                McCarthy, Mr. Timothy J
11                              Bonnell, Miss. Elizabeth
13                           Andersson, Mr. Anders Johan
15                      Hewlett, Mrs. (Mary D Kingcome) 
                             ...                        
865                             Bystrom, Mrs. (Karolina)
871     Beckwith, Mrs. Richard Leonard (Sallie Monypeny)
873                          Vander Cruyssen, Mr. Victor
879        Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)
885                 Rice, Mrs. William (Margaret Norton)
Name: Name, Length: 217, dtype: object

In [None]:
# 10번 인덱스 행, 10번 인덱스 열의 데이터 출력하기


'G6'

In [None]:
# 10~25번 인덱스 행 및 3~5번 인덱스 열 데이터 출력하기


Unnamed: 0,Name,Sex,Age
10,"Sandstrom, Miss. Marguerite Rut",female,4.0
11,"Bonnell, Miss. Elizabeth",female,58.0
12,"Saundercock, Mr. William Henry",male,20.0
13,"Andersson, Mr. Anders Johan",male,39.0
14,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0
15,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0
16,"Rice, Master. Eugene",male,2.0
17,"Williams, Mr. Charles Eugene",male,
18,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0
19,"Masselmani, Mrs. Fatima",female,


## <font color="green">통계 데이터 구하기</font>

![image](https://pandas.pydata.org/docs/_images/06_aggregate.svg)

*   `df.count()`
*   `df.sum()`
*   `df.mean()`
*   `df.median()`
*   `df.std()`
*   `df.min()`
*   `df.max()`

데이터프레임 객체에 대해 다양한 통계 관련 함수가 제공된다. 각각의 함수는, 각각의 열에 대해 독립적으로 적용된다. 특정 열 내 모든 행 데이터에 대해 연산한 결과를 반환한다.

In [None]:
# 탑승객 평균 연령 구하기


29.69911764705882

In [None]:
# 탑승권 요금 합계 구하기


28693.9493

![image](https://pandas.pydata.org/docs/_images/06_reduction.svg)

In [None]:
# 탑승객 연령, 탑승권 요금 중앙값 구하기


Age     28.0000
Fare    14.4542
dtype: float64

In [None]:
# 생존자 최저 연령 구하기


0.42

In [None]:
# 사망자 최고 연령 구하기


74.0

## <font color="green">그룹화 응용하기</font>

![image](https://pandas.pydata.org/docs/_images/06_groupby.svg)

*   `df.groupby("열 이름")`
*   `df.groupby(["열1 이름", "열2 이름", ...])`

특정 열을 지정해 해당 열 내에 있는 데이터들끼리 그룹을 묶어 처리할 수 있다. groupby() 함수 실행 결과 groupby 객체가 생성되는데, 지정한 열의 데이터 값에 따라 별도로 묶인 데이터프레임들이 들어있다고 볼 수 있다. 그후 인덱싱, 슬라이싱, 통계 함수 등 추가 조작을 가해 결과 데이터프레임을 확인할 수 있다.

In [None]:
# 탑승객 성별에 따른 평균 연령 구하기(boolean indexing 활용)
print(titanic.loc[titanic["Sex"] == "female", "Age"].mean())
print(titanic.loc[titanic["Sex"] == "male", "Age"].mean())

27.915708812260537
30.72664459161148


In [None]:
# 탑승객 성별에 따른 평균 연령 구하기(groupby() 함수 활용)
titanic.groupby("Sex")["Age"].mean()

Sex
female    27.915709
male      30.726645
Name: Age, dtype: float64

![image](https://pandas.pydata.org/docs/_images/06_groupby_select_detail.svg)

In [None]:
# 사망자, 생존자 평균 연령 구하기(boolean indexing 활용)



30.62617924528302
28.343689655172415


In [None]:
# 사망자, 생존자 평균 연령 구하기(groupby 함수 활용)


Survived
0    30.626179
1    28.343690
Name: Age, dtype: float64

In [None]:
# 생존 여부와 객실 등급에 따른 평균 연령 구하기


Survived  Pclass
0         1         43.695312
          2         33.544444
          3         26.555556
1         1         35.368197
          2         25.901566
          3         20.646118
Name: Age, dtype: float64

In [None]:
# 객실 등급과 승선항에 따른 평균 탑승권 요금 구하기
titanic.groupby(["Pclass", "Embarked"])["Fare"].mean()

In [None]:
# 객실 등급 별 탑승객 수 구하기(groupby() 함수 활용)


Pclass
1    216
2    184
3    491
Name: Pclass, dtype: int64

In [None]:
# 객실 등급 별 탑승객 수 구하기
titanic["Pclass"].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

![image](https://pandas.pydata.org/docs/_images/06_valuecounts.svg)

`value_counts()` 함수를 이용하면 `groupby()` 함수와 `count()` 함수의 효과를 빠르게 적용할 수 있다.

## <font color="green">데이터 정렬하기</font>

*   `df.sort_index()`: 행 이름 값에 따라 행을 정렬한다.
*   `df.sort_index(axis=1)`: 열 이름 값에 따라 열을 정렬한다.
*   `df.sort_values(by="열 이름")`: 지정한 열의 행을 정렬한다.
*   `df.sort_values(by=["열1", "열2", ...])`: 지정한 열들의 행을 정렬한다.



In [None]:
# 행 인덱스 내림차순 정렬하기


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.7500,,Q
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [None]:
# 열 알파벳순 정렬하기


Unnamed: 0,Age,Cabin,Embarked,Fare,Name,Parch,PassengerId,Pclass,Sex,SibSp,Survived,Ticket
0,22.0,,S,7.2500,"Braund, Mr. Owen Harris",0,1,3,male,1,0,A/5 21171
1,38.0,C85,C,71.2833,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,2,1,female,1,1,PC 17599
2,26.0,,S,7.9250,"Heikkinen, Miss. Laina",0,3,3,female,0,1,STON/O2. 3101282
3,35.0,C123,S,53.1000,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,4,1,female,1,1,113803
4,35.0,,S,8.0500,"Allen, Mr. William Henry",0,5,3,male,0,0,373450
...,...,...,...,...,...,...,...,...,...,...,...,...
886,27.0,,S,13.0000,"Montvila, Rev. Juozas",0,887,2,male,0,0,211536
887,19.0,B42,S,30.0000,"Graham, Miss. Margaret Edith",0,888,1,female,0,1,112053
888,,,S,23.4500,"Johnston, Miss. Catherine Helen ""Carrie""",2,889,3,female,1,0,W./C. 6607
889,26.0,C148,C,30.0000,"Behr, Mr. Karl Howell",0,890,1,male,0,1,111369


In [None]:
# 탑승객 연령 오름차순 정렬하기


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
803,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C
755,756,1,2,"Hamalainen, Master. Viljo",male,0.67,1,1,250649,14.5000,,S
644,645,1,3,"Baclini, Miss. Eugenie",female,0.75,2,1,2666,19.2583,,C
469,470,1,3,"Baclini, Miss. Helene Barbara",female,0.75,2,1,2666,19.2583,,C
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
859,860,0,3,"Razi, Mr. Raihed",male,,0,0,2629,7.2292,,C
863,864,0,3,"Sage, Miss. Dorothy Edith ""Dolly""",female,,8,2,CA. 2343,69.5500,,S
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,,S
878,879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S


In [None]:
# 객실 등급, 연령 내림차순 정렬하기


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.7750,,S
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.7500,,Q
280,281,0,3,"Duane, Mr. Frank",male,65.0,0,0,336439,7.7500,,Q
483,484,1,3,"Turkula, Mrs. (Hedwig)",female,63.0,0,0,4134,9.5875,,S
326,327,0,3,"Nysveen, Mr. Johan Hansen",male,61.0,0,0,345364,6.2375,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
766,767,0,1,"Brewe, Dr. Arthur Jackson",male,,0,0,112379,39.6000,,C
793,794,0,1,"Hoyt, Mr. William Fisher",male,,0,0,PC 17600,30.6958,,C
815,816,0,1,"Fry, Mr. Richard",male,,0,0,112058,0.0000,B102,S
839,840,1,1,"Marechal, Mr. Pierre",male,,0,0,11774,29.7000,C47,C
