<a href="https://colab.research.google.com/github/yunji6533/Data-Analysys-Programming/blob/main/dap_w4_pub.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **1. Category 변수**

---

Pandas에서는 동일한 문자열 데이터가 반복되거나(예를 들어, 차량 목록 데이터에 사용 연료 열의 값으로 "디젤", "휘발유" 등이 있는 경우), 문자열로 구성된 데이터에 위 아래가 존재하는(예를 들어, `"하나" < "둘" < "셋"`) 열을 효과적으로 다루기 위한 Category dtype(`Categorical`)을 제공합니다. <br><br>

위 조건에 적합한 열을 Category로 형변환을 하여 다루면, 메모리가 적게 들고(object로 다루는 경우, 각 값의 문자열 길이들의 총합에 비례하나, category로 다루는 경우, 고유한 문자열 길이들의 합과 레코드 수의 합에 비례합니다; [링크](https://pandas.pydata.org/docs/user_guide/categorical.html#categorical-memory)를 참조하세요), 참조 속도가 빨라지며(문자열 비교 대신 수치 비교를 이용), category간의 순서를 임의로 지정하여 이에 따라 sort할 수도 있고, 기계학습 등의 응용에 사용하기 위해 category화 할 때 부여된 code를 그대로 이용해 간단하게 수치화시킬 수도 있습니다.

---

[Categorical](https://pandas.pydata.org/docs/user_guide/categorical.html) <br>
[pd.Series.cat.codes](https://pandas.pydata.org/docs/reference/api/pandas.Series.cat.codes.html)


In [34]:
import pandas as pd

df1 = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [2]:
# 1-1. df1의 'Embarked' column을 category column으로 변경하세요. ('object' -> 'category')
df1['Embarked'] = df1['Embarked'].astype('category')
###### 아래 줄은 수정하지 마세요.
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   PassengerId  891 non-null    int64   
 1   Survived     891 non-null    int64   
 2   Pclass       891 non-null    int64   
 3   Name         891 non-null    object  
 4   Sex          891 non-null    object  
 5   Age          714 non-null    float64 
 6   SibSp        891 non-null    int64   
 7   Parch        891 non-null    int64   
 8   Ticket       891 non-null    object  
 9   Fare         891 non-null    float64 
 10  Cabin        204 non-null    object  
 11  Embarked     889 non-null    category
dtypes: category(1), float64(2), int64(5), object(4)
memory usage: 77.7+ KB


In [9]:
# 1-2. 'category' type으로 바뀐 df1['Embarked']의 각 record에 배정된 code를 확인하세요.
codes = df1['Embarked'].cat.codes
print(codes)

0      2
1      0
2      2
3      2
4      2
      ..
886    2
887    2
888    2
889    0
890    1
Length: 891, dtype: int8


In [5]:
# 1-3. df1['Embarked']가 가진 값('S', 'Q', ...)과 code(0, 1, ...) 각각의 고유 집합(.unique())을 출력하세요.

print(df1['Embarked'].unique())
print(df1['Embarked'].cat.codes.unique())


['S', 'C', 'Q', NaN]
Categories (3, object): ['C', 'Q', 'S']
[ 2  0  1 -1]


## **2. DataFrame 정렬 등 기타 보기 기능**

---

`pd.DataFrame`에서 정보를 확인하는 몇 가지 기능을 사용해봅니다. 각 기능의 자세한 설명은 링크를 참조하세요. <br><br>

`pd.DataFrame.count()`는 열마다 NaN(가진 값이 없음)을 제외한 데이터 수를 출력합니다. <br><br>
`pd.DataFrame.index`는 해당 DataFrame의 index array입니다. `df.index = [10, 20, 30]`과 같은 방식으로 DataFrame의 index를 직접 부여할 수도 있습니다. <br><br>
`pd.DataFrame.values`, `pd.DataFrame.to_numpy()`는 해당 DataFrame이 담고 있는 데이터를 `np.array`로 반환합니다. <br><br>
`pd.DataFrame.sum()`은 각 열의 합을 반환합니다. 수치가 아닌 값을 가진 열의 경우 string concat('하나' + '둘' = '하나둘')을 수행하여 반환합니다. <br><br>
`pd.DataFrame.sort_values()`는 지정한 열의 값을 기준으로 오름차순 혹은 내림차순으로 레코드를 정렬합니다. 지정한 열이 수치를 값으로 가지는 경우 단순히 수치 비교(`10 < 20`)를 이용, 문자열을 가지는 경우 알파벳 순서 비교(`'apple' < 'bear'`)를 이용하여 순서를 정합니다. `category` 열의 경우 order가 지정되지 않은 경우 담고 있는 값의 본래 비교 방식을 이용하며, order가 지정된 경우 해당 order에 따라 정렬합니다. 지정한 열이 여럿일 경우 지정한 순서에 따라 정렬 순서가 정해집니다(예를 들어, `['Organization', 'Branch']`로 지정한 경우 'Organization' 열의 값으로 먼저 정렬한 후, 각 'Organization' 내의 순서를 'Branch'로 결정).

---

[pd.DataFrame.count()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.count.html) <br>
[pd.DataFrame.index](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.index.html) <br>
[pd.DataFrame.values](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.values.html) <br>
[pd.DataFrame.to_numpy()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_numpy.html) <br>
[pd.DataFrame.sum()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html) <br>
[pd.DataFrame.sort_values()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)

In [8]:
df2 = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")
df2.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [10]:
# 2-1. df2 각 열의 NaN이 아닌 값들의 개수를 출력하세요.
non_nan_counts = df2.count()
print(non_nan_counts)


PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64


In [12]:
# 2-2. df2의 index를 출력하세요.
df2.index

RangeIndex(start=0, stop=891, step=1)

In [13]:
# 2-3. df2의 np.array로 구성된 데이터를 출력하세요. 설명란에서 소개한 두 방법을 모두 이용하세요.
print(df2.values)
print(df2.values)

[[1 0 3 ... 7.25 nan 'S']
 [2 1 1 ... 71.2833 'C85' 'C']
 [3 1 3 ... 7.925 nan 'S']
 ...
 [889 0 3 ... 23.45 nan 'S']
 [890 1 1 ... 30.0 'C148' 'C']
 [891 0 3 ... 7.75 nan 'Q']]
[[1 0 3 ... 7.25 nan 'S']
 [2 1 1 ... 71.2833 'C85' 'C']
 [3 1 3 ... 7.925 nan 'S']
 ...
 [889 0 3 ... 23.45 nan 'S']
 [890 1 1 ... 30.0 'C148' 'C']
 [891 0 3 ... 7.75 nan 'Q']]


In [16]:
# 2-4. df2의 열 중, 수치로 된 값을 가지는 열들에 한하여 수치의 총 합을 출력하세요.
s = df2.select_dtypes(include=['number'])
s.sum()



PassengerId    397386.0000
Survived          342.0000
Pclass           2057.0000
Age             21205.1700
SibSp             466.0000
Parch             340.0000
Fare            28693.9493
dtype: float64

In [20]:
# 2-5. df2['Age']를 기준으로 내림차순으로 정렬하세요.
df2.sort_values(by='Age', ascending=False)



Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0000,A23,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.7750,,S
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.7500,,Q
...,...,...,...,...,...,...,...,...,...,...,...,...
859,860,0,3,"Razi, Mr. Raihed",male,,0,0,2629,7.2292,,C
863,864,0,3,"Sage, Miss. Dorothy Edith ""Dolly""",female,,8,2,CA. 2343,69.5500,,S
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,,S
878,879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S


## **3. DataFrame concat, merge**

---

두 개 이상의 DataFrame을 이어붙일 때 `pd.concat()`을 이용합니다. concat은 열을 이어붙이거나(`axis = 1`), 행을 이어붙이는(`axis = 0`) 방식으로 이용할 수 있고, 겹치지 않는 열이 있거나, 행 길이가 맞지 않는 경우 빈 칸은 NaN으로 채워집니다. <br><br>

`pd.DataFrame.merge()`은 두 DataFrame을 특정 열의 값을 기준으로 합칠 때 사용합니다. *left (outer) join*, *right (outer) join*, *(full) outer join*, *inner join*, *cross join (cartesian product)*으로 구분되며, inner join은 열의 값이 겹치는 레코드만을 남기며, left/right join은 inner join에 더해, 열의 값이 겹치지 않는 레코드를 각각 왼쪽/오른쪽 DataFrame의 레코드만을 남깁니다. (Full) outer join은 겹치지 않는 레코드를 전부 남깁니다. Cross join (cartesian product)는 특수한 join으로, [링크](https://www.geeksforgeeks.org/cartesian-product-of-sets/)를 확인해주세요. <br><br>

`pd.DataFrame.merge()`의 기준열을 명시하지 않는 경우, 자동으로 이름이 겹치는 열이 기준으로 지정됩니다. 이름이 겹치는 열이 없는 경우, `left_on`, `right_on` 파라미터에 기준이 될 열을 지정해주어야 합니다.

---

[pd.concat()](https://pandas.pydata.org/docs/reference/api/pandas.concat.html) <br>
[pd.DataFrame.merge()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html) <br>
[Join 타입](https://www.geeksforgeeks.org/sql-join-set-1-inner-left-right-and-full-joins/)

In [21]:
df3_org = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")
df3l = df3_org[df3_org.columns[:4]][:10].copy(deep = True)
df3r = df3_org[df3_org.columns[3:]][5:15].copy(deep = True)
df3l.reset_index(drop = True, inplace = True)
df3r.reset_index(drop = True, inplace = True)

In [22]:
df3l

Unnamed: 0,PassengerId,Survived,Pclass,Name
0,1,0,3,"Braund, Mr. Owen Harris"
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
2,3,1,3,"Heikkinen, Miss. Laina"
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
4,5,0,3,"Allen, Mr. William Henry"
5,6,0,3,"Moran, Mr. James"
6,7,0,1,"McCarthy, Mr. Timothy J"
7,8,0,3,"Palsson, Master. Gosta Leonard"
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)"
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)"


In [None]:
df3r

Unnamed: 0,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
2,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
4,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
5,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
6,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
7,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,,S
8,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S
9,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S


In [28]:
# 3-1. df3l, df3r 두 DataFrame을 가로로(즉, 총 레코드 수가 10이 되도록) concat하세요.
pd.concat([df3l, df3r], axis=1)



Unnamed: 0,PassengerId,Survived,Pclass,Name,Name.1,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris","Moran, Mr. James",male,,0,0,330877,8.4583,,Q
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...","McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
2,3,1,3,"Heikkinen, Miss. Laina","Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)","Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
4,5,0,3,"Allen, Mr. William Henry","Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
5,6,0,3,"Moran, Mr. James","Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
6,7,0,1,"McCarthy, Mr. Timothy J","Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
7,8,0,3,"Palsson, Master. Gosta Leonard","Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)","Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)","Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S


In [29]:
# 3-2. df3l, df3r 두 DataFrame을 세로로(즉, 총 레코드 수가 20이 되도록) concat하세요. index는 새로 생성되어야 합니다(즉, 0~9가 두 번 나타나는 것이 아니라, 0~19로 구성되어야 합니다.)
pd.concat([df3l, df3r], ignore_index=True)




Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1.0,0.0,3.0,"Braund, Mr. Owen Harris",,,,,,,,
1,2.0,1.0,1.0,"Cumings, Mrs. John Bradley (Florence Briggs Th...",,,,,,,,
2,3.0,1.0,3.0,"Heikkinen, Miss. Laina",,,,,,,,
3,4.0,1.0,1.0,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",,,,,,,,
4,5.0,0.0,3.0,"Allen, Mr. William Henry",,,,,,,,
5,6.0,0.0,3.0,"Moran, Mr. James",,,,,,,,
6,7.0,0.0,1.0,"McCarthy, Mr. Timothy J",,,,,,,,
7,8.0,0.0,3.0,"Palsson, Master. Gosta Leonard",,,,,,,,
8,9.0,1.0,3.0,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",,,,,,,,
9,10.0,1.0,2.0,"Nasser, Mrs. Nicholas (Adele Achem)",,,,,,,,


In [30]:
# 3-3. df3l과 df3r을 merge를 이용해 'Name' column을 기준으로 left-join 하세요. 기준 DataFrame은 df3l입니다.
pd.merge(df3l, df3r, on='Name', how='left')



Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",,,,,,,,
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",,,,,,,,
2,3,1,3,"Heikkinen, Miss. Laina",,,,,,,,
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",,,,,,,,
4,5,0,3,"Allen, Mr. William Henry",,,,,,,,
5,6,0,3,"Moran, Mr. James",male,,0.0,0.0,330877.0,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0.0,0.0,17463.0,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3.0,1.0,349909.0,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0.0,2.0,347742.0,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1.0,0.0,237736.0,30.0708,,C


In [36]:
# 3-4. df3l과 df3r을 merge를 이용해 'Name' column을 기준으로 right-join 하세요. 기준 DataFrame은 df3l입니다.
pd.merge(df3l, df3r, on='Name', how='right')


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,6.0,0.0,3.0,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
1,7.0,0.0,1.0,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
2,8.0,0.0,3.0,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
3,9.0,1.0,3.0,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
4,10.0,1.0,2.0,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
5,,,,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
6,,,,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
7,,,,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,,S
8,,,,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S
9,,,,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S


In [38]:
# 3-5. df3l과 df3r을 merge를 이용해 'Name' column을 기준으로 inner-join 하세요. 기준 DataFrame은 df3l입니다.
pd.merge(df3l, df3r, on='Name', how='inner')



Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
1,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
2,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
3,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
4,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [41]:
# 3-6. df3l과 df3r을 merge를 이용해 'Name' column을 기준으로 outer-join 하세요. 기준 DataFrame은 df3l입니다.
pd.merge(df3l, df3r, on='Name', how='outer')





Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1.0,0.0,3.0,"Braund, Mr. Owen Harris",,,,,,,,
1,2.0,1.0,1.0,"Cumings, Mrs. John Bradley (Florence Briggs Th...",,,,,,,,
2,3.0,1.0,3.0,"Heikkinen, Miss. Laina",,,,,,,,
3,4.0,1.0,1.0,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",,,,,,,,
4,5.0,0.0,3.0,"Allen, Mr. William Henry",,,,,,,,
5,6.0,0.0,3.0,"Moran, Mr. James",male,,0.0,0.0,330877,8.4583,,Q
6,7.0,0.0,1.0,"McCarthy, Mr. Timothy J",male,54.0,0.0,0.0,17463,51.8625,E46,S
7,8.0,0.0,3.0,"Palsson, Master. Gosta Leonard",male,2.0,3.0,1.0,349909,21.075,,S
8,9.0,1.0,3.0,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0.0,2.0,347742,11.1333,,S
9,10.0,1.0,2.0,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1.0,0.0,237736,30.0708,,C


## **4. Categorical을 이용한 custom sort**

---

**1, 2번 문제**에서 언급하였듯, 문자열 값을 가지는 열을 기준으로 sort하는 경우 기본적으로 알파벳 순서에 따라 정렬되나, `category`로 형변환하여 sort하는 경우 order를 따로 지정해 정렬할 수 있습니다. <br><br>

아래 테이블에서 'Embarked'열은 값으로 'C', 'Q', S'를 가지며, 문자열을 가지므로 sort하는 경우 알파벳 순서에 따라 'C' -> 'Q' -> 'S' 혹은 'S' -> 'Q' -> 'C'로 정렬됩니다. <br><br>

아래 링크를 참조해, `category` 값을 가지는 'Embark' 열에 order를 지정해 'Q' -> 'C' -> 'S' 로 정렬해보세요.

---
[Categorical#Sorting](https://pandas.pydata.org/docs/user_guide/categorical.html#sorting-and-order)

In [42]:
df4 = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")
df4cat = df4.copy(deep = True)
df4cat['Embarked'] = df4cat['Embarked'].astype('category')

In [43]:
df4.sort_values(by = ['Embarked', 'Name'])

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
308,309,0,2,"Abelson, Mr. Samuel",male,30.0,1,0,P/PP 3381,24.0000,,C
874,875,1,2,"Abelson, Mrs. Samuel (Hannah Wizosky)",female,28.0,1,0,P/PP 3381,24.0000,,C
207,208,1,3,"Albimona, Mr. Nassef Cassem",male,26.0,0,0,2699,18.7875,,C
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
700,701,1,1,"Astor, Mrs. John Jacob (Madeleine Talmadge Force)",female,18.0,1,0,PC 17757,227.5250,C62 C64,C
...,...,...,...,...,...,...,...,...,...,...,...,...
282,283,0,3,"de Pelsmaeker, Mr. Alfons",male,16.0,0,0,345778,9.5000,,S
153,154,0,3,"van Billiard, Mr. Austin Blyler",male,40.5,0,2,A/5. 851,14.5000,,S
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,,S
61,62,1,1,"Icard, Miss. Amelie",female,38.0,0,0,113572,80.0000,B28,


In [46]:
# 4. df4cat['Embarked'] category 열에 order를 지정해 'Q' -> 'C' -> 'S' 순서로 정렬되도록 하세요.

category_order = ['Q', 'C', 'S']
df4cat['Embarked'] = pd.Categorical(df4cat['Embarked'], categories=category_order, ordered=True)

###### 아래 줄은 수정하지 마세요.
df4cat.sort_values(by = ['Embarked', 'Name'])

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
593,594,0,3,"Bourke, Miss. Mary",female,,0,2,364848,7.75,,Q
188,189,0,3,"Bourke, Mr. John",male,40.0,1,1,364849,15.50,,Q
657,658,0,3,"Bourke, Mrs. John (Catherine)",female,32.0,1,1,364849,15.50,,Q
143,144,0,3,"Burke, Mr. Jeremiah",male,19.0,0,0,365222,6.75,,Q
501,502,0,3,"Canavan, Miss. Mary",female,21.0,0,0,364846,7.75,,Q
...,...,...,...,...,...,...,...,...,...,...,...,...
282,283,0,3,"de Pelsmaeker, Mr. Alfons",male,16.0,0,0,345778,9.50,,S
153,154,0,3,"van Billiard, Mr. Austin Blyler",male,40.5,0,2,A/5. 851,14.50,,S
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.50,,S
61,62,1,1,"Icard, Miss. Amelie",female,38.0,0,0,113572,80.00,B28,


## **5. Cross Tabulation**

---

Cross tabulation(교차분석)은 범주형(`category`형으로 표현할만한 계급, 생존 여부, 등급 등) 값을 가지는 열의 각 값의 빈도를 교차시켜 데이터의 구성을 대략적으로 파악하는 데에 사용되는 분석 방법입니다. 아래 링크 및 5장 PPT를 참고하세요.

---
[pd.crosstab()](https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html) <br>
[Reshaping#CrossTab](https://pandas.pydata.org/docs/user_guide/reshaping.html#reshaping-crosstabulations) <br>
[crosstab() 설명(한글)](https://freedata.tistory.com/60)

In [48]:
df5 = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv").dropna().reset_index(drop = True)
df5

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
1,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
2,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
3,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
4,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
178,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
179,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
180,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
181,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


In [50]:
# 5.1 행 분류를 'Pclass'로, 열 분류를 'Survived'로 하여 교차분석을 수행하세요.
pd.crosstab(df5['Pclass'], df5['Survived'])


Survived,0,1
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,52,106
2,3,12
3,5,5


In [52]:
# 5.2 행 대분류를 'Pclass', 소분류를 'Sex'로, 열 분류를 'Survived'로 하여 교차분석을 수행하세요. 각 행과 열의 합을 표기하세요.
pd.crosstab(index=[df5['Pclass'], df5['Sex']], columns=df5['Survived'], margins=True, margins_name="Total")




Unnamed: 0_level_0,Survived,0,1,Total
Pclass,Sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,female,3,71,74
1,male,49,35,84
2,female,1,8,9
2,male,2,4,6
3,female,2,3,5
3,male,3,2,5
Total,,60,123,183
