# Python Basic + 
- 본 실습에서는 
    - 머신러닝을 통한 데이터분석을 수행할 때,
    - 데이터를 살피고 처리하기 위해서 사용되는 **Pandas** 사용법을 연습해보도록 하겠습니다.

# 1. An Introduction to Pandas 


## 1-1. Basic Pandas Concepts
- 기본 판다스(pandas)를 이용하여 데이터를 구성하고 살펴보도록 하겠습니다.

### (1) Create and Access Data
- 판다스(pandas)를 이용하여 데이터를 데이터프레임 형태로 제작하고 모양과 각각의 데이터를 접근할 수 있는 방법을 살펴보도록 하겠습니다.

#### A. Import the pandas package

In [1]:
# 판다스 모듈을 pd라는 이름으로 불러옵니다.
import pandas as pd

#### B. Create a simple DataFrame
- 형태(syntax) : `pd.DataFrame({column1 : value1, column2 : value2, column3 : value3})`
- 각각의 행과 열 이름은 어떤 것이든 지정할 수 있습니다.
- 모든 value 리스트는 동일한 길이여야 합니다.
- 참고 가능한 사이트 : https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html

In [2]:
# 데이터 프레임에 정보를 입력하고 df 라는 변수로 저장합니다.
df = pd.DataFrame({'name':['Bob','Jen','Tim'],
                   'age':[20,30,40],
                   'pet':['cat', 'dog', 'bird']})

df

Unnamed: 0,name,age,pet
0,Bob,20,cat
1,Jen,30,dog
2,Tim,40,bird


#### C. View the column names and index values

- 인덱스는 판다스의 가장 중요한 개념 중 하나로, df.index를 통해 확인할 수 있으며 직접 부여하지 않는 경우에는 자동으로 생성됩니다.
- 인덱스는 각 행에 대한 접근을 정의합니다.
- 가장 기본적인 인덱스는 범위 인덱스이지만 간격 인덱스와 시간날짜 인덱스, 또는 멀티 인덱스를 부여할 수 있습니다.

In [3]:
# 각 열의 속성과 행의 인덱스를 확인한다.
# Basically in pandas, in order to get rows, to use index, // aber to get columns, to use name of columns.
print(df.columns)
print(df.index)

Index(['name', 'age', 'pet'], dtype='object')
RangeIndex(start=0, stop=3, step=1)


#### D. Select a column by name in 2 different ways
- 특정 열 선택 시 열의 이름을 부여하는 방식은 다음 두 가지이며, 두 가지 모두 동일한 결과값을 추출합니다.
- 열의 이름에 공백이 있을 경우에는 첫 번째 방식만 이용이 가능합니다.

In [4]:
print(df['name'])
print(df.name)

0    Bob
1    Jen
2    Tim
Name: name, dtype: object
0    Bob
1    Jen
2    Tim
Name: name, dtype: object


#### E. Select multiple columns
- 여러 개의 열을 한 번에 확인해봅시다.

In [None]:
df[['name','pet']]

#### F. Select a row by index
- 행의 일반적인 선택은 해당 인덱스를 통해 이루어집니다. 인덱스가 범위(range)로 지정되어 있는 경우, 정수 인덱스(integer indices)를 사용하여 행에 액세스할 수 있지만, 다른 형태의 인덱스라면 동작하지 않을 수 있습니다.
- iloc 함수를 이용하여 데이터 프레임의 어떤 행이든 접근할 수 있습니다.
- iloc 함수 추출 결과는 series 형태로 제공되며, 각각의 값은 열 인덱싱(column indexing)을 사용하여 확인할 수 있습니다.
- loc은 실제 인덱스를 입력하여 자료를 가져온다. , iloc은 저장된 순서로 1, 2, 3, ... 인덱스를 설정해 해당 인덱스를 가져온다.

In [5]:
df.iloc[0]


name    Bob
age      20
pet     cat
Name: 0, dtype: object

In [6]:
df.iloc[:, 0]

0    Bob
1    Jen
2    Tim
Name: name, dtype: object

### (2) Sort Function
- 참고 : pandas.pydata.org
- 참고 : https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort_values.html

#### A. Sort the data by pet

- 데이터셋의 행 또는 열에 따라 데이터프레임을 정렬할 수 있습니다.
- pet 열의 값을 기준으로 데이터 프레임을 정렬해 봅시다.

In [7]:
df.sort_values('pet',inplace=True, ascending=True)

In [8]:
df

Unnamed: 0,name,age,pet
2,Tim,40,bird
0,Bob,20,cat
1,Jen,30,dog


In [10]:
df.iloc[1,1]

20

- inplace 매개변수를 통해 정렬된 데이터 프레임을 출력할 뿐만 아니라 데이터 프레임 자체를 바꿀 수 있습니다.
- ascending 매개변수를 'True'로 설정한다면 오름차순, 'False'로 설정한다면 내림차순으로 정렬할 수 있습니다.

### (3) Indexing with DataFrames

- numpy 배열의 인덱싱을 데이터프레임에서도 동일하게 적용할 수 있습니다. 
- 데이터프레임은 2차원 배열과 굉장히 유사하며, 배열과 다르게 인덱스를 string 형태로 지정할 수 있다는 차이가 있습니다.

#### A. View the index after the sort

In [None]:
# 위의 sort_values 함수를 이용하여 정렬된 값을 확인한다.
# 변수 이름을 쓰고 실행함으로써 내용을 확인할 수 있으며, target 열이 추가된 것을 확인할 수 있다. 
df

#### B. Difference between loc and iloc
- loc 함수는 인덱스 값을 기준으로 행을 추출합니다.
- iloc 함수는 항상 정수 위치값을 기준으로 행을 추출합니다.

In [None]:
# 인덱스가 0인 행을 추출한다.
df.loc[0]

In [None]:
# 0번째 행을 추출한다.
df.iloc[0]

#### C. Use iloc to select all rows of a column
- iloc 함수를 이용하여 특정 행 또는 열을 추출해봅시다.

In [None]:
# 2번째 열의 모든 행을 추출합니다.
df.iloc[:,2]

#### D. Use iloc to select the last row

In [None]:
# 마지막 행의 모든 열을 추출합니다.
df.iloc[-1,:]

## 1-2. Basic Pandas Concept Exercises
- 다음 순서에 따라 pandas 를 이용하여 데이터셋을 생성하고 내용을 확인하는 코드를 짜봅시다.

```
sales = [100,130,119,92,35]
customer_account = ['B100','J101','X102','P103','R104']
city = ['BOS','LA','NYC','SF','CHI']
```

#### 위의 데이터를 이용하여 DataFrame 을 만들어보세요.

#### 첫번째 열의 이름은 무엇이며, 어떻게 알 수 있나요?

#### city 에 대한 내림차순으로 DataFrame 을 정렬해보세요.  (check the documentation for sort)

#### DataFrame의 마지막 행에는 어떤 고객의 정보가 위치해 있나요?

#### customer_account 를 첫번째 컬럼으로 하여 DataFrame의 열을 재배열해보세요.

# 2. Basic Pandas Functionality 

## 2-1. Importing Data
- 데이터를 분석할 때에는 처음부터 pandas에 값을 하나하나 입력하여 DataFrame을 생성하는 대신, 기존의 데이터를 불러와 pandas DataFrame으로 생성 후 작업을 수행합니다.
- 본 실습에서는 주어진 train.csv 파일을 불러오도록 하겠습니다.

### (1) Prepare the Dataset 
- 먼저, train.csv 파일을 본 노트북 코드 파일과 같은 폴더에 위치하도록 만들어주세요.

### (2) Import Required Modules


In [11]:
# pandas, numpy 등 필요한 패키지를 불러온다.
import numpy as np
import pandas as pd

### (3) Load the Titanic Dataset by Reading a CSV file
- read_csv 함수를 이용하여 저장되어 있는 train.csv 를 불러옵시다.

In [12]:
# train.csv 의 값을 데이터 프레임 형태로 data 변수에 저장한다.
data = pd.read_csv('./train.csv')

#### A. Check To See If Your Pulled The Dataset

In [13]:
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


## 2. Basic Pandas Functionality

판다스를 이용하여 할 수 있는 작업을 살펴보겠습니다.

### (1) Investigating Data

#### A. Investigate the first few rows of data
- head 함수는 처음 몇개의 행을 출력합니다.
    - argument 값을 넣지 않으면 기본적으로 처음 5개 행을 출력합니다.
- 파라미터 $n$ 를 넣으면 $n$ 개 만큼의 행을 출력합니다.
- 참고 : https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.head.html

In [14]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


#### B. Investigate the last 10 rows of data

- head 함수와 유사하게 tail 함수를 이용하면 하위 $n$ 개의 행을 확인할 수 있습니다.

In [15]:
# 하위 10개 행을 확인한다.
data.tail(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


#### C. Investigate the data types in the DataFrame
- pandas 의 내장 함수인 info 함수를 이용하여 각 열이 어떤 type 을 가지고 있는지 확인해봅시다.
- 참고 : https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.info.html

In [16]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


#### D. Get some summary statistics
- pandas 의 내장 함수인 describe 함수를 이용하여 데이터프레임이 포함하고 있는 수치에 대한 구체적인 통계값을 살펴봅시다.
- 참고 : https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html

In [17]:
data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
PassengerId,891.0,446.0,257.353842,1.0,223.5,446.0,668.5,891.0
Survived,891.0,0.383838,0.486592,0.0,0.0,0.0,1.0,1.0
Pclass,891.0,2.308642,0.836071,1.0,2.0,3.0,3.0,3.0
Age,714.0,29.699118,14.526497,0.42,20.125,28.0,38.0,80.0
SibSp,891.0,0.523008,1.102743,0.0,0.0,0.0,1.0,8.0
Parch,891.0,0.381594,0.806057,0.0,0.0,0.0,0.0,6.0
Fare,891.0,32.204208,49.693429,0.0,7.9104,14.4542,31.0,512.3292


### (2) Filtering Dataframes

원하는 조건에 맞는 데이터를 선정하는 필터링(filtering) 을 통해 필요한 데이터를 추출해봅시다.

#### A. Filter the data for men
- 데이터프레임의 'Sex'에 해당하는 열의 값 중, 남성(male)에 해당하는 값을 추출해봅시다.

In [19]:
# data.Sex=='male'를 통해 불린(Boolean) 값을 받고, 데이터 프레임에서 True에 해당하는 행을 출력한다.

data[data.Sex=='male']

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5000,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,,S
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


#### B. Filter the ages for the men
- 남성에 해당하는 사람들의 나이를 데이터프레임의 'Sex'가 남성(male)에 해당하는 행 중에서 'Age' 에 해당하는 값을 Series 형태로 출력해봅시다.

In [20]:
# data.Sex=='male'를 통해 불린(Boolean) 값이 True에 해당하는 행 중에서 'Age' 열에 해당하는 값을 출력한다.

data.Age[data.Sex=='male']

0      22.0
4      35.0
5       NaN
6      54.0
7       2.0
       ... 
883    28.0
884    25.0
886    27.0
889    26.0
890    32.0
Name: Age, Length: 577, dtype: float64

In [27]:
# 여러 열을 출력하고 싶은경우 loc함수 이용
data.loc[data.Sex=='male',['Age', 'Name']]


Unnamed: 0,Age,Name
0,22.0,"Braund, Mr. Owen Harris"
4,35.0,"Allen, Mr. William Henry"
5,,"Moran, Mr. James"
6,54.0,"McCarthy, Mr. Timothy J"
7,2.0,"Palsson, Master. Gosta Leonard"
...,...,...
883,28.0,"Banfield, Mr. Frederick James"
884,25.0,"Sutehall, Mr. Henry Jr"
886,27.0,"Montvila, Rev. Juozas"
889,26.0,"Behr, Mr. Karl Howell"


In [28]:
data.loc[data.Sex=='male', 'Age']

0      22.0
4      35.0
5       NaN
6      54.0
7       2.0
       ... 
883    28.0
884    25.0
886    27.0
889    26.0
890    32.0
Name: Age, Length: 577, dtype: float64

### (3) Adding methods to filters
- 판다스를 이용하여 데이터를 분석할 때 사용하는 방법에 대해 알아봅시다.
- 원하는 조건에 맞는 레코드를 불린 값으로 받은 후, 그에 맞게 필터링하는 과정을 좀 더 자세히 살펴봅시다.

#### A. How many men and women were on the Titanic?

- 타이타닉 데이터에 'Sex'가 여자인 레코드와 남자인 레코드가 각각 몇 개인지 살펴봅시다.
- 아래의 코드는 다음과 같은 프로세스를 거칩니다.
    - 먼저, 대괄호 [ ] 안에 있는 조건문(predicate) 값을 각 행마다 살핍니다.
    - 해당 값을 만족하는 데이터가 filter 됩니다.
    - 그 후, count 등의 함수를 통해 값을 aggregate 합니다.

In [None]:
# data.Sex=='male'를 통해 불린(Boolean) 값이 True에 해당하는 행의 개수를 count 함수를 이용하여 출력한다.
data.Sex[data.Sex=='male'].count()

In [None]:
# data.Sex=='female'를 통해 불린(Boolean) 값이 True에 해당하는 행의 개수를 count 함수를 이용하여 출력한다.
data.Sex[data.Sex=='female'].count()

#### B. What was the survival rate for adult men (age>=18)

- 여러 개의 조건을 & 기호를 이용하여 적용할 수 있습니다. 
- & 기호를 사용할 경우, 제시된 조건 모두를 만족하는 값 또는 레코드를 출력하게 됩니다.

In [None]:
# 성별이 남자이면서 나이가 18세 이상인 사람들 중, 생존한 평균 명수를 출력한다.
data.Survived[(data.Sex=='male')&(data.Age>=18)].mean()

#### C. What was the survival rate for women and children?

- | 기호를 이용할 경우, 제시된 조건 중 하나를 만족하는 값 또는 레코드를 출력하게 됩니다.

In [None]:
# 성별이 여자이거나 나이가 18세 미만인 사람들 중, 생존한 평균 명수를 출력한다.
data.Survived[(data.Sex=='female')|(data.Age<18)].mean()

#### D. (optional) Use groupby to compare the survival rates of men and women
- groupby 함수는 특정 열에서 같은 값을 갖는 레코드를 묶은 값을 각각 별도의 객체로 나눕니다. 각 객체에서 필요한 열을 출력하면 객체의 개수만큼 정보가 출력됩니다.
- 참고 : https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html

In [None]:
# Sex 열에 따라 남자에 해당하는 레코드와 여자에 해당하는 레코드를 나눈 후, 각 객체에서 Survived 에 해당하는 값의 평균을 출력한다.
data.groupby('Sex')['Survived'].mean()

#### E. (optional) Create a DataFrame with groupby 
- 여러개에 열에 따라 groupby 함수를 적용할 수 있습니다.

In [None]:
# 성별과 좌석 등급에 따라 총 4개의 객체를 생성하고, 각각 객체의 Survived 와 Age 열의 평균값을 출력한다.
new = data.groupby(['Sex','Pclass'])['Survived','Age'].mean()
new

## 2. More Basic Pandas Exercises
- 다음 순서에 따라 pandas 를 이용하여 데이터셋의 내용을 확인하고 필요한 데이터를 선정하는 코드를 짜봅시다.

#### 생존자들 (survivors) 의 평균 나이는 몇인가요?

#### 아이들과 (age less than 18) 노인들 (age greater than 60) 의 생존률은 어떻게 되나요? 그리고 그 외의 사람들의 생존률은 몇인가요?

#### (Optional) pClass 를 기준으로 그룹화 하고, 각 클래스의 평균 생존률과 나이, 요금(fare)를 계산하세요.

#### 생존자들의 이름과 나이를 담은 CSV 파일을 생성하세요. 그리고 죽은 사람들의 이름과 나이를 담은 또 다른 CSV 을 따로 생성해보세요. (
- 다음을 참고하여 to_csv 함수를 사용하세요: 
[참고](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html)