<a href="https://colab.research.google.com/github/hyeonbeen212/Data-Analysys-Programmi/blob/main/dap_w3_pub.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **1. Series 생성**

---

Pandas에서 `pd.Series`는 `pd.DataFrame`의 각 *column*을 나타내는 자료형이라고 볼 수 있습니다. Series는 `list`, `tuple`, `dict` 등의 **순서를 가지는**(즉, `set`으로는 pd.Series를 만들 수 없습니다.) *iterable* 자료형으로부터 생성할 수도 있고, Numpy의 `np.array`를 가지고 만들 수도, 다른 `pd.Series`로부터 생성할 수도 있습니다.

`pd.Series`의 생성자에는 *`copy=False`*라는 파라미터가 있습니다. `pd.Series`를 `np.array` 혹은 다른 `pd.Series`를 입력으로 생성하는 경우, *copy*가 `False`인 경우 입력으로 받은 객체를 복사해 완전히 새로운 pd.Series를 만드는 것이 아니라, 입력으로 받은 객체의 reference를 보유하게 되기 때문에, 새로 생성된 `pd.Series`의 내용을 수정하는 경우 원본 객체의 내용 또한 수정됩니다. *copy*를 `True`로 하는 경우, 객체의 내용을 완전히 새로 복사하기 때문에, 새로 생성된 `pd.Series`를 수정하더라도 원본의 내용이 바뀌지 않습니다.

이 *copy*와 관련된 특성은 `pd.DataFrame`을 다룰 때에도 비슷하니 유의하여 사용하시기 바랍니다.

`pd.Series`를 생성할 때, *`index=(0, 1, ...)`*라는 파라미터를 이용해 index를 임의로 바꿀 수 있습니다. *index*가 따로 주어지지 않은 경우 (0, 1, 2, ...)으로 이루어진 default index가 부여됩니다.

---

[np.array](https://numpy.org/doc/stable/reference/generated/numpy.array.html) <br>
[pd.Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html)

In [6]:
import numpy as np
import pandas as pd


# 아래에는 두 개의 list를 이용해, index를 임의로 부여한 pd.Series를 생성한 예시가 있습니다.
some_list = [10, 20, 30, 40]
indices_list = [5, 1, 3, 2]
series_list  = pd.Series(some_list, indices_list)

print(f'pd.Series from list\n{series_list}\n')

# 아래 ##########으로 구분된 구역 내에 코드를 추가해, tuple, dict, np.array를 이용해 위와 내용이 완전히 동일한(index에 유의하세요) pd.Series를 생성하세요.
# 예시로 출력된 결과와 내용이 완전히 동일해야 합니다. (np.array로 pd.Series를 생성할 때, copy 파라미터에 유의하세요. 원본 array의 내용이 변하면 안됩니다.)
#############################################

some_tuple = [10,20,30,40]
some_dict  = {5:10, 1:20, 3:30, 2:40}
some_array = np.array([10,20,30,40])
series_tuple = pd.Series(some_tuple, indices_list)
series_dict  = pd.Series(some_dict)
series_array = pd.Series(some_array, indices_list, copy = True)

#############################################


print(f'pd.Series from tuple\n{series_tuple}\n')
print(f'pd.Series from dict\n{series_dict}\n')
print(f'pd.Series from np.array\n{series_array}\n')

print(f'np.array before pd.Series update\n{some_array}\n')
series_array.iloc[2]=9999999999
print(f'np.array after pd.Series update\n{some_array}\n')

pd.Series from list
5    10
1    20
3    30
2    40
dtype: int64

pd.Series from tuple
5    10
1    20
3    30
2    40
dtype: int64

pd.Series from dict
5    10
1    20
3    30
2    40
dtype: int64

pd.Series from np.array
5    10
1    20
3    30
2    40
dtype: int64

np.array before pd.Series update
[10 20 30 40]

np.array after pd.Series update
[10 20 30 40]



## **2. DataFrame 생성**

---

`pd.DataFrame`은 Pandas에서 tabular 데이터를 다룰 때 사용하는 자료형입니다.

`pd.DataFrame`은 2-d `list`(`[[1, 2, 3], [4, 5, 6]]`과 같은 형태), `dict` of `list`(`{0 : [1, 2, 3], 1 : [4, 5, 6]}`과 같은 형태), `list` of `dict`(`[{'a' : 1, 'b' : 2, 'c' : 3}, {'a' : 4, 'b' : 5, 'c' : 6}, {'a' : 7, 'b' : 8, 'd' : 99}]`와 같은 형태), `dict` of `pd.Series`(`{'a' : pd.Series([1, 3, 5]), 'b' : pd.Series([2, 4, 6])}`과 같은 형태), 2d `np.array`(`np.array([[1, 2], [3, 4], [5, 6]])`과 같은 형태) 등 많은 자료형을 입력으로 받을 수 있습니다. 많은 응용이 있기 때문에, 링크 혹은 검색을 통해 정보를 찾는 것을 추천드립니다.

`pd.DataFrame` 또한 `pd.Series`와 마찬가지로 `copy=bool` (default값은 입력으로 들어온 값의 타입에 따라 달라집니다) 및 `index=(0, 1, ...)` 파라미터를 가지며, 이에 대한 설명은 `pd.Series`의 해당 파라미터의 설명과 동일합니다. `pd.DataFrame`은 여기에 더해 `columns=(0, 1, ...)` 라는 파라미터를 가집니다. `pd.DataFrame`은 `pd.Series`들을 column으로 하여 구성된 2차원 자료형인데, 이 각각의 column명을 임의로 지정하는 파라미터에 해당합니다.

---

[pd.DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)

In [7]:
# 아래에는 2차원 list와 index list, column list를 이용해 하나의 pd.DataFrame을 생성한 예시가 있습니다.
list_data = [
    [1, '일', 1.11],
    [2, '이', 2.22],
    [3, '삼', 3.33]
]
indices_list = [3, 6, 9]
column_list = ['INT', '한글', 'FLOAT']

df_list = pd.DataFrame(list_data, indices_list, column_list)

print(f'pd.DataFrame from 2d list\n{df_list}\ntypes\n{df_list.dtypes}\n')

series_1 = pd.Series([1, 2, 3], indices_list)
series_2 = pd.Series(['일', '이', '삼'], indices_list)
series_3 = pd.Series([1.11, 2.22, 3.33], indices_list)

# 아래 ##########으로 구분된 구역 내에 코드를 추가해, dict of list, list of dict, dict of series를 이용해 위와 내용이 완전히 동일한(index에 유의하세요) pd.DataFrame을 생성하세요.
# 예시로 출력된 결과와 내용이 완전히 동일해야 합니다. (pd.Series로 pd.DataFrame을 생성할 때, copy 파라미터에 유의하세요. 이번에는 원본 Series에도 변화가 적용되어야 합니다.)
# dict of series에 사용될 pd.Series는 위에 제공된 series_1, ...을 이용하세요.
#############################################

df_dict_of_list = pd.DataFrame({'INT':[1,2,3], '한글':['일', '이', '삼'], 'FLOAT':[1.11, 2.22, 3.33]})
df_list_of_dict = pd.DataFrame([ {'INT' : 1, '한글' : '일', 'FLOAT' : 1.11}, {'INT' : 2, '한글' : '이', 'FLOAT' : 2.22}, {'INT' : 3, '한글' : '삼', 'FLOAT' : 3.33}])
df_dict_of_series = pd.DataFrame({'INT' : series_1, '한글' : series_2, 'FLOAT':series_3})

#############################################

print(f'pd.DataFrame from dict of list\n{df_dict_of_list}\ntypes\n{df_dict_of_list.dtypes}\n')
print(f'pd.DataFrame from list of dict\n{df_list_of_dict}\ntypes\n{df_list_of_dict.dtypes}\n')
print(f'pd.DataFrame from dict of series\n{df_dict_of_series}\ntypes\n{df_dict_of_series.dtypes}\n')

print(f'pd.Series before pd.DataFrame update\n{series_1}\n')
df_dict_of_series.at[6, 'INT'] = 111111
print(f'pd.Series after pd.DataFrame update\n{series_1}\n')

pd.DataFrame from 2d list
   INT 한글  FLOAT
3    1  일   1.11
6    2  이   2.22
9    3  삼   3.33
types
INT        int64
한글        object
FLOAT    float64
dtype: object

pd.DataFrame from dict of list
   INT 한글  FLOAT
0    1  일   1.11
1    2  이   2.22
2    3  삼   3.33
types
INT        int64
한글        object
FLOAT    float64
dtype: object

pd.DataFrame from list of dict
   INT 한글  FLOAT
0    1  일   1.11
1    2  이   2.22
2    3  삼   3.33
types
INT        int64
한글        object
FLOAT    float64
dtype: object

pd.DataFrame from dict of series
   INT 한글  FLOAT
3    1  일   1.11
6    2  이   2.22
9    3  삼   3.33
types
INT        int64
한글        object
FLOAT    float64
dtype: object

pd.Series before pd.DataFrame update
3    1
6    2
9    3
dtype: int64

pd.Series after pd.DataFrame update
3    1
6    2
9    3
dtype: int64



## **3. DataFrame의 대략적인 정보 조회, record 선택**

---

`pd.DataFrame`은 데이터베이스의 테이블과 같이 행(row)과 열(column)으로 구성됩니다. (설명은 5장 이론 PPT 혹은 아래 링크를 참조하세요.)

`pd.DataFrame`에서 각 행 혹은 열을 선택하는 방법과 `pd.DataFrame`이 담고 있는 데이터의 대략적인 정보를 확인할 수 있는 방법은 많은데, 이 중 몇 가지를 연습합니다.

---

[pd.DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) <br>
[pd.DataFrame.info](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html) <br>
[pd.DataFrame.head](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html#pandas.DataFrame.head) <br>
[pd.DataFrame.tail](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.tail.html#pandas.DataFrame.tail) <br>
[pd.DataFrame.columns](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.columns.html) <br>
[pd.DataFrame.dtypes](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dtypes.html) <br>
[pd.DataFrame.loc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) <br>
[pd.DataFrame.iloc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html) <br>

In [8]:
# 3번 문제에 사용될 DataFrame입니다.
df = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv")
len(df)

93

In [9]:
# 3-1 df의 대략적인 정보를 출력하세요.
df.info

<bound method DataFrame.info of    Manufacturer    Model     Type  Min.Price  Price  Max.Price  MPG.city  \
0         Acura  Integra    Small       12.9   15.9       18.8      25.0   
1           NaN   Legend  Midsize       29.2   33.9       38.7      18.0   
2          Audi       90  Compact       25.9   29.1       32.3      20.0   
3          Audi      100  Midsize        NaN   37.7       44.6      19.0   
4           BMW     535i  Midsize        NaN   30.0        NaN      22.0   
..          ...      ...      ...        ...    ...        ...       ...   
88   Volkswagen  Eurovan      Van       16.6   19.7       22.7      17.0   
89   Volkswagen   Passat  Compact       17.6   20.0       22.4      21.0   
90   Volkswagen  Corrado   Sporty       22.9   23.3       23.7      18.0   
91        Volvo      240  Compact       21.8   22.7       23.5      21.0   
92          NaN      850  Midsize       24.8   26.7       28.5      20.0   

    MPG.highway             AirBags DriveTrain  ... Pas

In [10]:
# 3-2 df의 상위 3개 record(row)의 정보를 선택하세요.
df.head(3)

Unnamed: 0,Manufacturer,Model,Type,Min.Price,Price,Max.Price,MPG.city,MPG.highway,AirBags,DriveTrain,...,Passengers,Length,Wheelbase,Width,Turn.circle,Rear.seat.room,Luggage.room,Weight,Origin,Make
0,Acura,Integra,Small,12.9,15.9,18.8,25.0,31.0,,Front,...,5.0,177.0,102.0,68.0,37.0,26.5,,2705.0,non-USA,Acura Integra
1,,Legend,Midsize,29.2,33.9,38.7,18.0,25.0,Driver & Passenger,Front,...,5.0,195.0,115.0,71.0,38.0,30.0,15.0,3560.0,non-USA,Acura Legend
2,Audi,90,Compact,25.9,29.1,32.3,20.0,26.0,Driver only,Front,...,5.0,180.0,102.0,67.0,37.0,28.0,14.0,3375.0,non-USA,Audi 90


In [11]:
# 3-3 df의 하위 2개 record의 정보를 선택하세요.
df.tail(2)

Unnamed: 0,Manufacturer,Model,Type,Min.Price,Price,Max.Price,MPG.city,MPG.highway,AirBags,DriveTrain,...,Passengers,Length,Wheelbase,Width,Turn.circle,Rear.seat.room,Luggage.room,Weight,Origin,Make
91,Volvo,240,Compact,21.8,22.7,23.5,21.0,28.0,Driver only,Rear,...,5.0,190.0,104.0,67.0,37.0,29.5,14.0,2985.0,non-USA,Volvo 240
92,,850,Midsize,24.8,26.7,28.5,20.0,28.0,Driver & Passenger,Front,...,5.0,184.0,105.0,69.0,38.0,30.0,15.0,3245.0,non-USA,Volvo 850


In [12]:
# 3-4 df가 가진 column 리스트를 출력하세요.
df.columns

Index(['Manufacturer', 'Model', 'Type', 'Min.Price', 'Price', 'Max.Price',
       'MPG.city', 'MPG.highway', 'AirBags', 'DriveTrain', 'Cylinders',
       'EngineSize', 'Horsepower', 'RPM', 'Rev.per.mile', 'Man.trans.avail',
       'Fuel.tank.capacity', 'Passengers', 'Length', 'Wheelbase', 'Width',
       'Turn.circle', 'Rear.seat.room', 'Luggage.room', 'Weight', 'Origin',
       'Make'],
      dtype='object')

In [13]:
# 3-5 df 각 column의 dtype을 출력하세요.
df.dtypes

Manufacturer           object
Model                  object
Type                   object
Min.Price             float64
Price                 float64
Max.Price             float64
MPG.city              float64
MPG.highway           float64
AirBags                object
DriveTrain             object
Cylinders              object
EngineSize            float64
Horsepower            float64
RPM                   float64
Rev.per.mile          float64
Man.trans.avail        object
Fuel.tank.capacity    float64
Passengers            float64
Length                float64
Wheelbase             float64
Width                 float64
Turn.circle           float64
Rear.seat.room        float64
Luggage.room          float64
Weight                float64
Origin                 object
Make                   object
dtype: object

In [14]:
# 3-6 iloc[...]을 이용해 마지막 record를 선택하세요.
df.iloc[-1]

Manufacturer                         NaN
Model                                850
Type                             Midsize
Min.Price                           24.8
Price                               26.7
Max.Price                           28.5
MPG.city                            20.0
MPG.highway                         28.0
AirBags               Driver & Passenger
DriveTrain                         Front
Cylinders                              5
EngineSize                           2.4
Horsepower                         168.0
RPM                               6200.0
Rev.per.mile                         NaN
Man.trans.avail                      Yes
Fuel.tank.capacity                  19.3
Passengers                           5.0
Length                             184.0
Wheelbase                          105.0
Width                               69.0
Turn.circle                         38.0
Rear.seat.room                      30.0
Luggage.room                        15.0
Weight          

In [15]:
# 3-7 loc[...]을 이용해 index=11인 record를 선택하세요.
df.loc[11]

Manufacturer                   Chevrolet
Model                           Cavalier
Type                             Compact
Min.Price                            8.5
Price                               13.4
Max.Price                           18.3
MPG.city                            25.0
MPG.highway                         36.0
AirBags                              NaN
DriveTrain                           NaN
Cylinders                              4
EngineSize                           2.2
Horsepower                           NaN
RPM                               5200.0
Rev.per.mile                      2380.0
Man.trans.avail                      Yes
Fuel.tank.capacity                  15.2
Passengers                           5.0
Length                             182.0
Wheelbase                          101.0
Width                               66.0
Turn.circle                         38.0
Rear.seat.room                      25.0
Luggage.room                        13.0
Weight          

## **4. DataFrame 열(column) 선택하기, 열 값 수정하기, 새로운 열 만들기**

---

`pd.DataFrame`에서 열을 선택하고, 열 값을 모든 record에 대하여 일괄적으로 수정하고, 임의의 값 혹은 이미 가지고 있던 다른 열이 가진 값을 이용해 새로운 열을 만드는 방법을 연습합니다.

`pd.DataFrame`에서 열 하나 혹은 행 하나를 선택하는 경우에는 1차원 데이터이므로 `pd.Series` 타입으로 반환되며, 열 여럿 혹은 행 여럿을 선택하는 경우에는 2차원 데이터이므로 `pd.DataFrame` 타입으로 반환됩니다. Pandas에 익숙치 않은 경우 때때로 헷갈려 실수하는 경우가 있기 때문에, 유의하시기 바랍니다.

---

[pd.DataFrame selections](https://pandas.pydata.org/docs/getting_started/intro_tutorials/03_subset_data.html) <br>
[pd.DataFrame new columns](https://pandas.pydata.org/docs/getting_started/intro_tutorials/05_add_columns.html) <br>
[pd.DataFrame.columns](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.columns.html)

In [16]:
# 4번 문제에 사용될 DataFrame입니다.
df_people = pd.read_csv("https://media.githubusercontent.com/media/datablist/sample-csv-files/main/files/people/people-100.csv", index_col = "Index")
df_people.head()

Unnamed: 0_level_0,User Id,First Name,Last Name,Sex,Email,Phone,Date of birth,Job Title
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,88F7B33d2bcf9f5,Shelby,Terrell,Male,elijah57@example.net,001-084-906-7849x73518,1945-10-26,Games developer
2,f90cD3E76f1A9b9,Phillip,Summers,Female,bethany14@example.com,214.112.6044x4913,1910-03-24,Phytotherapist
3,DbeAb8CcdfeFC2c,Kristine,Travis,Male,bthompson@example.com,277.609.7938,1992-07-02,Homeopath
4,A31Bee3c201ef58,Yesenia,Martinez,Male,kaitlinkaiser@example.com,584.094.6111,2017-08-03,Market researcher
5,1bA7A3dc874da3c,Lori,Todd,Male,buchananmanuel@example.net,689-207-3558x7233,1938-12-01,Veterinary surgeon


In [17]:
# 4-1. df_people의 "First Name" 열을 선택하세요.
df_people["First Name"]

Index
1        Shelby
2       Phillip
3      Kristine
4       Yesenia
5          Lori
         ...   
96       Dennis
97        Steve
98       Wesley
99       Summer
100      Mariah
Name: First Name, Length: 100, dtype: object

In [18]:
# 4-2. df_people의 3~6번째 열을 한꺼번에 선택하세요. (0부터 시작합니다.)
df_people[df_people.columns[3:7]]

Unnamed: 0_level_0,Sex,Email,Phone,Date of birth
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Male,elijah57@example.net,001-084-906-7849x73518,1945-10-26
2,Female,bethany14@example.com,214.112.6044x4913,1910-03-24
3,Male,bthompson@example.com,277.609.7938,1992-07-02
4,Male,kaitlinkaiser@example.com,584.094.6111,2017-08-03
5,Male,buchananmanuel@example.net,689-207-3558x7233,1938-12-01
...,...,...,...,...
96,Female,bmartin@example.org,001-095-524-2112x257,1954-07-30
97,Female,latasha46@example.net,001-865-478-5157,1932-04-29
98,Male,regina11@example.org,995-542-3004x76800,1994-12-28
99,Female,alexiscantrell@example.org,001-273-685-6932x092,2012-04-12


In [19]:
# 4-3 df_people에 새로운 열(이름은 "One")을 삽입합니다. 이 새로운 열의 초기값은 "하나"로 고정합니다.
df_people["One"]=1

###### 아래 줄은 수정하지 마세요.
df_people.iloc[:-1:15]

Unnamed: 0_level_0,User Id,First Name,Last Name,Sex,Email,Phone,Date of birth,Job Title,One
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,88F7B33d2bcf9f5,Shelby,Terrell,Male,elijah57@example.net,001-084-906-7849x73518,1945-10-26,Games developer,1
16,50Bb061cB30B461,Thomas,Knight,Female,braunpriscilla@example.net,+1-360-880-0766,2006-02-18,Sport and exercise psychologist,1
31,5d2feAfbdCAA6B5,Isaiah,Camacho,Female,jimblake@example.org,001-536-544-3367,1966-04-07,Food technologist,1
46,6bFcfc3cc1BC6B4,Haley,Pugh,Female,molly03@example.org,(746)182-6137x2453,1980-09-16,Commissioning editor,1
61,bB9e49E506F65ed,Shari,Daugherty,Male,kalvarado@example.org,001-951-655-4798x6124,1944-11-24,Curator,1
76,b3e15e65Ca2CcBf,Tina,Cunningham,Male,wongmary@example.org,079-907-5051,1956-11-29,Race relations officer,1
91,F0aeC9c2759F3C6,Alison,Nixon,Female,zmiles@example.net,3506680871,1941-07-10,Patent attorney,1


In [25]:
# 4-4 df_people의 열 중 하나의 값을 일괄적으로 수정합니다. "Last Name"열의 값을 모두 "ABC"로 수정하세요.
df_people['Last Name'] = 'ABC'
###### 아래 줄은 수정하지 마세요.
df_people.iloc[:-1:15]

Unnamed: 0_level_0,User Id,First Name,Last Name,Sex,Email,Phone,Date of birth,Job Title,One
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,88F7B33d2bcf9f5,Shelby,ABC,Male,elijah57@example.net,001-084-906-7849x73518,1945-10-26,Games developer,1
16,50Bb061cB30B461,Thomas,ABC,Female,braunpriscilla@example.net,+1-360-880-0766,2006-02-18,Sport and exercise psychologist,1
31,5d2feAfbdCAA6B5,Isaiah,ABC,Female,jimblake@example.org,001-536-544-3367,1966-04-07,Food technologist,1
46,6bFcfc3cc1BC6B4,Haley,ABC,Female,molly03@example.org,(746)182-6137x2453,1980-09-16,Commissioning editor,1
61,bB9e49E506F65ed,Shari,ABC,Male,kalvarado@example.org,001-951-655-4798x6124,1944-11-24,Curator,1
76,b3e15e65Ca2CcBf,Tina,ABC,Male,wongmary@example.org,079-907-5051,1956-11-29,Race relations officer,1
91,F0aeC9c2759F3C6,Alison,ABC,Female,zmiles@example.net,3506680871,1941-07-10,Patent attorney,1


In [30]:
# 4-5 두 열의 값과, 임의로 부여한 값을 합쳐 새로운 열을 만듭니다.
# df_people의 "First Name" 열과 "Last Name" 열의 값을 띄어쓰기(" ")로 구분하여 합치고,
# 뒤에 "DEFG"라는 문자열을 마찬가지로 띄어쓰기로 구분하여 합친 값을 가지는 새로운 열 "Full Name Plus"을 만드세요.
# **이름 합성 예시** -> 어느 record가 가진 값이 "First Name" = "John", "Last Name" = "Doe"인 경우, 새로운 열에 이 record가 가지는 값은 "John Doe DEFG"여야 합니다.
df_people['Full Name Plus'] = df_people['First Name'] + ' ' + df_people['Last Name'] + ' ' + 'DEFG'

###### 아래 줄은 수정하지 마세요.
df_people.iloc[:-1:15]

Unnamed: 0_level_0,User Id,First Name,Last Name,Sex,Email,Phone,Date of birth,Job Title,One,Full Name Plus
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,88F7B33d2bcf9f5,Shelby,ABC,Male,elijah57@example.net,001-084-906-7849x73518,1945-10-26,Games developer,1,Shelby ABC DEFG
16,50Bb061cB30B461,Thomas,ABC,Female,braunpriscilla@example.net,+1-360-880-0766,2006-02-18,Sport and exercise psychologist,1,Thomas ABC DEFG
31,5d2feAfbdCAA6B5,Isaiah,ABC,Female,jimblake@example.org,001-536-544-3367,1966-04-07,Food technologist,1,Isaiah ABC DEFG
46,6bFcfc3cc1BC6B4,Haley,ABC,Female,molly03@example.org,(746)182-6137x2453,1980-09-16,Commissioning editor,1,Haley ABC DEFG
61,bB9e49E506F65ed,Shari,ABC,Male,kalvarado@example.org,001-951-655-4798x6124,1944-11-24,Curator,1,Shari ABC DEFG
76,b3e15e65Ca2CcBf,Tina,ABC,Male,wongmary@example.org,079-907-5051,1956-11-29,Race relations officer,1,Tina ABC DEFG
91,F0aeC9c2759F3C6,Alison,ABC,Female,zmiles@example.net,3506680871,1941-07-10,Patent attorney,1,Alison ABC DEFG


## **5. DataFrame 행(row) 조건에 따라 선택하기**

---

`pd.DataFrame`에서 특정 조건에 맞는 행을 선택하는 방법을 연습합니다. `pd.DataFrame`에서 조건 선택은 `df[conditions]`와 같은 형태를 가집니다. 이 때, `conditions`에는 *boolean* 값을 가지는, 선택의 대상이 될 `pd.DataFrame`과 동일한 길이(len)를 가지는 `pd.Series`가 주어지는데, 이 boolean Series들은 `&`, `|`, `~`을 이용해 조합될 수 있습니다.

아래 주어진 예시 셀의 내용과, 아래 링크들의 내용을 참고해서 주어진 문제를 푸세요.

---

[pd.DataFrame selections](https://pandas.pydata.org/docs/getting_started/intro_tutorials/03_subset_data.html) <br>
[pd.DataFrame selection, multiple conditions](https://www.geeksforgeeks.org/filter-pandas-dataframe-with-multiple-conditions/) <br>
[pd.Series.isin](https://pandas.pydata.org/docs/reference/api/pandas.Series.isin.html) <br>
[pd.Series.str.contains](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.contains.html) <br>
[pd.Series.str.startswith](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.startswith.html#pandas.Series.str.startswith)

In [31]:
# 예시 셀 1
df_ex = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
df_ex

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9
3,10,11,12


In [32]:
# 예시 셀 2
df_ex[1] > 7

0    False
1    False
2     True
3     True
Name: 1, dtype: bool

In [33]:
# 예시 셀 3
df_ex[2] < 12

0     True
1     True
2     True
3    False
Name: 2, dtype: bool

In [34]:
# 예시 셀 4
(df_ex[1] > 7) & (df_ex[2] < 12)

0    False
1    False
2     True
3    False
dtype: bool

In [35]:
# 예시 셀 5
df_ex[(df_ex[1] > 7) & (df_ex[2] < 12)]

Unnamed: 0,0,1,2
2,7,8,9


In [36]:
# 5번 문제에서 사용될 DataFrame입니다.
df_titanic = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")
df_titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [38]:
# 5-1. df_titanic에서 Age가 35인 row를 선택하세요.
df_titanic[df_titanic['Age'] == 35]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
20,21,0,2,"Fynney, Mr. Joseph J",male,35.0,0,0,239865,26.0,,S
211,212,1,2,"Cameron, Miss. Clear Annie",female,35.0,0,0,F.C.C. 13528,21.0,,S
230,231,1,1,"Harris, Mrs. Henry Birkhardt (Irene Wallach)",female,35.0,1,0,36973,83.475,C83,S
258,259,1,1,"Ward, Miss. Anna",female,35.0,0,0,PC 17755,512.3292,,C
269,270,1,1,"Bissette, Miss. Amelia",female,35.0,0,0,PC 17760,135.6333,C99,S
279,280,1,3,"Abbott, Mrs. Stanton (Rosa Hunt)",female,35.0,1,1,C.A. 2673,20.25,,S
363,364,0,3,"Asim, Mr. Adola",male,35.0,0,0,SOTON/O.Q. 3101310,7.05,,S
383,384,1,1,"Holverson, Mrs. Alexander Oskar (Mary Aline To...",female,35.0,1,0,113789,52.0,,S


In [39]:
# 5-2. df_titanic에서 Age가 35보다 작은 row를 선택하세요.
df_titanic[df_titanic['Age']<35]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,,S
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [41]:
# 5-3. df_titanic에서 Age가 35보다 크고, 50보다 작은 row를 선택하세요.
df_titanic[(df_titanic['Age']>35) & (df_titanic['Age']<50)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.2750,,S
25,26,1,3,"Asplund, Mrs. Carl Oscar (Selma Augusta Emilia...",female,38.0,1,5,347077,31.3875,,S
30,31,0,1,"Uruchurtu, Don. Manuel E",male,40.0,0,0,PC 17601,27.7208,,C
35,36,0,1,"Holverson, Mr. Alexander Oskar",male,42.0,1,0,113789,52.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
862,863,1,1,"Swift, Mrs. Frederick Joel (Margaret Welles Ba...",female,48.0,0,0,17466,25.9292,D17,S
865,866,1,2,"Bystrom, Mrs. (Karolina)",female,42.0,0,0,236852,13.0000,,S
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
873,874,0,3,"Vander Cruyssen, Mr. Victor",male,47.0,0,0,345765,9.0000,,S


In [46]:
# 5-4. df_titanic에서 "Name"에 "Fred"을 포함하는 row를 선택하세요.
df_titanic[df_titanic['Name'].str.contains('Fred', case=False)] # case=False는 대소문자 구별 안 함

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
59,60,0,3,"Goodwin, Master. William Frederick",male,11.0,5,2,CA 2144,46.9,,S
85,86,1,3,"Backstrom, Mrs. Karl Alfred (Maria Mathilda Gu...",female,33.0,3,0,3101278,15.85,,S
201,202,0,3,"Sage, Mr. Frederick",male,,8,2,CA. 2343,69.55,,S
202,203,0,3,"Johanson, Mr. Jakob Alfred",male,34.0,0,0,3101264,6.4958,,S
206,207,0,3,"Backstrom, Mr. Karl Alfred",male,32.0,1,0,3101278,15.85,,S
224,225,1,1,"Hoyt, Mr. Frederick Maxfield",male,38.0,1,0,19943,90.0,C93,S
238,239,0,2,"Pengelly, Mr. Frederick William",male,19.0,0,0,28665,10.5,,S
319,320,1,1,"Spedden, Mrs. Frederic Oakley (Margaretta Corn...",female,40.0,1,1,16966,134.5,E34,C
343,344,0,2,"Sedgwick, Mr. Charles Frederick Waddington",male,25.0,0,0,244361,13.0,,S
371,372,0,3,"Wiklund, Mr. Jakob Alfred",male,18.0,1,0,3101267,6.4958,,S


In [51]:
# 5-5. df_titanic에서 "Pclass"가 1 혹은 3이면서, 이름이 "Ga" 혹은 "Ke"로 시작되는 row를 선택하세요.
df_titanic[(df_titanic['Pclass'].isin((1, 3))) & (df_titanic['Name'].str.startswith(('Ga', 'Ke')))]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
300,301,1,3,"Kelly, Miss. Anna Katherine ""Annie Kate""",female,,0,0,9234,7.75,,Q
457,458,1,1,"Kenyon, Mrs. Frederick R (Marion)",female,,1,0,17464,51.8625,D21,S
470,471,0,3,"Keefe, Mr. Arthur",male,,0,0,323592,7.25,,S
487,488,0,1,"Kent, Mr. Edward Austin",male,58.0,0,0,11771,29.7,B37,C
573,574,1,3,"Kelly, Miss. Mary",female,,0,0,14312,7.75,,Q
696,697,0,3,"Kelly, Mr. James",male,44.0,0,0,363592,8.05,,S
703,704,0,3,"Gallagher, Mr. Martin",male,25.0,0,0,36864,7.7417,,Q
760,761,0,3,"Garfirth, Mr. John",male,,0,0,358585,14.5,,S
790,791,0,3,"Keane, Mr. Andrew ""Andy""",male,,0,0,12460,7.75,,Q
