# Pandas2 : 데이터 추출


In [32]:
import numpy as np
import pandas as pd

---

#### 1.데이터 로딩
가장 기본적으로 필요한 데이터를 호출하는 방법에 대해 알아본다. 대부분 csv 파일로 구성되어 있지만 xlsx 형식의 파일을 불러올 땐 이를 호출할 수 있는 모듈인 openpyxl을 추가적으로 설치해야 한다.
파이썬에서 엑셀 데이터를 호출하기 위해서는 read_excel 함수를 사용한다. 여기서는 csv 파일을 사용한다.

In [33]:
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'  ##타이타닉 생존자 데이터

df=pd.read_csv(url)

##파일이 xlsx 인 경우 pd.read_excel(파일명)

---

### 2.열 이름을 사용한 데이터 추출  
데이터를 호출하는 첫 번째 방법은 열 이름을 사용해서 데이터에 접근하는 것이다. 그 전에 데이터를 호출할 때 사용하는 **head** 와 **tail** 함수에 대해 알고 넘어간다.  
| 함수 | 설명 |
| :---: | :----: |
| **head** | 데이터프레임에서 처음 n개 행만 출력 |
| **tail** | 데이터프레임에서 마지막 n개 행만 출력 |  

둘 다 default = 5


In [34]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


그런데 일반적으로 데이터는 생각보다 데이터의 열이 많은 경우가 있다. 이를 고차원 데이터라고도 한다. 이때는 데이터의 행을 기준으로 확인하기 어려울 수 있기 때문에 다음과 같이 **transpose** 함수를 사용해서 데이터를 전체적으로 파악할 수 있다

In [35]:
df.head(5).T

Unnamed: 0,0,1,2,3,4
PassengerId,1,2,3,4,5
Survived,0,1,1,1,0
Pclass,3,1,3,1,3
Name,"Braund, Mr. Owen Harris","Cumings, Mrs. John Bradley (Florence Briggs Th...","Heikkinen, Miss. Laina","Futrelle, Mrs. Jacques Heath (Lily May Peel)","Allen, Mr. William Henry"
Sex,male,female,female,female,male
Age,22.0,38.0,26.0,35.0,35.0
SibSp,1,1,0,1,0
Parch,0,0,0,0,0
Ticket,A/5 21171,PC 17599,STON/O2. 3101282,113803,373450
Fare,7.25,71.2833,7.925,53.1,8.05


필요한 데이터를 추출하는 가장 일반적인 방법은 필요한 열 이름을 리스트(list) 형태로 넣어서 호출하는 것이다. 한 가지 주의할 점은 만약 열 이름에 문자형으로 하나의 열 이름만 넣게 되면 해당 열 값을 **시리즈** 객체로 반환한다는 점이다. 여러 개의 열 이름을 넣으면 데이터프레임 객체로 반환하기 때문에 반환 후에 데이터를 다루는 방법이 달라진다

In [36]:
df[['Name','Sex','Age']]

Unnamed: 0,Name,Sex,Age
0,"Braund, Mr. Owen Harris",male,22.0
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,"Heikkinen, Miss. Laina",female,26.0
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,"Allen, Mr. William Henry",male,35.0
...,...,...,...
886,"Montvila, Rev. Juozas",male,27.0
887,"Graham, Miss. Margaret Edith",female,19.0
888,"Johnston, Miss. Catherine Helen ""Carrie""",female,
889,"Behr, Mr. Karl Howell",male,26.0


---

### 3.행 번호를 사용한 데이터 추출
열 이름 외에도 행을 기준으로 데이터를 추출해야 할 때가 있다. 가장 기초적인 방법은 가존의 리스트나 넘파이 배열과 같이 인덱스 번호를 사용하여 데이터를 호출하는 것이다. 

In [37]:
df[:3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


---

### 4.행과 열 모두 사용한 데이터 추출
실제 데이터를 추출할 때는 행이나 열을 모두 사용하여 데이터를 추출하는 것이 일반적이다. 가장 기본적인 방법은 두 가지 방법을 모두 사용하여 다음과 같이 추출한다.

In [38]:
df[['Name','Sex']][:2]

Unnamed: 0,Name,Sex
0,"Braund, Mr. Owen Harris",male
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female


이외에도 판다스에서는 추가적으로 **loc** 과 **iloc** 함수를 제공한다.  
| 함수 | 설명 |
| :---: | :----:|
| **loc** | 데이터의 인덱스와 열 이름을 가지고 데이터 추출.|
| **iloc** | 데이터의 **인덱스 번호** 로만 데이터를 추출. |

#### 4-1.loc 함수
loc 함수는 데이터의 인덱스와 열 이름을 사용해 데이터를 추출하는 방식이다. 여기서 중요한 점은 인덱스의 이름인데 일반적으로 인덱스의 초기값을 0부터 시작하는 숫자로 되어 있지만 필요에 따라 인덱스의 값을 변경할 수도 있다.

In [39]:
print(df.index)  ##0에서부터 891로 인덱스가 지정되어 있다.

RangeIndex(start=0, stop=891, step=1)


In [40]:
##PassengerID를 인덱스로 설정하므로 해당 열은 지운다.
df.index=df['PassengerId']
del df['PassengerId']

In [None]:
df.tail()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [46]:
##위에서 인덱스를 1부터 시작하는 passengerID로 바꾸었기 때문에 passengerID를 사용하여 추출할 수 있다.
df.loc[[1,5],['Name','Sex']]

Unnamed: 0_level_0,Name,Sex
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1
1,"Braund, Mr. Owen Harris",male
5,"Allen, Mr. William Henry",male


In [50]:
##10부터 20까지 추출
df.loc[10:20,['Name','Sex']]

Unnamed: 0_level_0,Name,Sex
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1
10,"Nasser, Mrs. Nicholas (Adele Achem)",female
11,"Sandstrom, Miss. Marguerite Rut",female
12,"Bonnell, Miss. Elizabeth",female
13,"Saundercock, Mr. William Henry",male
14,"Andersson, Mr. Anders Johan",male
15,"Vestrom, Miss. Hulda Amanda Adolfina",female
16,"Hewlett, Mrs. (Mary D Kingcome)",female
17,"Rice, Master. Eugene",male
18,"Williams, Mr. Charles Eugene",male
19,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female


#### 4-2.iloc 함수
iloc 함수는 index location의 loc에서처럼 인덱스 이름이나 열 이름으로 데이터를 추출하는 형태가 아니라 인덱스 번호로만 데이터를 추출하는 방식이다.

In [53]:
df.iloc[:10,[1,2,3]]

Unnamed: 0_level_0,Pclass,Name,Sex
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,3,"Braund, Mr. Owen Harris",male
2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
3,3,"Heikkinen, Miss. Laina",female
4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female
5,3,"Allen, Mr. William Henry",male
6,3,"Moran, Mr. James",male
7,1,"McCarthy, Mr. Timothy J",male
8,3,"Palsson, Master. Gosta Leonard",male
9,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female
10,2,"Nasser, Mrs. Nicholas (Adele Achem)",female


In [57]:
##추출조건 X
df.iloc[:,:]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


다음 코드와 같이 **reset_index** 함수를 사용하면 새로운 인덱스가 할당된 객체가 생성된다.

In [58]:
df_new = df.reset_index()

In [59]:
df_new

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


---

### 5.drop 함수
drop 함수를 사용하여 특정 행이나 열을 삭제할 수 있다.

In [63]:
##인덱스가 1인 값 삭제 후 처음 5개 데이터 출력 -> 실제로 df_new에서 삭제되지는 않는다. 삭제하려면 df_new=df_new.drop(1)을 해줘야함
df_new.drop(1).head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q


만약 원본 객체에 변화를 주고 싶으면 **inplace** 매개변수를 사용하면 된다. 이는 대부분의 판다스 객체가 공통적으로 가지고 있는 매개변수이므로 기억하자.

In [64]:
df_new.drop(1,inplace=True)

추가적으로 열 이름을 기반으로 drop 함수를 수행할 수 있다. 열 이름을 사용하고 추가로 axis를 1로 설정하면 축이 열을 기준으로 삭제시키도록 지원해준다. 마찬가지로 원본 객체에서 삭제하려면 inplace를 True로 설정한다.

In [65]:
df_new.drop('Name',axis=1)
df_new.drop(['Name','Cabin'],axis=1)

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,male,22.0,1,0,A/5 21171,7.2500,S
2,3,1,3,female,26.0,0,0,STON/O2. 3101282,7.9250,S
3,4,1,1,female,35.0,1,0,113803,53.1000,S
4,5,0,3,male,35.0,0,0,373450,8.0500,S
5,6,0,3,male,,0,0,330877,8.4583,Q
...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,male,27.0,0,0,211536,13.0000,S
887,888,1,1,female,19.0,0,0,112053,30.0000,S
888,889,0,3,female,,1,2,W./C. 6607,23.4500,S
889,890,1,1,male,26.0,0,0,111369,30.0000,C


In [66]:
df_new

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C
