## DataFrame(데이터 프레임)
### 데이터 프레임이란
* 데이터 분석의 데이터 구조로 관계형 데이터베이스의 테이블 혹은 엑셀 시트와 같은 2차원 구조이다.
* 데이터를 처리, 조회, 분석하는 가장 효율적인 방법이 데이터프레임을 사용하는 방법이다.
* 직접 만들 수 있으나 보통은 **csv 파일**, **엑셀 파일** 또는 DB에서 읽어와서 사용한다.
* 데이터 프레임에서 열
    * 데이터 프레임에서 열은 변수(feature, target)이라고 하고 정보를 의미한다.
* 데이터 프레임에서 행
    * 데이터 프레임에서 행은 관측치, 샘플이라고 하고 분석 단위를 의미한다.

## Series(시리즈)
### 시리즈란
* 하나의 정보에 대한 데이터들의 집합으로 데이터 프레임에서 하나의 열을 떼어낸 것으로 1차원 구조이다.

* 시리즈에서의 행과 열은 데이터 프레임에서의 의미와 동일하다.

## CSV 파일 불러오기
* pd.read_csv('파일경로/이름') 혹은 ('url')을 사용하여 불러오기가 가능하다
> path = '경로'  
> data = pd.read_csv(path)

**[titanic_simple 데이터 셋 정보]**

- PassengerId : 승객번호
- Survived : 생존여부(1:생존, 0:사망)
- Pclass : 객실등급(1:1등급, 2:2등급, 3:3등급)
- Name : 승객이름
- Sex : 성별(male, female)
- Age : 나이
- Fare : 운임($)
- Embarked : 승선지역(Southhampton, Cherbourg, Queenstown)
- etc.

In [1]:
import pandas as pd
data = pd.read_csv('./titanic/test.csv')
data.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


### 데이터 프레임 정보 확인
- df.head(n) -> 기본값은 5개 : 앞쪽 데이터 n개 확인
- df.tail(n) -> 기본값은 5개 : 뒤쪽 데이터 n개 확인 
- df.shape : 데이터 프레임 모양 확인(행의 수, 열의 수)
- df.describe() : 기초통계정보 확인(개수(count), 평균(mean), 표준편차(std), 최솟값(min), 사분위값(25%, 50%, 75%), 최댓값(max)을 표시)
- df.columns : 열 정보 확인 -> 컬럼이 어떤거 있는지
- df.dtypes : 열 자료형 확인
- df.info() : 열 자료형 및 개수 확인 -> NaN(결측치)가 있는지 확인할 때도 사용
- 특정 열 조회
    - 1차원(시리즈) : df['컬럼']
    - 2차원(데이터프레임) : df[['컬럼']]

In [3]:
# 몇 가지만 확인해보기
data.describe()

Unnamed: 0,PassengerId,Pclass,Age,SibSp,Parch,Fare
count,418.0,418.0,332.0,418.0,418.0,417.0
mean,1100.5,2.26555,30.27259,0.447368,0.392344,35.627188
std,120.810458,0.841838,14.181209,0.89676,0.981429,55.907576
min,892.0,1.0,0.17,0.0,0.0,0.0
25%,996.25,1.0,21.0,0.0,0.0,7.8958
50%,1100.5,3.0,27.0,0.0,0.0,14.4542
75%,1204.75,3.0,39.0,1.0,0.0,31.5
max,1309.0,3.0,76.0,8.0,9.0,512.3292


In [12]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Pclass       418 non-null    int64  
 2   Name         418 non-null    object 
 3   Sex          418 non-null    object 
 4   Age          332 non-null    float64
 5   SibSp        418 non-null    int64  
 6   Parch        418 non-null    int64  
 7   Ticket       418 non-null    object 
 8   Fare         417 non-null    float64
 9   Cabin        91 non-null     object 
 10  Embarked     418 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 36.0+ KB


In [14]:
# 1차원 행 조회
data['Age']

0      34.5
1      47.0
2      62.0
3      27.0
4      22.0
       ... 
413     NaN
414    39.0
415    38.5
416     NaN
417     NaN
Name: Age, Length: 418, dtype: float64

In [15]:
# 2차원 행 조회
data[['Age']]

Unnamed: 0,Age
0,34.5
1,47.0
2,62.0
3,27.0
4,22.0
...,...
413,
414,39.0
415,38.5
416,


### 정렬
- df.sort_values()를 사용하여 특정 열을 기준으로 정렬한다.
- ascending옵션을 사용하여 정렬 기준을 설정할 수 있다.
    - ascending = True : 오름차순 정렬(기본값)
    - ascending = False : 내림차순 정렬

In [7]:
# 요금을 기준으로 내림차순 정렬
data.sort_values('Fare', ascending = False)

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
343,1235,1,"Cardeza, Mrs. James Warburton Martinez (Charlo...",female,58.0,0,1,PC 17755,512.3292,B51 B53 B55,C
53,945,1,"Fortune, Miss. Ethel Flora",female,28.0,3,2,19950,263.0000,C23 C25 C27,S
69,961,1,"Fortune, Mrs. Mark (Mary McDougald)",female,60.0,1,4,19950,263.0000,C23 C25 C27,S
24,916,1,"Ryerson, Mrs. Arthur Larned (Emily Maria Borie)",female,48.0,1,3,PC 17608,262.3750,B57 B59 B63 B66,C
142,1034,1,"Ryerson, Mr. Arthur Larned",male,61.0,1,3,PC 17608,262.3750,B57 B59 B63 B66,C
...,...,...,...,...,...,...,...,...,...,...,...
133,1025,3,"Thomas, Mr. Charles P",male,,1,0,2621,6.4375,,C
21,913,3,"Olsen, Master. Artur Karl",male,9.0,0,1,C 17368,3.1708,,S
266,1158,1,"Chisholm, Mr. Roderick Robert Crispin",male,,0,0,112051,0.0000,,S
372,1264,1,"Ismay, Mr. Joseph Bruce",male,49.0,0,0,112058,0.0000,B52 B54 B56,S


## Pandas 집계
- df['컬럼'].unique() : 고유값 확인 -> 결과는 배열의 형태로 출력, 고유값 확인이란 해당 컬럼의 정보로 어떤 값들이 있는지 알려주는 것 
- df['컬럼'].value_counts() : 고유값 개수 확인
- df['컬럼'].sum() : 합 -> sum, mean, std, max etc. 다양한 집계 사용 가능
- df['컬럼'].median() : 중앙값 확인

In [8]:
data['Sex'].unique()

array(['male', 'female'], dtype=object)

In [9]:
data['Sex'].value_counts()

male      266
female    152
Name: Sex, dtype: int64

In [11]:
data['Fare'].mean()

35.6271884892086

## 조건으로 특정 행 조회하기
### .loc
- 조건 : 조건문 형태 -> 조건에 만족하는 데이터만 조회
- 열 이름 :
    1. 생략 가능
    2. 열 이름 1개 => 결과가 시리즈로 출력
    3. 열 이름 2개 => 결과가 데이터 프레임으로 출력
- 문법 : 
    - 조건이 1개 : df.loc[행 조건, ['컬럼']]
    - 조건이 2개 이상 : df.loc[(행 조건) & 또는 | (행 조건), ['컬럼']] -> 여러 조건을 만족하는 행을 조회하는 경우 각 조건은 소괄호로 묶어줘야 한다.
### 함수 
- isin()
    - 문법 :isin([값1, 값2 .. 값n)]
    - ()안에 있는 값인 데이터만 조회
- between()
    - 문법 : between(값1, 값2)
    - 값1 ~ 값2 까지 범위 안의 데이터만 조회

In [18]:
data.loc[data['Age'] > 30, ['Sex']]

Unnamed: 0,Sex
0,male
1,female
2,male
11,male
13,male
...,...
404,male
407,male
411,female
414,female


In [19]:
data.loc[(data['Age'] > 30) & (data['Sex'] == 'male'), ['Embarked']]

Unnamed: 0,Embarked
0,Q
2,Q
11,S
13,S
16,Q
...,...
399,Q
401,S
404,C
407,C


In [29]:
data.loc[data['Sex'].isin(['male'])]

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
5,897,3,"Svensson, Mr. Johan Cervin",male,14.0,0,0,7538,9.2250,,S
7,899,2,"Caldwell, Mr. Albert Francis",male,26.0,1,1,248738,29.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...
407,1299,1,"Widener, Mr. George Dunton",male,50.0,1,1,113503,211.5000,C80,C
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


In [31]:
data.loc[data['Age'].between(30, 50)].sort_values('Age', ascending = False)

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
30,922,2,"Louch, Mr. Charles Alexander",male,50.0,1,0,SC/AH 3085,26.0000,,S
218,1110,1,"Widener, Mrs. George Dunton (Eleanor Elkins)",female,50.0,1,1,113503,211.5000,C80,C
407,1299,1,"Widener, Mr. George Dunton",male,50.0,1,1,113503,211.5000,C80,C
355,1247,1,"Julian, Mr. Henry Forbes",male,50.0,0,0,113044,26.0000,E60,S
25,917,3,"Robins, Mr. Alexander A",male,50.0,1,0,A/5. 3337,14.5000,,S
...,...,...,...,...,...,...,...,...,...,...,...
335,1227,1,"Maguire, Mr. John Edward",male,30.0,0,0,110469,26.0000,C106,S
291,1183,3,"Daly, Miss. Margaret Marcella Maggie""""",female,30.0,0,0,382650,6.9500,,Q
298,1190,1,"Loring, Mr. Joseph Holland",male,30.0,0,0,113801,45.5000,,S
306,1198,1,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.5500,C22 C26,S


## 데이터 프레임 집계 : .groupby()
- 문법 : df.groupby('집계 기준 변수', as_index = )['집계 대상 변수'].집계함수
    - 집계 기준 변수 : 집계 기준이 되는 변수로 리스트 또는 범주형 변수이다. ex) 월 별 식비 평균을 구할 때 월에 해당된다 -> xx별
    - 집계 대상 변수 : 집계할 리스트 또는 변수이다. ex) 월 별 식비 평균을 구할 때 식비에 해당된다.
        - 만약 집계 대상 변수를 지정하지 않으면 집계 기준 변수를 제외한 모든 변수를 집계한다.
    - 집계 함수 : sum, mean, max, min etc. ex) 월 별 식비 평균을 구할 때 평균에 해당
    - as_index : 
        - as_index = True : 집계 기준 변수를 인덱스로 사용 (기본값)
        - as_index = Flase : 집계 기준 변수를 인덱스로 사용하지 않음 -> 0, 1, 2 ...의 인덱스가 생성됨

In [44]:
temp = data.groupby('Sex', as_index = False)['Age'].mean()
temp

Unnamed: 0,Sex,Age
0,female,30.272362
1,male,30.272732


In [45]:
temp = data.groupby('Sex', as_index = True)['Age'].mean()
temp

Sex
female    30.272362
male      30.272732
Name: Age, dtype: float64

In [43]:
temp2 = data.groupby(['Sex', 'Pclass'], as_index = True)[['Age']].mean()
temp2

Unnamed: 0_level_0,Unnamed: 1_level_0,Age
Sex,Pclass,Unnamed: 2_level_1
female,1,41.333333
female,2,24.376552
female,3,23.0734
male,1,40.52
male,2,30.940678
male,3,24.525104


In [42]:
type(temp2)

pandas.core.frame.DataFrame

### agg() 메소드
- 열 하나에 대해 여러가지의 집계를 한번에 수행
- agg()를 사용하면 as_index = False로 지정해도 집계 기준 변수가 인덱스로 지정된다.
- 문법 : 
    1. 메소드에 원하는 집계함수 이름을 리스트 형식으로 지정
        - ex) df.groupby('집계 기준 변수')['집계 대상 변수'].agg(['sum', 'mean', 'max', 'min'])
    2. '컬럼' : '집계 방법' 형태의 key:value 형식의 딕셔너리 형태로 지정
        - ex) df.groupby('집계 기준 변수').agg({'집계 대상 변수':'sum', '집계 대상 변수':'mean'})

In [46]:
data.groupby('Sex')['Age'].agg(['mean', 'max', 'min'])

Unnamed: 0_level_0,mean,max,min
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,30.272362,76.0,0.17
male,30.272732,67.0,0.33


In [48]:
data.groupby('Sex').agg({'Age' : 'mean', 'Fare' : 'max'})

Unnamed: 0_level_0,Age,Fare
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,30.272362,512.3292
male,30.272732,262.375
