# 판다스 Pandas

## 판다스의 주요 구성요소
### DataFrame, Series, Index
  
    
- DataFrame : column X rows 2차원 데이터 셋  
- Series : 1개의 column 값으로만 구성된 1차원 데이터 셋

In [19]:
import pandas as pd

In [20]:
from pandas import DataFrame as df

In [21]:
titanic_df=pd.read_csv('titanic_train.csv')

In [22]:
print(titanic_df)

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   ... 

In [35]:
titanic_drop_df = titanic_df.drop('Age',axis=1, inplace=False)
print(titanic_drop_df)

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex  SibSp  Parch  \
0                              Braund, Mr. Owen Harris    male      1      0   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female      1      0   
2                               Heikkinen, Miss. Laina  female      0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female      1      0   
4                             Allen, Mr. William Henry    male      0      0   
..                                                 ...     ... 

## Index
- 판다스의 index 객체는 RDMS의 PK와 유사하게 dataframe, series의 레코드를 고유하게 식별하는 개체이다.  
  
- dataframe, series에서 index 객체만 추출하려면 DataFrame.index 또는 Series.index 속성을 통해 가능하다  
  
- Series 객체는 Index 객체를 포함하지만 Series 객체에 연산 함수를 적용할 때 Index는 연산에서 제외된다. Index는 오직 식별용으로만 사용된다.  
  
- DataFrame 및 Series에 reset_index() 메서드를 수행하면 새롭게 인덱스를 연속 숫자형으로 할당하면 기존 인덱스는 'index'라는 새로운 컬럼명으로 추가한다.

## 데이터 셀렉션 및 필터링
#### 1. []  
: 컬럼 기반 필터링 또는 불린 인덱싱 필터링 제공  
  
#### 2. ix[], loc[], iloc[]  
: 명칭/위치 기반 인덱싱 제공    
  
*명칭(Label)기반 인덱싱 : 컬럼의 명칭을 기반으로 위치지정. '컬럼명'같이 명칭으로 열 위치 지정  
*위치(Position)기반 인덱싱 : 0을 출발점으로 하는 가로축, 세로축 좌표 기반의 행과 열 위치를 기반으로 데이터 지정.  
따라서, 행, 열 위치값으로 정수가 입력됨  
  
    
(1) ix[] : 명칭 기반과 위치 기반 인덱싱을 함께 제공  
(2) loc[] : 명칭 기반 인덱싱  
(3) iloc[] : 위치 기반 인덱싱
  
#### 3. 불린 인덱싱(Boolean indexing)  
: 조건식에 따른 필터링 제공

In [28]:
titanic_Boolean=titanic_df[titanic_df['Age']>60]
print(titanic_Boolean)

     PassengerId  Survived  Pclass                                       Name  \
33            34         0       2                      Wheadon, Mr. Edward H   
54            55         0       1             Ostby, Mr. Engelhart Cornelius   
96            97         0       1                  Goldschmidt, Mr. George B   
116          117         0       3                       Connors, Mr. Patrick   
170          171         0       1                  Van der hoef, Mr. Wyckoff   
252          253         0       1                  Stead, Mr. William Thomas   
275          276         1       1          Andrews, Miss. Kornelia Theodosia   
280          281         0       3                           Duane, Mr. Frank   
326          327         0       3                  Nysveen, Mr. Johan Hansen   
438          439         0       1                          Fortune, Mr. Mark   
456          457         0       1                  Millet, Mr. Francis Davis   
483          484         1  

## Aggregation 함수
- sum(), max(), min(), count() 등의 함수는 DataFrame / Series에서 집합(Aggregation) 연산을 수행  
- DataFrame의 경우 DataFrame에서 바로 aggregation을 호출할 경우 모든 컬럼에 해당 aggregation을 적용

In [30]:
titanic_df[['Age','Fare']].sum(axis=1)
# Aggregation 함수 호출 시 axis 값을 명시하지 않으면 axis=0과 같은 결과 출력

0       29.2500
1      109.2833
2       33.9250
3       88.1000
4       43.0500
         ...   
886     40.0000
887     49.0000
888     23.4500
889     56.0000
890     39.7500
Length: 891, dtype: float64

## 결손 데이터(Missing Data) 처리하기
- isna() : DataFrame의 isna()메소드는 주어진 칼럼값들이 NaN인지 True/False 값을 판환함 (Nan이면 True)  
- fillna() : Missing 데이터를 인자로 주어진 값으로 대체함  
  
      
## DataFrame Group By  
- DataFrame은 Group by 연산을 위해 groupby() 메소드를 제공  
- groupby() 메소드는 by인자로 group by 하려는 컬럼명을 입력받으면 DataFrameGroupBy 객체를 반환  
- 이렇게 반환된 DataFrameGroupBy 객체에 aggregation 함수를 수행

## 판다스에서 lambda 함수
- 판다스는 apply 함수에 lambda 식을 결합해 DataFrame이나 Series의 레코드별로 데이터를 가공하는 기능을 제공함  
- 판다스의 경우 컬럼에 일괄적으로 데이터 가공을 하는 것이 속도 면에서 더 빠르나 복잡한 데이터 가공이 필요한 경우 어쩔 수 없이 apply lambda를 이용함

In [32]:
titanic_df['Name_len']=titanic_df['Name'].apply(lambda x:len(x))
print(titanic_df)

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   ... 