# 판다스
## 다양한 포멧의 파일을 DataFrame으로 로딩할 수 있는 api 목록
- read_table(): 탭으로 구분
- read_csv(): ,로 구분하는게 기본이나 sep='{구분인자}'식으로 입력해주면 탭으로 구별하는 것도 가능
    - 별다른 파라미터지정이 없으면 파일의 맨 처음 로우를 컬럼명으로 인지하고 컬럼으로 변환

In [1]:
import pandas as pd

In [2]:
titanic_df = pd.read_csv("titanic_train.csv")
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


## 데이터프레임의 형태를 알아보는 방법
- .shape: 열, 크기를 튜플로 반환
- .info(): 총 데이터 건수와 데이터 타입, null 건수를 알 수 있음
- .describe(): 컬럼별 숫자형 데이터값의 분포도, 평균값, 최댓값, 최솟값을 알려줌

In [3]:
print(f"shape: {titanic_df.shape}")
print(f"info: {titanic_df.info()}")
print(f"describe: {titanic_df.describe()}")

shape: (891, 12)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
info: None
describe:        PassengerId    Survived      Pclass         Age       SibSp  \
count   891.000000  891.000000  891.000000  714.000000  891.000000   
mean    446.000000    0.383838    2.308642   29.699118    0.523008

## Series
- index와 단 하나의 컬럼만으로 구성된 데이터 세트
- dataframe의 특정 컬럼값만 가져오면 Series의 형태로 특정 컬럼 데이터세트가 반환됨
- value_counts(): 해당 컬럼값의 유형과 건수 확인 가능

In [4]:
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)

print(type(titanic_df['Pclass']))

3    491
1    216
2    184
Name: Pclass, dtype: int64
<class 'pandas.core.series.Series'>


In [5]:
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


# 모든 Dataframe과 Series는 인덱스를 반드시! 가진다

## 넘파이 ndarray, 리스트, 딕셔너리를 Dataframe으로 변환하기
- dataframe과 넘파이의 ndarray 상호간의 변환은 매우 빈번하게 발생
- Dataframe: 행과 열을 가지는 2차원 데이터로 2차원 이하 데이터만 df로 변환이 가능하다.

In [6]:
# ndarray -> df
import numpy as np

col_name = ['col1']
list1 = [1, 2, 3]
arr = np.array(list1)
print(f"arr shape: {arr.shape}")
df1 = pd.DataFrame(list1, columns=col_name)
print(df1) # 리스트이용
df2 = pd.DataFrame(arr, columns=col_name)
print(df2)

arr shape: (3,)
   col1
0     1
1     2
2     3
   col1
0     1
1     2
2     3


In [7]:
# dict -> df
dict = {'col1': [1, 11], 'col2':[2, 22], 'col3': [3, 33]}
df_dict = pd.DataFrame(dict)
print(df_dict)

   col1  col2  col3
0     1     2     3
1    11    22    33


## Dataframe을 ndarray, list, dict로 변환하기
- df -> ndarray는 values를 사용해서 손쉽게 변환이 가능하다 (중요)
- dict로 변환시 인자에 list를 입력하면 딕셔너리의 값이 리스트형으로 변환됨

In [10]:
# df -> ndarray
arr3 = df_dict.values
print(arr3, type(arr3), arr3.shape)

# df -> list
list3 = arr3.tolist()
print(list3, type(list3))

# df -> dict
dict3 = df_dict.to_dict('list')
print(dict3, type(dict3))

[[ 1  2  3]
 [11 22 33]] <class 'numpy.ndarray'> (2, 3)
[[1, 2, 3], [11, 22, 33]] <class 'list'>
{'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]} <class 'dict'>


In [23]:
# 컬럼 데이터 수정
titanic_df['Age_0']=0
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,220.0,2,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,380.0,2,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,260.0,1,0


In [13]:
# 기존 컬럼 Series를 활용해 새 컬럼 Series 만들기
# 만들고 나서 데이터프레임에 새 컬럼 series가 추가됨을 확인할 수 있음
titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch']+1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


## DF 데이터 삭제
### drop() 매서드
- DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
- axis=0은 로우, axis=1은 컬럼 방향. 즉 axis=1은 컬럼 드랍이므로 labels에 원하는 컬럼명을 입력하고 axis=0일 경우엔 labels에 인덱스가 들어간다.
- inplace: False가 디폴트. 만약 True로 지정해주면 df 자신의 데이터값에서도 drop하게 됨

In [24]:
titanic_drop_df = titanic_df.drop('Age_0', axis=1)
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,260.0,1


In [25]:
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,220.0,2,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,380.0,2,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,260.0,1,0


In [26]:
# inplace 지정
titanic_drop_df = titanic_df.drop('Age_0', axis=1, inplace=True)
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,260.0,1


In [28]:
# row 삭제
titanic_df.drop([0, 1, 2], axis=0, inplace=True)
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,350.0,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,350.0,1
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,,1


## Index 객체
- rdbms의 프라이머리키와 유사한 기능을 가진 df의 레코드를 고유하게 식별하는 객체
- 식별성 데이터를 1차원 array로 가지고 있으며 ndarray처럼 단일값 변환 및 슬라이싱 가능
- 함부로 변경이 불가함
- reset_index(): 새롭게 인덱스를 할당하며 기존 인덱스는 index라는 새 컬럼명으로 추가한다. seriese에 적용하면 df가 할당되니 주의 필요

In [30]:
titanic_df = pd.read_csv("titanic_train.csv")
indexes = titanic_df.index
print(indexes)
print(indexes.values)

RangeIndex(start=0, stop=891, step=1)
[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233
 234 235 236 

In [33]:
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)
print(type(value_counts))
new_value_counts = value_counts.reset_index(inplace=False)
print(type(new_value_counts))
print(new_value_counts)

3    491
1    216
2    184
Name: Pclass, dtype: int64
<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>
   index  Pclass
0      3     491
1      1     216
2      2     184


## 데이터 셀렉션 및 필터링
### DF의 [] 연산자
