# Pasdas 개요와 기본 API

판다스는 행과 열로 이뤄진 2차원 데이터를 효율적으로 가공/처리할 수 있는 다양하고 훌륭한 기능 제공

## 주요 구성 요소

- DataFrame
- Series
- Index

![Pandas 주요 구성 요소](./assets/pandas_intro01.png)

### 기본 API

- read_csv()
- head()
- shape
- info()
- describe()
- Value_counts()
- Sort_values()

In [1]:
import pandas as pd

**read_csv()**<br/>
read_csv()를 이용하여 csv파일을 편리하게 DataFrame으로 로딩<br/>
read_csv()의 sep인자를 콤마(,)가 아닌 다른 분리자로 변경하여 다른 유형의 파일도 로드가 가능

In [2]:
#data경로의 파일은 kaggle에서 titanic 파일
titanic_df = pd.read_csv('./data/titanic_train.csv')
print(type(titanic_df))

<class 'pandas.core.frame.DataFrame'>


**head()**<br/>
DataFrame의 맨 앞 일부 데이터만 추출

In [3]:
titanic_df.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### DataFrame의 생성

In [4]:
dic = {
    'Name': ['Mary', 'Jane', 'John', 'Tae'],
    'Year': [2011, 2016, 2013, 2013],
    'Gender': ['F', 'F', 'M', 'M']
}

data_df = pd.DataFrame(dic)
print(data_df)
print('='*30)

#새로운 컬럼명 추가
data_df = pd.DataFrame(dic, columns=['Name', 'Year', 'Gender', 'Age'])
print(data_df)
print('='*30)

#인덱스를 새로운 값으로 할당
data_df = pd.DataFrame(dic, index=['one', 'two', 'three', 'four'])
print(data_df)

   Name  Year Gender
0  Mary  2011      F
1  Jane  2016      F
2  John  2013      M
3   Tae  2013      M
   Name  Year Gender  Age
0  Mary  2011      F  NaN
1  Jane  2016      F  NaN
2  John  2013      M  NaN
3   Tae  2013      M  NaN
       Name  Year Gender
one    Mary  2011      F
two    Jane  2016      F
three  John  2013      M
four    Tae  2013      M


#### DataFrame의 컬럼명과 인덱스

In [5]:
print('columns:', titanic_df.columns)
#인덱스의 객체가 반환됨
print('index:', titanic_df.index)
#인덱스의 객체에서 값을 확인
print('index value:', titanic_df.index.values)

columns: Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')
index: RangeIndex(start=0, stop=891, step=1)
index value: [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 1

In [6]:
# DataFrame객체에서 []연산자 내에 한개의 컬럼만 입력하면 Series 객체를 반환
series = titanic_df['Name']
print(series.head(3))
print('type:', type(series))

# DataFrame객체에서 []연산자 내에 여러개의 컬럼을 리스트로 입력하면 그 컬럼들로 구성된 DataFrame 반환
filtered_df = titanic_df[['Name','Age']]
print(filtered_df.head(3))
print('type:', type(filtered_df))

# DataFrame객체에서 []연산자 내에 한 개의 컬럼을 리스트로 입력하면 한개의 컬럼으로 구성된 DataFrame 반환
one_col_df = titanic_df[['Name']]
print(one_col_df.head(3))
print('type:', type(one_col_df))

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
Name: Name, dtype: object
type: <class 'pandas.core.series.Series'>
                                                Name   Age
0                            Braund, Mr. Owen Harris  22.0
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  38.0
2                             Heikkinen, Miss. Laina  26.0
type: <class 'pandas.core.frame.DataFrame'>
                                                Name
0                            Braund, Mr. Owen Harris
1  Cumings, Mrs. John Bradley (Florence Briggs Th...
2                             Heikkinen, Miss. Laina
type: <class 'pandas.core.frame.DataFrame'>


**shape**<br/>
DataFrame의 행(Row)와 열(Column)크기를 가지고 있는 속성<br/>
(참고, Index컬럼은 숫자에 더해지지 않는다.)

In [7]:
print('DataFrame 크기:', titanic_df.shape)

DataFrame 크기: (891, 12)


**info()**<br/>
DataFrame 내의 컬럼명, 데이터 타입, Null건수, 데이터 건수 정보를 제공

In [8]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


**describe()**<br/>
데이터값들의 평균, 표준편차, 4분위 분포도를 제공<br/>
숫자형 컬럼들에 대해 해당 정보 제공

In [9]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


**value_counts()**<br/>
동일한 개별 데이터 값이 몇건이 있는지 정보를 제공<br/>
즉, 개별 데이터값의 분포도 제공<br/>
[주의할 점] value_counts()는 Series객체에서만 호출 될 수 있으므로 반드시 DataFrame을 단일 컬럼으로 입력하여 Series로 변환한 뒤 호출

In [10]:
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)

3    491
1    216
2    184
Name: Pclass, dtype: int64


**sort_values()**<br/>
by= 정렬컬럼<br/>
ascending=True 또는 False로 오름차순/내림차순 정렬

In [11]:
titanic_df.sort_values(by='Pclass', ascending=True)

##특정 컬럼에 대해서만 나오게 하고 싶다면
#titanic_df[['Name', 'Age']].sort_values(by='Age')

##여러개의 컬럼에 대해서 정렬하고 싶다면
# titanic_df[['Name', 'Age','Pclass']].sort_values(by=['Pclass', 'Age'])

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
445,446,1,1,"Dodge, Master. Washington",male,4.0,0,2,33638,81.8583,A34,S
310,311,1,1,"Hays, Miss. Margaret Bechstein",female,24.0,0,0,11767,83.1583,C54,C
309,310,1,1,"Francatelli, Miss. Laura Mabel",female,30.0,0,0,PC 17485,56.9292,E36,C
307,308,1,1,"Penasco y Castellana, Mrs. Victor de Satode (M...",female,17.0,1,0,PC 17758,108.9000,C65,C
306,307,1,1,"Fleming, Miss. Margaret",female,,0,0,17421,110.8833,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
379,380,0,3,"Gustafsson, Mr. Karl Gideon",male,19.0,0,0,347069,7.7750,,S
381,382,1,3,"Nakid, Miss. Maria (""Mary"")",female,1.0,0,2,2653,15.7417,,C
382,383,0,3,"Tikkanen, Mr. Juho",male,32.0,0,0,STON/O 2. 3101293,7.9250,,S
371,372,0,3,"Wiklund, Mr. Jakob Alfred",male,18.0,1,0,3101267,6.4958,,S
