### 판다스(pandas)
- 판다스는 파이썬에서 데이터 처리를 위해 존재하는 가장 인기 있는 라이브러리
- 일반적으로 대부분 데이터 셋은 2차원 데이터, 즉 행과 열로 구성
- 행과 열로 된 2차원 데이터가 인기가 있는 이유가 사람이 이해하기 쉬운 데이터 구조이기 때문
- 2차원 데이터를 효율적으로 가공, 처리할 수 있는 다양한 기능을 제공하는 것이 판다스

- 기본 API
    - read_csv()
    - head()
    - shape
    - info()
    - describe()
    - Value_counts()
    - Sort_values()

### Pandas 시작 - 파일을 DataFrame 로딩, 기본 API

In [1]:
import pandas as pd

**read_csv()** \
read_csv()를 이용하여 csv 파일을 편리하게 DataFrame으로 로딩합니다. \
read_csv()의 sep 인자를 콤마(,)가 아닌 다른 분리자로 변경하여 다른 유형의 파일도 로드가 가능합니다.

In [2]:
titanic_df = pd.read_csv('train.csv')

In [6]:
print('titanic 변수 type :', type(titanic_df))

titanic 변수 type : <class 'pandas.core.frame.DataFrame'>


**head()** \
DataFrame의 맨 앞 일부 데이터만 추출

In [7]:
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


**DataFrame의 생성**

In [11]:
dict1 = {'Name' : ['Chuimin', 'Eunkyung', 'Jinwoong', 'Soobeom'],
         'Year' : [2011, 2016, 2015, 2015],
         'Gender' : ['Male', 'Female', 'Male', 'Male']
        }

# 딕셔너리를 DataFrame으로 변환
data_df = pd.DataFrame(dict1)
print(data_df)
print('#'*30)

# 새로운 컬럼명을 추가
data_df = pd.DataFrame(dict1, columns=['Name', 'Year', 'Gender', 'Age'])
print(data_df)
print('#'*30)

# 인덱스를 새로운 값으로 할당
data_df = pd.DataFrame(dict1, index=['one', 'two', 'three', 'four'])
print(data_df)
print('#'*30)

       Name  Year  Gender
0   Chuimin  2011    Male
1  Eunkyung  2016  Female
2  Jinwoong  2015    Male
3   Soobeom  2015    Male
##############################
       Name  Year  Gender  Age
0   Chuimin  2011    Male  NaN
1  Eunkyung  2016  Female  NaN
2  Jinwoong  2015    Male  NaN
3   Soobeom  2015    Male  NaN
##############################
           Name  Year  Gender
one     Chuimin  2011    Male
two    Eunkyung  2016  Female
three  Jinwoong  2015    Male
four    Soobeom  2015    Male
##############################


**DataFrame의 컬럼명과 인덱스**

In [12]:
print('columns :',titanic_df.columns)
print('index :', titanic_df.index)
print('index value', titanic_df.index.values)

columns : Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')
index : RangeIndex(start=0, stop=891, step=1)
index value [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 

**DataFrame에서 Series 추출 및 DataFrame 필터링 추출**

In [17]:
# DataFrame 객체에서 [ ] 연산자내에 한개의 컬럼만 입력하면 Series 객체를 반환
series = titanic_df['Name']
print(series.head(3))
print('## type :',type(series))
print('\n')

# DataFrame 객체에서 [ ] 연산자내에 여러개의 컬럼을 `리스트`로 입력하면 그 컬럼들로 구성된 DataFrame 반환
filtered_df = titanic_df[['Name', 'Age']]
print(filtered_df.head(3))
print('## type :', type(filtered_df))
print('\n')

# DataFrame 객체에서 [ ] 연산자내에 한개의 컬럼을 리스트로 입력하면 한개의 컬럼으로 구성된 DataFrame 반환
one_col_df = titanic_df[['Name']]
print(one_col_df.head(3))
print('## type :', type(one_col_df))

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
Name: Name, dtype: object
## type : <class 'pandas.core.series.Series'>


                                                Name   Age
0                            Braund, Mr. Owen Harris  22.0
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  38.0
2                             Heikkinen, Miss. Laina  26.0
## type : <class 'pandas.core.frame.DataFrame'>


                                                Name
0                            Braund, Mr. Owen Harris
1  Cumings, Mrs. John Bradley (Florence Briggs Th...
2                             Heikkinen, Miss. Laina
## type : <class 'pandas.core.frame.DataFrame'>


In [15]:
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


**shape**  \
DataFrame의 행(Row)와 열(Column) 크기를 가지고 있는 속성

In [18]:
print('DataFrame 크기 :', titanic_df.shape)

DataFrame 크기 : (891, 12)
