# Pandas
#### 판다스의 주요 구성요소 - DataFrame, Series, Index
* DataFrame : Column * Rows로 이루어진 2차원 데이터 셋
* Series : 1개의 Column값으로만 구성된 1차원 데이터 셋
* Index : DataFrame, Series의 고유한 key값 객체

#### 기본 API
* read_csv()
* head()
* shape
* info()
* describe()
* Value_counts()
* Sort_values()

In [1]:
import pandas as pd

### read_csv()
> read_csv()를 이용하여 csv 파일을 편리하게 DataFrame으로 로딩한다.

In [2]:
titanic_df = pd.read_csv('titanic/train.csv')
print('titanic 변수 type:', type(titanic_df))

titanic 변수 type: <class 'pandas.core.frame.DataFrame'>


### head()
> DataFrame의 맨 앞 일부분만(기본적으로 5개) 추출한다.

> **반대로는 tail(), 맨 끝 일부분을 추출하는 것이 있다.**

In [3]:
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [4]:
titanic_df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


### DataFrame의 생성
> 보통 딕셔너리 자료형에서 변환이 되는데, 키 값이 Column값이 된다.

In [5]:
dic = {'Name' : ['Kangsanha', 'Minju'],
      'age' : [18, 9]}

# 딕셔너리를 DataFrame으로 변환
dic_df = pd.DataFrame(dic)
print(type(dic_df))
dic_df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Name,age
0,Kangsanha,18
1,Minju,9


In [6]:
# DataFrame의 컬럼명과 인덱스

print(dic_df.columns)
print(dic_df.index)
print(dic_df.values)

Index(['Name', 'age'], dtype='object')
RangeIndex(start=0, stop=2, step=1)
[['Kangsanha' 18]
 ['Minju' 9]]


### DataFrame에서 Seires 추출 및 DataFrame 필터링 추출

In [7]:
series = dic_df['age']
print(type(series))

# DataFrame 객체에서 []연산자내에 한개의 컬럼을 리스트로 입력하면 한개의 컬럼으로 구성된 DataFrame반환

series = dic_df[['age']]
print(type(series))

# DataFrame 객체에서 []연산자내에 여러게의 컬럼을 리스트로 입력하면 여러개의 컬럼으로 구성된 DataFrame 반환

series = dic_df[['Name', 'age']]
print(type(series))

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>


### shape
> DataFrame의 행과 열 크기를 가지고 있는 속성이다.

In [8]:
dic_df.shape

(2, 2)

In [9]:
titanic_df.shape

(891, 12)

### info()
> DataFrame내의 컬럼명, 데이터 타입, Null건수, 데이터 건수 정보를 제공

In [10]:
dic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    2 non-null      object
 1   age     2 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 160.0+ bytes


In [11]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### describe()
> 데이터값들의 평균, 표준편차, 4분위 분포도를 제공한다.

In [12]:
dic_df.describe()

Unnamed: 0,age
count,2.0
mean,13.5
std,6.363961
min,9.0
25%,11.25
50%,13.5
75%,15.75
max,18.0


In [13]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### value_counts()
> 동일한 개별 데이터 값이 몇건이 있는지 정보를 제공한다. 즉 개별 데이터값의 분포도를 제공한다. 주의 할 점은 Series객체에서만 호출 될수 있으므로 반드시 DataFrame을 단일 컬럼으로 입력하여 Series로 변환한뒤 호출 해야한다.

In [14]:
Series = dic_df['age']
value_counts = Series.value_counts()
value_counts

18    1
9     1
Name: age, dtype: int64

In [15]:
titanic_df['Pclass'].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

### sort_values() by = 정렬컬럼, ascending=True, False로 오름차순/내림차순 정렬

In [16]:
titanic_df.sort_values(by='Pclass', ascending=True)



Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
445,446,1,1,"Dodge, Master. Washington",male,4.0,0,2,33638,81.8583,A34,S
310,311,1,1,"Hays, Miss. Margaret Bechstein",female,24.0,0,0,11767,83.1583,C54,C
309,310,1,1,"Francatelli, Miss. Laura Mabel",female,30.0,0,0,PC 17485,56.9292,E36,C
307,308,1,1,"Penasco y Castellana, Mrs. Victor de Satode (M...",female,17.0,1,0,PC 17758,108.9000,C65,C
306,307,1,1,"Fleming, Miss. Margaret",female,,0,0,17421,110.8833,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
379,380,0,3,"Gustafsson, Mr. Karl Gideon",male,19.0,0,0,347069,7.7750,,S
381,382,1,3,"Nakid, Miss. Maria (""Mary"")",female,1.0,0,2,2653,15.7417,,C
382,383,0,3,"Tikkanen, Mr. Juho",male,32.0,0,0,STON/O 2. 3101293,7.9250,,S
371,372,0,3,"Wiklund, Mr. Jakob Alfred",male,18.0,1,0,3101267,6.4958,,S


In [17]:
# 여러개의 컬럼으로 정렬

titanic_df[['Age', 'Fare']].sort_values(by='Age', ascending=True)

Unnamed: 0,Age,Fare
803,0.42,8.5167
755,0.67,14.5000
644,0.75,19.2583
469,0.75,19.2583
78,0.83,29.0000
...,...,...
859,,7.2292
863,,69.5500
868,,9.5000
878,,7.8958


In [18]:
titanic_df[['Age', 'Fare', 'Pclass']].sort_values(by='Pclass')

Unnamed: 0,Age,Fare,Pclass
445,4.0,81.8583,1
310,24.0,83.1583,1
309,30.0,56.9292,1
307,17.0,108.9000,1
306,,110.8833,1
...,...,...,...
379,19.0,7.7750,3
381,1.0,15.7417,3
382,32.0,7.9250,3
371,18.0,6.4958,3


## DataFrame 데이터 삭제
### drop()
> axis: DataFrame의 로우를 삭제할 때는 axis=0, 컬럼을 삭제할 때는 axis=1으로 솔종
> 원본 DataFrame을 유지하고 드롭된 DataFrame을 새롭게 객체 변수로 받고 싶다면 inplace=False로 설정(기본값이 False)

> ex) ``` titanic_drop = titanic_df.drop('Age_0', axis=1, inplace=False) ```

> 원본 DataFrame에 드롭된 결과를 적용할 경우에는 inplace=True를 적용

> ex) ``` titanic_df.drop('Age_0', axis=1, inplace=False) ```

### Index
> 판다스의 Index 객체는 RDBMS의 PK와 유사하게 DataFrame, Series의 레코드를 고유하게 식별하는 객체이다.

> Index객체만 추출하려면 .index 속성을 통해 가능하다.


### 데이터 셀렉션 및 필터링 - ix, loc, iloc

> **명칭기반 인덱싱은 컬럼의 명칭을 기반으로 위치를 지정하는 방식이다. '칼럼 명' 같이 명칭으로 열 위치를 지정하는 방식이다.**

> **위치기반 인덱싱은 0을 출발점으로 하는 가로축, 세로축 좌쵸 기반의 행과 열 위치를 기반으로 데이터를 지정한다. 따라서 행, 열 위치값으로 정수가 입력된다.**

* ix[]
> 명칭 기반과 위치 기반 인덱싱을 함께 제공
> #### 근데 개발 쪽에서 디버깅할 때 어렵다는 이슈가 있어서 나눠진거다..

* loc[]
> 명칭 기반 인텍싱

* iloc[]
> 위치 기반 인덱싱

In [19]:
a = [[1, 2, 3],
    [4, 5, 6]]

In [20]:
a = pd.DataFrame(a, columns=['one', 'two', 'three'])

In [21]:
a

Unnamed: 0,one,two,three
0,1,2,3
1,4,5,6


In [22]:
# 불린 인덱싱

titanic_boolean = titanic_df[titanic_df['Age']>60]
titanic_boolean

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,"Van der hoef, Mr. Wyckoff",male,61.0,0,0,111240,33.5,B19,S
252,253,0,1,"Stead, Mr. William Thomas",male,62.0,0,0,113514,26.55,C87,S
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
280,281,0,3,"Duane, Mr. Frank",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr. Johan Hansen",male,61.0,0,0,345364,6.2375,,S
438,439,0,1,"Fortune, Mr. Mark",male,64.0,1,4,19950,263.0,C23 C25 C27,S


In [23]:
titanic_df.iloc[1, 1]

1

In [24]:
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [25]:
titanic_df.loc[1, 'Name']

'Cumings, Mrs. John Bradley (Florence Briggs Thayer)'

In [26]:
titanic_df[titanic_df['Age']> 60].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,"Van der hoef, Mr. Wyckoff",male,61.0,0,0,111240,33.5,B19,S


### 결손 데이터 처리하기

#### isna(), fillna()

* isna()
> DataFrame의 isna()메서드는 주어진 컬럼값이 NaN인지 True/False값을 반환한다. (NaN 이면 True)
* fillna()
> Missing 데이터를 인자로 주어진 값으로 대체한다.

In [27]:
titanic_df.isna().head(3)
# carbin 값이 NaN이 있구만.

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False


In [28]:
titanic_df.isna().sum()
# sum()을 호출하여 컬럼별로 NaN 건수를 구할 수 있다.
# count로 하면 True, False값이 섞이기 떄문에 안된다.

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [29]:
# fillna() 로 미싱 데이터 대체하기
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('COOO')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,COOO,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,COOO,S


In [30]:
titanic_df['Embarked'] = titanic_df['Embarked'].fillna('S')
titanic_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin            0
Embarked         0
dtype: int64

In [32]:
titanic_df['Age'] = titanic_df['Age'].fillna(titanic_df['Age'].mean())
titanic_df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

### 판다스 람다식 적용하여 데이터 가공하기

In [33]:
titanic_df['Name_len'] = titanic_df['Name'].apply(lambda x : len(x))
titanic_df['Name_len']

0      23
1      51
2      22
3      44
4      24
       ..
886    21
887    28
888    40
889    21
890    19
Name: Name_len, Length: 891, dtype: int64

In [35]:
titanic_df['Child_Adult'] = titanic_df['Age'].apply(lambda x : 'Child' if x <= 13 else 'Adult')
titanic_df['Child_Adult'].head(10)

0    Adult
1    Adult
2    Adult
3    Adult
4    Adult
5    Adult
6    Adult
7    Child
8    Adult
9    Adult
Name: Child_Adult, dtype: object

### 판다스 summary

* 2차원 데이터 핸들링을 위햐서는 판다스를 사용하자!!

* 판다스는 매우 편리하고 다양한 데이터 처리 API를 제공한다. 하지만 심화적인것을 공부하려면 많은 시간과 노력이 필요하다.

* 데이터 처리를 직접 수행해 보면서 문제에 부딛칠 때마다 판다스의 다양한 API를 찾아서 해결해 가면 실력을 향상시킬수 있을 것이다!!