In [1]:
import pandas as pd

# 판다스

***행과 열***로 이뤄진 ***2차원 데이터***를 효율적으로 가공/처리하는 데이터 핸들링 프레임워크

**파이썬의 리스트, 컬렉션, 넘파이** 등 **내부 데이터** 뿐만 아니라 **CSV** 등의 파일을 쉽게 DataFrame으로 변경한다.

### Index

- 개별 데이터를 고유하게 식별하는 ***Key***값
- 인덱스는 DataFrame, Series가 만들어진 후에도 **변경 가능**
- 모든 인덱스는 **고유성**이 **보장**되어야 한다.

### Series

- ***칼럼이 하나***뿐인 ***데이터 구조체.***
- Series와 DataFrame은 모두 Index를 key값으로 가지고 있다.
- DataFrame은 여러 개의 Series로 이루어져 있다.

## 1. 판다스 시작 - 파일을 DataFrame으로 로딩, 기본 API

### DataFrame으로 로딩

- read_csv() : 디폴트 필드 구분 문자가 콤마(','), 파일 포맷 변환을 위한 API
    * 필드 구분 문자 변경시 > sep='\t' < 이렇게 작성 
    
- read_table() : 디폴트 필드 구분 문자가 탭('\t')

- read_fwf : 고정 길이 기반의 칼럼 포맷을 DataFrameㅇ로 로딩하기 위한 API

In [5]:
titanic_df = pd.read_csv('titanic_train.csv') # 노트북 파일과 같은 디렉토리에 생성

In [6]:
print('titanic 변수 type:',type(titanic_df))

titanic 변수 type: <class 'pandas.core.frame.DataFrame'>


In [7]:
titanic_df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


### head() : 일부 데이터만 표출

In [8]:
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


### df.shape : 데이터프레임의 행과 열 크기 알아보기

In [9]:
print('DataFrame 크기:',titanic_df.shape) # 891개의 로우, 12개의 칼럼

DataFrame 크기: (891, 12)


### info() : 총 데이터 건수, 데이터 타입, Null 건수 알아보기

In [10]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### describe() : 칼럼별 숫자형 데이터값의 n-percentile 분포도, 평균값, 최댓값, 최솟값 알아보기

- 오직 **숫자형**(int, float 등) 칼럼의 분포도만 조사
- **count** : Not Null인 데이터 건수
- **mean** : 전체 데이터의 평균값
- **std** : 표준편차
- **min** : 최솟값
- **max** : 최댓값
- **25%** : 25 percentile 값

In [11]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### value_counts()

- **Series 객체**에서만 정의

In [13]:
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)

3    491
1    216
2    184
Name: Pclass, dtype: int64


In [14]:
titanic_pclass = titanic_df['Pclass'] # 해당 칼럼에 해당하는 Series 객체 반환
print(type(titanic_pclass))

<class 'pandas.core.series.Series'>


In [15]:
titanic_pclass.head()

0    3
1    1
2    3
3    1
4    3
Name: Pclass, dtype: int64

## 2. DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환

### 넘파이 ndarray, 리스트, 딕셔너리 -> DataFrame

- DataFrame으로 변환시 칼럼명을 지정한다.(지정하지 않으면 자동으로 칼럼명 할당)
- 2차원 이하의 데이터들만 DataFrame으로 변환 가능

In [16]:
import numpy as np

#### 1차원 형태

In [18]:
col_name1 = ['col1']
list1 = [1,2,3]
array1 = np.array(list1)
print('array1 shape:',array1.shape)

array1 shape: (3,)


In [19]:
# 리스트를 이용하여 DataFrame 생성
df_list1 = pd.DataFrame(list1, columns=col_name1) # 컬럼명 지정
print('1차원 리스트로 만든 DataFrame:\n', df_list1)

1차원 리스트로 만든 DataFrame:
    col1
0     1
1     2
2     3


In [20]:
# 넘파이 ndarray를 이용하여 DataFrame 생성
df_array1 = pd.DataFrame(array1, columns=col_name1)
print('1차원 ndarray로 만든 DataFrame:\n', df_array1)

1차원 ndarray로 만든 DataFrame:
    col1
0     1
1     2
2     3


#### 2차원 형태

In [21]:
# 3개의 칼럼명 생성
col_name2 = ['col1','col2','col3']


# 2행 3열 형태의 리스트와 ndarray 생성한 뒤 이를 DataFrame으로 변환
list2 = [[1,2,3],
        [11,12,13]]
array2=np.array(list2)

print('array2 shape:',array2.shape)
df_list2 = pd.DataFrame(list2, columns=col_name2)
print('2차원 리스트로 만든 DataFrame:\n',df_list2)

array2 shape: (2, 3)
2차원 리스트로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    12    13


In [23]:
df_array2 = pd.DataFrame(array2,columns=col_name2)
print('2차원 ndarray로 만든 DataFrame:\n',df_array2)

2차원 ndarray로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    12    13


#### 딕셔너리 변환

- 키(key) : 칼럼명, 문자열 형태
- 값(value) : 키에 해당하는 칼럼 데이터, 리스트(ndarray) 형태

In [26]:
dict = {'col1':[1,11],'col2':[2,12],'col3':[3,13]}
df_dict = pd.DataFrame(dict)
print('딕셔너리로 만든 DataFrame:\n',df_dict)

딕셔너리로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    12    13


### DataFrame -> ndarray, 리스트, 딕셔너리

- DataFrame 객체의 **values**를 이용

#### DataFrame을 ndarray로 변환 : .values

In [27]:
array3 = df_dict.values
print('df_dict.values 타입:', type(array3),'df_dict.values shape:',array3.shape)
print(array3)

df_dict.values 타입: <class 'numpy.ndarray'> df_dict.values shape: (2, 3)
[[ 1  2  3]
 [11 12 13]]


#### DataFrame을 리스트로 변환 : .values.tolist()

In [31]:
list3 = df_dict.values.tolist()
print('df_dict.values.tolist() 타입:',type(list3))
print(list3)

df_dict.values.tolist() 타입: <class 'list'>
[[1, 2, 3], [11, 12, 13]]


#### DataFrame을 딕셔너리로 변환 : to_dict('list')

In [32]:
dict3 = df_dict.to_dict('list')
print('df_dict.to_dict() 타입:',type(dict3))
print(dict3)

df_dict.to_dict() 타입: <class 'dict'>
{'col1': [1, 11], 'col2': [2, 12], 'col3': [3, 13]}


## 3. DataFrame의 칼럼 데이터 세트 생성과 수정

In [34]:
titanic_df['Age_0'] = 0 # 새로운 칼럼 Age_0 생성하고 값은 일괄적으로 0으로 할당
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


In [36]:
# 기존 칼럼 Series의 데이터를 이용해 새로운 칼럼 Series 생성하기
titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch'] + 1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


In [38]:
titanic_df['Age_by_10'] = titanic_df['Age_by_10']+100
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


## 4. DataFrame 데이터 삭제

### drop() 메서드 이용


DataFrame.drop(**labels=None**, **axis=0**, index=None, columns = None, level = None, **inplace=False**, errors='raise')

#### axis 값

- axis : 특정 칼럼 또는 특정 행을 드롭한다. 0은 로우 방향 축, 1은 칼럼 방향 축을 의미한다.
- ***칼럼 드롭*** : **labels**에 원하는 **칼럼 명**을 입력하고, **axis=1**을 입력하면 지정된 칼럼을 드롭한다.

In [40]:
# Age_0 칼럼 삭제
titanic_drop_df = titanic_df.drop('Age_0',axis=1)
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,360.0,1


####  inplace

- **False(디폴트)** : 자기 자신의 DataFrame의 데이터는 삭제하지 않고, 삭제된 결과 DataFrame을 반환
- **True** : 원본 DataFrame에 드롭된 결과 적용, None 값 반환

In [43]:
# 원본 titanic dataframe
titanic_df.head(3) # Age_0 칼럼 존재(inplace=False)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


In [44]:
# 원본 데이터의 여러 개의 칼럼 삭제
drop_result = titanic_df.drop(['Age_0','Age_by_10','Family_No'],axis=1, inplace=True)
print('inplace = True 로 drop 후 반환된 값:',drop_result)

inplace = True 로 drop 후 반환된 값: None


In [48]:
titanic_df.head(3) # 칼럼 삭제됨(inplace = True)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [49]:
# axis = 0(행 삭제)으로 설정하여 index 0,1,2 로우 삭제

pd.set_option('display.width',1000)
pd.set_option('display.max_colwidth',15)
print('### before axis 0 drop ###')
print(titanic_df.head(3))
titanic_df.drop([0,1,2],axis=0,inplace=True)

print('### after axis =0 drop ###')
print(titanic_df.head(3))

### before axis 0 drop ###
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch          Ticket     Fare Cabin Embarked
0            1         0       3  Braund, Mr....    male  22.0      1      0       A/5 21171   7.2500   NaN        S
1            2         1       1  Cumings, Mr...  female  38.0      1      0        PC 17599  71.2833   C85        C
2            3         1       3  Heikkinen, ...  female  26.0      0      0  STON/O2. 31...   7.9250   NaN        S
### after axis =0 drop ###
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch  Ticket     Fare Cabin Embarked
3            4         1       1  Futrelle, M...  female  35.0      1      0  113803  53.1000  C123        S
4            5         0       3  Allen, Mr. ...    male  35.0      0      0  373450   8.0500   NaN        S
5            6         0       3  Moran, Mr. ...    male   NaN      0      0  330877   8.4583   NaN        Q
