# Pandas의 핵심 객체는 DataFrame
- DF : 여러 개의 행과 열로 이루어진 2차원 데이터를 담는 데이터 구조체
- Index : 개별 데이터를 고유하게 식별하는 Key 값
- Series와 DataFrame은 모두 Index를 key 값으로 가지고 있음
- Series vs DataFrame
  - Series는 칼럼이 하나뿐인 데이터 구조체, DataFrame은 칼럼이 여러 개인 데이터 구조체
  - DataFrame은 여러 개의 Series로 이루어져 있음

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv(r'C:\Users\Administrator\DS_Python\data\titanic\train.csv')

- read_csv()는 csv뿐 아니라 어떤 필드 구분 문자 기반의 파일 포맷도 DataFrame으로 변환 가능
- 탭으로 필드가 구분되어 있다면 read_csv('파일명', sep = '\t')
- sep 인자를 생략하면 자동으로 콤마로 할당

In [3]:
df[-5:]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [4]:
df.tail(20)[5:]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
876,877,0,3,"Gustafsson, Mr. Alfred Ossian",male,20.0,0,0,7534,9.8458,,S
877,878,0,3,"Petroff, Mr. Nedelio",male,19.0,0,0,349212,7.8958,,S
878,879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0,,S
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q


In [5]:
df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [6]:
type(df)

pandas.core.frame.DataFrame

In [8]:
print('변수 type : ', type(df))

변수 type :  <class 'pandas.core.frame.DataFrame'>


In [10]:
df.shape # DF의 행과 열 크기를 알아보는 가장 좋은 방법 = shape

(891, 12)

In [12]:
df.info() # 총 데이터 건수 및 타입, Null 건수를 알 수 있음

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [13]:
df.describe() # 오직 숫자형 컬럼의 분포도 조사 > 문자형은 자동으로 출력 제외

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [19]:
value_counts = df['Pclass'].value_counts() # 지정된 컬럼의 데이터 건수를 반환
print(value_counts)

3    491
1    216
2    184
Name: Pclass, dtype: int64


In [21]:
type(df['Pclass'])

pandas.core.series.Series

## DF와 리스트, 딕셔너리 넘파이 ndarray 상호 변환

### 넘파이 ndarray, 리스트, 딕셔너리를 DF로 변환하기
- DF는 리스트와 넘파이 ndarray와는 다르게 칼럼명을 가지고 있음 > 상대적으로 편하게 데이터 핸들링 가능

#### 1차원 DF 생성

In [23]:
import numpy as np

col_name1 = ['col1']
list1 = [1, 2, 3]
array1 = np.array(list1)

In [24]:
print('array1 shape:', array1.shape)

array1 shape: (3,)


In [29]:
# 리스트를 이용해서 DF 생성
df_list1 = pd.DataFrame(list1, columns=col_name1)
print('1차원 리스트로 만든 DF:\n', df_list1)

1차원 리스트로 만든 DF:
    col1
0     1
1     2
2     3


In [30]:
# Numpy ndarray를 이용해 DF 생성
df_array1 = pd.DataFrame(array1, columns=col_name1)
print('1차원 ndarray로 만든 DF:\n', df_array1)

1차원 ndarray로 만든 DF:
    col1
0     1
1     2
2     3


In [31]:
col_name = ['col1', 'col2', 'col3']

list2 = [[1, 2, 3],
         [11, 22, 33]]
array2 = np.array(list2)
print('array2 shape:', array2.shape)

array2 shape: (2, 3)


In [33]:
df_list2 = pd.DataFrame(list2, columns=col_name)
print('2차원 리스트로 만든 DF:\n',df_list2)

2차원 리스트로 만든 DF:
    col1  col2  col3
0     1     2     3
1    11    22    33


In [34]:
df_array2 = pd.DataFrame(array2, columns=col_name)
print('2차원 array로 만든 DF:\n', df_array2)

2차원 array로 만든 DF:
    col1  col2  col3
0     1     2     3
1    11    22    33


#### 딕셔너리를 DF로 변환
- 일반적으로 딕셔너리의 key는 컬럼명, value는 키에 해당하는 컬럼 데이터로 변환된다
- So, 키의 경우는 문자열, 값의 경우는 리스트 or ndarray 형태로 딕셔너리 구성

In [36]:
# Key는 문자열 컬럼명으로 매핑, Value는 리스트형 or ndarray 컬럼 데이터로 매핑
dict = {'col1':[1, 11], 'col2':[2, 22], 'col3':[3,33]}
df_dict = pd.DataFrame(dict)
print('딕셔너리를 만든 DF:\n', df_dict)

딕셔너리롤 만든 DF:
    col1  col2  col3
0     1     2     3
1    11    22    33


## DataFrame을 넘파이 ndarray, 리스트, 딕셔너리로 변환하기
- 많은 ML 패키지가 기본 데이터 형으로 numpy ndarray를 사용하기 때문에 데이터 핸들링은 DF를 사용하더라도 재변환 필요
- DF를 numpy ndarray로 변환하는 것은 DF 객체의 values를 이용해 쉽게 가능

In [42]:
# DF를 ndarray로 변환

array3 = df_dict.values
print('df_dict.values 타입:', type(array3), 'df_dict.values shape:', array3.shape)

df_dict.values 타입: <class 'numpy.ndarray'> df_dict.values shape: (2, 3)


In [43]:
print(array3)

[[ 1  2  3]
 [11 22 33]]


In [48]:
# DataFrame을 리스트로 변환 : values로 얻은 ndarray에 tolist()를 호출

list3 = df_dict.values.tolist()
print('df_dict.values.tolist() 타입:', type(list3))

df_dict.values.tolist() 타입: <class 'list'>


In [49]:
print(list3)

[[1, 2, 3], [11, 22, 33]]


In [50]:
# DataFrame을 딕셔너리로 변환 : DF 객체의 to_dict()메서드를 호출하는데 인자로 'list'를 입력

dict3 = df_dict.to_dict('list')
print('\n df_dict.to_dict() 타입:', type(dict3))


 df_dict.to_dict() 타입: <class 'dict'>


In [51]:
print(dict3)

{'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]}


## DataFrame의 컬럼 데이터 세트 생성과 수정

In [53]:
df['Age'] = 0 # Age 컬럼 Series에 일괄 0 할당
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,0,0,0,373450,8.05,,S


In [None]:
df = pd.read_csv(r'C:\Users\Administrator\DS_Python\data\titanic\train.csv')

In [62]:
df['Age_by_10'] = df['Age'] * 10
df['Family_No'] = df['SibSp'] + df['Parch'] + 1

In [63]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,260.0,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,350.0,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,350.0,1


In [65]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,260.0,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,350.0,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,350.0,1


#### DataFrame 데이터 삭제
- 가장 중요한 파라미터 : labels, axis, inplace
- axis=0 : 로우 방향축, axis=1 : 컬럼 방향축
- labels : 두 개 이상 컬럼을 삭제 시에는 대괄호 안에 따옴표 처리 (ex: drop_result = df.drop(['Age_by_10', 'Family_No'], axis=1, inplace=True)
> drop(inplace=True) 설정 시, 반환값이 None이 되므로 반환값을 자신의 DF로 할당하면 안된다

In [66]:
drop_df = df.drop('Age_by_10', axis=1)
drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1


In [67]:
df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,260.0,1


In [70]:
drop_result = df.drop(['Age_by_10', 'Family_No'], axis=1, inplace=True)
print('inplace=True 로 drop 후 반환된 값:', drop_result)
df.head(3)

inplace=True 로 drop 후 반환된 값: None


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [74]:
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 15)
print('### before axis 0 drop ####')
print(df.head(3))

### before axis 0 drop ####
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch          Ticket     Fare Cabin Embarked
0            1         0       3  Braund, Mr....    male  22.0      1      0       A/5 21171   7.2500   NaN        S
1            2         1       1  Cumings, Mr...  female  38.0      1      0        PC 17599  71.2833   C85        C
2            3         1       3  Heikkinen, ...  female  26.0      0      0  STON/O2. 31...   7.9250   NaN        S


In [75]:
# Index 0, 1, 2에 위치한 로우를 삭제
df.drop([0, 1, 2], axis=0, inplace=True)

print('### after axis 0 drop ####')
print(df.head(3))

### after axis 0 drop ####
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch  Ticket     Fare Cabin Embarked
3            4         1       1  Futrelle, M...  female  35.0      1      0  113803  53.1000  C123        S
4            5         0       3  Allen, Mr. ...    male  35.0      0      0  373450   8.0500   NaN        S
5            6         0       3  Moran, Mr. ...    male   NaN      0      0  330877   8.4583   NaN        Q


- axis : DF의 로우를 삭제할 때는 0, 컬럼을 삭제할 때는 1로 설정
- 원본 DF는 유지하고 드롭된 DF를 새롭게 객체 변수로 받고 싶다면 inplace=False로 설정(디폴트 False)
- 원본 DF에 드롭된 결과를 적용할 경우에는 inplace=True를 적용