### DataFrame이란
- Series가 1차원이라면 DataFrame은 2차원으로 확대된 버전이다.
- Ecel spreadsheet라고 생각할 수 있다.
- 2차원이기 때문에 인덱스가 row, column로 구성되있다.
    - row는 각 개별 데이터를, column은 개별 속성을 의미한다.
- Data Analysis, Machine Learning에서 data 변형을 위해 많이 사용한다.

In [61]:
import numpy as np
import pandas as pd

In [14]:
# data 출처: https:/www.kaggle.com/hesh97/titanicdataset-traincsv/data
td= pd.read_csv("c:/data/train.csv")

### head, tail 함수
- 데이터 전체가 아닌, 일부(처음부터, 혹은 마지막부터)를 간단하게 보기 위한 함수이다.

In [15]:
td.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [16]:
td.tail(n=4)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


### dataframe 데이터 파악하기
- shape 속성(row, column)
- describe 함수 - 숫자형 데이터의 통계치 계산
- info 함수- 데이터 타입, 각 아이템의 개수 등 출력

In [17]:
td = train_data

In [18]:
td.shape

(891, 12)

In [11]:
td.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [12]:
td.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### 인덱스(index)
- index 속성
- 각 아이템을 특정할 수 있는 고유의 값을 저장
- 복잡한 데이터의 경우, 멀티 인덱스로 표현 가능

In [19]:
td.index

RangeIndex(start=0, stop=891, step=1)

### 컬럼(column)
- columns 속성
- 각각의 특성(feature)을 나타냄
- 복잡한 데이터의 경우, 멀티 컬럼으로 표현이 가능하다.

In [20]:
td.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

### DataFrame에서 데이터 생성하는 방법

- 일반적으로 분석을 위한 데이터는 다른 데이터 소스(database, 외부 파일)을 통해 dataframe을 생성한다.
- 실습을 통해, dummy 데이터를 생성하는 방을 알아보자.

### dictionary로 부터 생성하는 방법
- dict의 key -> column

In [23]:
data = {'a' :100, 'b' : 200, 'c' : 300}
pd.DataFrame(data, index=['x','y','z'])

Unnamed: 0,a,b,c
x,100,200,300
y,100,200,300
z,100,200,300


In [24]:
data = {'a' : [1,2,3], 'b' : [4,5,6], 'c' : [7,8,9]}
pd.DataFrame(data, index=['x','y','z'])

Unnamed: 0,a,b,c
x,1,4,7
y,2,5,8
z,3,6,9


### Series로 생성하는 방법
- 각 Series의 인덱스 -> column

In [29]:
a = pd.Series([100, 200, 300],['a','b','c'])
b = pd.Series([101, 201, 301],['a','b','c'])
c = pd.Series([102, 202, 302],['a','b','c'])

pd.DataFrame([a,b,c], index = ['x','y','z'])

Unnamed: 0,a,b,c
x,100,200,300
y,101,201,301
z,102,202,302


### CSV 데이터로 DataFrame 데이터 생성하는 방법

- 데이터 분석을 위해, dataframe을 생성하는 가장 일반적인 방법
- 데이터 소스로부터 추출된 csv(comma separated values)파일로부터 생성
- pandas.read_csv 함수를 사용한다.

In [30]:
import pandas as pd

In [32]:
# data 출처: https:/www.kaggle.com/hesh97/titanicdataset-traincsv/data
# csv파일을 불러 올 때는 파일이 위치한 곳을 정확하게 명시해 줘야한다.
td= pd.read_csv("c:/data/train.csv")
print(td.head(n = 2))
print(td.tail(n = 2))


   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   

   Parch     Ticket     Fare Cabin Embarked  
0      0  A/5 21171   7.2500   NaN        S  
1      0   PC 17599  71.2833   C85        C  
     PassengerId  Survived  Pclass                   Name   Sex   Age  SibSp  \
889          890         1       1  Behr, Mr. Karl Howell  male  26.0      0   
890          891         0       3    Dooley, Mr. Patrick  male  32.0      0   

     Parch  Ticket   Fare Cabin Embarked  
889      0  111369  30.00  C148        C  
890      0  370376   7.75   NaN        Q  


### read_csv 함수 파라미터
- sep : 각 데이터 값을 구별하기 위한 구분자(separator)를 생성
- header : header를 무시할 경우, None 설정
- iindex_col : index로 사용할 column 설정
- usecols : 실제로 dataframe에 로딩할 columns만 설정한다.

In [33]:
td= pd.read_csv("c:/data/train.csv", sep ='#')

In [36]:
td.head(n = 1)

Unnamed: 0,"PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked"
0,"1,0,3,""Braund, Mr. Owen Harris"",male,22,1,0,A/..."


In [37]:
td= pd.read_csv("c:/data/train.csv", header = None)
td.head(n = 2)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S


In [40]:
# 특정한 column을 index로 사용할 수 있다.
# usecols 를 사용하여 원하는 column만 불러올 수도 있다.
td= pd.read_csv("c:/data/train.csv", index_col = 'PassengerId', usecols = ['PassengerId', 'Survived','Pclass','Name'])
td.head(n = 2)

Unnamed: 0_level_0,Survived,Pclass,Name
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0,3,"Braund, Mr. Owen Harris"
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."


### DataFrame에서 원하는 column만 선택하는 방법

### column 선택하기
- 기본적으로 []는 column을 추출
- 컬럼 인덱스일 경우 인덱스의 리스트 사용 가능
    - 리스트를 전달할 경우 결과는 DataFrame
    - 하나의 컬럼명을 전달할 경우 결과는 Series

In [41]:
td= pd.read_csv("c:/data/train.csv")
print(td.head(n = 2))

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   

   Parch     Ticket     Fare Cabin Embarked  
0      0  A/5 21171   7.2500   NaN        S  
1      0   PC 17599  71.2833   C85        C  


In [44]:
#DataFrame에서는 컬럼을 명시한 후 Series 형식으로 값을 반환한다.
td["Sex"]

0        male
1      female
2      female
3      female
4        male
        ...  
886      male
887    female
888    female
889      male
890      male
Name: Sex, Length: 891, dtype: object

### 복수의 컬럼 선택하는 방법

In [54]:
# DataFrame 형식으로 data를 반환해준다.
td[['Survived','Age', 'Sex','Name']]

Unnamed: 0,Survived,Age,Sex,Name
0,0,22.0,male,"Braund, Mr. Owen Harris"
1,1,38.0,female,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
2,1,26.0,female,"Heikkinen, Miss. Laina"
3,1,35.0,female,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
4,0,35.0,male,"Allen, Mr. William Henry"
...,...,...,...,...
886,0,27.0,male,"Montvila, Rev. Juozas"
887,1,19.0,female,"Graham, Miss. Margaret Edith"
888,0,,female,"Johnston, Miss. Catherine Helen ""Carrie"""
889,1,26.0,male,"Behr, Mr. Karl Howell"


### DataFrame에서 원하는 row만 선택하는 방법★

#### dataframe slicing
- dataframe의 경우 기본적으로 []연산자가 column 선택에 사용된다.
- 하지만 slicing에서는 row 레벨로 지원한다.

In [56]:
td[:3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


#### row 선택하는 방법
- Series의 경우 []로 row를 선택이 가능하나, DataFrame의 경우는 기본적으로 column을 선택하도록 설계되어있다.
- .lic, .iloc로 row 선택이 가능하다.
    - loc : 인덱스 자체를 사용
    - iloc : 0 based index로 사용
    - 이 두 함수는 ,를 사용하여 column 선택도 가능하다.

In [58]:
# 0 based index의 예
td.head(n= 3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [59]:
td.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [63]:
td.index = np.arange(100, 991)

In [66]:
td.head(n = 3) # base가 바뀐 것을 확인 할 수 있다.

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
100,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
101,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
102,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [67]:
td.loc[986]

PassengerId                      887
Survived                           0
Pclass                             2
Name           Montvila, Rev. Juozas
Sex                             male
Age                               27
SibSp                              0
Parch                              0
Ticket                        211536
Fare                              13
Cabin                            NaN
Embarked                           S
Name: 986, dtype: object

In [69]:
td.loc[[986, 100, 120]]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
986,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
100,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
120,21,0,2,"Fynney, Mr. Joseph J",male,35.0,0,0,239865,26.0,,S


In [71]:
td.iloc[0] #td 외부적으로 index 번호를 변경하였지만 내부적으로는 0부터 count되기때문이다.

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                                 22
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 100, dtype: object

In [72]:
td.iloc[[0, 200, 140]]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
100,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
300,201,0,3,"Vande Walle, Mr. Nestor Cyriel",male,28.0,0,0,345770,9.5,,S
240,141,0,3,"Boulos, Mrs. Joseph (Sultana)",female,,0,2,2678,15.2458,,C


### row, column 동시에 선택하기
- loc, iloc 속성을 이용할 때, 콤마를 이용하여 둘 다 명시가 가능하다.

In [74]:
td.loc[[200,103,600],["Survived","Age","Sex","Name"]]

Unnamed: 0,Survived,Age,Sex,Name
200,0,28.0,female,"Petranec, Miss. Matilda"
103,1,35.0,female,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
600,0,17.0,male,"Calic, Mr. Petar"


In [76]:
# column도 인덱스 번호로 쓰인다.
td.iloc[[0, 200, 140],[1, 4, 5]]

Unnamed: 0,Survived,Sex,Age
100,0,male,22.0
300,0,male,28.0
240,0,female,
