# **dataframe과 series 이해하기**



---


## **[1] Pandas란?**

쉽고 직관적으로 작업할 수 있도록 설계되었고, 빠르고 유연한 데이터 구조를 제공하는 Python 패키지

![](2024-05-05-13-10-18.png)

### **주요 기능**
- 데이터의 빠른 정렬, 슬라이싱, 인덱싱
- 데이터 그룹핑, 피봇팅
- 데이터 간의 join : 병합
- 데이터 요약, 통계
- 파이썬 자료구조(리스트, 튜플, 딕셔너리 등)과의 호환
- 외부 데이터(csv, 엑셀, SQL DB, txt 등)를 다루기 용이

### **Pandas 불러오기**

`import 라이브러리명 as(줄임) 부를이름`

In [1]:
import pandas as pd

## **[2] Series 이해하기**
- pandas에서 사용하는 일종의 리스트입니다.

- 딕셔너리로 시리즈 만들기

In [2]:
dic = {'a':1,'b':2,'c':3}
dic_series = pd.Series(dic)

In [3]:
type(dic_series)

pandas.core.series.Series

In [4]:
dic_series

a    1
b    2
c    3
dtype: int64

In [5]:
print(dic_series)

a    1
b    2
c    3
dtype: int64


- 리스트로 시리즈 만들기
     - 인덱스를 따로 설정해주지 않으면 자동으로 0부터 인덱스가 부여됩니다.

In [7]:
ls = [1,2,3]
ls_series = pd.Series(ls, index=['a','b','c'])
# index : 인덱스의 이름 설정

In [8]:
type(ls_series)

pandas.core.series.Series

In [9]:
ls_series

a    1
b    2
c    3
dtype: int64

In [11]:
pd.Series(ls)
# 인덱스를 따로 설정하지 않아서 0 부터 시작한다

0    1
1    2
2    3
dtype: int64

- 시리즈의 값, 인덱스, 값의 타입 확인하기
     - `.values, .index, .dtypes`

In [12]:
print(dic_series.values, end='\n\n')
print(dic_series.index, end='\n\n')
print(dic_series.dtypes, end='\n\n\n')

print(ls_series.values, end='\n\n')
print(ls_series.index, end='\n\n')
print(ls_series.dtypes)

[1 2 3]

Index(['a', 'b', 'c'], dtype='object')

int64


[1 2 3]

Index(['a', 'b', 'c'], dtype='object')

int64


## **[3] Dataframe 이해하기**
- Series를 이어붙여 표 형태로 만들면 Dataframe이 됩니다.

아래의 표를 pandas dataframe으로 만들어봅시다.

|Name|Number|Month|
|:--|:--|:--|
|John|1|Feb|
|Merry|2|Oct|
|Chris|3|Nov|

- 딕셔너리로 데이터프레임 만들기
    - 열 단위로 값을 입력할 때 딕셔너리를 이용합니다.
    - 값의 길이가 모두 같지 않으면 에러가 납니다.  

In [2]:
import pandas as pd

dic = {'Name':['John','Merry','Chris']
       , 'Number':[1,2,3]
       , 'Month':['Feb','Oct','Nov']}

df = pd.DataFrame(dic)
df
# 딕셔너리의 key 값이 컬럼이 된다

Unnamed: 0,Name,Number,Month
0,John,1,Feb
1,Merry,2,Oct
2,Chris,3,Nov


In [None]:
dic = {'Name':['John','Merry','Chris']
       , 'Number':[1,2,3,4]
       , 'Month':['Feb','Oct','Nov']}

df = pd.DataFrame(dic)
df
# 값의 길이가 모두 같지 않으면 에러가 난다

- 리스트로 데이터프레임 만들기
    - 행 단위로 값을 입력할 때 리스트를 사용합니다.
    - 각 리스트의 길이가 같지 않으면 에러가 납니다.

In [4]:
ls = [['John', 1, 'Feb']
      ,['Merry',2,'Oct']
      ,['Chris',3,'Nov']]

df = pd.DataFrame(ls, columns=['Name','Number','Month'])
df
# 컬럼을 별로도 지정해줘야 한다

Unnamed: 0,Name,Number,Month
0,John,1,Feb
1,Merry,2,Oct
2,Chris,3,Nov


In [None]:
ls = [['John', 1, 'Feb']
      ,['Merry',2,'Oct']
      ,['Chris',3,'Nov',4]]

df = pd.DataFrame(ls, columns=['Name','Number','Month'])
df
# 리스트의 길이가 맞지않아 에러가 남

In [14]:
type(df)

pandas.core.frame.DataFrame

## 복습

In [6]:
# 딕셔너리 데이터프레임

dic_1 = { '1열' : [1,2,3] ,
         '2열' : [4,5,6] ,
         '3열' : [7,8,9] }

dic_data = pd.DataFrame(dic_1)

dic_data

Unnamed: 0,1열,2열,3열
0,1,4,7
1,2,5,8
2,3,6,9


In [9]:
# 리스트 데이터프레임

ls_1 = [ [1,2,3],
        [4,5,6],
        [7,8,9]]

ls_data = pd.DataFrame(ls_1)

ls_data

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [12]:
# 인덱스, 컬럼 추가하기

ls_data = pd.DataFrame(ls_1, index=('1행','2행','3행'),
                       columns=(1,2,3))

ls_data

Unnamed: 0,1,2,3
1행,1,2,3
2행,4,5,6
3행,7,8,9


- 시리즈를 결합해서 데이터프레임 만들기

In [14]:
name_series = pd.Series(['John','Merry','Chris'])
number_series = pd.Series([1,2,3])
month_series = pd.Series(['Feb','Oct','Nov'])

df = pd.DataFrame({'Name':name_series, 
                   'Number':number_series, 
                   'Month':month_series})

In [15]:
df

Unnamed: 0,Name,Number,Month
0,John,1,Feb
1,Merry,2,Oct
2,Chris,3,Nov


- 데이터프레임의 값, 인덱스, 값의 타입, 컬럼 알아보기

In [17]:
print(df.values, end='\n\n')
print(df.index, end='\n\n')
print(df.dtypes, end='\n\n')
print(df.columns)

[['John' 1 'Feb']
 ['Merry' 2 'Oct']
 ['Chris' 3 'Nov']]

RangeIndex(start=0, stop=3, step=1)

Name      object
Number     int64
Month     object
dtype: object

Index(['Name', 'Number', 'Month'], dtype='object')


## **[4] 데이터프레임 살펴보기**

In [20]:
# from google.colab import drive
# drive.mount('./data')

In [18]:
file_path = './data/titanic_train.csv'
data = pd.read_csv(file_path)

In [19]:
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


## **[5] 데이터프레임 상위 행, 하위 행 확인하기**
- `.head(행의 갯수), .tail(행의 갯수)`
- 행의 갯수를 지정해주지 않으면 기본으로 5개의 행이 조회됩니다.

In [21]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [22]:
data.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [23]:
data.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [24]:
data.tail(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


## **[6] 데이터프레임 요약 정보 확인하기**
- `info()`: 전체 행의 갯수, 컬럼 정보, 결측치, 데이터 타입을 보여줍니다.
- `describe()`: 컬럼별 값의 갯수, 평균, 표준편차, 최솟값, 최댓값, 사분위수를 보여줍니다.

In [25]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [26]:
data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292
