# Pandas 데이터 객체 다루기

In [64]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

##  Pandas 데이터 프레임 소개

In [5]:
tips = sns.load_dataset("tips")     # seaborn 패키지에 내장된 tips 데이터 프레임 가저오기
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [3]:
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [6]:
tips.tail(10)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
234,15.53,3.0,Male,Yes,Sat,Dinner,2
235,10.07,1.25,Male,No,Sat,Dinner,2
236,12.6,1.0,Male,Yes,Sat,Dinner,2
237,32.83,1.17,Male,Yes,Sat,Dinner,2
238,35.83,4.67,Female,No,Sat,Dinner,3
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


In [7]:
tips.info()       # info() 메소드는 데이터프레임 객체에 대한 정보를 제공한다.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB


In [8]:
tips["total_bill"].mean()    # total_bill 열의 자료에 대해서 평균값을 구함

19.785942622950824

In [9]:
tips.describe()     # 데이터프레임의 수치 데이터에 대한 기술통계량을 산출함

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


##  Pandas Series 데이터 객체

### Create a Series from a Python list

In [10]:
s1 = pd.Series([0.25, 0.5, 0.75, 1.0])    # 리스트로부터 pandas 시리즈 만들기
s1

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [11]:
type(s1)     # 데이터 유형을 확인하면 pandas의 series입을 확인할 수 있다.

pandas.core.series.Series

In [12]:
s1.values         # the values are simply a familiar Numpy array

array([0.25, 0.5 , 0.75, 1.  ])

In [13]:
type(s1.values)

numpy.ndarray

In [14]:
s1.index    # 별도의 index를 지정하기 않아 0부터 순차적인 번호가 부여되어 있다.

RangeIndex(start=0, stop=4, step=1)

In [15]:
type(s1.index) 

pandas.core.indexes.range.RangeIndex

In [16]:
s1[1]     # 시리즈의 데이터의 indexing

0.5

In [17]:
s1[1:3]     # 시리스 데이터 slicing

1    0.50
2    0.75
dtype: float64

### 시리즈에 index 매개변수를 이용하여 명시적으로 index를 부여함
## label을 이용할 경우 end-point 포함

In [18]:
s2 = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a','b','c','d'])    # explicitly define index
s2

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [19]:
s2['b']       # value is accessed by an explicit index

0.5

In [20]:
s2['b':'d']    # explicit label을 사용할 경우 slicing에서 end point가 포함됨

b    0.50
c    0.75
d    1.00
dtype: float64

### 시리즈의 기본적 조작 및 연산
### series 값변경 가능

In [21]:
s1[0] = 0     # 시리즈는 immutable 이므로 값의 변경이 가능하다.
s1

0    0.00
1    0.50
2    0.75
3    1.00
dtype: float64

In [22]:
s1[0 : 2] = 0
s1

0    0.00
1    0.00
2    0.75
3    1.00
dtype: float64

In [23]:
s1 = pd.Series(range(5))
s1

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [24]:
s2 = pd.Series(range(5,10))
s2

0    5
1    6
2    7
3    8
4    9
dtype: int64

In [25]:
s1 + s2

0     5
1     7
2     9
3    11
4    13
dtype: int64

In [26]:
s1.append(s2)     # 매개변수에 시리즈가 입력됨

0    0
1    1
2    2
3    3
4    4
0    5
1    6
2    7
3    8
4    9
dtype: int64

In [27]:
s1.append(s2, ignore_index = True)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [28]:
s1

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [29]:
s2.drop(4)     # 4 삭제

0    5
1    6
2    7
3    8
dtype: int64

In [30]:
s2

0    5
1    6
2    7
3    8
4    9
dtype: int64

In [31]:
# s2.drop(8)   # index가 존재하지 않으면 에러가 발생함

In [32]:
s2.drop([1, 2]) #drop 해도 원본은 안바뀜

0    5
3    8
4    9
dtype: int64

In [33]:
s2

0    5
1    6
2    7
3    8
4    9
dtype: int64

In [34]:
s2.drop([1,2], inplace = True)

In [35]:
s2

0    5
3    8
4    9
dtype: int64

In [36]:
s3 = pd.Series(range(5,10), index = (4,3,2,1,0))
s3

4    5
3    6
2    7
1    8
0    9
dtype: int64

In [37]:
s1 + s3

0    9
1    9
2    9
3    9
4    9
dtype: int64

In [38]:
s4 = pd.Series(range(5,9))
s4

0    5
1    6
2    7
3    8
dtype: int64

In [39]:
s1 + s4

0     5.0
1     7.0
2     9.0
3    11.0
4     NaN
dtype: float64

In [40]:
s1 + 2

0    2
1    3
2    4
3    5
4    6
dtype: int64

In [41]:
s1 * 2

0    0
1    2
2    4
3    6
4    8
dtype: int64

In [42]:
s1 * s2

0     0.0
1     NaN
2     NaN
3    24.0
4    36.0
dtype: float64

In [43]:
s1.mean()

2.0

In [44]:
s1.std()

1.5811388300841898

In [45]:
s1.min()

0

In [46]:
s1.max()

4

## Pandas DataFrame 데이터 객체

### 딕셔너리에서 DataFrame 생성

In [47]:
population = [423967, 695662, 141297, 170312,149995]
area = [38332521, 26448193, 19651127, 19552860, 12882135]
states = ['California', 'Texas', 'New York', 'Florida', 'Illinois']

dict = {'population': population, 'area': area}     # 관련된 딕셔너리를 생성함
df = pd.DataFrame(dict)      # 행 index가 지정되지 않은 경우 형 label은 일련번호로 지정된다.
df

Unnamed: 0,population,area
0,423967,38332521
1,695662,26448193
2,141297,19651127
3,170312,19552860
4,149995,12882135


In [48]:
df = pd.DataFrame(dict, index=states)   # index 매개변수를 이용하여 명시적으로 행 label을 지정한 경우
df

Unnamed: 0,population,area
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


####  데이터프레임의 속성값 추출

In [49]:
df.index 

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [50]:
type(df.index)

pandas.core.indexes.base.Index

In [51]:
df.columns  #열

Index(['population', 'area'], dtype='object')

In [52]:
df.values #값

array([[  423967, 38332521],
       [  695662, 26448193],
       [  141297, 19651127],
       [  170312, 19552860],
       [  149995, 12882135]], dtype=int64)

In [53]:
df.items  #행과 값

<bound method DataFrame.items of             population      area
California      423967  38332521
Texas           695662  26448193
New York        141297  19651127
Florida         170312  19552860
Illinois        149995  12882135>

In [54]:
df.population

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: population, dtype: int64

### 리스트에서 DataFrame 데이터 객체 생성하기

In [55]:
L = [ [423967, 38332521],
      [695662, 26448193],
      [141297, 19651127],
      [170312, 19552860],
      [149995, 12882135] ]
df  = pd.DataFrame(L)      # 리스트에서 데이터프레임을 생성
df

Unnamed: 0,0,1
0,423967,38332521
1,695662,26448193
2,141297,19651127
3,170312,19552860
4,149995,12882135


In [56]:
df = pd.DataFrame(L, columns = ['population', 'area'], index = states)   # 열과 행에 각각 label을 명시적으로 지정함
df

Unnamed: 0,population,area
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


### 2차원 Numpy array에서 DataFrame 데이터 객체 생성하기

In [62]:
arr = np.array(L)     # 리스트에서 numpy array를 생성함
arr

array([[  423967, 38332521],
       [  695662, 26448193],
       [  141297, 19651127],
       [  170312, 19552860],
       [  149995, 12882135]])

In [63]:
df = pd.DataFrame(arr, columns = ['population', 'area'], index = states )
df

Unnamed: 0,population,area
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


### Create a DataFrame by reading a file 

In [65]:
df_sci = pd.read_csv('scientists.csv')
df_sci

FileNotFoundError: [Errno 2] No such file or directory: 'scientists.csv'

In [66]:
df_sci.info()

NameError: name 'df_sci' is not defined

## DataFrame Indexing and Selection

### 데이터프레임의 열단위 데이터 추출하기

In [61]:
df_sci['Name']     # 열이름을 지정하여 열을 추출함. 하나의 열인 경우는 시리즈로 반환됨

NameError: name 'df_sci' is not defined

In [None]:
df_sci.Name        # 객체명.변수명의 방식으로 추출할 수도 있다. 하지만 속성과 구분이 되지 않는 문제점이 존재한다

In [None]:
df_sci[['Name', 'Occupation']]    # 두개 이상의 열인 경우는 데이터프레임으로 반환됨

### 데이터프레임의 행단위 데이터 추출하기

#### 행에 명시적으로 label이 지정된 경우

In [67]:
df

Unnamed: 0,population,area
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [68]:
df.loc['California']     # loc 속성을 이용하여 명시적 index 이름으로 행단위 데이터 추출

population      423967
area          38332521
Name: California, dtype: int32

In [69]:
df.loc[['California', 'New York']]   # 여러개의 행을 추출하는 경우

Unnamed: 0,population,area
California,423967,38332521
New York,141297,19651127


In [70]:
df.loc['California': 'New York']    # silicing을 이용하며 부분을 추출함

Unnamed: 0,population,area
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [71]:
df.iloc[0]      # iloc 속성을 이용하여 암묵적인 순서를 이용하여 행단위 데이터 추출

population      423967
area          38332521
Name: California, dtype: int32

In [72]:
df.iloc[[0,3]]

Unnamed: 0,population,area
California,423967,38332521
Florida,170312,19552860


In [73]:
df.iloc[0:3]   # iloc 속성을 이용하여 암문적 순서의 slicing으로 행단위 데이터 추출 (end-point는 포함하지 않는다)

Unnamed: 0,population,area
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


#### 행에 명시적으로label을 지정하지 않은 경우


In [74]:
df_sci.iloc[0]

NameError: name 'df_sci' is not defined

In [75]:
df_sci.loc[0]

NameError: name 'df_sci' is not defined

In [76]:
df_sci.iloc[0:3]    # index가 명시적으로 지정되지 않은 경우는 iloc속성으로 행자료 추출

NameError: name 'df_sci' is not defined

In [77]:
df_sci.loc[0:3]    # 명시적으로 표시하는 loc속성을 이용하면 end-point가 포합된다.

NameError: name 'df_sci' is not defined

In [78]:
df_sci.iloc[[0,2,5]]    # 연속되지 않은 행을 추출하기 위해서는 리스트로 전달함

NameError: name 'df_sci' is not defined

In [79]:
df_sci.iloc[-1]

NameError: name 'df_sci' is not defined

In [80]:
# df_sci.loc[-1]     # loc 속성에서는 -1이 허용되지 않는다.

### 데이터프레임의 행과 열을 모두 지정하여 데이터 추출하기
## 행추출: loc/ iloc

In [81]:
df.loc['California', 'area']     # 행과 열을 모두 지정하여 데이터 추출하기

38332521

In [82]:
df.loc['California':'New York', 'area']   

California    38332521
Texas         26448193
New York      19651127
Name: area, dtype: int32

In [83]:
df.loc[['California', 'New York', 'Illinois'], :]

Unnamed: 0,population,area
California,423967,38332521
New York,141297,19651127
Illinois,149995,12882135


In [84]:
df_sci.loc[0:3, ['Name', 'Occupation']]

NameError: name 'df_sci' is not defined

### Filtering: 논리값 (boolean)을 이용한 행 추출하기
## 특정 조건만 추출(True 인 경우에만)

In [85]:
df['population']> 200000

California     True
Texas          True
New York      False
Florida       False
Illinois      False
Name: population, dtype: bool

In [86]:
df[df['population'] > 200000]     # boolean selection

Unnamed: 0,population,area
California,423967,38332521
Texas,695662,26448193


In [87]:
df_sci[df_sci['Age'] > df_sci['Age'].mean()]

NameError: name 'df_sci' is not defined

In [88]:
df_sci['Age'].mean()

NameError: name 'df_sci' is not defined

In [89]:
df_sci['Age'] > df_sci['Age'].mean()

NameError: name 'df_sci' is not defined

## DataFrame의 데이터 기본적 조작

In [90]:
data = {'state' : ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year' : [2000, 2001, 2002, 2001, 2003, 2003],
         'pop' : [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2003,2.9
5,Nevada,2003,3.2


### DataFrame 변경하기
## indexing / slicing
## 열 순서 바꾸기 위해선 모든 열 추출하기

In [91]:
frame.loc[0 , 'pop'] = 99
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,99.0
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2003,2.9
5,Nevada,2003,3.2


In [92]:
frame['pop'] = 11  #pop의 모든 요소 11로 바꾸기
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,11
1,Ohio,2001,11
2,Ohio,2002,11
3,Nevada,2001,11
4,Nevada,2003,11
5,Nevada,2003,11


In [93]:
frame[['pop', 'year', 'state']]  #열 순서 재배열

Unnamed: 0,pop,year,state
0,11,2000,Ohio
1,11,2001,Ohio
2,11,2002,Ohio
3,11,2001,Nevada
4,11,2003,Nevada
5,11,2003,Nevada


In [94]:
pd.DataFrame(frame, columns = ['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,11
1,2001,Ohio,11
2,2002,Ohio,11
3,2001,Nevada,11
4,2003,Nevada,11
5,2003,Nevada,11


### 열 추가하기

In [95]:
frame['debt'] = 50
frame

Unnamed: 0,state,year,pop,debt
0,Ohio,2000,11,50
1,Ohio,2001,11,50
2,Ohio,2002,11,50
3,Nevada,2001,11,50
4,Nevada,2003,11,50
5,Nevada,2003,11,50


In [96]:
frame2 = pd.DataFrame(data, columns = ['state', 'year', 'pop', 'debt'], 
                       index = ['one', 'two', 'three', 'four', 'five', 'six'])
frame2

Unnamed: 0,state,year,pop,debt
one,Ohio,2000,1.5,
two,Ohio,2001,1.7,
three,Ohio,2002,3.6,
four,Nevada,2001,2.4,
five,Nevada,2003,2.9,
six,Nevada,2003,3.2,


In [97]:
frame2['debt'] = 50
frame2

Unnamed: 0,state,year,pop,debt
one,Ohio,2000,1.5,50
two,Ohio,2001,1.7,50
three,Ohio,2002,3.6,50
four,Nevada,2001,2.4,50
five,Nevada,2003,2.9,50
six,Nevada,2003,3.2,50


#### 열과 행 삭제하기

In [98]:
frame2.drop(["debt"], axis = 1)  #drop은 영구삭제 안됨


Unnamed: 0,state,year,pop
one,Ohio,2000,1.5
two,Ohio,2001,1.7
three,Ohio,2002,3.6
four,Nevada,2001,2.4
five,Nevada,2003,2.9
six,Nevada,2003,3.2


In [99]:
frame2

Unnamed: 0,state,year,pop,debt
one,Ohio,2000,1.5,50
two,Ohio,2001,1.7,50
three,Ohio,2002,3.6,50
four,Nevada,2001,2.4,50
five,Nevada,2003,2.9,50
six,Nevada,2003,3.2,50


In [100]:
frame2.drop(['debt', 'pop'], axis = 1, inplace = True) #이렇게 하면 영구삭제

In [101]:
frame2

Unnamed: 0,state,year
one,Ohio,2000
two,Ohio,2001
three,Ohio,2002
four,Nevada,2001
five,Nevada,2003
six,Nevada,2003


In [102]:
frame2.drop(['one'])

Unnamed: 0,state,year
two,Ohio,2001
three,Ohio,2002
four,Nevada,2001
five,Nevada,2003
six,Nevada,2003


## 데이터프레임 기술통계량 산출

In [103]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]],
                index = ['a', 'b', 'c', 'd'], columns = ['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [104]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [105]:
df.sum(axis = 1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [106]:
df.mean(axis = 'columns', skipna = False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

시리즈에 기초적 통계 메소드 사용하기

In [107]:
ages = df_sci["Age"]
ages

NameError: name 'df_sci' is not defined

In [108]:
type(ages)

NameError: name 'ages' is not defined

In [109]:
ages.mean()

NameError: name 'ages' is not defined

In [110]:
ages.std()

NameError: name 'ages' is not defined

In [111]:
ages.max()

NameError: name 'ages' is not defined

In [112]:
ages.describe()

NameError: name 'ages' is not defined

In [None]:
ages + 100     # 사칙연산이 가능함

In [None]:
df_sci.describe()

### 그룹 연산

In [113]:
tips.groupby('sex')['total_bill'].mean()

sex
Male      20.744076
Female    18.056897
Name: total_bill, dtype: float64

In [114]:
tips.groupby('sex').mean()

Unnamed: 0_level_0,total_bill,tip,size
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,20.744076,3.089618,2.630573
Female,18.056897,2.833448,2.45977


In [115]:
tips.groupby('sex')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001FB92EF5CD0>

In [116]:
tips.groupby('sex').count()

Unnamed: 0_level_0,total_bill,tip,smoker,day,time,size
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Male,157,157,157,157,157,157
Female,87,87,87,87,87,87


In [117]:
tips.groupby('sex').std()

Unnamed: 0_level_0,total_bill,tip,size
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,9.246469,1.489102,0.955997
Female,8.009209,1.159495,0.937644


In [118]:
tips[tips['day']=='Sun'].groupby('sex').mean()

Unnamed: 0_level_0,total_bill,tip,size
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,21.887241,3.220345,2.810345
Female,19.872222,3.367222,2.944444


In [119]:
tips.groupby(['sex','day']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,tip,size
sex,day,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Male,Thur,18.714667,2.980333,2.433333
Male,Fri,19.857,2.693,2.1
Male,Sat,20.802542,3.083898,2.644068
Male,Sun,21.887241,3.220345,2.810345
Female,Thur,16.715312,2.575625,2.46875
Female,Fri,14.145556,2.781111,2.111111
Female,Sat,19.680357,2.801786,2.25
Female,Sun,19.872222,3.367222,2.944444
