# Pandas 데이터 객체 다루기

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

##  Pandas 데이터 프레임 소개

In [None]:
tips = sns.load_dataset("tips")     # seaborn 패키지에 내장된 tips 데이터 프레임 가저오기
tips

In [None]:
tips.head()

In [None]:
tips.tail(10)

In [None]:
tips.info()       # info() 메소드는 데이터프레임 객체에 대한 정보를 제공한다.

In [None]:
tips["total_bill"].mean()    # total_bill 열의 자료에 대해서 평균값을 구함

In [None]:
tips.describe()     # 데이터프레임의 수치 데이터에 대한 기술통계량을 산출함

##  Pandas Series 데이터 객체

### Create a Series from a Python list

In [None]:
s1 = pd.Series([0.25, 0.5, 0.75, 1.0])    # 리스트로부터 pandas 시리즈 만들기
s1

In [None]:
type(s1)     # 데이터 유형을 확인하면 pandas의 series입을 확인할 수 있다.

In [None]:
s1.values         # the values are simply a familiar Numpy array

In [None]:
type(s1.values)

In [None]:
s1.index    # 별도의 index를 지정하기 않아 0부터 순차적인 번호가 부여되어 있다.

In [None]:
type(s1.index)

In [None]:
s1[1]     # 시리즈의 데이터의 indexing

In [None]:
s1[1:3]     # 시리스 데이터 slicing

시리즈에 index 매개변수를 이용하여 명시적으로 index를 부여함

In [None]:
s2 = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a','b','c','d'])    # explicitly define index
s2

In [None]:
s2['b']       # value is accessed by an explicit index

In [None]:
s2['b':'d']    # explicit label을 사용할 경우 slicing에서 end point가 포함됨

### 시리즈의 기본적 조작 및 연산

In [None]:
s1[0] = 0     # 시리즈는 immutable 이므로 값의 변경이 가능하다.
s1

In [None]:
s1[0 : 2] = 0
s1

In [None]:
s1 = pd.Series(range(5))
s1

In [None]:
s2 = pd.Series(range(5,10))
s2

In [None]:
s1 + s2

In [None]:
s1.append(s2)     # 매개변수에 시리즈가 입력됨

In [None]:
s1.append(s2, ignore_index = True)

In [None]:
s1

In [None]:
s2.drop(4)     # 매개변수에 index를 입력

In [None]:
s2

In [None]:
# s2.drop(8)   # index가 존재하지 않으면 에러가 발생함

In [None]:
s2.drop([1, 2])

In [None]:
s2

In [None]:
s2.drop([1,2], inplace = True)

In [None]:
s2

In [None]:
s3 = pd.Series(range(5,10), index = (4,3,2,1,0))
s3

In [None]:
s1 + s3

In [None]:
s4 = pd.Series(range(5,9))
s4

In [None]:
s1 + s4

In [None]:
s1 + 2

In [None]:
s1 * 2

In [None]:
s1 * s2

In [None]:
s1.mean()

In [None]:
s1.std()

In [None]:
s1.min()

In [None]:
s1.max()

## Pandas DataFrame 데이터 객체

### 딕셔너리에서 DataFrame 생성

In [None]:
population = [423967, 695662, 141297, 170312,149995]
area = [38332521, 26448193, 19651127, 19552860, 12882135]
states = ['California', 'Texas', 'New York', 'Florida', 'Illinois']

dict = {'population': population, 'area': area}     # 관련된 딕셔너리를 생성함
df = pd.DataFrame(dict)      # 행 index가 지정되지 않은 경우 형 label은 일련번호로 지정된다.
df

In [None]:
df = pd.DataFrame(dict, index=states)   # index 매개변수를 이용하여 명시적으로 행 label을 지정한 경우
df

####  데이터프레임의 속성값 추출

In [None]:
df.index

In [None]:
type(df.index)

In [None]:
df.columns

In [None]:
df.values

In [None]:
df.items

In [None]:
df.population

### 리스트에서 DataFrame 데이터 객체 생성하기

In [None]:
L = [ [423967, 38332521],
      [695662, 26448193],
      [141297, 19651127],
      [170312, 19552860],
      [149995, 12882135] ]
df  = pd.DataFrame(L)      # 리스트에서 데이터프레임을 생성
df

In [None]:
df = pd.DataFrame(L, columns = ['population', 'area'], index = states)   # 열과 행에 각각 label을 명시적으로 지정함
df

### 2차원 Numpy array에서 DataFrame 데이터 객체 생성하기

In [None]:
arr = np.array(L)     # 리스트에서 numpy array를 생성함
arr

In [None]:
df = pd.DataFrame(arr, columns = ['population', 'area'], index = states )
df

### Create a DataFrame by reading a file 

In [None]:
df_sci = pd.read_csv('scientists.csv')
df_sci

In [None]:
df_sci.info()

## DataFrame Indexing and Selection

### 데이터프레임의 열단위 데이터 추출하기

In [None]:
df_sci['Name']     # 열이름을 지정하여 열을 추출함. 하나의 열인 경우는 시리즈로 반환됨

In [None]:
df_sci.Name        # 객체명.변수명의 방식으로 추출할 수도 있다. 하지만 속성과 구분이 되지 않는 문제점이 존재한다

In [None]:
df_sci[['Name', 'Occupation']]    # 두개 이상의 열인 경우는 데이터프레임으로 반환됨

### 데이터프레임의 행단위 데이터 추출하기

#### 행에 명시적으로 label이 지정된 경우

In [None]:
df

In [None]:
df.loc['California']     # loc 속성을 이용하여 명시적 index 이름으로 행단위 데이터 추출

In [None]:
df.loc[['California', 'New York']]   # 여러개의 행을 추출하는 경우

In [None]:
df.loc['California': 'New York']    # silicing을 이용하며 부분을 추출함

In [None]:
df.iloc[0]      # iloc 속성을 이용하여 암묵적인 순서를 이용하여 행단위 데이터 추출

In [None]:
df.iloc[[0,3]]

In [None]:
df.iloc[0:3]   # iloc 속성을 이용하여 암문적 순서의 slicing으로 행단위 데이터 추출 (end-point는 포함하지 않는다)

#### 행에 명시적으로label을 지정하지 않은 경우


In [None]:
df_sci.iloc[0]

In [None]:
df_sci.loc[0]

In [None]:
df_sci.iloc[0:3]    # index가 명시적으로 지정되지 않은 경우는 iloc속성으로 행자료 추출

In [None]:
df_sci.loc[0:3]    # 명시적으로 표시하는 loc속성을 이용하면 end-point가 포합된다.

In [None]:
df_sci.iloc[[0,2,5]]    # 연속되지 않은 행을 추출하기 위해서는 리스트로 전달함

In [None]:
df_sci.iloc[-1]

In [None]:
# df_sci.loc[-1]     # loc 속성에서는 -1이 허용되지 않는다.

### 데이터프레임의 행과 열을 모두 지정하여 데이터 추출하기

In [None]:
df.loc['California', 'area']     # 행과 열을 모두 지정하여 데이터 추출하기

In [None]:
df.loc['California':'New York', 'area']   

In [None]:
df.loc[['California', 'New York', 'Illinois'], :]

In [None]:
df_sci.loc[0:3, ['Name', 'Occupation']]

### Filtering: 논리값 (boolean)을 이용한 행 추출하기 

In [None]:
df['population']> 200000

In [None]:
df[df['population'] > 200000]     # boolean selection

In [None]:
df_sci[df_sci['Age'] > df_sci['Age'].mean()]

In [None]:
df_sci['Age'].mean()

In [None]:
df_sci['Age'] > df_sci['Age'].mean()

## DataFrame의 데이터 기본적 조작

In [None]:
data = {'state' : ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year' : [2000, 2001, 2002, 2001, 2003, 2003],
         'pop' : [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
frame

### DataFrame 변경하기

In [None]:
frame.loc[0 , 'pop'] = 99
frame

In [None]:
frame['pop'] = 11
frame

In [None]:
frame[['pop', 'year', 'state']]

In [None]:
pd.DataFrame(frame, columns = ['year', 'state', 'pop'])

### 열 추가하기

In [None]:
frame['debt'] = 50
frame

In [None]:
frame2 = pd.DataFrame(data, columns = ['state', 'year', 'pop', 'debt'], 
                       index = ['one', 'two', 'three', 'four', 'five', 'six'])
frame2

In [None]:
frame2['debt'] = 50
frame2

#### 열과 행 삭제하기

In [None]:
frame2.drop(["debt"], axis = 1)

In [None]:
frame2

In [None]:
frame2.drop(['debt', 'pop'], axis = 1, inplace = True)

In [None]:
frame2

In [None]:
frame2.drop(['one'])

## 데이터프레임 기술통계량 산출

In [None]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]],
                index = ['a', 'b', 'c', 'd'], columns = ['one', 'two'])
df

In [None]:
df.sum()

In [None]:
df.sum(axis = 1)

In [None]:
df.mean(axis = 'columns', skipna = False)

시리즈에 기초적 통계 메소드 사용하기

In [None]:
ages = df_sci["Age"]
ages

In [None]:
type(ages)

In [None]:
ages.mean()

In [None]:
ages.std()

In [None]:
ages.max()

In [None]:
ages.describe()

In [None]:
ages + 100     # 사칙연산이 가능함

In [None]:
df_sci.describe()

### 그룹 연산

In [None]:
tips.groupby('sex')['total_bill'].mean()

In [None]:
tips.groupby('sex').mean()

In [None]:
tips.groupby('sex')

In [None]:
tips.groupby('sex').count()

In [None]:
tips.groupby('sex').std()

In [None]:
tips[tips['day']=='Sun'].groupby('sex').mean()

In [None]:
tips.groupby(['sex','day']).mean()