# 강의안5   Pandas 데이터 객체 다루기

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

#  Pandas 데이터 프레임 소개

In [None]:
tips = sns.load_dataset("tips")     # seaborn 패키지에 내장된 tips 데이터 프레임 가저오기
tips

In [None]:
tips.info()       # info() 메소드는 데이터프레임 객체에 대한 정보를 제공한다.

In [None]:
tips["total_bill"].mean()    # total_bill 열의 자료에 대해서 평균값을 구함

In [None]:
tips.describe()     # 데이터프레임의 수치 데이터에 대한 기술통계량을 산출함

In [None]:
plt.hist(tips['tip'], bins=10)     # tip열의 자료에 대한 히스토그램을 그림 
plt.show()

In [None]:
tips['sex'].value_counts()

In [None]:
plt.boxplot([tips[tips['sex'] == 'Female']['tip'],
             tips[tips['sex'] == 'Male']['tip']],
             labels = ['Female', 'Male'])
plt.show()

In [None]:
tips.groupby('sex').tip.mean()

In [None]:
tips.groupby('sex').tip.std()

##  Pandas Series 데이터 객체

# Create a Series from a Python list

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])    # 리스트로부터 pandas 시리즈 만들기
data

In [None]:
type(data)     # 데이터 유형을 확인하면 pandas의 series입을 확인할 수 있다.

In [None]:
data.values         # the values are simply a familiar Numpy array

In [None]:
type(data.values)

In [None]:
data.index    # 별도의 index를 지정하기 않아 0부터 순차적인 번호가 부여되어 있다.

In [None]:
type(data.index)

In [None]:
data[1]     # 시리즈의 데이터의 indexing

In [None]:
data[1:3]    # 시리스 데이터의 slicing

# 시리즈에 index 매개변수를 이용하여 명시적으로 index를 부여함

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a','b','c','d'])    # explicitly define index
data

In [None]:
data['b']       # value is accessed by an explicit index

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index =[2,5,3,7])   # use explicit nonsequential numbers as index
data

In [None]:
data[5]     # value is accessec by an explicit nonsequential number

# Create a Series from a Python dictionary

In [None]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)        # Series created from a python dictionary
population

In [None]:
population['California']

In [None]:
population['California':'New York']     # Series support the slicing operation with explicit indices (end-point가 포함된다) ******

In [None]:
population[0:2]     # implicit index를 이용할 수 있으나 end-point는 포함되지 않는다.

# Pandas DataFrame 데이터 객체의 생성

# 딕셔너리에서 DataFrame 생성

In [None]:
population = [423967, 695662, 141297, 170312,149995]
area = [38332521, 26448193, 19651127, 19552860, 12882135]
states = ['California', 'Texas', 'New York', 'Florida', 'Illinois']

dict = {'population': population, 'area': area}     # 관련된 디렉토리를 생성함
df = pd.DataFrame(dict)      # 행 index가 지정되지 않은 경우 형 label은 일련번호로 지정된다.
df

In [None]:
df = pd.DataFrame(dict, index=states)   # index 매개변수를 이용하여 명시적으로 행 label을 지정한 경우
df

# 리스트에서 DataFrame 데이터 객체 생성하기

In [None]:
L1 = [ [423967, 38332521],
      [695662, 26448193],
      [141297, 19651127],
      [170312, 19552860],
      [149995, 12882135] ]
L2 = [ [423967, 38332521],
      [695662, 26448193],
      [141297, 19651127],
      [170312, 19552860],
      [149995, 12882135] ]
L3 = [ [423967, 38332521],
      [695662, 26448193],
      [141297, 19651127],
      [170312, 19552860],
      [149995, 12882135] ]
df  = pd.DataFrame(L1+L2+L3)      # 리스트에서 데이터프레임을 생성
df

In [None]:
df = pd.DataFrame(L1, columns = ['population', 'area'], index = states)   # 열과 행에 각각 label을 명시적으로 지정함
df

# 2차원 Numpy array에서 DataFrame 데이터 객체 생성하기

In [None]:
arr = np.array(L1)     # 리스트에서 numpy array를 생성함
arr

In [None]:
df = pd.DataFrame(arr, columns = ['population', 'area'], index = states )
df

# create a DataFrame by dictionaries of Series sharing same index

In [None]:
s_population = pd.Series(arr[:,0], index=states)
s_population

In [None]:
s_area = pd.Series(arr[:,1], index=states)
s_area

In [None]:
df_states = pd.DataFrame({'population': s_population,     # 여 데이터프레임을 시리즈를 dirictory로 작성하생성함
                    'area': s_area})
df_states

In [None]:
type(df_states)

# 데이터프레임의 중요 속성(attributes)

In [None]:
df_states.index     # index 속성을 반환함

In [None]:
df_states.columns    # columns 속성을 반환함

In [None]:
df_states.values    # 데이터프레임의 값을 반환함

In [None]:
df_states['area']     # DataFrame의 하나의 열을 추출하면 Series가 된다.

In [None]:
df_states.items

In [None]:
type(df_states['area'])

# Create a DataFrame by reading a file 

In [None]:
df_sci = pd.read_csv('C:/Users/park/Desktop/데이터사이언스/data/scientists.csv')
df_sci

In [None]:
df_sci.info()

# DataFrame Indexing and Selection

# 데이터프레임의 열단위 데이터 추출하기

In [None]:
df_states

In [None]:
df_states['population']     # 열이름을 지정하여 열을 추출함. 하나의 열인 경우는 시리즈로 반환됨

In [None]:
df_states.population        # 객체명.변수명의 방식으로 추출할 수도 있다. 하지만 속성과 구분이 되지 않는 문제점이 존재한다

In [None]:
df_sci[['Name', 'Occupation']]    # 두개 이상의 열인 경우는 데이터프레임으로 반환됨

# 데이터프레임의 행단위 데이터 추출하기

In [None]:
df_states.loc['California']     # loc 속성을 이용하여 명시적 index 이름으로 행단위 데이터 추출

In [None]:
df_states.loc['California': 'New York']    # silicing을 이용하며 부분을 추출함

In [None]:
df_states.iloc[0]      # iloc 속성을 이용하여 암묵적인 순서를 이용하여 행단위 데이터 추출

In [None]:
df_states.iloc[0:3]   # iloc 속성을 이용하여 암묵적 순서의 slicing으로 행단위 데이터 추출 (end-point는 포함하지 않는다)

In [None]:
df_sci.iloc[0:3]    # index가 명시적으로 지정되지 않은 경우는 iloc속성으로 행자료 추출

In [None]:
df_sci.loc[0]     # index가 명시적으로 지정되지 않은 경우는 loc도 ilo도와 동일하게 적용됨

In [None]:
df_sci.iloc[[0,2,5]]    # 연속되지 않은 행을 추출하기 위해서는 리스트로 전달함

In [None]:
df_states.loc[['California', 'New York']]

# 데이터프레임의 행과 열을 모두 지정하여 데이터 추출하기

In [None]:
df_states.loc['California', 'area']     # 행과 열을 모두 지정하여 데이터 추출하기

In [None]:
df_states.loc['California':'New York', 'area']   # 캘리포니아부터 뉴욕까지 면적을 추출

In [None]:
df_states.loc[['California', 'New York', 'Illinois'], :]

In [None]:
df_sci.loc[0:3, ['Name', 'Occupation']]

# Filtering: 논리값 (boolean)을 이용한 행 추출하기 

In [None]:
df_states['population']> 200000

In [None]:
df_states[df_states['population'] > 200000]     # boolean selection

In [None]:
df_sci

In [None]:
df_sci.loc[df_sci['Age'] > df_sci['Age'].mean()]

In [None]:
df_sci['Age'].mean()

In [None]:
df_sci['Age'] > df_sci['Age'].mean()

# Pandas 메소드 UFuncs 사용하기

# 시리즈에 기초적 통계 메소드 사용하기

In [None]:
ages = df_sci["Age"]
ages

In [None]:
type(ages)

In [None]:
ages.mean()

In [None]:
ages.std()

In [None]:
ages.max()

In [None]:
ages.describe()

In [None]:
ages + 100     # 사칙연산이 가능함

In [None]:
tips.groupby('sex')['total_bill'].mean()

In [None]:
tips.groupby('sex').mean()

In [None]:
tips[tips['day']=='Sun'].groupby('sex').mean()

In [None]:
tips.groupby(['sex','day']).mean() # 피벗 테이블처럼

In [None]:
tips.groupby('sex')['total_bill'].agg([np.mean, np.std])

# Operating on Data in Pandas

In [None]:
import pandas as pd
import numpy as np

In [None]:
rng = np.random.RandomState(42)
rng

In [None]:
ser = pd.Series(rng.randint(0,10,4))
ser

In [None]:
df = pd.DataFrame(rng.randint(0, 10, (3,4)), columns = ['A', 'B', 'C', 'D'])
df

In [None]:
np.exp(ser)     # If w apply Numpy ufunc, the indices preserved

In [None]:
np.sin(df * np.pi / 4)

# UFuncs: Index Alignment

In [None]:
area = pd.Series({'Alaska':1723337, 'Texas':695662, 'California':423967,}, name='area')
population = pd.Series({'California':38332521, 'Texas':26448193, 'New York':19651127}, name='population')
population/area

In [None]:
area

In [None]:
population

In [None]:
area.index | population.index

In [None]:
A = pd.Series([2,4,6], index =[0,1,2])
B = pd.Series([1,3,5], index=[1,2,3])
A + B

In [None]:
A.add(B)

In [None]:
A.add(B, fill_value=0)

# Index alignment in DataFrame

In [None]:
A = pd.DataFrame(rng.randint(0, 20, (2,2)), columns = list('AB'))
A

In [None]:
list('AB')

In [None]:
B = pd.DataFrame(rng.randint(0,10,(3,3)), columns = list('BAC'))
B

In [None]:
A + B

# Ufuncs: Operations between DataFrame and Series

In [None]:
A = rng.randint(10, size=(3,4))
A

In [None]:
A[0]

In [None]:
A -A[0] #  전체 프레임에 한 행만 뽑아서 빼도 그 행만이 아니고 전체에서 다 빼짐

In [None]:
df = pd.DataFrame(A, columns=list('QRST'))
df

In [None]:
df.iloc[0]

In [None]:
df - df.iloc[0]     # operates row-wise by default

In [None]:
df['R']

In [None]:
df - df['R']