# <font color='blue'><div style="text-align: center">Pandas</font>

### <font color='blue'> The pandas data-frame </font>
* 넘파이는 다차원 변수를 배열형태로 저장하고 효과적으로 다룰 수 있다.
* 판다스는 엑셀형태의 쉬트와 같이 통계자료를 저장하는 라이브러리다.
* 이 세상의 대부분의 자료는 엑셀 쉬트처럼 생겼는데 행렬 원소로 보는 것보다 기존 통계소프트웨어처럼 처리하는 방식이다.
* 통계처리는 대부분 판다스로 끝난다. 하지만, 판다스로 처리가 힘든 것은 넘파이나 기존 파이썬 언어의 도움을 받아 처리가 가능하다.
* 판다스는 Series객체의 집합으로 이루어져 있어 DataFrame <-> Series <-> numpy <-> List 로 자유자재로 형을 변환할 수 있다.


In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# 아래는 이미 알고 있는 리스트다. 
nameList = ['John', 'Matt', 'Sara', 'Jim', 'Ashley']
ids = [ 23, 34, 83, 86, 12]
balance = [10.2, 84.3, 72.9, 27.1, 223.1]

### <font color='blue'> 리스트로 데이터프레임 만들기 </font>  

In [None]:
# 아래는 위의 리스트를 딕셔너리로 묶어 데이터프레임으로 변환하는 예다.

dic = {'ids': ids, 'names': nameList, 'bal':balance}

users = pd.DataFrame(dic)
print (users)

In [None]:
# 데이터프레임에서 시리즈만 추출하는 예제임

print(users['ids'])
print(users.ids)


In [None]:
# 시리즈를 생성할 수도 있다.

s = pd.Series([10,20,30,40,50], index=[0,1,2,3,4])
s

In [None]:
# 시리즈를 데이터 프레임에 추가해 보자.
users['s'] = s
users

In [None]:
# 레코드를 추가해 보자.
users.index = users.index + 1  # shifting index
users.loc[6] = [13, 'Paul', 24.7, 60]  # adding a row
users = users.sort_index()  # sorting by index
users

### <font color='blue'> CSV 파일로 데이터프레임 만들기 </font>  

In [3]:
filename = 'D:/NaverCloud/Lecture/통계교육원/파이썬통계/data/yob1880.csv'
names = pd.read_csv(filename, header = None)
names.columns = ['name','sex', 'vars']
print (names.head()) 

        name sex  vars
0       Mary   F  7065
1       Anna   F  2604
2       Emma   F  2003
3  Elizabeth   F  1939
4     Woodie   M  1234


### <font color='blue'> 엑셀 파일로 데이터프레임 만들기 </font>   

In [5]:
df = pd.read_excel('D:/NaverCloud/Lecture/통계교육원/파이썬통계/data/yob1880.xlsx', header = None)
df.columns = ['name','sex', 'vars']
print (df.head())

        name  sex  vars
0       Mary    F  7065
1       Anna    F  2604
2       Emma    F  2003
3  Elizabeth    F  1939


### <font color='blue'> 데이터 프레임 나누기 </font>    

In [None]:
# 행번호로 나누기

print (names.iloc[0])

In [None]:
subData = names.iloc[0:2]
subData

In [None]:
# 행과 열 번호로 나누기

names.iloc[:,[2,1,0]]

In [None]:
names['vars']

In [None]:
print(names)

In [None]:
print(names.iloc[0:2,0:2])

### <font color='blue'> 데이터프레임에서 Row 삭제 </font>     

In [None]:
users = pd.DataFrame({'names': nameList, 'bal':balance}, index=ids)
users

In [None]:
new_users = users.copy()
new_users

In [None]:
new_users = new_users.drop(83)
new_users

### <font color='blue'> 데이터프레임에서 column 삭제 </font>  

In [None]:
new_users = users.drop('bal', axis=1)
new_users

### <font color='blue'> 데이터프레임 조건으로 drop하기 </font>  

In [None]:
tmp = users.bal > 30.0
tmp

### <font color='blue'> 데이터프레임 조건으로 Filter하기 </font> 

In [None]:
names[names.sex == 'F']

### <font color='blue'> 데이터프레임 소트 </font>   

In [None]:
names.sort_values(["name"], ascending=[False])

In [7]:
fileName = 'D:/NaverCloud/Lecture/통계교육원/파이썬통계/data/hw1_data.csv'
data = pd.read_csv(fileName)
data

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
0,41.0,190.0,7.4,67,5,1
1,36.0,118.0,8.0,72,5,2
2,12.0,149.0,12.6,74,5,3
3,18.0,313.0,11.5,62,5,4
4,,,14.3,56,5,5
5,28.0,,14.9,66,5,6
6,23.0,299.0,8.6,65,5,7
7,19.0,99.0,13.8,59,5,8
8,8.0,19.0,20.1,61,5,9
9,,194.0,8.6,69,5,10


In [None]:
data = data.dropna()

In [None]:
data.describe()

In [None]:
# 연산하기 (화씨 -> 섭씨로)

data['Temp'] = (data['Temp'] - 32) / 1.8
data

In [None]:
data['Month'].value_counts()

In [None]:
data['Ozone'][data['Ozone'] < 15 ] = 15
data

### <font color='blue'> 데이터프레임 Merge </font>  

In [None]:
import pandas as pd

df1 = pd.DataFrame({'id':['A','B','C'],'val1':[20,21,34]})
df2 = pd.DataFrame({'id':['C','D','E'],'val2':[55,44,11]})

df_inner = pd.merge(df1, df2, how='inner', on='id')
df_inner

In [None]:
df_outer = pd.merge(df1, df2, how='outer', on='id')
df_outer

In [None]:
df_left = pd.merge(df1, df2, how='left', on='id')
df_left

In [None]:
df_right = pd.merge(df1, df2, how='right', on='id')
df_right

### <font color='blue'> 데이터프레임 Concatenate </font>   

In [None]:
import pandas as pd

# create fake data
df1 = pd.DataFrame({'id':[6,7,8]})
df2 = pd.DataFrame({'id':[9,10,11]})

# glue the dataframes together
df = pd.concat([df1,df2])
df

### <font color='blue'> 데이터프레임 저장관리 </font> 

In [None]:
import pickle
df.to_pickle('df.pkl')
del df

In [None]:
df

In [None]:
f = open('df.pkl','rb')
df = pickle.load(f)
df

### <font color='red'> 실습 #1: 판다스 부트캠프</font> 

* PandasBootcamp.csv는 "date","num","num2","str","str2" 의 변수가 있는 자료다.
* 아래의 미션을 수행하시오.

In [8]:
# CSV 파일을 읽어 exData라는 데이터프레임으로 저장하세요.

filename = 'D:/NaverCloud/Lecture/통계교육원/파이썬통계/data/PandasBootcamp.csv'
exData = pd.read_csv(filename)
exData.head()

Unnamed: 0,date,num,num2,str,str2
0,2014-02-06,410,302.792029,girl,green
1,2014-02-07,457,697.175828,boy,yellow
2,2014-02-18,392,324.299927,boy,yellow
3,2014-03-05,685,25.789894,girl,blue
4,2014-03-31,991,919.49132,boy,red


In [None]:
# num의 최소, 최대, 평균값은 얼마입니까?
# str 과 str2에는 어떤 범주가 있고, 각 범주별 비율은 얼마인가요?

print(exData['num'].describe())
print()
print(exData['str'].value_counts())
print()
print(exData['str2'].value_counts())

In [None]:
def value_proportion(pSeries):
    _tmp = pSeries.value_counts().to_dict()
    n = sum(list(_tmp.values()))
    retDic = {}
    for key, value in _tmp.items():
        retDic[key] = value / n
    return retDic

print(value_proportion(exData['str']))
print(value_proportion(exData['str2']))

In [None]:
# str 별 num의 합계를 구하시오
# str2별 num2의 평균을 구하시오.

groupby_str = exData.groupby('str') 
print(groupby_str['num'].sum())

groupby_str2 = exData.groupby('str2') 
print(groupby_str['num2'].mean())

In [None]:
# str과 str2의 교차표를 만들어보세요

pd.crosstab(exData.str, exData.str2, margins=True)

### <font color='blue'> 유용한 시각화 예제 </font>    

In [None]:
import matplotlib.pyplot as plt

# 시계 반대 방향의 순서로 그린다.

labels = 'Frogs', 'Hogs', 'Dogs', 'Logs'
sizes = [15, 30, 45, 10]
explode = (0, 0.1, 0, 0)  # 두번째 파이를 바깥으로 돌출 시킨다. 

fig1, ax1 = plt.subplots()
ax1.pie(sizes, explode=explode, labels=labels, autopct='%1.1f%%',
        shadow=True, startangle=90)
ax1.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

plt.show()

In [None]:
"""
Simple demo of a scatter plot.
"""
import numpy as np
import matplotlib.pyplot as plt


N = 50
x = np.random.rand(N)
y = np.random.rand(N)
colors = np.random.rand(N)
area = np.pi * (15 * np.random.rand(N))**2  # 0 to 15 point radii

plt.scatter(x, y, s=area, c=colors, alpha=0.5)
plt.show()

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Random test data
np.random.seed(123)
all_data = [np.random.normal(0, std, 100) for std in range(1, 4)]

fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(9, 4))

# rectangular box plot
bplot1 = axes[0].boxplot(all_data,
                         vert=True,   # vertical box aligmnent
                         patch_artist=True)   # fill with color

# notch shape box plot
bplot2 = axes[1].boxplot(all_data,
                         notch=True,  # notch shape
                         vert=True,   # vertical box aligmnent
                         patch_artist=True)   # fill with color

# fill with colors
colors = ['pink', 'lightblue', 'lightgreen']
for bplot in (bplot1, bplot2):
    for patch, color in zip(bplot['boxes'], colors):
        patch.set_facecolor(color)

# adding horizontal grid lines
for ax in axes:
    ax.yaxis.grid(True)
    ax.set_xticks([y+1 for y in range(len(all_data))], )
    ax.set_xlabel('xlabel')
    ax.set_ylabel('ylabel')

# add x-tick labels
plt.setp(axes, xticks=[y+1 for y in range(len(all_data))],
         xticklabels=['x1', 'x2', 'x3', 'x4'])

plt.show()


### <font color='blue'> <div style="text-align: center">End of Chapter </font>  