# Pandas

panda : 구조화된 데이터의 처리를 지원하는 라이브러리 (파이썬계의 엑셀)

- 고성능 array 계상 라이브러리인 numpy와 통합되어 있음  
- image, sound, text 등등 여러가지를 data중 tabular data(excel 모습의 data)를 다루는데 특화되어 있음 (excel처럼 table로 정리되어 있는 data)
- 인덱싱, 연상용 함수, 전처리 함수 등을 제공함 
- 데이터 처리 및 통계 분석을 위해 사용

### tubular data와 관련된 용어들 
- data table,sample
- attribute, field, feature, column
- instance,tuple, row 
- feature vector 
- data, value

In [2]:
import pandas as pd # library 호출 

In [2]:
data_url = "http://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data"
# data(file or web, sep, header) : sep = 데이터를 나누는 기준, header =  coulmn 값 
df_data = pd.read_csv(data_url, sep="\s+",header=None) #sep에서 표현된 것은 정규표현 

In [4]:
df_data.head() # 맨 처음 다섯줄을 출력함(default 값이 5, n= 을 통해 설정 가능)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


In [10]:
df_data.columns = ["CRIM","ZN","INDUS","CHAS","NOX","RM","AGE","DIS","RAD","TAX","PTRATIO","B","LSTAT","MEDV"]
# .columns라는 property 통해 각 데이터 열의 이름을 붙여줄 수 있음 
df_data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


In [12]:
df_data.values
#주로 tabular data를 numpy로 변형하여 사용함 
type(df_data)

pandas.core.frame.DataFrame

## series 

 
data frame : data table 전체를 포함하는 object
 
series : data frame 중 하나의 column에 해당하는 데이터를 모은 object

series와 numpy의 차이점 : series는 각 데이터에 index를 숫자, 문자 등 다양하게 설정할 수 있다. 

(series들이 보여서 하나의 dataframe을 만든다.)

In [3]:
from pandas import Series, DataFrame
import pandas as pd 
import numpy as np

#list를 series로 변환하는 과정 
list_data = [1,2,3,4,5]
list_index = ['a','b','c','d','e']
example_obj = Series(list_data,index=list_index, dtype= np.float32, name="example_data")

print(type(example_obj.values))
example_obj

<class 'numpy.ndarray'>


a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
Name: example_data, dtype: float32

In [4]:
# 데이터 type을 astype으로 변환할 수 있음 
example_obj = example_obj.astype(int) 

example_obj

a    1
b    2
c    3
d    4
e    5
Name: example_data, dtype: int64

In [7]:
# dict type으로도 series를 생성할 수 있음 
dict_data = {"a" : 1, "b" : 2, "c" : 3, "d" : 4, "e" : 5}
example_obj = Series(dict_data,dtype= np.float32,name="example_data")
example_obj

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
Name: example_data, dtype: float32

In [10]:
# 속성을 통해 index와 value를 쉽게 접근할 수 있다.  
print(example_obj.index)
print(example_obj.values)

# 특정 index를 통해 value에 접근하거나 변경할 수 있다. 
example_obj["a"] = 2

# data에 대한 설명으로 name을 설정할 수 있다. 
example_obj.name = "data"
example_obj


Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
[2. 2. 3. 4. 5.]


a    2.0
b    2.0
c    3.0
d    4.0
e    5.0
Name: data, dtype: float32

In [13]:
# series는 기본적으로 index를 기준으로 series를 생성한다. 
# values가 없더라도 index가 있다면 값을 생성해준다. 

dict_data = {"a" : 1, "b":2, "c":3}
indexes = ["a","b","c","d","e"]

series_obj = Series(dict_data,index= indexes)
series_obj

a    1.0
b    2.0
c    3.0
d    NaN
e    NaN
dtype: float64

## dataframe

dataframe에서 value에 접근하기 위해서는 index와 columns를 모두 알고 있어야 한다.  
대부분 dataframe을 다룰때는 csv파일을 불러서 사용한다. 

In [59]:
from curses import raw


raw_data = {
    "first_name" : ["jason","molly",'tina'],
    "last_name" : ["miller","jacobson","ali"],
    "age" : [20,30,40]
}

df = pd.DataFrame(raw_data,columns=["first_name","last_name","age","debt"])
df

Unnamed: 0,first_name,last_name,age,debt
0,jason,miller,20,
1,molly,jacobson,30,
2,tina,ali,40,


In [34]:
#df에서 series를 추출하는 두 가지 방법 
df.first_name
df["first_name"]

0    jason
1    molly
2     tina
Name: first_name, dtype: object

In [35]:
# df index를 접근하는 방법 두 가지 방법 : loc, iloc 
# loc은 index의 이름, iloc은 index의 순서를 사용하여 df에 접근함
# loc[원하는 행위 위치, [원하는 열의 name]]

df.loc[:3] #loc은 index 이름, 



Unnamed: 0,first_name,last_name,age,debt
0,jason,miller,20,
1,molly,jacobson,30,
2,tina,ali,40,


In [36]:
df.loc[:2,["last_name"]] #l

Unnamed: 0,last_name
0,miller
1,jacobson
2,ali


In [37]:
df["first_name"].iloc[1:]

1    molly
2     tina
Name: first_name, dtype: object

In [39]:
df.debt = df.age > 30
df

Unnamed: 0,first_name,last_name,age,debt
0,jason,miller,20,False
1,molly,jacobson,30,False
2,tina,ali,40,True


In [44]:
values = Series(data=["m","f"],index = [0,2])
values

0    m
2    f
dtype: object

In [45]:
df["sex"] = values
df

Unnamed: 0,first_name,last_name,age,debt,sex
0,jason,miller,20,False,m
1,molly,jacobson,30,False,
2,tina,ali,40,True,f


In [49]:
  # df에서 메모리 삭제하기 : del, drop
  # del은 메모리에서 삭제하고 drop은 삭제하지는 않고 원하는 것을 제외한 것을 보여줌 
  df.drop("debt",axis=1) 

Unnamed: 0,first_name,last_name,age,sex
0,jason,miller,20,m
1,molly,jacobson,30,
2,tina,ali,40,f


In [53]:
# selection with column names 
df["first_name"].head(2)


0    jason
1    molly
Name: first_name, dtype: object

In [52]:
# excel 파일을 다룰수 있는 xlrd module 설치 
!conda install --y xlrd

Collecting package metadata (current_repodata.json): done
Solving environment: done

## Package Plan ##

  environment location: /opt/anaconda3

  added / updated specs:
    - xlrd


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    openssl-1.1.1q             |       hca72f7f_0         2.2 MB
    ------------------------------------------------------------
                                           Total:         2.2 MB

The following packages will be UPDATED:

  openssl                                 1.1.1p-hca72f7f_0 --> 1.1.1q-hca72f7f_0



Downloading and Extracting Packages
openssl-1.1.1q       | 2.2 MB    | ##################################### | 100% 
Preparing transaction: done
Verifying transaction: done
Executing transaction: done


In [61]:
# reindex : inplace의 의미 : 
# data 원본을 변형시키고 싶은 경우 inplace = True를 사용함
# cf) data 원본은 변형시키지 않는 것을 원칙으로 함. 따라서 inplace는 예외적인 경우에 사용함 
df.reset_index(inplace=True)

df

Unnamed: 0,level_0,index,first_name,last_name,age,debt
0,0,0,jason,miller,20,
1,1,1,molly,jacobson,30,
2,2,2,tina,ali,40,


In [62]:
df.drop("index",axis=1,inplace=True)

In [63]:
df

Unnamed: 0,level_0,first_name,last_name,age,debt
0,0,jason,miller,20,
1,1,molly,jacobson,30,
2,2,tina,ali,40,


In [64]:
df.drop("level_0",axis=1,inplace=True)
df

Unnamed: 0,first_name,last_name,age,debt
0,jason,miller,20,
1,molly,jacobson,30,
2,tina,ali,40,


## Operation

In [69]:
#sereis operation : index를 기준으로 연산을 수행함 

#dataframe operation : df는 col과 index를 모두 고려함 

df1 = DataFrame(np.arange(9).reshape(3,3),columns=list("abc"))
df2 = DataFrame(np.arange(16).reshape(4,4),columns=list("abcd"))
print(df1 + df2)

# fill_value는 NaN값이 나오지 않도록 빈 value를 채워준다
print(df1.add(df2,fill_value=0))


      a     b     c   d
0   0.0   2.0   4.0 NaN
1   7.0   9.0  11.0 NaN
2  14.0  16.0  18.0 NaN
3   NaN   NaN   NaN NaN
      a     b     c     d
0   0.0   2.0   4.0   3.0
1   7.0   9.0  11.0   7.0
2  14.0  16.0  18.0  11.0
3  12.0  13.0  14.0  15.0


In [73]:
# series + dataframe : series와 dataframe간의 연산은 axis를 설정해주야 한다.
# axis를 설정해주면 axis를 기준으로 broadcasintg을 실행함 

df = DataFrame(np.arange(16).reshape(4,4),columns=list("abcd"))
s1 = Series(np.arange(10,14))
df.add(s1,axis=0)

Unnamed: 0,a,b,c,d
0,10,11,12,13
1,15,16,17,18
2,20,21,22,23
3,25,26,27,28


## lambda, map, apply

pandas의 series type의 데이터에서도 map함수 사용가능   
function 대신 dict, sequence형 자료등으로 대체 가능 

In [78]:
# lambda 함수 사용
s1 = Series(np.arange(10))
s1.head(5)
s1.map(lambda x : x ** 2).head(5)

0     0
1     1
2     4
3     9
4    16
dtype: int64

In [79]:
# dic 형식의 자료를 mapping 가능 
z = {1: 'a',2 : 'b',3 : 'c'}
s1.map(z).head(5)

0    NaN
1      a
2      b
3      c
4    NaN
dtype: object

In [81]:
# replace : map 함수의 변환 기능만 담당하는 함수, 데이터 변환시 많이 사용함 

raw_data = {
    "first_name" : ["jason","molly",'tina'],
    "last_name" : ["miller","jacobson","ali"],
    "age" : [20,30,40],
    "sex" : ["m","f","m"]
}

df = pd.DataFrame(raw_data,columns=["first_name","last_name","age","debt","sex"])
df


Unnamed: 0,first_name,last_name,age,debt,sex
0,jason,miller,20,,m
1,molly,jacobson,30,,f
2,tina,ali,40,,m


In [82]:
df.sex.replace(
    ["m",'f'],
    [0,1],inplace = True
)
df

Unnamed: 0,first_name,last_name,age,debt,sex
0,jason,miller,20,,0
1,molly,jacobson,30,,1
2,tina,ali,40,,0


In [85]:
# wget : 다운로드 받는 명령어 
!wget http://raw.githubusercontent.com/rstudio/Intro/master/data/wages.csv

--2022-07-15 23:34:50--  http://raw.githubusercontent.com/rstudio/Intro/master/data/wages.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.111.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://raw.githubusercontent.com/rstudio/Intro/master/data/wages.csv [following]
--2022-07-15 23:34:50--  https://raw.githubusercontent.com/rstudio/Intro/master/data/wages.csv
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 62250 (61K) [text/plain]
Saving to: 'wages.csv'


2022-07-15 23:34:51 (1.41 MB/s) - 'wages.csv' saved [62250/62250]



In [87]:
df = pd.read_csv("./wages.csv")
df.head()

Unnamed: 0,earn,height,sex,race,ed,age
0,79571.299011,73.89,male,white,16,49
1,96396.988643,66.23,female,white,16,62
2,48710.666947,63.77,female,white,16,33
3,80478.096153,63.22,female,other,16,95
4,82089.345498,63.08,female,white,17,43


In [90]:
def change_sex(x) : 
    return 0 if x == "male" else 1

print(df.sex.map(change_sex))
df.sex

0       0
1       1
2       1
3       1
4       1
       ..
1374    0
1375    1
1376    1
1377    0
1378    0
Name: sex, Length: 1379, dtype: int64


0         male
1       female
2       female
3       female
4       female
         ...  
1374      male
1375    female
1376    female
1377      male
1378      male
Name: sex, Length: 1379, dtype: object

In [None]:
# apply 함수 : map과는 달리 series 전체에 해당 함수를 적용할 떄 사용 
# 입력 값이 series데이터로 입력받아 handling을 할 수 있음 

