# Pandas는 무엇인가요?

* 데이터 분석 및 가공에 사용되는 파이썬 라이브러리

In [1]:
# 분석을 할때 pandas, numpy는 필수 
# pandas는 R를 사용할때랑 똑같이 사용할 수 있다.
import pandas as pd   

pd.__version__

'1.3.5'

In [2]:
# 위치가 다르면 절대경로로 설정해주면된다.
# 변수에 data_frame으로 담긴다. 
data_frame = pd.read_csv('data/friend_list.csv')   
data_frame  # 자동으로 index값을 부여해준다.   

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


## 데이터프레임 (Dataframe)

* 가로축과 세로축이 있는 엑셀과 유사한 데이터 구조
* 가로축은 row(행), 세로축은 column(열)
* 데이터베이스의 테이블 구조

In [3]:
# 데이터프레임이 가지고 있는 함수의 예제
data_frame.head(3)  # pandas에서는 head()메서드는 defualt : 5개이다

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


## 시리즈(Series)

* 데이터 프레임의 컬럼(열)은 모두 시리즈
* 단순히 파이썬 리스트를 간직한 오브젝트
* 리스트를 파라미터로 주면 바로 시리즈가 생성
* 데이터 가공 및 분석이 파이선 리스트보다 훨씬 쉽다

In [4]:
type(data_frame.job)  # python에서는 시리즈라는 자료형을 제공해주고있다
                      # pandas.core 패키지에 series모듈안에 Series라는 참조자료형

pandas.core.series.Series

In [5]:
# 시리지의 함수 예제
data_frame.job = data_frame.job.str.upper()  # str.upper() 대문자로 변환
data_frame.head()

Unnamed: 0,name,age,job
0,John,20,STUDENT
1,Jenny,30,DEVELOPER
2,Nate,30,TEACHER
3,Julia,40,DENTIST
4,Brian,45,MANAGER


In [6]:
# 시리즈로 형변환
s1 = pd.core.series.Series(['one','two','three'])
s2 = pd.core.series.Series([1, 2, 3])

pd.DataFrame(data=dict(word=s1, num= s2))

Unnamed: 0,word,num
0,one,1
1,two,2
2,three,3


In [7]:
data_frame = pd.read_csv('data/friend_list.csv')
print(data_frame)
data_frame

    name  age        job
0   John   20    student
1  Jenny   30  developer
2   Nate   30    teacher
3  Julia   40    dentist
4  Brian   45    manager
5  Chris   25     intern


Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [8]:
#구분자에 의해 컬럼이 구분되어 있는 데이터는 모두 지원
df = pd.read_csv('data/friend_list_tab.txt', delimiter='\t')  # delimiter 공백
df.head() 

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [9]:
df = pd.read_csv('data/friend_list_no_head.csv', header = None) 
df.head() 

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [10]:
# haader 이름 붙여주기
df.columns = ['name', 'age', 'job']
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [11]:
#데이터를 불러오면서 바로 이름 붙여주기
df = pd.read_csv('data/friend_list_no_head.csv', header = None, names = ['name', 'age', 'job']) 
df.head() 

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


# 데이터프레임을 파이썬 코드로 생성하기

In [44]:
friend_dict_list = [{'name':'jone','age': 20, 'job':'student'},
                    {'name':'jenny','age': 30, 'job':'developer'}, 
                    {'name':'Nate','age': 25, 'job':'teacher'}]

df = pd.DataFrame(friend_dict_list)
df.head() #데이터프레임으로 형변환 될때 head의 순서가 바귈수 있다.

Unnamed: 0,name,age,job
0,jone,20,student
1,jenny,30,developer
2,Nate,25,teacher


In [45]:
# 순서를 지정하는 법
# 저급방법 [[]]
df = df[['name', 'age', 'job']]  
df.head()

Unnamed: 0,name,age,job
0,jone,20,student
1,jenny,30,developer
2,Nate,25,teacher


### OrderedDict로 데이터프레임 생성하기
- OrderedDict 자료구조로 데이터프레임을 생성하면, 컬럼의 순서가 뒤바뀌지 않음.

In [14]:
from collections import OrderedDict

In [15]:
# 딕셔너리로 담아주고 있다.
# 딕셔너리를 순서대로 저장하기위해 OrderedDict를 제공해주고있다
friend_ordered_dict = OrderedDict([('name', ['john', 'jenny','Nate']),
                                  ('age', [20, 30, 25]),
                                  ('job', ['sutdent', 'developer', 'teacher'])])
#OrderedDict 자료를 DataFrame으로 변환 시키기 위해 from_dict를 사용한다.
df = pd.DataFrame.from_dict(friend_ordered_dict)
df.head()
#df.tail(2)

Unnamed: 0,name,age,job
0,john,20,sutdent
1,jenny,30,developer
2,Nate,25,teacher


### list로 데이터프레임 생성

In [16]:
friend_list = [['john', 20, 'student'],
              ['jenny', 30 , 'developer'],
              ['Nate', 25, 'teacher']]

column_name = ['name', 'age', 'job']
# list 자료를 DataFrame으로 변환 시키기 위해 from_records()를 사용한다.
df = pd.DataFrame.from_records(friend_list, columns=column_name)
df.head()


Unnamed: 0,name,age,job
0,john,20,student
1,jenny,30,developer
2,Nate,25,teacher


In [17]:
friend_dict = {'name': ['john', 'jenny','Nate'],
                'age': [20, 30, 25],
                'job': ['sutdent', 'developer', 'teacher']
                       }
df = pd.DataFrame.from_dict(friend_dict)
df.head()

Unnamed: 0,name,age,job
0,john,20,sutdent
1,jenny,30,developer
2,Nate,25,teacher


In [18]:
df.to_csv('data/friend_list_from_df.csv')

In [19]:
df.to_csv('data/friend_list_from_df.txt')

In [20]:
df.to_csv('data/friend_list_from_df_header_index.csv', header=False, index=False)

In [21]:
friend_dict = {'name': ['john', 'jenny','Nate'],
                'age': [20, None, 25],
                'job': ['sutdent', 'developer', 'teacher']
                       }
df = pd.DataFrame.from_dict(friend_dict)
df.head()

Unnamed: 0,name,age,job
0,john,20.0,sutdent
1,jenny,,developer
2,Nate,25.0,teacher


In [22]:
df.to_csv('data/friend_dict_from_df.csv')

In [23]:
df.to_csv('data/friend_dict_from_df_na_rep.csv', na_rep='-')
#na_rep 빈칸의 데이터를 만나면 '-'로 추가해준다.

##  데이터 접근 방법
* 인덱스로 row 선택하기

In [24]:
friend_dict = {'name': ['john', 'jenny','Nate'],
                'age': [20, 30, 25],
                'job': ['sutdent', 'developer', 'teacher']
                       }
df = pd.DataFrame.from_dict(friend_dict)
df.head()

Unnamed: 0,name,age,job
0,john,20,sutdent
1,jenny,30,developer
2,Nate,25,teacher


In [25]:
### DataFrame [:]슬라이싱으로 row를 선택할수 있다.
# 열은 컬럼의 이름으로 데이터를 접근할수있다.
# 연속적인 행이다.
df[0:2] 

Unnamed: 0,name,age,job
0,john,20,sutdent
1,jenny,30,developer


In [26]:
df[0,2] #DataFrame ,는 행렬로 오해를 할수 있어서 error가 난다.

KeyError: (0, 2)

In [27]:
# 순차적이지 않은 row를 선택(loc)
df.loc[0, 2]# error

KeyError: 2

In [28]:
# 순차적이지 않은 row를 선택
# 접근방법은 loc[[]] 대괄호 2개로 접근할수있다.
# 리스트자료형으로 접근해야 한다.
df.loc[[0,2]] 

Unnamed: 0,name,age,job
0,john,20,sutdent
2,Nate,25,teacher


### 컬럼값에 따른 row 선택하기
*마치 데이터베이스에 쿼리를 전달하듯, 특정한 컬럼값을 충족하는 row만 선택.

In [31]:
df.loc[[0:2]] #error loc는 슬라이싱 기능의 지원을 하지 않는다.

SyntaxError: invalid syntax (3512121679.py, line 1)

In [32]:
df_filtered = df[df.age > 25]  # 컬럼의 이름으로 조건을 걸어서 필터링할수있는 접근이 가능하다.
df_filtered

Unnamed: 0,name,age,job
1,jenny,30,developer


In [33]:
df_filtered = df.query('age > 25') # query라는 이름의 메서드도 제공해준다.
df_filtered

Unnamed: 0,name,age,job
1,jenny,30,developer


In [34]:
df_filtered = df[(df.age>=25) & (df.name=='Nate')]  # 비교연산과 논리연산의 조합해서 접근도 가능하다.
df_filtered

Unnamed: 0,name,age,job
2,Nate,25,teacher


# 컬럼 필터하기
## 인덱스로 필터하기

In [35]:
friend_list = [['john', 20, 'student'],
              ['jenny', 30, 'developer'],
              ['Nate', 25, 'teacher'],

              ]
df = pd.DataFrame.from_records(friend_list)
df

Unnamed: 0,0,1,2
0,john,20,student
1,jenny,30,developer
2,Nate,25,teacher


In [36]:
# 모든 row를 보여주되, 컬럼의 항목은 0 부터 1까지만 출력하라 한다면 
# 왼쪽은 행을 오른쪽은 열을 의미한다.
# 슬라이싱기능도 그대로 적용하고있다.
df.iloc[:,:2]

Unnamed: 0,0,1
0,john,20
1,jenny,30
2,Nate,25


In [37]:
# 모든 row를 보여주되, 컬럼은 0과 2만 출력/
df.iloc[:,[0,2]]

Unnamed: 0,0,2
0,john,student
1,jenny,developer
2,Nate,teacher


### 컬럼 이름으로 필터링하기

In [38]:
df = pd.read_csv('data/friend_list_no_head.csv', header=None, names=['name','age','job'])
# pd.read_table()  / default가 , 와 tab으로 구분
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [39]:
# 리스트자료형으로 지정해줘야한다. 
df_filtered = df[['name', 'age']]
df_filtered

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


In [40]:
# filter 라는메서드도 제공해주고있다.
df.filter(items=['age','job'])

Unnamed: 0,age,job
0,20,student
1,30,developer
2,30,teacher
3,40,dentist
4,45,manager
5,25,intern


In [41]:
df.filter(like='a', axis=1)

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


In [42]:
# 정규식
df.filter(regex='b$', axis=1)

Unnamed: 0,job
0,student
1,developer
2,teacher
3,dentist
4,manager
5,intern


# row 드롭하기
- row 인덱스로 row를 drop할 수 있습니다.

In [60]:
# 다양한 자료형으로 만들때는 가독성을 위해 줄바꿈
friend_dict_list = [{'age': 20, 'job': 'student'},
                    {'age': 30, 'job': 'develper'},
                    {'age': 25, 'job': 'teacher'}]

#  DataFrame 매개변수로 index로 식별자를 정의할 수있다.
df = pd.DataFrame(friend_dict_list, index= ['john','jenny','Nate'])
df.head()

Unnamed: 0,age,job
john,20,student
jenny,30,develper
Nate,25,teacher


In [61]:
# index내가 지정할때 특정데이터 삭제
# drop메서드 특정데이터 삭제
# 리스트의 형태로 대상을 지정해줘야한다.
# 메서드는 기능을 수행할때 반환할때가 있고 메서드안에 반영만 할때가있다.
# drop메서드는 해당하는 데이터를 빼고 반환해주고 그데이터에는 진짜로 삭제가 되어있지는 않다.
df.drop(['john','Nate']) # drop된 결과는 데이터프레임에 저장되지 않음.
                         # 저장하고 싶을 경우, 결과를 데이터프레임에 따로 저장해야됨.

Unnamed: 0,age,job
jenny,30,develper


In [62]:
df

Unnamed: 0,age,job
john,20,student
jenny,30,develper
Nate,25,teacher


In [63]:
# 데이터를 삭제할때 다시 변수에 저장해야 데이터가 업데이트되면서 삭제된다.
df = df.drop(['john','Nate'])
df

Unnamed: 0,age,job
jenny,30,develper


### drop된 결과를 바로 데이터프레임에 사용하는 방법
-inplace 키워드를 사용하면, 따로 저장할 필요없이 drop된 결과가 데이터프레임에됨.

In [57]:
# 다양한 자료형으로 만들때는 가독성을 위해 줄바꿈
friend_dict_list = [{'age': 20, 'job': 'student'},
                    {'age': 30, 'job': 'develper'},
                    {'age': 25, 'job': 'teacher'}]

#  DataFrame 매개변수로 index로 식별자를 정의할 수있다.
df = pd.DataFrame(friend_dict_list, index= ['john','jenny','Nate'])
df.head()


Unnamed: 0,age,job
john,20,student
jenny,30,develper
Nate,25,teacher


In [58]:
# inplace 매개변수를 사용하면 바로 데이터를 삭제할수있다.
df.drop(['john','Nate'], inplace=True)
df

Unnamed: 0,age,job
jenny,30,develper


In [64]:
friend_dict_list = [{'name':'jone','age': 20, 'job':'student'},
                    {'name':'jenny','age': 30, 'job':'developer'}, 
                    {'name':'Nate','age': 25, 'job':'teacher'}]

df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job
0,jone,20,student
1,jenny,30,developer
2,Nate,25,teacher


In [65]:
# row index로 drop하는 방법
# index로 drop할때는 .index매개변수로 지정한다.
# index도 리스트로 지정해줘야한다.
# 연산자로 통해서 접근하는 방법은 loc, iloc 인덱스로 접근할때 가장중요하다.
df = df.drop(df.index[[0, 2]])
df

Unnamed: 0,name,age,job
1,jenny,30,developer


## 컬럼값으로 row drop하기

In [66]:
friend_dict_list = [{'name':'jone','age': 20, 'job':'student'},
                    {'name':'jenny','age': 30, 'job':'developer'}, 
                    {'name':'Nate','age': 25, 'job':'teacher'}]

df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job
0,jone,20,student
1,jenny,30,developer
2,Nate,25,teacher


In [67]:
# 컬럼의 값을 이용해서 연산자와 함께 조건의 부합하는 데이터만을 취득한다.
df[df.age != 30]

Unnamed: 0,name,age,job
0,jone,20,student
2,Nate,25,teacher


In [71]:
# drop메서드는 defualt = 0 이다
# 다른메서드도 defulat값은 0이기때문에 컬럼값을 지정하고 싶을때는 axis = 1 로 설정해줘야한다.
df.drop('age', axis = 1) 

Unnamed: 0,name,job
0,jone,student
1,jenny,developer
2,Nate,teacher


# 컬럼 추가 또는 변경하기

In [72]:
df

Unnamed: 0,name,age,job
0,jone,20,student
1,jenny,30,developer
2,Nate,25,teacher


In [75]:
# 컬럼 추가 하는방법 
df['salary'] = 0
df

Unnamed: 0,name,age,job,salary
0,jone,20,student,0
1,jenny,30,developer,0
2,Nate,25,teacher,0


In [80]:
df = df.drop('salary', axis = 1)
df

KeyError: "['salary'] not found in axis"

In [82]:
df

Unnamed: 0,name,age,job
0,jone,20,student
1,jenny,30,developer
2,Nate,25,teacher


In [85]:
# 넘파이를 이용해서, 한줄에 새로운 컬럼값을 생성
import numpy as np

# np.where이용해서 추가해성
df['salary'] = np.where(df['job'] != 'student', 'yes', 'no')
df

Unnamed: 0,name,age,job,salary
0,jone,20,student,no
1,jenny,30,developer,yes
2,Nate,25,teacher,yes


In [102]:
friend_dict_list = [{'name':'John', 'midterm':95,'final':85},
                    {'name':'Jenny', 'midterm':85,'final':80},
                    {'name':'Nate', 'midterm':75,'final':95},
                    {'name':'Brian', 'midterm':55,'final':45}]

score_df = pd.DataFrame(friend_dict_list, columns = ['name','midterm','final'])
score_df

Unnamed: 0,name,midterm,final
0,John,95,85
1,Jenny,85,80
2,Nate,75,95
3,Brian,55,45


In [103]:
# 파생 변수 : 의미있는 값
#접근연산자를 이용해서 시리즈의 값을 가져온다.
score_df['total'] = score_df['midterm']+ score_df['final']
score_df

Unnamed: 0,name,midterm,final,total
0,John,95,85,180
1,Jenny,85,80,165
2,Nate,75,95,170
3,Brian,55,45,100


In [104]:
# 평균
score_df['average'] = score_df['total'] / 2
score_df

Unnamed: 0,name,midterm,final,total,average
0,John,95,85,180,90.0
1,Jenny,85,80,165,82.5
2,Nate,75,95,170,85.0
3,Brian,55,45,100,50.0


In [105]:
# 리스트에 조건별 값을 담아서, 새로운 컬럼으로 추가 시킬 수 있다.

# 자료형만 리스트로 초기화
grades = []

for row in score_df['average']:
    if row  >= 90:
        grades.append('A')
    elif row  >= 80:
        grades.append('B')
    elif row >=70:
        grades.append('C')
    elif row >=60:
        grades.append('D')
    else:
        grades.append('F')
        
        
score_df['grade'] = grades
score_df

Unnamed: 0,name,midterm,final,total,average,grade
0,John,95,85,180,90.0,A
1,Jenny,85,80,165,82.5,B
2,Nate,75,95,170,85.0,B
3,Brian,55,45,100,50.0,F


In [109]:
#score_df.drop('grades', axis = 1, inplace = True)

In [107]:
score_df

Unnamed: 0,name,midterm,final,total,average,grade
0,John,95,85,180,90.0,A
1,Jenny,85,80,165,82.5,B
2,Nate,75,95,170,85.0,B
3,Brian,55,45,100,50.0,F


### apply() 사용 예제
- 컬럼의 값을 변경하는 코드 구현.

In [108]:
# 값의 수정

def pass_or_fail(row):
    if row != 'F':
        return 'Pass'
    else:
        return 'fail'
    
    
# 컬럼이름으로 바로 접근이 가능하다.    
# 파이썬에서는 apply(pass_or_fail(함수)) 함수 호출하면 서 데이터값을 입력으로 하나하나씩 입력값을 넣어준다
# 데이터는 score_df.grade 데이터는 이미 작성해서 데이터 변수를 쓰지 않아도 된다 
# 그리고 여기서 grade는 자료형이 시리즈이기때문에 행렬기준이 필요가 없다 
score_df.grade = score_df.grade.apply(pass_or_fail)  
score_df

Unnamed: 0,name,midterm,final,total,average,grade
0,John,95,85,180,90.0,Pass
1,Jenny,85,80,165,82.5,Pass
2,Nate,75,95,170,85.0,Pass
3,Brian,55,45,100,50.0,fail


In [110]:
#연월일의 정보에서 연도만 추출하는 예제

date_list= [{'yyyy-mm-dd':'2000-06-27'},
            {'yyyy-mm-dd':'2002-09-45'},
            {'yyyy-mm-dd':'2005-12-20'}]

date_df = pd.DataFrame(date_list, columns= ['yyyy-mm-dd'])
date_df

Unnamed: 0,yyyy-mm-dd
0,2000-06-27
1,2002-09-45
2,2005-12-20


In [125]:

def extract_year(row):
    return row.split('-')[0]

def extract_month(row):
    return row.split('-')[1]

def extract_day(row):
    return row.split('-')[2]

In [126]:
date_df['year'] = date_df['yyyy-mm-dd'].apply(extract_year)
date_df['month'] = date_df['yyyy-mm-dd'].apply(extract_month)
date_df['day'] = date_df['yyyy-mm-dd'].apply(extract_day)
date_df

Unnamed: 0,yyyy-mm-dd,year,month,day
0,2000-06-27,2000,6,27
1,2002-09-45,2002,9,45
2,2005-12-20,2005,12,20


### apply()에 파라미터 전달하기 
- 키워드 파라미터를 사용하면 , apply가 적용된 함수에 파라미터를 전달할 수있다
- 키워드 파라미터의 추가는 제한이 없다. 

In [127]:
def extract_year_age(year, current_year):
    return current_year - int(year)

In [128]:
# apply는 메서드를 호출하면서 데이터르 전달하고 매개변수에 2022 같이 전달을 해준다.
date_df['age'] = date_df['year'].apply(extract_year_age, current_year = 2022)
date_df

Unnamed: 0,yyyy-mm-dd,year,month,day,age
0,2000-06-27,2000,6,27,22
1,2002-09-45,2002,9,45,20
2,2005-12-20,2005,12,20,17


In [130]:
def get_introduce(age,prefix, suffix):
    return prefix + str(age) + suffix

date_df['introduce'] = date_df['age'].apply(get_introduce, prefix= 'I am', suffix = 'years old.')
date_df

Unnamed: 0,yyyy-mm-dd,year,month,day,age,introduce
0,2000-06-27,2000,6,27,22,I am22years old.
1,2002-09-45,2002,9,45,20,I am20years old.
2,2005-12-20,2005,12,20,17,I am17years old.


In [131]:
# 여러개의 컬럼을 동시에 전달하기
# - axis = 1이라는 키워드 파라미터를 apply()의 매개변수로 전달 해주면 모든 컬럼을 지정된 함수에서 사용 가능하다.

def get_introduce2(row):
    return 'I was born in ' + str(row.year) + 'my age is ' + str(row.age)

# 데이터프레임을 함수에 전달해준다. 그럴때 axis = 1 로 해줘야 정상적으로 동작된다.
date_df.introduce = date_df.apply(get_introduce2, axis = 1)
date_df

Unnamed: 0,yyyy-mm-dd,year,month,day,age,introduce
0,2000-06-27,2000,6,27,22,I am22years old.
1,2002-09-45,2002,9,45,20,I am20years old.
2,2005-12-20,2005,12,20,17,I am17years old.


### map()로 컬럼 추가 및 변경

In [132]:
date_list= [{'yyyy-mm-dd':'2000-06-27'},
            {'yyyy-mm-dd':'2002-09-45'},
            {'yyyy-mm-dd':'2005-12-20'}]

date_df = pd.DataFrame(date_list, columns= ['yyyy-mm-dd'])
date_df

Unnamed: 0,yyyy-mm-dd
0,2000-06-27
1,2002-09-45
2,2005-12-20


In [133]:
# map도 apply와 똑같이 컬럼값을 추가하면서 항목으로 컬럼을 추가하거나 변경할수있다
date_df['year'] = date_df['yyyy-mm-dd'].map(extract_year) # map도 매개변수로 함수를 입력할수있다.
date_df

Unnamed: 0,yyyy-mm-dd,year
0,2000-06-27,2000
1,2002-09-45,2002
2,2005-12-20,2005


In [151]:
# 파라미터로 딕셔너리를 전달하면 컬럼값을 쉽게 원하는 값으로 변경 가능.
# 기존의 컬럼값은 딕셔너리의 key로 사용되고. 해당되는 value의 값으로 컬럼값이 변경.

job_list = [{'age':20, 'job':'student'},
            {'age':30, 'job':'developer'},
            {'age':35, 'job':'teacher'}]
df = pd.DataFrame(job_list)
df

Unnamed: 0,age,job
0,20,student
1,30,developer
2,35,teacher


In [154]:
# key값에는 담겨져있는 데이터를 value에는 내가 변경하고싶은 데이터를 넣어서 사용한다
df.job = df.job.map({'student':1, 'developer':2, 'teacher':3})
df

Unnamed: 0,age,job
0,20,1
1,30,2
2,35,3


### applymap() 메서드
- 데이터프레임 전체 각각의 값을 한 번에 변경시킬 때 사용 유용.

In [143]:
x_y = [{'x':5.5, 'y':-5.6},
       {'x':5.2, 'y':-5.5},
       {'x':-1.6, 'y':-4.5}]

df = pd.DataFrame(x_y)
df

Unnamed: 0,x,y
0,5.5,-5.6
1,5.2,-5.5
2,-1.6,-4.5


In [150]:
# np.around는 반올림해주는 함수
# 데이터가 수치형이야 한다.
df = df.applymap(np.around)
df 

Unnamed: 0,x,y
0,6.0,-6.0
1,5.0,-6.0
2,-2.0,-4.0


# 데이터프레임 row 추가하기

In [156]:
friend_dict_list = [{'name':'John', 'midterm':95,'final':85},
                    {'name':'Jenny', 'midterm':85,'final':80},
                    {'name':'Nate', 'midterm':75,'final':95},
                    {'name':'Brian', 'midterm':55,'final':45}]

score_df = pd.DataFrame(friend_dict_list, columns = ['name','midterm','final'])
score_df

Unnamed: 0,name,midterm,final
0,John,95,85
1,Jenny,85,80
2,Nate,75,95
3,Brian,55,45


In [157]:
# 데이터를 추가하기위해서 리스트형태로 담아준다.
# 두번째 매개변수인 columns = ['','',''] 안에 컬럼이름을 만들어진 데이터의 컬럼이름과 동일해야한다.
df2 = pd.DataFrame([['Ben', 50, 50]], columns = ['name','midterm','final'])
df2.head()

Unnamed: 0,name,midterm,final
0,Ben,50,50


In [160]:
# ignore_index= True 인덱스값을 무시하면서 데이터를 넣어주는 매개변수
score_df.append(df2, ignore_index= True)

Unnamed: 0,name,midterm,final
0,John,95,85
1,Jenny,85,80
2,Nate,75,95
3,Brian,55,45
4,Ben,50,50


### groupby() 함수
- 데이터에서 정보를 취하기 위해서 그룹별로 묶는 방법.

In [177]:
student_list = [{'name': 'John', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Nate', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Abraham', 'major': "Physics", 'sex': "male"},
                {'name': 'Brian', 'major': "Psychology", 'sex': "male"},
                {'name': 'Janny', 'major': "Economics", 'sex': "female"},
                {'name': 'Yuna', 'major': "Economics", 'sex': "female"},
                {'name': 'Jeniffer', 'major': "Computer Science", 'sex': "female"},
                {'name': 'Edward', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Zara', 'major': "Psychology", 'sex': "female"},
                {'name': 'Wendy', 'major': "Economics", 'sex': "female"},
                {'name': 'Sera', 'major': "Psychology", 'sex': "female"}]
# 데이터프레임으로 변환하는이유는 기능들이 데이터프레임으로 처리하게 만들어져있어서 
df = pd.DataFrame(student_list, columns = ['name', 'major', 'sex'] )
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


In [178]:
# 객체가 담겨져있는 변수일 경우 주소값을 반환해준다.
# 주소값이 담겨져있으면 객체라는것을 알수있다.
# 객체는 필드와 생성자로 구성되어진다.
groupby_major = df.groupby('major')
groupby_major

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001B81CDF8208>

In [179]:
groupby_major.groups

{'Computer Science': [0, 1, 6, 7], 'Economics': [4, 5, 9], 'Physics': [2], 'Psychology': [3, 8, 10]}

In [180]:
# 변수가 2개인 이유는 group에서 딕셔너리로 관리하고있어서 key, value로지정해줘야해서
# Computer Science:4 :옆에 4는 담겨져있는 데이터 갯수
# True가 되어져있는 값을 index를 보여주고 그때의 데이터를 가져온다.
for name, group in groupby_major:
    print(name + ":" + str(len(group)))
    print(group)
    print()

Computer Science:4
       name             major     sex
0      John  Computer Science    male
1      Nate  Computer Science    male
6  Jeniffer  Computer Science  female
7    Edward  Computer Science    male

Economics:3
    name      major     sex
4  Janny  Economics  female
5   Yuna  Economics  female
9  Wendy  Economics  female

Physics:1
      name    major   sex
2  Abraham  Physics  male

Psychology:3
     name       major     sex
3   Brian  Psychology    male
8    Zara  Psychology  female
10   Sera  Psychology  female



In [181]:
# 그룹 객체를 다시 데이터프레임으로 생성.

# 객체에서 제공해주는 size() 메서드
#DataFrame에서 제공해주는 reset_index() 메서드
df_major_cnt = pd.DataFrame({'count': groupby_major.size()}).reset_index()
df_major_cnt

Unnamed: 0,major,count
0,Computer Science,4
1,Economics,3
2,Physics,1
3,Psychology,3


In [182]:
groupby_sex = df.groupby('sex')
groupby_sex

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001B81C72EC48>

In [183]:
groupby_sex.groups

{'female': [4, 5, 6, 8, 9, 10], 'male': [0, 1, 2, 3, 7]}

In [184]:
for name, group in groupby_sex:
    print(name + ":" + str(len(group)))
    print(group)
    print()

female:6
        name             major     sex
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Sera        Psychology  female

male:5
      name             major   sex
0     John  Computer Science  male
1     Nate  Computer Science  male
2  Abraham           Physics  male
3    Brian        Psychology  male
7   Edward  Computer Science  male



In [185]:
df_sex_cnt = pd.DataFrame({'count': groupby_sex.size()}).reset_index()
df_sex_cnt

Unnamed: 0,sex,count
0,female,6
1,male,5


## 중복 데이터 drop하기

In [186]:
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


In [188]:
# 중복 데이터 삽입
df2 = pd.DataFrame([['Zara', 'Psychology', 'female']], columns = ['name','major','sex'])
df = df.append(df2, ignore_index=True)
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


In [189]:
# 중복된 데이터 확인하기
df.duplicated()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11     True
dtype: bool

In [190]:
# 중복데이터를 삭제
df = df.drop_duplicates()
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


In [194]:
student_list = [{'name': 'John', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Nate', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Abraham', 'major': "Physics", 'sex': "male"},
                {'name': 'Brian', 'major': "Psychology", 'sex': "male"},
                {'name': 'Janny', 'major': "Economics", 'sex': "female"},
                {'name': 'Yuna', 'major': "Economics", 'sex': "female"},
                {'name': 'Jeniffer', 'major': "Computer Science", 'sex': "female"},
                {'name': 'Edward', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Zara', 'major': "Psychology", 'sex': "female"},
                {'name': 'Wendy', 'major': None, 'sex': "female"},
                {'name': 'Sera', 'major': "Psychology", 'sex': None},
                {'name': 'John', 'major': "Computer Science", 'sex': None},
                {'name': 'Nate', 'major': None, 'sex': "male"}]
 
df = pd.DataFrame(student_list, columns = ['name', 'major', 'sex'] )
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,,female


In [195]:
# duplicated() 일부데이터가 동일하더라도 한개라도 다르거나 비어있으면 false로 결과를 return해준다
df.duplicated()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
dtype: bool

In [199]:
# name 컬럼이 똑같을 경우, 중복된 데이터라고 표시
# 특정 값을 컬럼 같을 지정할수있다
# 지정을해주면 그값의 대한 boolean값을 반환해준다.
# keep = False 중복되는 값들 모드 True로 반환해준다.
df.duplicated(['name'], keep = False)

0      True
1      True
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11     True
12     True
dtype: bool

In [198]:
# keep 값을 first 또는 last라고 값을 줘서 중복된 값 중 , 오느 값을 살릴지 결정.

df.drop_duplicates(['name'], keep = 'last')  # keep : defulat(first)

Unnamed: 0,name,major,sex
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,,female
10,Sera,Psychology,
11,John,Computer Science,


# None 처리하기(None 누락된 데이터)


In [227]:
# Null 또는 NaN 확인하기

friend_dict_list = [{'name':'jone','age': 20, 'job':'student'},
                    {'name':'jenny','age': 30, 'job':'developer'},
                    {'name':'Yuna','age': 20, 'job':'teacher'},
                    {'name':'Nate','age': None, 'job':'teacher'},
                    {'name':'Brian','age': 12, 'job':'teacher'}]

df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job
0,jone,20.0,student
1,jenny,30.0,developer
2,Yuna,20.0,teacher
3,Nate,,teacher
4,Brian,12.0,teacher


In [228]:
# 데이터프레임으로 관리할때 정수값으로 넣어준값을 데이터프레임에서는 실수로 관리한다.
# 출력결과에서 non-null은 None값을빼 데이터를 알려준다
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    5 non-null      object 
 1   age     4 non-null      float64
 2   job     5 non-null      object 
dtypes: float64(1), object(2)
memory usage: 248.0+ bytes


In [229]:
# 숫자형의 컬럼을 가져와서 현재 데이터프레임의 대한 정보를 확인할 수있다.
df.describe()

Unnamed: 0,age
count,4.0
mean,20.5
std,7.371115
min,12.0
25%,18.0
50%,20.0
75%,22.5
max,30.0


In [230]:
# 많지않은 데이터나 일부데이터만 빠르게 보고싶을때 쓰는 함수 
# 숫자형으로 저장되었을때 그값이 None일때 True
df.isna()

Unnamed: 0,name,age,job
0,False,False,False
1,False,False,False
2,False,False,False
3,False,True,False
4,False,False,False


In [231]:
# null의 값을 전부다 True보여진다.
df.isnull()

Unnamed: 0,name,age,job
0,False,False,False
1,False,False,False
2,False,False,False
3,False,True,False
4,False,False,False


## Null 또는 NaN 값 변경.

In [232]:
# 첫번째 방법
# Null을 0으로 설정 예제.

# na항목을 만나면 입력되어진값으로 넣어서 return해주는 함수
tmp = df
tmp['age'] = tmp['age'].fillna(0)
tmp

Unnamed: 0,name,age,job
0,jone,20.0,student
1,jenny,30.0,developer
2,Yuna,20.0,teacher
3,Nate,0.0,teacher
4,Brian,12.0,teacher


In [236]:
#두번째 방법
# 평균(중위수)을 계산해서 Null 값을 대체.

# transform 함수를 사용해서 평균이면 평균으로 중위수면 중위수로 지정만 해주면된다.
df['age'].fillna(df.groupby('job')['age'].transform('median'), inplace= True)
df

Unnamed: 0,name,age,job
0,jone,20.0,student
1,jenny,30.0,developer
2,Yuna,20.0,teacher
3,Nate,0.0,teacher
4,Brian,12.0,teacher


## unique
- 컬럼에 여러 값이 있을 때, 중복없이 어떤 값들이 있는지 확인하는 방법.

In [238]:
job_list = [{'name': 'John', 'job': "teacher"},
            {'name': 'Nate', 'job': "teacher"},
            {'name': 'Fred', 'job': "teacher"},
            {'name': 'Abraham', 'job': "student"},
            {'name': 'Brian', 'job': "student"},
            {'name': 'Janny', 'job': "developer"},
            {'name': 'Nate', 'job': "teacher"},
            {'name': 'Obrian', 'job': "dentist"},
            {'name': 'Yuna', 'job': "teacher"},
            {'name': 'Rob', 'job': "lawyer"},
            {'name': 'Brian', 'job': "student"},
            {'name': 'Matt', 'job': "student"},
            {'name': 'Wendy', 'job': "banker"},
            {'name': 'Edward', 'job': "teacher"},
            {'name': 'Ian', 'job': "teacher"},
            {'name': 'Chris', 'job': "banker"},
            {'name': 'Philip', 'job': "lawyer"},
            {'name': 'Janny', 'job': "basketball player"},
            {'name': 'Gwen', 'job': "teacher"},
            {'name': 'Jessy', 'job': "student"}]

df = pd.DataFrame(job_list, columns = ['name', 'job'])

In [245]:
# 컬럼(시리즈)의 uniqe() 메서드를 사용하여, 중복없이 컬럼에 있는 모든 값들을 출력.

print(df.job.unique())

['teacher' 'student' 'developer' 'dentist' 'lawyer' 'banker'
 'basketball player']


In [247]:
# 각 unique한 값 별로 몇 개의 데이터가 속하는지 value_counts() 함수로 확인

df.job.value_counts()

teacher              8
student              5
lawyer               2
banker               2
developer            1
dentist              1
basketball player    1
Name: job, dtype: int64

# 두개의 데이터프레임 합치기

In [249]:
l1 =[{'name': 'John', 'job': "teacher"},
      {'name': 'Nate', 'job': "teacher"},
      {'name': 'Fred', 'job': "teacher"}]

l2 =[{'name': 'Abraham', 'job': "student"},
      {'name': 'Brian', 'job': "student"},
      {'name': 'Janny', 'job': "developer"}]

df1 = pd.DataFrame(l1, columns = ['name','job'])
df2 = pd.DataFrame(l2, columns = ['name','job'])

In [251]:
# pd.concat() : 두번째 데이터프레임을 첫번째 데이프터프레임의 새로운 row(행) 합침.
frames = [df1, df2]
# concat() 2개의 데이터프레임합치는 메서드
result = pd.concat(frames, ignore_index=True)
result

Unnamed: 0,name,job
0,John,teacher
1,Nate,teacher
2,Fred,teacher
3,Abraham,student
4,Brian,student
5,Janny,developer


In [254]:
# df.append() : 두번째 데이터프레임을 첫번째 데이프터프레임의 새로운 row(행) 합침.

result = df1.append(df2, ignore_index= True)
result

Unnamed: 0,name,job
0,John,teacher
1,Nate,teacher
2,Fred,teacher
3,Abraham,student
4,Brian,student
5,Janny,developer


In [255]:
l1 = [{'name': 'John', 'job': "teacher"},
      {'name': 'Nate', 'job': "student"},
      {'name': 'Jack', 'job': "developer"}]

l2 = [{'age': 25, 'country': "U.S"},
      {'age': 30, 'country': "U.K"},
      {'age': 45, 'country': "Korea"}]

df1 = pd.DataFrame(l1, columns = ['name','job'])
df2 = pd.DataFrame(l2, columns = ['age','country'])



In [258]:
result = pd.concat([df1, df2], ignore_index = True, axis = 1)
result

Unnamed: 0,0,1,2,3
0,John,teacher,25,U.S
1,Nate,student,30,U.K
2,Jack,developer,45,Korea


### 두 개의 리스트를 묶어서 데이터프레임으로 생성

In [260]:
label = [1, 2, 3, 4, 5]
prediction = [1, 2, 2, 5, 5]


comparision = pd.DataFrame({'label': label,
                            'prediction': prediction
                           })

comparision

Unnamed: 0,label,prediction
0,1,1
1,2,2
2,3,2
3,4,5
4,5,5
