In [7]:
# 17, Jan, 2024
# 3.0 소개

import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe.head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


In [11]:
# 3.1 데이터프레임 만들기

# 방법1: DataFrame 클래스를 사용해 비어 있는 데이터프레임을 만든 후 개별적으로 각 열 정의

import pandas as pd

dataframe = pd.DataFrame()

dataframe['Name'] = ['Jacky Jackson', 'Steven Stevenson']
dataframe['Age'] = [38, 25]
dataframe['Driver'] = [True, False]


dataframe


# 방법 2: 데이터프레임 객체를 만든 후 새로운 행을 아래에 추가

new_person = pd.Series(['Molly Mooney', 40, True],
             index=['Name', 'Age', 'Driver'])

dataframe.append(new_person, ignore_index=True)

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False
2,Molly Mooney,40,True


In [16]:
# 데이터프레임 객체를 만들 때ㅐ 데이터를 전달하는 방법이 몇 가지 있습니다. 먼저 넘파이 배열을 주입하여 만들 수 있습니다. 
# 열 이름은 columns 매개변수에 지정합니다.

import numpy as np

data = [ ['Jacky Jackson', 38, True], ['Steve Stevenson', 25, False] ]

matrix = np.array(data)
pd.DataFrame(matrix, columns = ['Name', 'Age', 'Driver'])


# 원본 리스트를 전달하여 만들 수도 있습니다.
pd.DataFrame(data, columns= ['Name', 'Age', 'Driver'])



# 열 이름과 데이터를 매핑한 딕셔너리를 사용해 데이터프레임을 만들 수 있습니다.
data = {'Name': ['Jacky Jackson', 'Steve Stevenson'],
        'Age': [38, 25],
        'Driver': [True, False]}
pd.DataFrame(data)



# 또는 샘플마다 열과 값을 매핑한 딕셔너리를 리스트로 전달할 수 있습니다. index 매개변수에 인덱스를 따로 지정할 수도 있습니다.
data = [ {'Name': 'Jacky Jackson', 'Age': 38, 'Driver': True},
         {'Name': 'Steve Stevenson', 'Age': 25, 'Driver': False} ]
pd.DataFrame(data, index=['row1', 'row2'])

Unnamed: 0,Name,Age,Driver
row1,Jacky Jackson,38,True
row2,Steve Stevenson,25,False


In [19]:
# 3.2 데이터 설명하기
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe.head(2)

dataframe.shape

dataframe.describe()

Unnamed: 0,Age,Survived,SexCode
count,756.0,1313.0,1313.0
mean,30.397989,0.342727,0.351866
std,14.259049,0.474802,0.477734
min,0.17,0.0,0.0
25%,21.0,0.0,0.0
50%,28.0,0.0,0.0
75%,39.0,1.0,1.0
max,71.0,1.0,1.0


In [28]:
# 3.3 데이터프레임 탐색하기

import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

dataframe = pd.read_csv(url)

## 첫 번째 행 선택
dataframe.iloc[0]

# 콜론(:)을 사용하여 원하는 행의 슬라이스를 선택할 수 있습니다. 예를 들어 두 번째, 세 번째, 네 번째 행을 선택합니다.
dataframe.iloc[1:4]

## 네 개의 행 선택
dataframe.iloc[:4]

# 데이터프레임은 정수 인덱스를 가질 필요가 없습니다. 각 행이 고유해진다면 어떤 값이라도 데이터프레임의 인덱스로 설정할 수 있습니다.
# 예를 들어 승객 이름을 인덱스로 설정하고 이름을 사용하여 행을 선택할 수 있습니다.

## 인덱스 설정
dataframe = dataframe.set_index(dataframe['Name'])

## 행 확인
dataframe.loc['Allen, Miss Elisabeth Walton']


# loc는 데이터프레임의 인덱스가 레이블 (예를 들어 문자열) 일 때 사용합니다.

# iloc는 데이터프레임의 위치를 참조합니다. 예를 들어 iloc[0]는 정수 혹은 문자열 인덱스에 상관없이 첫 번째 행을 반환합니다.

# loc와 iloc 메서드의 슬라이싱은 넘파이와 달리 마지막 인덱스를 포함합니다. 슬라이싱을 사용해 열을 선택할 수도 있습니다.

## 'Allison, Miss Helen Loraine' 이전까지 행에서 Age 열과 Sex 열만 선택
dataframe.loc[:'Allison, Miss Helen Loraine', 'Age':'Sex']


# 데이터프레임 객체에 슬라이싱을 사용하면 행을 선택합니다. 이때는 마지막 인덱스를 포함하지 않습니다.
# 인데깅을 사용하면 열을 선택하며 여러 개의 열 이름을 리스트로 전달할 수도 있습니다.

## dataframe[:2] 와 동일
dataframe[:'Allison, Miss Helen Loraine']

dataframe[['Age', 'Sex']].head(2)

Unnamed: 0_level_0,Age,Sex
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
"Allen, Miss Elisabeth Walton",29.0,female
"Allison, Miss Helen Loraine",2.0,female


In [3]:
# 18, Jan, 2024
# 3.4 조건에 따라 행 선택하기

import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe[dataframe['Sex'] == 'female'].head(2) 

dataframe[(dataframe['Sex'] == 'female') & (dataframe['Age'] >= 65)]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
73,"Crosby, Mrs Edward Gifford (Catherine Elizabet...",1st,69.0,female,1,1


In [9]:
# 3.5 값 치환하기

## 값을 치환하고 두 개의 행을 출력
dataframe['Sex'].replace("female", "Woman").head(2)

## female과 male을 Woman과 Man으로 치환
dataframe['Sex'].replace(["female", "male"], ["Woman", "Man"]).head()


# 하나의 열이 아니라 데이터프레임의 replace 메서드를 사용하여 전체 DataFrame 객체에서 값을 찾아 바꿀 수도 있습니다.
dataframe.replace(1, "One").head(2)

# replace 메서드는 정규 표현식(regular experssion)도 인식합니다.
dataframe.replace(r"1st", "First", regex=True).head(2)

## female과 male을 person으로 바꿉니다.
dataframe.replace(["female", "male"], "person").head(3)

# 딕셔너리로 바꿀 값을 각각 매핑하여 전달할 수도 있습니다.
## female을 1로 바꾸고 male을 0으로 바꿉니다.
dataframe.replace({"female":1, "male":0}).head(3)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,1,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,1,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,0,0,0


In [17]:
# 3.6 열 이름 바꾸기

dataframe.rename(columns={'PClass': 'Passenger Class'}).head(2)


# rename 메서드의 딕셔너리 매개변수에 바꾸려는 열을 동시에 여러 개 지정할 수 있습니다.
dataframe.rename(columns={'PClass': 'Passenger Class', 'Sex': 'Gender'}).head(2)


# 여러 개의 열 이름을 바꿀 수 있기 때문에 rename 메서드의 columns 매개변수에 딕셔너리를 전달하는 방식을 좋아합니다.
# 전체 열의 이름을 동시에 바꾸려면 다음 코드처럼 키는 이전 열 이름을 사용하고 값은 비어있는 딕셔너리를 만드는 것이 편리합니다.

import collections

## 딕셔너리를 만듭니다.
column_names = collections.defaultdict(str)

## 키를 만듭니다.
for name in dataframe.columns:
    column_names[name]
    
## 딕셔너리를 출력합니다.
column_names


# index 매개변수를 사용하여 인덱스를 바꿀 수 있습니다.
## 인덱스 0을 -1로 바꿉니다.
dataframe.rename(index={0:-1}).head(2)


# 변환 함수를 전달하고 axis 매개변수에 'columns' 또는 'index'를 지정할 수 있습니다.
## 열 이름을 소문자로 바꿉니다.
dataframe.rename(str.lower, axis='columns').head(2)

Unnamed: 0,name,pclass,age,sex,survived,sexcode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


## 3.7 최솟값, 최댓값, 합, 평균 계산 및 개수 세기

In [18]:
print('최댓값:', dataframe['Age'].max())
print('최솟값:', dataframe['Age'].min())
print('평균:', dataframe['Age'].mean())
print('합:', dataframe['Age'].sum())
print('카운트:', dataframe['Age'].count())

최댓값: 71.0
최솟값: 0.17
평균: 30.397989417989415
합: 22980.88
카운트: 756


In [22]:
dataframe.count()

Name        1313
PClass      1313
Age          756
Sex         1313
Survived    1313
SexCode     1313
dtype: int64

In [20]:
## 수치형 열의 공분산 계산
dataframe.cov()

Unnamed: 0,Age,Survived,SexCode
Age,203.32047,-0.430491,-0.382054
Survived,-0.430491,0.225437,0.11407
SexCode,-0.382054,0.11407,0.22823


In [21]:
## 수치형 열의 상관계수 계산
dataframe.corr()

Unnamed: 0,Age,Survived,SexCode
Age,1.0,-0.061254,-0.055138
Survived,-0.061254,1.0,0.502891
SexCode,-0.055138,0.502891,1.0


## 3.8 고유한 값 찾기

In [23]:
dataframe['Sex'].unique()

array(['female', 'male'], dtype=object)

In [24]:
# value_counts 메서드는 고유한 값과 등장 횟수를 출력합니다.
## 카운트 출력
dataframe['Sex'].value_counts()

male      851
female    462
Name: Sex, dtype: int64

In [25]:
# unique와 value_counts는 범주형 열을 탐색하거나 조작할 때 유용합니다. 범주형 열에는 데이터 랭글링 단계에서 처리해주어야 할 클래스가
# 종종 있습니다. 예를 들어 타이타닉 데이터셋의 PClass 열은 승객 티켓의 등급을 나타냅니다. 타이타닉에는 세 개의 등급이 있지만 
# value_counts의 값을 확인해보면 문제가 나타납니다.

## 카운트 출력
dataframe['PClass'].value_counts()

3rd    711
1st    322
2nd    279
*        1
Name: PClass, dtype: int64

In [26]:
# 고유한 값의 개수만 얻고 싶다면 nunique 메서드를 사용합니다.
dataframe['PClass'].nunique()

4

In [27]:
# nunique 메서드는 데이터프레임 전체에 적용할 수 있습니다.
dataframe.nunique()

Name        1310
PClass         4
Age           75
Sex            2
Survived       2
SexCode        2
dtype: int64

In [None]:
# value_counts 메서드와 nunique 메서드는 NaN을 카운트할지 여부를 결정하는 dropna 매개변수가 있습니다.
# 기본값은 True로 NaN을 카운트하지 않습니다.

## 3.9 누락된 값 다루기

In [28]:
dataframe[dataframe['Age'].isnull()].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0


In [29]:
# 판다스는 넘파이의 NaN을 사용하여 누락된 값을 표시합니다. 중요한 점은 판다스 자체적으로 NaN을 구현하지 않았다는 것입니다.
# 예를 들어 male이란 문자열을 NaN으로 바꾸려고 하면 에러가 발생합니다.

dataframe['Sex'] = dataframe['Sex'].replace('male', NaN)

NameError: name 'NaN' is not defined

In [30]:
# NaN을 사용하려면 넘파이 라이브러리를 임포트해야 합니다.

import numpy as np

dataframe['Sex'] = dataframe['Sex'].replace('male', np.nan)

In [31]:
# 종종 데이터셋에 누락된 값을 표시하기 위해 특정 값을 사용하는 경우가 있습니다. 예를 들면 NONE, -999, .(마침표) 등입니다.
# 판다스의 read_csv 함수에는 누락 표시에 사용한 값을 지정할 수 있는 매개변수가 있습니다.

dataframe = pd.read_csv(url, na_values=[np.nan, 'NONE', -999])

In [32]:
# keep_default_na 매개변수를 False로 지정하면 'N/A' 문자열들을 NaN으로 인식하지 않습니다.
# 다음 코드는 'female' 문자열만 NaN으로 인식합니다.

dataframe = pd.read_csv(url, na_values=['female'],
                        keep_default_na=False)
dataframe[12:14]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0


In [33]:
# na_filter를 False로 설정하면 NaN 변환을 하지 않습니다.

dataframe = pd.read_csv(url, na_filter=False)
dataframe[12:14]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0
