In [3]:
import pandas as pd
import seaborn as sns

print(pd.__version__)
print(sns.__version__)

2.2.2
0.13.2


In [4]:
iris = sns.load_dataset("iris")
#seaborn의 데이터 셋 중 iris라는 데이터 셋 불러오기

iris.head(4)
# iris 데이터셋의 첫 4개 행 출력

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa


In [5]:
iris.tail(3)
# iris 데이터셋의 마지막 3개 행 출력

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


In [6]:
iris.shape 
# iris.shape는 Pandas 데이터프레임의 형태(즉, 행과 열의 수)를 나타냅니다. 
# 이 속성을 사용하면 데이터프레임이 몇 개의 행과 몇 개의 열로 구성되어 있는지를 알 수 있습니다.

# 150: 데이터프레임의 행(row) 수. 즉, Iris 데이터셋에는 150개의 샘플이 있습니다.
# 5: 데이터프레임의 열(column) 수. 각 샘플은 5개의 특성(속성)으로 구성되어 있습니다.

# iris.shape는 데이터프레임의 행과 열의 수를 튜플 형태로 반환하는 속성입니다. 
# 이를 통해 데이터셋의 크기와 구조를 쉽게 파악할 수 있습니다.


# 인덱스는 행-1

(150, 5)

In [7]:
iris.info() 

# iris.info()는 Pandas 데이터프레임의 기본 정보를 요약하여 제공하는 메서드입니다. 
# 이를 통해 데이터프레임의 구조, 데이터 타입, 결측값 여부 등을 확인할 수 있습니다.

# <class 'pandas.core.frame.DataFrame'>는 iris 객체가 
# Pandas 데이터프레임 클래스의 인스턴스임을 나타냅니다.

# RangeIndex: 150 entries, 0 to 149는 
# 데이터프레임이 0에서 149까지의 인덱스를 가진 150개의 행을 포함하고 있음을 나타냅니다.

# Data columns (total 5 columns):는 데이터프레임이 총 5개의 열로 구성되어 있음을 나타냅니다.
# 각 열의 상세 정보가 제공됩니다
# : 열 번호: /열 번호 열 이름 / Column 열 이름 비결측값 개수 / 데이터 타입: Dtype 각 열의 데이터 타입

# 결측값(missing value)이란 데이터셋에서 특정 값이 누락된 경우를 의미합니다. 
# 이는 데이터 분석과 모델링 과정에서 중요한 문제로, 
# 결측값이 제대로 처리되지 않으면 분석 결과의 신뢰성을 저하시킬 수 있습니다.

#여기서 object는 알 수 없는 데이터 타입이라는 의미로 해석하면 됨
#따라서 타입 함수로 확인 후 확인 한 데이터 타입에 대해 공식문서를 찾아봐야 함

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [8]:
iris.describe()

# 데이터프레임의 요약 통계를 제공하는 기능
# 기본적으로 수치형 데이터에 대해 요약 통계를 계산

# count: 각 열의 값의 개수 (결측값을 제외한).
# mean: 각 열의 평균값.
# std: 각 열의 표준편차 (standard deviation).
# min: 각 열의 최소값.
# 25%: 각 열의 25번째 백분위수 값 (Q1, 1사분위수).
# 50%: 각 열의 50번째 백분위수 값 (Q2, 중위수).
# 75%: 각 열의 75번째 백분위수 값 (Q3, 3사분위수).
# max: 각 열의 최대값.

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [9]:
iris['sepal_length'].value_counts()
 
# iris 데이터프레임의 'sepal_length' 열에서 각 고유 값이 나타나는 빈도(횟수)를 계산하여 반환
# 'sepal_length' 열의 각 값의 빈도 계산

sepal_length
5.0    10
5.1     9
6.3     9
5.7     8
6.7     8
5.8     7
5.5     7
6.4     7
4.9     6
5.4     6
6.1     6
6.0     6
5.6     6
4.8     5
6.5     5
6.2     4
7.7     4
6.9     4
4.6     4
5.2     4
5.9     3
4.4     3
7.2     3
6.8     3
6.6     2
4.7     2
7.6     1
7.4     1
7.3     1
7.0     1
7.1     1
5.3     1
4.3     1
4.5     1
7.9     1
Name: count, dtype: int64

In [10]:
iris['species'].value_counts()

species
setosa        50
versicolor    50
virginica     50
Name: count, dtype: int64

In [11]:
#데이터 타입 찾기
type(iris['species'].value_counts())

# pandas.core.series.Series 타입을 공식문서에서 확인 
# https://pandas.pydata.org/docs/reference/api/pandas.Series.html

pandas.core.series.Series

In [12]:
iris['species'].value_counts().index

# value_counts(): iris['species'] 열의 고유 값들의 빈도를 계산하여 
# 내림차순으로 정렬된 Series 객체를 반환합니다.

# .index: value_counts()로 계산된 Series 객체의 인덱스를 반환합니다. 
# 이 인덱스는 각 고유 값(종의 이름)을 나타냅니다.



Index(['setosa', 'versicolor', 'virginica'], dtype='object', name='species')

In [13]:
iris['species'].value_counts().memory_usage()

# iris 데이터프레임의 'species' 열에서 고유 값들의 빈도를 계산한 Series 객체가 사용하는 메모리 양을 반환합니다. 
# 이를 통해 데이터가 메모리에 얼마나 많은 공간을 차지하는지 확인할 수 있습니다.

48

In [14]:
#열 삭제 예시

df_drop = iris.drop('species', axis=1)

# iris 데이터프레임에서 'species' 열을 제거하는 코드. 
# 이 코드를 통해 새로운 데이터프레임 df_drop이 생성

df_drop.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


In [15]:
#열 삭제 예시
df_drop2 = iris.drop(['sepal_length', 'sepal_width'], axis=1)

# iris 데이터프레임에서 'sepal_length', 'sepal_width' 열을 제거하는 코드. 
# 이 코드를 통해 새로운 데이터프레임 df_drop2가 생성

df_drop2.head(5)

Unnamed: 0,petal_length,petal_width,species
0,1.4,0.2,setosa
1,1.4,0.2,setosa
2,1.3,0.2,setosa
3,1.5,0.2,setosa
4,1.4,0.2,setosa


In [16]:
iris.shape, df_drop.shape, df_drop2.shape

((150, 5), (150, 4), (150, 3))

In [17]:
# 행 삭제 예시
df_drop3 = iris.drop([0,1,2], axis = 0)
df_drop3.head(1)

# drop 메서드:
# Pandas 데이터프레임에서 특정 열이나 행을 제거하는 데 사용됩니다.

# axis 파라미터:
# axis=0: 행을 기준으로 동작합니다.
# axis=1: 열을 기준으로 동작합니다.

# 사용 예시:
# iris.drop([0, 1, 2], axis=0)는 인덱스 0, 1, 2에 해당하는 행이 제거된 
# 새로운 데이터프레임을 반환합니다.

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
3,4.6,3.1,1.5,0.2,setosa


In [18]:
#여기서 포인트 
df_drop3 = iris.drop([0, 1, 2], axis = 0).reset_index(drop=True)
df_drop3.head(5)


# drop=True 옵션과 함께 reset_index()를 호출하여, 기존 인덱스를 삭제하고 새로운 연속적인 인덱스를 생성합니다.
# 왜냐하면 0,1,2 인덱스 행을 지웠기 때문에 인덱스가 3부터 시작해버리는 것으로 나타나기 때문
# 즉, 삭제 후 남은 데이터프레임의 인덱스를 0부터 시작하는 새로운 인덱스로 재설정합니다.

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,4.6,3.1,1.5,0.2,setosa
1,5.0,3.6,1.4,0.2,setosa
2,5.4,3.9,1.7,0.4,setosa
3,4.6,3.4,1.4,0.3,setosa
4,5.0,3.4,1.5,0.2,setosa


In [19]:
iris.shape, df_drop.shape, df_drop2.shape, df_drop3.shape

((150, 5), (150, 4), (150, 3), (147, 5))

# 파일 입출력

In [20]:
iris.to_csv('./test_data/iris.csv', index = False)

In [21]:
#파일 내보내기

iris.to_csv('iris.csv')
iris.to_csv('iris2.csv', index = False) #인덱스가 없는 상태로 변환

In [22]:
# 파일 불러오기

iris_df = pd.read_csv("./test_data/iris.csv")
iris_df.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [23]:
DATA_PATH = "kaggle_data/train.csv" #Copy Path

train = pd.read_csv(DATA_PATH)
train.head(1)

# 아래도 같은 방법

Unnamed: 0,id,Gender,Age,Driving_License,Region_Code,Previously_Insured,Vehicle_Age,Vehicle_Damage,Annual_Premium,Policy_Sales_Channel,Vintage,Response
0,0,Male,21,1,35.0,0,1-2 Year,Yes,65101.0,124.0,187,0


In [24]:
DATA_PATH = "kaggle_data/"

train = pd.read_csv(DATA_PATH + "train.csv")
train.head(5)

Unnamed: 0,id,Gender,Age,Driving_License,Region_Code,Previously_Insured,Vehicle_Age,Vehicle_Damage,Annual_Premium,Policy_Sales_Channel,Vintage,Response
0,0,Male,21,1,35.0,0,1-2 Year,Yes,65101.0,124.0,187,0
1,1,Male,43,1,28.0,0,> 2 Years,Yes,58911.0,26.0,288,1
2,2,Female,25,1,14.0,1,< 1 Year,No,38043.0,152.0,254,0
3,3,Female,35,1,1.0,0,1-2 Year,Yes,2630.0,156.0,76,0
4,4,Female,36,1,15.0,1,1-2 Year,No,31951.0,152.0,294,0


In [25]:
submission = pd.read_csv(DATA_PATH + 'sample_submission.csv')
submission.head(5)

Unnamed: 0,id,Response
0,11504798,0.5
1,11504799,0.5
2,11504800,0.5
3,11504801,0.5
4,11504802,0.5


# iloc vs loc 차이
* 강사 왈: 일단 loc만 기억하자(이유: 직관적임)

In [26]:
#.los[행, 열]

iris.loc[:, ['sepal_length', 'species']]

Unnamed: 0,sepal_length,species
0,5.1,setosa
1,4.9,setosa
2,4.7,setosa
3,4.6,setosa
4,5.0,setosa
...,...,...
145,6.7,virginica
146,6.3,virginica
147,6.5,virginica
148,6.2,virginica


In [27]:
#.los[행, 열]
iris.loc[:, ['sepal_length', 'species']].head(5)

Unnamed: 0,sepal_length,species
0,5.1,setosa
1,4.9,setosa
2,4.7,setosa
3,4.6,setosa
4,5.0,setosa


In [28]:
#.los[행, 열]
# 위 코드와 같은 코드
cols = ['sepal_length', 'species']

iris.loc[:, cols].head(5)

Unnamed: 0,sepal_length,species
0,5.1,setosa
1,4.9,setosa
2,4.7,setosa
3,4.6,setosa
4,5.0,setosa


In [29]:
#.los[행, 열]
iris.loc[iris['sepal_length'] >= 7.5, cols]

# 위 조건식이 True인 경우의 행만 추출 

Unnamed: 0,sepal_length,species
105,7.6,virginica
117,7.7,virginica
118,7.7,virginica
122,7.7,virginica
131,7.9,virginica
135,7.7,virginica


In [30]:
# petal 1.7 이상인 값 조회 
# 필드명 sepal width / petal length만 추출
#.los[행, 열]

iris.loc[iris['petal_length'] >= 1.7 , ['sepal_length', 'petal_length']]


Unnamed: 0,sepal_length,petal_length
5,5.4,1.7
18,5.7,1.7
20,5.4,1.7
23,5.1,1.7
24,4.8,1.9
...,...,...
145,6.7,5.2
146,6.3,5.0
147,6.5,5.2
148,6.2,5.4


In [31]:
#.los[행, 열]
cols = ['sepal_length', 'petal_length']

iris.loc[iris['petal_length'] >= 1.7 , cols].reset_index(drop=True)

Unnamed: 0,sepal_length,petal_length
0,5.4,1.7
1,5.7,1.7
2,5.4,1.7
3,5.1,1.7
4,4.8,1.9
...,...,...
101,6.7,5.2
102,6.3,5.0
103,6.5,5.2
104,6.2,5.4


# 다중조건

* AND 연산자 = & (교집합)
* OR 연산자 = | (합집합)

In [32]:
result1 = iris.loc[iris['species'] == 'setosa']
result2 = result1.loc[result1['sepal_length'] <= 5.1]
result2.shape # (조건을 만족하는 행의 수, 선택된 열의 수)

(36, 5)

In [33]:
cols = ['sepal_width', 'petal_length']
result = iris.loc[(iris['species'] == 'setosa') & (iris['sepal_length'] <= 5.1), cols].reset_index(drop=True)
result.shape # (조건을 만족하는 행의 수, 선택된 열의 수)

(36, 2)

In [34]:
### 테스트 1. Gender가 Male인 것만 조회한 전체 행의 갯수

train.loc[:,:].head(6)
train.loc[train['Gender'] == 'Male'].shape

(6228134, 12)

In [35]:
type(train.loc[train['Gender'] == 'Male'].shape)
# 자료형이 데이터 프레임에서 tuple로 넘어감

tuple

In [36]:
type(train.loc[train['Gender'] == 'Male'].shape[0])
# 자료형이 tuple에서 int로 넘어감

int

In [37]:
### 테스트 2. Vehicle_Age가 1-2 year과 < 1 year만 추출
# isin() 연산자 활용

train.loc[:,:].head(5)

Unnamed: 0,id,Gender,Age,Driving_License,Region_Code,Previously_Insured,Vehicle_Age,Vehicle_Damage,Annual_Premium,Policy_Sales_Channel,Vintage,Response
0,0,Male,21,1,35.0,0,1-2 Year,Yes,65101.0,124.0,187,0
1,1,Male,43,1,28.0,0,> 2 Years,Yes,58911.0,26.0,288,1
2,2,Female,25,1,14.0,1,< 1 Year,No,38043.0,152.0,254,0
3,3,Female,35,1,1.0,0,1-2 Year,Yes,2630.0,156.0,76,0
4,4,Female,36,1,15.0,1,1-2 Year,No,31951.0,152.0,294,0


In [38]:
train['Vehicle_Age'].value_counts()

Vehicle_Age
1-2 Year     5982678
< 1 Year     5044145
> 2 Years     477975
Name: count, dtype: int64

In [39]:
train.loc[(train['Vehicle_Age'] == '1-2 Year') | (train['Vehicle_Age'] == '< 1 Year'), :].shape

(11026823, 12)

In [40]:
Vehicle_Age_Values = ['1-2 Year', '< 1 Year']
train.loc[train['Vehicle_Age'].isin(Vehicle_Age_Values), :].shape

(11026823, 12)