 # pandas의 핵심 자료구조
 ## https://pandas.pydata.org/docs/user_guide/10min.html

In [267]:
# 테이블 형태(행과 열로 이루어진 데이터 객체)의 데이터 구조와 객체를 편리하게 다루기 위한 패키지
# Pandas 자료구조
# Series: 1차원 벡터 형식
# DataFrame: 2차원 행렬 형식

# # 데이터 입출력¶
# Pandas는 데이터 파일을 읽어 데이터프레임을 만들 수 있다. 아래의 여러가지 포맷을 지원한다.

# CSV : CSV(Comma Separated Value) 포맷 , CSV 파일 포맷은 데이터 값이 쉽표(comma)로 구분되는 텍스트 파일
# Excel
#HTML
# XML , JSON
# HDF5
# SAS
# STATA
# SQL

# Series와 DataFrame

In [268]:
# Pandas 자료구조

# Series: 1차원 벡터 형식 , 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다.
# DataFrame: 2차원 행렬 형식  행(row)과 열(column)로 구성
# 행(row) : 가로줄 ,  열(column) : 세로줄
# Panel: 3차원 배열 형식


## Series 

### 시리즈 이해 

In [269]:
# Series :  1차원 형태의 자료구조
# 파이썬의 리스트와 비슷하고 , 딕셔너리와 유사한 자료구조
# Series모든 데이터 유형(정수, 문자열, 부동 소수점 숫자, Python 객체 등)을 보유할 수 있는 1차원 레이블 배열
# Series형태의 자료구조는 기본적으로 index와 value 가 존재하기 때문에 일반적으로 생각하는 시계열 형태와 일치 

### 시리즈 생성하기 

In [1]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd

# 판다스로 시리즈 만들기
# 시리즈 인덱스를 따로 지정하지 않으면 0부터 시작한다. 
# 인덱스를 따로 지정하려면 index 인자에 리스트를 전달하면 된다. 
# columns 인자를 사용하면 데이터프레임의 열 순서를 지정할 수 있다.
# 데이터생성하기
income_list = pd.Series([45652, 26392, 46405],
              index=["남성","남성","여성"])
income_list

남성    45652
남성    26392
여성    46405
dtype: int64

### 시리즈 구성 확인하기 

In [2]:
# 판다스 패키지의 시리즈 클래스는 dictionary와 비슷한 구조로 index와 values로 구성

In [3]:
# index 확인
print(income_list.index)

Index(['남성', '남성', '여성'], dtype='object')


In [4]:
# value 확인
print(income_list.values)

[45652 26392 46405]


### 시리즈 이름 지정 

In [5]:
# 인덱스 이름 지정
# pd.Series()함수의 옵션으로 index명을 지정

income_list.index.name = "성별","소득"
income_list

(성별, 소득)
남성    45652
남성    26392
여성    46405
dtype: int64

### Series를  DataFrame으로 변환 가능 

In [6]:
income_list.to_frame()

Unnamed: 0_level_0,0
"(성별, 소득)",Unnamed: 1_level_1
남성,45652
남성,26392
여성,46405


In [7]:
df = pd.DataFrame(income_list)
df

Unnamed: 0_level_0,0
"(성별, 소득)",Unnamed: 1_level_1
남성,45652
남성,26392
여성,46405


In [8]:
## 시리즈 만들기
from pandas import Series, DataFrame
import pandas as pd
## series
fruit = Series([2500,3800,1200,6000],index=['apple','banana','peer','cherry'])
print(fruit)

apple     2500
banana    3800
peer      1200
cherry    6000
dtype: int64


In [9]:
from pandas import Series, DataFrame
# 시리즈생성
abc = Series([600, 590, 570, 550, 570])
print(abc)

0    600
1    590
2    570
3    550
4    570
dtype: int64


In [10]:
# Series 객체를 생성할 때 인자로 넘겨준 리스트 내의 데이터 순서 기준으로 인덱싱
print(abc[1])
print(abc[4])

590
570


In [11]:
# index에 인덱싱할 값을 넘겨주면 해당 값으로 인덱싱
abc1 = Series([600, 590, 570, 550, 570], index=['2023-02-19',
                                                            '2023-02-18',
                                                            '2023-02-17',
                                                            '2023-02-16',
                                                            '2023-02-15'])
print(abc1)

2023-02-19    600
2023-02-18    590
2023-02-17    570
2023-02-16    550
2023-02-15    570
dtype: int64


In [12]:
print(abc1['2023-02-16'])

550


In [13]:
# 시리즈의 인덱스와 값 확인
for date in abc1.index:
    print(date)

for ending_price in abc1.values:
    print(ending_price)

2023-02-19
2023-02-18
2023-02-17
2023-02-16
2023-02-15
600
590
570
550
570


### 시리즈의 기초 통계 메서드 사용하기 

In [14]:
# describe                요약 통계량 계산
# min                     최솟값 반환
# max                     최댓값 반환
# mean                    산술 평균 반환
# median                  중간값 반환
# std                     표준편차

In [15]:
print(income_list.describe())

count        3.000000
mean     39483.000000
std      11343.388515
min      26392.000000
25%      36022.000000
50%      45652.000000
75%      46028.500000
max      46405.000000
dtype: float64


In [16]:
print(income_list.mean())

39483.0


In [17]:
print(income_list.std())

11343.388514901533


In [18]:
print(abc.describe())

count      5.000000
mean     576.000000
std       19.493589
min      550.000000
25%      570.000000
50%      570.000000
75%      590.000000
max      600.000000
dtype: float64


In [19]:
df2 = pd.DataFrame([abc])
print (df2)

     0    1    2    3    4
0  600  590  570  550  570


In [20]:
# # 유용한 메소드

# append                  2개 이상의 시리즈 연결
# drop_duplicates         중복값이 없는 시리즈 반환
# equals                  시리즈에 해당 값을 가진 요소가 있는지 확인
# get_values              시리즈 값 구하기(values 속성과 동일)
# isin                    시리즈에 포함된 값이 있는지 확인

# replace                 특정 값을 가진 시리즈 값을 교체
# sample                  시리즈에서 임의의 값을 반환
# sort_values             값을 정렬
# to_frame                시리즈를 데이터프레임으로 변환

## Pandas DataFrame

### DataFrame ?

In [21]:
# DataFrame : 여러 개의 로우(row), 칼럼(Column)으로 구성된 2차원 형태의 자료구조
# row, Column, , Series들로 구성된 형태

### DataFrame 생성하기

#### 기본 방법 3가지 ( 수집된 데이터가 엑셀등의 자료가 아닌 경우)

In [22]:
# 첫번째 방법

# 2차원 표에서 column 단위로 데이터를 표현하여 dataframe 생성

# ==> column명을 딕셔너리의 key로 (아래에서 crime) ,  데이터는 딕셔너리의 value로

In [2]:
from pandas import DataFrame

crime={"살인":[10,5,20], "강도":[55,65,40], "절도":[150,200,350]}

police =["서울경찰청", "부산경찰청", "인천경찰청"]

df=DataFrame(crime, police)
print(df)

       살인  강도   절도
서울경찰청  10  55  150
부산경찰청   5  65  200
인천경찰청  20  40  350


In [None]:
# 두번째 방법

# 2차원 표에서 row 단위로 데이터를 리스트로 표현하여 dataframe 생성
# data에 해당하는 아래 crime, index에 해당하는 police , columns 을 모두 리스트로 표현하여 생성하는 방법

In [6]:
from pandas import DataFrame

crime=[[10,5,20], [55,65,40], [150,200,350]]

police =["서울경찰청", "부산경찰청", "인천경찰청"]
columns=["살인","강도","절도"]

df=DataFrame(data=crime, index=police,columns=columns)
print(df)

        살인   강도   절도
서울경찰청   10    5   20
부산경찰청   55   65   40
인천경찰청  150  200  350


In [None]:
# 세번째 방법

# 2차원 표에서 row 단위로 데이터를 딕셔너리로 표현하여 dataframe 생성

In [8]:
from pandas import DataFrame

crime=[{"살인":10, "강도":55, "절도":150},
       {"살인":5, "강도":65, "절도":200},
       {"살인":20, "강도":40, "절도":350}]

police =["서울경찰청", "부산경찰청", "인천경찰청"]

df=DataFrame(data= crime, index=police)
print(df)

       살인  강도   절도
서울경찰청  10  55  150
부산경찰청   5  65  200
인천경찰청  20  40  350


####  List를 바탕으로 한번 DataFrame을 생성

In [35]:
#### 1) List를 바탕으로 한번 DataFrame을 생성

 
import pandas as pd
 
data = [['Choi',22],['Kim',40],['Joo',15],['Baek',18]]
 
df = pd.DataFrame(data,columns=['Name','Age'])
 
print(df)

   Name  Age
0  Choi   22
1   Kim   40
2   Joo   15
3  Baek   18


#### Dictionary를 바탕으로 한번 DataFrame을 생성

In [None]:
# DataFrame 생성하기

# Dictionary를 바탕으로 한번 DataFrame을 생성

# 딕셔너리(dic)를 통해 각 칼럼에 대한 데이터를 저장한 후
# 딕셔너리를 DataFrame 클래스의 생성자 인자로 넘겨주면 DataFrame 객체 생성     

In [33]:
from datetime import datetime, timedelta
import pandas as pd
import random

# 랜덤 시드 설정
random.seed(42)

# 데이터 개수 설정
data_count = 100

# 날짜 범위 설정
start_date = datetime(2022, 1, 1)
end_date = datetime(2022, 12, 31)
date_range = [start_date + timedelta(days=random.randint(0, (end_date - start_date).days)) for _ in range(100)]

# ID, 나이, 성별, 소득, 범죄건수 랜덤 생성
id_list = [i+1 for i in range(data_count)]
age_list = [random.randint(18, 80) for _ in range(data_count)]
gender_list = ['남성', '여성']
gender = [random.choice(gender_list) for _ in range(data_count)]
income_list = [random.randint(20000, 150000) for _ in range(data_count)]
crime_count_list = [random.randint(0, 10) for _ in range(data_count)]

# 데이터프레임 생성
data = {
    
    '날짜': date_range,
    'ID' : id_list,
    '나이': age_list,
    '성별': gender,
    '소득': income_list,
    '범죄건수': crime_count_list
}

df = pd.DataFrame(data)

df



Unnamed: 0,날짜,ID,나이,성별,소득,범죄건수
0,2022-11-24,1,71,여성,141440,5
1,2022-02-27,2,67,남성,122769,4
2,2022-01-13,3,67,남성,122908,2
3,2022-05-21,4,21,여성,79638,7
4,2022-05-06,5,32,남성,57388,8
...,...,...,...,...,...,...
95,2022-12-19,96,29,남성,65745,5
96,2022-10-13,97,50,여성,135456,4
97,2022-04-23,98,76,남성,29016,3
98,2022-12-17,99,24,여성,135247,3


In [34]:
# index 날짜로 변경 set_index()
df.set_index("날짜",inplace=True)

### DataFrame 로우(인덱스) ,칼럼 선택

In [25]:
#'close' 칼럼에 대한 데이터만 DataFrame 객체로부터 얻는 경우
age = df['나이']
print(age)
    

날짜
2022-11-24    71
2022-02-27    67
2022-01-13    67
2022-05-21    21
2022-05-06    32
              ..
2022-12-19    29
2022-10-13    50
2022-04-23    76
2022-12-17    24
2022-06-16    73
Name: 나이, Length: 100, dtype: int64


In [26]:
# DataFrame 객체의 로우에 접근하려면 loc 메서드를 사용해 인덱스 값을 넘겨주어야 함.
id_data = df.loc["2022-02-27"]
print(id_data)
print(type(id_data))

            ID  나이  성별      소득  범죄건수
날짜                                  
2022-02-27   2  67  남성  122769     4
<class 'pandas.core.frame.DataFrame'>


In [27]:
# DataFrame 객체의 칼럼 이름과 인덱스 값을 확인하려면 각각 columns와 index 속성을 사용
print(df.columns)
print(df.index)

Index(['ID', '나이', '성별', '소득', '범죄건수'], dtype='object')
DatetimeIndex(['2022-11-24', '2022-02-27', '2022-01-13', '2022-05-21',
               '2022-05-06', '2022-04-25', '2022-03-13', '2022-02-22',
               '2022-12-13', '2022-10-07', '2022-02-14', '2022-10-30',
               '2022-08-05', '2022-01-17', '2022-01-16', '2022-02-17',
               '2022-04-22', '2022-04-30', '2022-09-16', '2022-11-05',
               '2022-01-14', '2022-10-15', '2022-04-12', '2022-11-29',
               '2022-12-26', '2022-10-07', '2022-08-03', '2022-04-23',
               '2022-08-18', '2022-10-29', '2022-05-23', '2022-01-04',
               '2022-03-23', '2022-12-24', '2022-08-05', '2022-06-24',
               '2022-05-23', '2022-03-21', '2022-04-21', '2022-06-22',
               '2022-02-22', '2022-02-17', '2022-07-14', '2022-02-19',
               '2022-07-03', '2022-06-26', '2022-11-06', '2022-05-16',
               '2022-01-23', '2022-08-24', '2022-10-02', '2022-03-05',
               '2022-

### 데이터프레임에 대한 기초 통계량 확인

In [28]:
# 데이터프레임에 대한 기초 통계량 확인

df.describe()

Unnamed: 0,ID,나이,소득,범죄건수
count,100.0,100.0,100.0,100.0
mean,50.5,49.79,82376.28,4.54
std,29.011492,18.325505,37949.175375,3.150822
min,1.0,18.0,21220.0,0.0
25%,25.75,34.0,50254.5,2.0
50%,50.5,50.0,86108.0,4.0
75%,75.25,66.0,111945.25,7.0
max,100.0,80.0,146970.0,10.0


# 파이썬을 이용해서 외부 데이터 읽어오기 

## CSV(Comma Separated Value) 파일 불러오기

In [10]:
#  CSV(Comma Separated Value) 포맷 입출력
#  --> CSV 파일 포맷은 데이터 값이 쉽표(comma)로 구분되는 텍스트 파일이다.

# CSV 파일 입력¶
# CSV 파일로부터 데이터를 읽어 데이터프레임을 만들 때는 pandas.read_csv 함수를 사용한다. 
# 함수의 입력값으로 파일 이름을 넣는다.

In [11]:
import pandas as pd

data=pd.read_csv("crime_list.csv")


In [12]:
data

Unnamed: 0,날짜,ID,나이,성별,소득,범죄건수
0,2022-11-24,1,71,여성,141440,5
1,2022-02-27,2,67,남성,122769,4
2,2022-01-13,3,67,남성,122908,2
3,2022-05-21,4,21,여성,79638,7
4,2022-05-06,5,32,남성,57388,8
...,...,...,...,...,...,...
95,2022-12-19,96,29,남성,65745,5
96,2022-10-13,97,50,여성,135456,4
97,2022-04-23,98,76,남성,29016,3
98,2022-12-17,99,24,여성,135247,3


## 엑셀데이터 불러오기

In [13]:
import pandas as pd

from pandas import read_excel
data1=read_excel("Python DCF Model.xlsx")


In [14]:
data1

Unnamed: 0.1,Unnamed: 0,2019A,2020F,2021F,2022F,2023F,2024F
0,Sales,15.0,16.5,18.15,19.97,21.96,24.16
1,EBIT,2.55,2.8,3.09,3.39,3.73,4.11
2,Tax Expense,-0.76,-0.84,-0.93,-1.02,-1.12,-1.23
3,NOPAT,1.78,1.96,2.16,2.38,2.61,2.87
4,D&A Expense,0.45,0.5,0.54,0.6,0.66,0.72
5,Capital Expenditures,-0.45,-0.5,-0.54,-0.6,-0.66,-0.72
6,Increase in NWC,,-0.36,-0.4,-0.44,-0.48,-0.53
7,Free Cash Flow,,1.6,1.76,1.94,2.13,2.35


# 텍스트 파일 만들기 

## csv파일 저장하기 

In [33]:
df.to_csv('crime_list.csv')

##  csv 파일 불러오기 

In [34]:
# csv 파일 불러오기 
pd.read_csv('crime_list.csv')

Unnamed: 0,날짜,ID,나이,성별,소득,범죄건수
0,2022-11-24,1,71,여성,141440,5
1,2022-02-27,2,67,남성,122769,4
2,2022-01-13,3,67,남성,122908,2
3,2022-05-21,4,21,여성,79638,7
4,2022-05-06,5,32,남성,57388,8
...,...,...,...,...,...,...
95,2022-12-19,96,29,남성,65745,5
96,2022-10-13,97,50,여성,135456,4
97,2022-04-23,98,76,남성,29016,3
98,2022-12-17,99,24,여성,135247,3


## 파이썬을 이용해서 데이터 프레임(df) 만들기
 

In [25]:
# csv 파일을 df로

import pandas as pd

df = pd.read_csv('crime_list.csv')
df

Unnamed: 0,날짜,ID,나이,성별,소득,범죄건수
0,2022-11-24,1,71,여성,141440,5
1,2022-02-27,2,67,남성,122769,4
2,2022-01-13,3,67,남성,122908,2
3,2022-05-21,4,21,여성,79638,7
4,2022-05-06,5,32,남성,57388,8
...,...,...,...,...,...,...
95,2022-12-19,96,29,남성,65745,5
96,2022-10-13,97,50,여성,135456,4
97,2022-04-23,98,76,남성,29016,3
98,2022-12-17,99,24,여성,135247,3


#### 웹 상의 CSV 파일 입력

In [26]:
# url을 이용하여 csv 파일을 다운하여 입력
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")
df.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


# 파이썬 pd.DATAFRAME() 를 이용하여 데이터 테이블 만드는 5가지 방법 

In [None]:
## 자료 참고 출처 : https://agronomy4future.org/?p=11275

## np.array() 함수

In [20]:
# 데이터를 np.array() 함수 안에 넣고 
# 이것에 대한 새로운 변수를 지정해준 다음 
# 해당 변수를 DataFrame() 에 넣어 주는 것

import numpy as np
import pandas as pd

data2=[
["Jack","France","Paris","MS","Civil Engineering"],
["Carlos","Spain","Barcelona","BS","Biology"],
["David","UK","London","Ph.D","Medicine"],
["Steve","Netherlands","Amsterdam","BS","Horticulture"],
["Stefan","Germany","Berlin","MS","Animal Science"],
["Minsoo","South Korea","Seoul","Ph.D","Phycology"]
]

data3= np.array(data2)

Data_table = pd.DataFrame(data3, columns=["Name", "Country","City","Degree","Major"],index=[1,2,3,4,5,6])
Data_table

Unnamed: 0,Name,Country,City,Degree,Major
1,Jack,France,Paris,MS,Civil Engineering
2,Carlos,Spain,Barcelona,BS,Biology
3,David,UK,London,Ph.D,Medicine
4,Steve,Netherlands,Amsterdam,BS,Horticulture
5,Stefan,Germany,Berlin,MS,Animal Science
6,Minsoo,South Korea,Seoul,Ph.D,Phycology


## 바로 데이터를 DataFrame()에 입력하기

In [21]:
# np.array()사용을 건너뛰고 바로 데이터를 DataFrame()에 입력하기

import pandas as pd

dataA=[
["Jack","France","Paris","MS","Civil Engineering"],
["Carlos","Spain","Barcelona","BS","Biology"],
["David","UK","London","Ph.D","Medicine"],
["Steve","Netherlands","Amsterdam","BS","Horticulture"],
["Stefan","Germany","Berlin","MS","Animal Science"],
["Minsoo","South Korea","Seoul","Ph.D","Phycology"]
]

Data_table = pd.DataFrame(dataA, columns=["Name", "Country","City","Degree","Major"],index=[1,2,3,4,5,6])

Data_table

Unnamed: 0,Name,Country,City,Degree,Major
1,Jack,France,Paris,MS,Civil Engineering
2,Carlos,Spain,Barcelona,BS,Biology
3,David,UK,London,Ph.D,Medicine
4,Steve,Netherlands,Amsterdam,BS,Horticulture
5,Stefan,Germany,Berlin,MS,Animal Science
6,Minsoo,South Korea,Seoul,Ph.D,Phycology


## pandas.Series 를 이용하여 데이터 테이블을 구성

In [22]:
import pandas as pd

list = [
pd.Series(["Jack","France","Paris","MS","Civil Engineering"]), 
pd.Series(["Carlos","Spain","Barcelona","BS","Biology"]), 
pd.Series(["David","UK","London","Ph.D","Medicine"]), 
pd.Series(["Steve","Netherlands","Amsterdam","BS","Horticulture"]),
pd.Series(["Stefan","Germany","Berlin","MS","AnimalScience"]),
pd.Series(["Minsoo","South Korea","Seoul","Ph.D","Phycology"])
]

Data_table=pd.DataFrame(list)
Data_table

Unnamed: 0,0,1,2,3,4
0,Jack,France,Paris,MS,Civil Engineering
1,Carlos,Spain,Barcelona,BS,Biology
2,David,UK,London,Ph.D,Medicine
3,Steve,Netherlands,Amsterdam,BS,Horticulture
4,Stefan,Germany,Berlin,MS,AnimalScience
5,Minsoo,South Korea,Seoul,Ph.D,Phycology


## 열을 기준으로 데이터를 작성해서 데이터 테이블을 만드는 방법

In [23]:
import pandas as pd

names = ["Jack","Carlos","David","Steve","Stefan","Minsoo"]
Country = ["France","Spain","UK","Netherlands","Germany","South Korea"]
City = ["Paris","Barcelona","London","Amsterdam","Berlin","Seoul"]
Degree = ["MS","BS","Ph.D","BS","MS","Ph.D"]
Major = ["Civil Engineering","Biology","Medicine","Horticulture","Animal Science","Phycology"]

dataA = {
'name': names, 
'Country': Country, 
'City': City,
'Degree': Degree,
'Major': Major
}

Data_table = pd.DataFrame(dataA, index=[1,2,3,4,5,6])
Data_table

Unnamed: 0,name,Country,City,Degree,Major
1,Jack,France,Paris,MS,Civil Engineering
2,Carlos,Spain,Barcelona,BS,Biology
3,David,UK,London,Ph.D,Medicine
4,Steve,Netherlands,Amsterdam,BS,Horticulture
5,Stefan,Germany,Berlin,MS,Animal Science
6,Minsoo,South Korea,Seoul,Ph.D,Phycology


## 열 이름을 미리 지정해 주고 각 열에 해당하는 데이터를 입력하는 방식

In [24]:
import pandas as pd

source={
'Name': ["Jack","Carlos","David","Steve","Stefan","Minsoo"], 
'Country':["France","Spain","UK","Netherlands","Germany","South Korea"], 
'City':["Paris","Barcelona", "London","Amsterdam","Berlin","Seoul"],
'Degree': ["MS","BS","Ph.D","BS","MS","Ph.D"],
'Major':["Civil Engineering","Biology","Medicine","Horticulture","Animal Science","Phycology"]
}

Data_table = pd.DataFrame(source, index=[1,2,3,4,5,6])
Data_table

Unnamed: 0,Name,Country,City,Degree,Major
1,Jack,France,Paris,MS,Civil Engineering
2,Carlos,Spain,Barcelona,BS,Biology
3,David,UK,London,Ph.D,Medicine
4,Steve,Netherlands,Amsterdam,BS,Horticulture
5,Stefan,Germany,Berlin,MS,Animal Science
6,Minsoo,South Korea,Seoul,Ph.D,Phycology


# 데이터 전처리

## 결측 데이터를 삭제하는 방법

In [2]:
import pandas as pd

data=pd.read_csv("crime_list.csv")

In [4]:
data

Unnamed: 0,날짜,ID,나이,성별,소득,범죄건수
0,2022-11-24,1,71,여성,141440,5
1,2022-02-27,2,67,남성,122769,4
2,2022-01-13,3,67,남성,122908,2
3,2022-05-21,4,21,여성,79638,7
4,2022-05-06,5,32,남성,57388,8
...,...,...,...,...,...,...
95,2022-12-19,96,29,남성,65745,5
96,2022-10-13,97,50,여성,135456,4
97,2022-04-23,98,76,남성,29016,3
98,2022-12-17,99,24,여성,135247,3


In [7]:
# 소득 컬럼에서 결측지 삭제(dropna) 하고 새로운 data --> data11로 저장
# na : not avaliable 
data11=data.dropna(subset=['소득'])
data11 

Unnamed: 0,날짜,ID,나이,성별,소득,범죄건수
0,2022-11-24,1,71,여성,141440,5
1,2022-02-27,2,67,남성,122769,4
2,2022-01-13,3,67,남성,122908,2
3,2022-05-21,4,21,여성,79638,7
4,2022-05-06,5,32,남성,57388,8
...,...,...,...,...,...,...
95,2022-12-19,96,29,남성,65745,5
96,2022-10-13,97,50,여성,135456,4
97,2022-04-23,98,76,남성,29016,3
98,2022-12-17,99,24,여성,135247,3


In [8]:
# 소득 컬럼, 범죄건수 에서 결측지 삭제하고 새로운 data --> data11로 저장
data22=data.dropna(subset=['소득', '범죄건수'])
data22 

Unnamed: 0,날짜,ID,나이,성별,소득,범죄건수
0,2022-11-24,1,71,여성,141440,5
1,2022-02-27,2,67,남성,122769,4
2,2022-01-13,3,67,남성,122908,2
3,2022-05-21,4,21,여성,79638,7
4,2022-05-06,5,32,남성,57388,8
...,...,...,...,...,...,...
95,2022-12-19,96,29,남성,65745,5
96,2022-10-13,97,50,여성,135456,4
97,2022-04-23,98,76,남성,29016,3
98,2022-12-17,99,24,여성,135247,3


In [10]:
# 모든 결측치가 있는 것을 지우는 경우

data33=data.dropna(axis=0)
data33

Unnamed: 0,날짜,ID,나이,성별,소득,범죄건수
0,2022-11-24,1,71,여성,141440,5
1,2022-02-27,2,67,남성,122769,4
2,2022-01-13,3,67,남성,122908,2
3,2022-05-21,4,21,여성,79638,7
4,2022-05-06,5,32,남성,57388,8
...,...,...,...,...,...,...
95,2022-12-19,96,29,남성,65745,5
96,2022-10-13,97,50,여성,135456,4
97,2022-04-23,98,76,남성,29016,3
98,2022-12-17,99,24,여성,135247,3


## 새롭게 저장하기

In [12]:
import pandas as pd

data33.to_csv('data33.csv',index = False) 

## 다시 불러오기

In [13]:
import pandas as pd
data33=pd.read_csv("data33.csv")

In [14]:
data33

Unnamed: 0,날짜,ID,나이,성별,소득,범죄건수
0,2022-11-24,1,71,여성,141440,5
1,2022-02-27,2,67,남성,122769,4
2,2022-01-13,3,67,남성,122908,2
3,2022-05-21,4,21,여성,79638,7
4,2022-05-06,5,32,남성,57388,8
...,...,...,...,...,...,...
95,2022-12-19,96,29,남성,65745,5
96,2022-10-13,97,50,여성,135456,4
97,2022-04-23,98,76,남성,29016,3
98,2022-12-17,99,24,여성,135247,3


In [19]:
## 이상치 제거
# 양쪽 1% 제거
q1 = data33["소득"].quantile(0.1) # 하위 0.1
q2 = data33["소득"].quantile(0.9) # 상위 0.1
print(q1)
print(q2)

29458.8
137072.40000000002


In [23]:
data44 = data33[(data33["소득"]>q1) & (data33["소득"]<q2)]
data44.reset_index(drop=True,inplace=True)
data44

Unnamed: 0,날짜,ID,나이,성별,소득,범죄건수
0,2022-02-27,2,67,남성,122769,4
1,2022-01-13,3,67,남성,122908,2
2,2022-05-21,4,21,여성,79638,7
3,2022-05-06,5,32,남성,57388,8
4,2022-04-25,6,70,남성,75444,4
...,...,...,...,...,...,...
75,2022-05-19,94,50,여성,37361,3
76,2022-12-19,96,29,남성,65745,5
77,2022-10-13,97,50,여성,135456,4
78,2022-12-17,99,24,여성,135247,3
