# 판다스 연습

## 1. 데이터 생성

### 1) 시리즈 생성: pd.Series() 함수 사용
- 리스트, 딕셔너리, 넘파이 배열 등을 입력 데이터로 사용 가능
- 1차원 배열 형태, 숫자 또는 레이블 인덱스(index) 지정 가능
- 하나의 열(column) 또는 하나의 행(row)처럼 동작

In [261]:
import pandas as pd

# 리스트 사용 시리즈 생성
data = [10, 20, 30, 40]
series1 = pd.Series(data)
print(series1)

0    10
1    20
2    30
3    40
dtype: int64


In [262]:
# 인덱스 지정 시리즈 생성
index_labels = ['a', 'b', 'c', 'd']
series2 = pd.Series(data, index=index_labels)
print(series2)

a    10
b    20
c    30
d    40
dtype: int64


In [263]:
# 딕셔너리 사용 시리즈 생성 = 리스트 + 인덱스 지정
data_dict = {'A': 100, 'B': 200, 'C': 300}
series3 = pd.Series(data_dict)
print(series3)

A    100
B    200
C    300
dtype: int64


### 2) 데이터프레임 생성: pd.DataFrame() 사용
- 딕셔너리, 리스트, 넘파이 배열, csv 파일 등 다양한 데이터 소스를 기반으로 생성
- 2차원 행렬 형태, 여러 개의 시리즈가 모여 하나의 데이터프레임 구성
- 각 행에는 인덱스(index), 각 열에는 컬럼(column) 이름 부여

In [264]:
# 딕셔너리 사용 데이터프레임 생성
data_dict = {
    '이름': ['김철수', '이영희', '박민수'],
    '나이': [25, 30, 22],
    '성별': ['남', '여', '남']
}
df1 = pd.DataFrame(data_dict)
print(df1)

    이름  나이 성별
0  김철수  25  남
1  이영희  30  여
2  박민수  22  남


In [265]:
# 리스트 사용 데이터프레임 생성
data_list = [
    ['김철수', 25, '남'],
    ['이영희', 30, '여'],
    ['박민수', 22, '남']
]
columns = ['이름', '나이', '성별']
df2 = pd.DataFrame(data_list, columns=columns)
print(df2)

    이름  나이 성별
0  김철수  25  남
1  이영희  30  여
2  박민수  22  남


## 2. 데이터 선택

### 1) 기본 인덱싱(시리즈, 데이터프레임)

In [266]:
# 시리즈 기본 인덱스: 리스트와 유사한 형태 동작, 딕셔너리처럼 키-값 쌍 사용 가능
# 시리즈 생성
s = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
print(s)

a    10
b    20
c    30
d    40
dtype: int64


In [267]:
# 기본 인덱스를 사용한 선택
print(s[0])

10


  print(s[0])


In [268]:
# 레이블을 사용한 선택
print(s['a'])

10


In [269]:
# 여러 개의 값 선택
print(s[['a', 'c']])

a    10
c    30
dtype: int64


In [270]:
# 데이터프레임 기본 인덱스: 행 또는 열 이름, 인덱스를 사용하여 특정 행이나 열 선택 가능
# 데이터프레임 생성
df = pd.DataFrame({
    '이름': ['김철수', '이영희', '박민수'],
    '나이': [25, 30, 22],
    '성별': ['남', '여', '남'],
    '점수': [90, 85, 95]
}, index = ['a', 'b', 'c'])
print(df)

    이름  나이 성별  점수
a  김철수  25  남  90
b  이영희  30  여  85
c  박민수  22  남  95


In [271]:
# 특정 열 선택
print(df['이름'])

a    김철수
b    이영희
c    박민수
Name: 이름, dtype: object


In [272]:
# 여러 열 선택
print(df[['이름', '나이']])

    이름  나이
a  김철수  25
b  이영희  30
c  박민수  22


In [273]:
# 첫 번째, 두 번째 행 선택
print(df[:2])

    이름  나이 성별  점수
a  김철수  25  남  90
b  이영희  30  여  85


### 2) loc[]: 레이블 기반 선택
- 데이터프레임에서 행과 열의 레이블(label)을 기준으로 데이터 선택

In [274]:
# 'a' 행 선택
print(df.loc['a'])

이름    김철수
나이     25
성별      남
점수     90
Name: a, dtype: object


In [275]:
# '이름' 열 선택
print(df.loc[:, '이름'])

a    김철수
b    이영희
c    박민수
Name: 이름, dtype: object


In [276]:
# 'a' 행과 '이름' 열 선택
print(df.loc['a', '이름'])

김철수


In [277]:
# 여러 개의 행과 열 선택
print(df.loc[['a', 'b'], ['이름', '나이']])

    이름  나이
a  김철수  25
b  이영희  30


### 3) iloc[]: 위치(인덱스) 기반 선택
- 데이터프레임에서 행과 열의 위치(position, 숫자 인덱스)를 기준으로 데이터 선택

In [278]:
# 첫 번째 행 선택
print(df.iloc[0])

이름    김철수
나이     25
성별      남
점수     90
Name: a, dtype: object


In [279]:
# 두 번째 열 선택
print(df.iloc[:, 1])

a    25
b    30
c    22
Name: 나이, dtype: int64


In [280]:
# 첫 번째 행과 두 번째 열 선택
print(df.iloc[0, 1])

25


In [281]:
# 첫 번째, 두 번째 행과 첫 번째, 세 번째 열 선택
print(df.iloc[[0, 1], [0, 2]])

    이름 성별
a  김철수  남
b  이영희  여


### 4) 조건 기반 선택

In [282]:
# 특정 조건을 만족하는 행 선택
# 나이가 25보다 큰 사람만 선택
print(df[df['나이'] > 25])

    이름  나이 성별  점수
b  이영희  30  여  85


In [283]:
# 여러 조건을 사용한 필터링
# 나이가 20 초과이고 남자인 사람
print(df[(df['나이'] > 20) & (df['성별'] == '남')])

    이름  나이 성별  점수
a  김철수  25  남  90
c  박민수  22  남  95


In [284]:
# 특정 열의 값이 특정 리스트에 포함되는지 확인
# '김철수' 또는 '박민수'인 사람
print(df[df['이름'].isin(['김철수', '박민수'])])

    이름  나이 성별  점수
a  김철수  25  남  90
c  박민수  22  남  95


## 3. 데이터 가공

### 1) 데이터 정렬(열, 인덱스)
- 특정 열을 기준으로 정렬: sort_values()
- 인덱스를 기준으로 정렬: sort_index()

In [285]:
# 점수를 기준으로 오름차순 정렬
df_sorted = df.sort_values(by='점수')
print(df_sorted)

    이름  나이 성별  점수
b  이영희  30  여  85
a  김철수  25  남  90
c  박민수  22  남  95


In [286]:
# 점수를 기준으로 내림차순 정렬
df_sorted_desc = df.sort_values(by='점수', ascending=False)
print(df_sorted_desc)

    이름  나이 성별  점수
c  박민수  22  남  95
a  김철수  25  남  90
b  이영희  30  여  85


### 2) 데이터 필터링: 데이터 선택과 유사

In [287]:
# 특정 조건을 만족하는 데이터만 선택
# 나이가 25 이상인 사람만 선택
filtered_df1 = df[df['나이'] >= 25]
print(filtered_df1)

    이름  나이 성별  점수
a  김철수  25  남  90
b  이영희  30  여  85


In [288]:
# 여러 조건을 적용한 필터링
# 나이가 25 이상이고 점수가 90 이상인 경우
filtered_df2 = df[(df['나이'] >= 25) & (df['점수'] >= 90)]
print(filtered_df2)

    이름  나이 성별  점수
a  김철수  25  남  90


In [289]:
# 특정 열만 선택
# '이름'과 '점수' 열만 선택
selected_columns = df[['이름', '점수']]
print(selected_columns)

    이름  점수
a  김철수  90
b  이영희  85
c  박민수  95


### 3) 데이터 변환: 데이터 가공하여 새로운 형식으로 변환

In [290]:
# 새로운 열 추가
# '합격 여부' 열 추가: 점수가 90 이상이면 '합격', 아니면 '불합격'
df['합격 여부'] = df['점수'].apply(lambda x: '합격' if x >= 90 else '불합격')
print(df)

    이름  나이 성별  점수 합격 여부
a  김철수  25  남  90    합격
b  이영희  30  여  85   불합격
c  박민수  22  남  95    합격


### 4) 결측치 처리
- 결측값 위치 확인: .isnull()
- 각 열 결측값 개수 확인: .isnull().sum()
- 결측값 포함 행 제거: .dropna()
- 결측값 채우기: .fillna()

In [291]:
# 결측치 데이터 저장
df_missing = pd.DataFrame({
    '이름': ['김철수', '이영희', '박민수'],
    '나이': [25, None, 22],
    '점수': [90, 85, None]
})
print(df_missing)

    이름    나이    점수
0  김철수  25.0  90.0
1  이영희   NaN  85.0
2  박민수  22.0   NaN


In [292]:
# 결측값이 있는 위치 확인
print(df_missing.isnull())

      이름     나이     점수
0  False  False  False
1  False   True  False
2  False  False   True


In [293]:
# 각 열의 결측값 개수 확인
print(df_missing.isnull().sum())

이름    0
나이    1
점수    1
dtype: int64


In [294]:
# 결측값이 포함된 행 제거
df_dropped = df_missing.dropna()
print(df_dropped)

    이름    나이    점수
0  김철수  25.0  90.0


In [295]:
# 결측치 채우기: 평균 나이로 채우고 점수는 0으로 채움
df_filled = df_missing.fillna({'나이': df_missing['나이'].mean(), '점수': 0})
print(df_filled)

    이름    나이    점수
0  김철수  25.0  90.0
1  이영희  23.5  85.0
2  박민수  22.0   0.0


### 5) 중복 데이터 처리
- 중복 데이터 확인: .duplicated()
- 중복 데이터 제거: .drop_duplicates()

In [296]:
# 중복 데이터 저장
df_duplicates = pd.DataFrame({
    '이름': ['김철수', '이영희', '김철수'],
    '나이': [25, 30, 25],
    '점수': [90, 85, 90]
})
print(df_duplicates)

    이름  나이  점수
0  김철수  25  90
1  이영희  30  85
2  김철수  25  90


In [297]:
# 중복 데이터 확인
print(df_duplicates.duplicated())

0    False
1    False
2     True
dtype: bool


In [298]:
# 중복 데이터 제거
df_no_duplicates = df_duplicates.drop_duplicates()
print(df_no_duplicates)

    이름  나이  점수
0  김철수  25  90
1  이영희  30  85


## 4. 데이터 분석

### 1) 데이터 로딩
- CSV: pd.read_csv()
- Excel: pd.read_excel()
- JSON: pd.read_json()
- SQL: pd.read_sql_query()

In [None]:
# csv 파일 로드
df = pd.read_csv('data.csv')
print(df.head())

In [None]:
# excel 파일 로드
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
print(df.head())

In [None]:
# json 파일 로드
df = pd.read_json('data.json')
print(df.head())

In [None]:
# SQL 데이터베이스에서 로드
import sqlite3

conn = sqlite3.connect('database.db')
df = pd.read_sql_query('SELECT * FROM users', conn)
print(df.head())

### 2) 데이터 탐색(Exploratory Data Analysis, EDA)
- 데이터 타입, 결측치, 간단한 수학적 통계, 데이터 크기 및 형태, 고유값 등 파악 가능
- 데이터 기본 정보 확인: .info()
- 데이터 요약 통계 확인: .describe()
- 행, 열 개수 확인: .shape
- 열 이름 리스트 확인: .columns
- 인덱스 정보: .index

In [299]:
# 데이터 기본 정보 확인: 데이터 타입 결측치 여부 확인
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, a to c
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      3 non-null      object
 1   나이      3 non-null      int64 
 2   성별      3 non-null      object
 3   점수      3 non-null      int64 
 4   합격 여부   3 non-null      object
dtypes: int64(2), object(3)
memory usage: 252.0+ bytes
None


In [300]:
# 데이터 요약 통계 확인: 숫자형 데이터의 기초 통계 정보 확인
print(df.describe())

              나이    점수
count   3.000000   3.0
mean   25.666667  90.0
std     4.041452   5.0
min    22.000000  85.0
25%    23.500000  87.5
50%    25.000000  90.0
75%    27.500000  92.5
max    30.000000  95.0


In [301]:
# 데이터 크기 및 형태 확인: 행 개수, 열 개수
print(df.shape)

(3, 5)


In [302]:
# 데이터 크기 및 형태 확인: 열 이름 리스트
print(df.columns)

Index(['이름', '나이', '성별', '점수', '합격 여부'], dtype='object')


In [303]:
# 데이터 크기 및 형태 확인: 인덱스 정보
print(df.index)

Index(['a', 'b', 'c'], dtype='object')


### 3) 데이터 전처리(data preprocessing): 데이터 가공과 유사
- 데이터 정제(data cleansing): 결측치 처리, 중복 데이터 처리, 이상치 처리
- 데이터 변형(data transformation): 데이터 타입 변환, 적절한 열 추가하여 정보 업데이트

In [304]:
# 결측치 개수 확인
print(df_missing.isnull().sum())

이름    0
나이    1
점수    1
dtype: int64


In [305]:
# 평균값으로 채우기
# inplace=True : 원본 변경
df_missing.fillna({'점수': df['점수'].mean()}, inplace=True)
print(df_missing)

    이름    나이    점수
0  김철수  25.0  90.0
1  이영희   NaN  85.0
2  박민수  22.0  90.0


In [306]:
# 결측치가 있는 행 삭제
# inplace=True : 원본 변경
df_missing.dropna(inplace=True)
print(df_missing)

    이름    나이    점수
0  김철수  25.0  90.0
2  박민수  22.0  90.0


In [307]:
# 중복 데이터 확인
print(df_duplicates.duplicated())

0    False
1    False
2     True
dtype: bool


In [308]:
# 중복 데이터 제거
# inplace=True : 원본 변경
df_duplicates.drop_duplicates(inplace=True)
print(df_duplicates)

    이름  나이  점수
0  김철수  25  90
1  이영희  30  85


### 4) 데이터 요약 및 집계
- .sum(), .mean(), .max(), .min()
- .groupby()

In [309]:
data = {
    '카테고리': ['음식', '음식', '전자', '전자', '의류', '의류', '음식', '전자', '의류', '음식'],
    '매출': [120000, 150000, 300000, 250000, 180000, 200000, 170000, 320000, 220000, 140000]
}

# 데이터프레임 생성
data_df = pd.DataFrame(data)
print(data_df)

  카테고리      매출
0   음식  120000
1   음식  150000
2   전자  300000
3   전자  250000
4   의류  180000
5   의류  200000
6   음식  170000
7   전자  320000
8   의류  220000
9   음식  140000


In [310]:
# 데이터 요약
print(data_df['매출'].sum()) # 총 매출액
print(data_df['매출'].mean()) # 평균 매출액
print(data_df['매출'].max()) # 최대 매출액
print(data_df['매출'].min()) # 최소 매출액

2050000
205000.0
320000
120000


In [311]:
# 그룹별 요약(groupby)
grouped = data_df.groupby('카테고리')['매출'].sum()
print(grouped)

카테고리
음식    580000
의류    600000
전자    870000
Name: 매출, dtype: int64


### 5) 데이터 변환 및 조작: 데이터 선택, 데이터 가공과 유사

In [312]:
# 데이터 정렬
sorted_df = df.sort_values(by='나이', ascending=False)
print(sorted_df)

    이름  나이 성별  점수 합격 여부
b  이영희  30  여  85   불합격
a  김철수  25  남  90    합격
c  박민수  22  남  95    합격


In [313]:
# 특정 조건으로 필터링
# 나이가 25세 이상인 행 선택
filtered_df = df[df['나이'] >= 25]
print(filtered_df)

    이름  나이 성별  점수 합격 여부
a  김철수  25  남  90    합격
b  이영희  30  여  85   불합격


In [314]:
# 특정 열만 선택
selected_df = df[['이름', '나이']]
print(selected_df)

    이름  나이
a  김철수  25
b  이영희  30
c  박민수  22


## 5. 데이터 편집

### 1) 데이터 수정: 데이터 가공의 데이터 필터링과 유사
- 특정 값 수정: .at[] (레이블), .iat[] (인덱스)
- 특정 열 값 일괄 수정
- 특정 조건 만족 행 값만 변경: .loc[] (레이블)
- 여러 개 열 수정: .loc[] (레이블)

In [315]:
# 특정 값 수정
# 'a' 행의 '점수' 값을 88로 변경
df.at['a', '점수'] = 88
print(df)

    이름  나이 성별  점수 합격 여부
a  김철수  25  남  88    합격
b  이영희  30  여  85   불합격
c  박민수  22  남  95    합격


In [316]:
# 기존 인덱스 기본 숫자로 변경
reset_df = df.reset_index(drop=True)
print(reset_df)

    이름  나이 성별  점수 합격 여부
0  김철수  25  남  88    합격
1  이영희  30  여  85   불합격
2  박민수  22  남  95    합격


In [317]:
# 특정 값 수정
# 0번 행의 '점수' 값을 90으로 변경
reset_df.at[0, '점수'] = 90
print(reset_df)

    이름  나이 성별  점수 합격 여부
0  김철수  25  남  90    합격
1  이영희  30  여  85   불합격
2  박민수  22  남  95    합격


In [318]:
# 특정 값 수정
# 1번 행의 1번째(나이) 값을 32로 변경
df.iat[1, 1] = 32
print(df)

    이름  나이 성별  점수 합격 여부
a  김철수  25  남  88    합격
b  이영희  32  여  85   불합격
c  박민수  22  남  95    합격


In [319]:
# 특정 열 값 일괄 수정
# 모든 점수 변경
df['점수'] = [85, 80, 90]
print(df)

    이름  나이 성별  점수 합격 여부
a  김철수  25  남  85    합격
b  이영희  32  여  80   불합격
c  박민수  22  남  90    합격


In [320]:
# 특정 조건을 만족하는 행의 값만 변경
# 이름이 '김철수'인 행의 점수를 95로 변경
df.loc[df['이름'] == '김철수', '점수'] = 95
print(df)

    이름  나이 성별  점수 합격 여부
a  김철수  25  남  95    합격
b  이영희  32  여  80   불합격
c  박민수  22  남  90    합격


In [321]:
# 여러 개의 열 수정
df.loc[df['이름'] == '이영희', ['나이', '점수']] = [35, 88]
print(df)

    이름  나이 성별  점수 합격 여부
a  김철수  25  남  95    합격
b  이영희  35  여  88   불합격
c  박민수  22  남  90    합격


### 2) 데이터 추가: 데이터 가공의 데이터 변환, 데이터 필터링과 유사
- 조건에 따른 새로운 열 추가: .apply()
- 새로운 열 직접 추가
- 새로운 행 직접 추가: .loc[]

In [322]:
# 조건에 따른 새로운 열 추가(데이터 변환 참조)

In [323]:
# 새로운 열 직접 추가
df['학교'] = ['서울대', '연세대', '고려대']
print(df)

    이름  나이 성별  점수 합격 여부   학교
a  김철수  25  남  95    합격  서울대
b  이영희  35  여  88   불합격  연세대
c  박민수  22  남  90    합격  고려대


In [324]:
# 새로운 행 직접 추가
# .loc[len(df)] : 딱 그 번호를 의미함! 
df.loc[len(df)] = ['최민호', 28, '남', 87, '합격', '한양대']
print(df)

    이름  나이 성별  점수 합격 여부   학교
a  김철수  25  남  95    합격  서울대
b  이영희  35  여  88   불합격  연세대
c  박민수  22  남  90    합격  고려대
3  최민호  28  남  87    합격  한양대


### 3) 데이터 삭제: 데이터 가공의 데이터 필터링과 유사
- 특정 열 삭제: .drop()
- 특정 행 삭제: .drop()
- 조건을 만족하는 행 삭제

In [325]:
# 특정 열 삭제
# '학교' 열 삭제
df.drop(columns=['학교'], inplace=True)
print(df)

    이름  나이 성별  점수 합격 여부
a  김철수  25  남  95    합격
b  이영희  35  여  88   불합격
c  박민수  22  남  90    합격
3  최민호  28  남  87    합격


In [326]:
# 특정 행 삭제
# 3번 인덱스 행 삭제: 딱 3번 인덱스 삭제!
df.drop(index=3, inplace=True)
print(df)

    이름  나이 성별  점수 합격 여부
a  김철수  25  남  95    합격
b  이영희  35  여  88   불합격
c  박민수  22  남  90    합격


In [327]:
# 특정 행 삭제
# 'b' 인덱스 행 삭제
df.drop(index='b', inplace=True)
print(df)

    이름  나이 성별  점수 합격 여부
a  김철수  25  남  95    합격
c  박민수  22  남  90    합격


In [328]:
# 조건을 만족하는 행 삭제
# 점수가 95 미만인 행 삭제
df = df[df['점수'] >= 95].copy()
print(df)

    이름  나이 성별  점수 합격 여부
a  김철수  25  남  95    합격


### 4) 데이터 변환
- 데이터 형식 변환: .astype() * 데이터 타입 확인: .dtypes
- 문자열 내 값 다른 값으로 변경: .str.replace()

In [329]:
# 데이터 형식 변환
# 나이를 문자열로, 점수를 실수형으로 변환
df['나이'] = df['나이'].astype(str)
df['점수'] = df['점수'].astype(float)
print(df.dtypes)

이름        object
나이        object
성별        object
점수       float64
합격 여부     object
dtype: object


In [330]:
# 문자열 변환
# '김'을 'K'로 변경
df['이름'] = df['이름'].str.replace('김', 'K')
print(df)

    이름  나이 성별    점수 합격 여부
a  K철수  25  남  95.0    합격
