### 라이브러리 로딩

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

### 내장 데이터 읽기

In [2]:
sns.get_dataset_names()

['anagrams',
 'anscombe',
 'attention',
 'brain_networks',
 'car_crashes',
 'diamonds',
 'dots',
 'dowjones',
 'exercise',
 'flights',
 'fmri',
 'geyser',
 'glue',
 'healthexp',
 'iris',
 'mpg',
 'penguins',
 'planets',
 'seaice',
 'taxis',
 'tips',
 'titanic']

In [3]:
mpg = sns.load_dataset("mpg")
mpg

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.0,2790,15.6,82,usa,ford mustang gl
394,44.0,4,97.0,52.0,2130,24.6,82,europe,vw pickup
395,32.0,4,135.0,84.0,2295,11.6,82,usa,dodge rampage
396,28.0,4,120.0,79.0,2625,18.6,82,usa,ford ranger


### 데이터 저장

In [4]:
mpg.to_csv("mpg.csv", index = False)

### 데이터 읽기

In [5]:
mpg = pd.read_csv("mpg.csv")
mpg

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.0,2790,15.6,82,usa,ford mustang gl
394,44.0,4,97.0,52.0,2130,24.6,82,europe,vw pickup
395,32.0,4,135.0,84.0,2295,11.6,82,usa,dodge rampage
396,28.0,4,120.0,79.0,2625,18.6,82,usa,ford ranger


### 데이터 기본 확인 : 데이터 읽은 후 중복치와 결측치 확인. 이상치는 추후 최종 데이터 작성 시 확인

In [6]:
print(mpg[mpg.duplicated(keep=False)])
print(mpg[mpg.duplicated(keep=False)].shape[0])

Empty DataFrame
Columns: [mpg, cylinders, displacement, horsepower, weight, acceleration, model_year, origin, name]
Index: []
0


### 중복 데이터를 왜 확인해야 하나요? 

In [7]:
iris = sns.load_dataset("iris")
print(iris.shape)

iris[iris.duplicated(keep=False)]
iris.drop_duplicates(keep='first', inplace=True)
print(iris.shape)

(150, 5)
(149, 5)


### 결측치 확인

In [8]:
# 방법 1
print(mpg.info())

# 방법 2
print(mpg.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    392 non-null    float64
 4   weight        398 non-null    int64  
 5   acceleration  398 non-null    float64
 6   model_year    398 non-null    int64  
 7   origin        398 non-null    object 
 8   name          398 non-null    object 
dtypes: float64(4), int64(3), object(2)
memory usage: 28.1+ KB
None
mpg             0
cylinders       0
displacement    0
horsepower      6
weight          0
acceleration    0
model_year      0
origin          0
name            0
dtype: int64


### 결측치는 어떻게 해야 하나요?

### 삭제로 결정한다면 

In [9]:
new_mpg = mpg[~mpg.isna().any(axis = 1)]

print(new_mpg.shape)
print(mpg.shape)

(392, 9)
(398, 9)


### 대체로 결정한다면

In [10]:
# 결측치를 확인하고
mpg[mpg.isna().any(axis=1)]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
32,25.0,4,98.0,,2046,19.0,71,usa,ford pinto
126,21.0,6,200.0,,2875,17.0,74,usa,ford maverick
330,40.9,4,85.0,,1835,17.3,80,europe,renault lecar deluxe
336,23.6,4,140.0,,2905,14.3,80,usa,ford mustang cobra
354,34.5,4,100.0,,2320,15.8,81,europe,renault 18i
374,23.0,4,151.0,,3035,20.5,82,usa,amc concord dl


In [None]:
# cylinders별 중앙값으로 결측치 대체, transform을 추천
mpg['horsepower'] = mpg.groupby('cylinders')['horsepower'].transform(
    lambda x: x.fillna(x.median())
)
mpg

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.0,2790,15.6,82,usa,ford mustang gl
394,44.0,4,97.0,52.0,2130,24.6,82,europe,vw pickup
395,32.0,4,135.0,84.0,2295,11.6,82,usa,dodge rampage
396,28.0,4,120.0,79.0,2625,18.6,82,usa,ford ranger


In [12]:
mpg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    398 non-null    float64
 4   weight        398 non-null    int64  
 5   acceleration  398 non-null    float64
 6   model_year    398 non-null    int64  
 7   origin        398 non-null    object 
 8   name          398 non-null    object 
dtypes: float64(4), int64(3), object(2)
memory usage: 28.1+ KB


### 다른 객체로부터 판다스 DF 변환

#### list -> DataFrame

In [13]:
# 단순 리스트

simple_list = [1, 2, 3, 4, 5]
df1 = pd.DataFrame(simple_list, columns = ['숫자'])
print(df1)

   숫자
0   1
1   2
2   3
3   4
4   5


In [14]:
# 리스트의 리스트 (2D)

list_2d = [
    ['김철수', 25, '서울'],
    ['이영희', 30, '부산'],
    ['박민수', 28, '대구']
]
df2 = pd.DataFrame(list_2d, columns = ['이름', '나이', '지역'])
print(df2)


    이름  나이  지역
0  김철수  25  서울
1  이영희  30  부산
2  박민수  28  대구


In [15]:

# 딕셔너리의 리스트

dict_list = [
    {'이름': '김철수', '나이': 25, '지역': '서울'},
    {'이름': '이영희', '나이': 30, '지역': '부산'},
    {'이름': '박민수', '나이': 28, '지역': '대구'}
]
df3 = pd.DataFrame(dict_list)
print(df3)

    이름  나이  지역
0  김철수  25  서울
1  이영희  30  부산
2  박민수  28  대구


#### Tuple -> DataFrame

In [16]:
# 단순 튜플
simple_tuple = (1, 2, 3, 4, 5)
df4 = pd.DataFrame([simple_tuple], columns = ['A', 'B', 'C', 'D', 'E'])
print(df4)

print()

# 튜플의 리스트
tuple_list = [
    ('김철수', 25, '서울'),
    ('이영희', 30, '부산'),
    ('박민수', 28, '대구')
]
df5 = pd.DataFrame(tuple_list, columns = ['이름', '나이', '지역'])
print(df5)

   A  B  C  D  E
0  1  2  3  4  5

    이름  나이  지역
0  김철수  25  서울
1  이영희  30  부산
2  박민수  28  대구


#### 딕셔너리 -> DataFrame

In [17]:
# 기본 딕셔너리 
basic_dict = {
    '이름': ['김철수', '이영희', '박민수'],
    '나이': [25, 30, 28],
    '지역': ['서울', '부산', '대구']
}
df6 = pd.DataFrame(basic_dict)
print(df6)

print()

# 딕셔너리 (행 단위)
dict_row = {
    0: {'이름': '김철수', '나이': 25, '지역': '서울'},
    1: {'이름': '이영희', '나이': 30, '지역': '부산'},
    2: {'이름': '박민수', '나이': 28, '지역': '대구'}
}
df7 = pd.DataFrame.from_dict(dict_row, orient = 'index')
print(df7)

    이름  나이  지역
0  김철수  25  서울
1  이영희  30  부산
2  박민수  28  대구

    이름  나이  지역
0  김철수  25  서울
1  이영희  30  부산
2  박민수  28  대구


#### NumPy Array → DataFrame

In [18]:
# 1차원 배열
arr_1d = np.array([1, 2, 3, 4, 5])
df8 = pd.DataFrame(arr_1d, columns = ['값'])
print(df8)
print()

# 2차원 배열
arr_2d = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])
df9 = pd.DataFrame(arr_2d, columns = ['A', 'B', 'C'])
print(df9)
print()

# 랜덤 배열
random_arr = np.random.randn(5, 3)
df10 = pd.DataFrame(random_arr, columns=['X', 'Y', 'Z'])
print(df10)
print()

   값
0  1
1  2
2  3
3  4
4  5

   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9

          X         Y         Z
0 -0.110115  0.557449  0.425805
1 -0.306871  0.404190 -0.017990
2 -0.949740 -0.514232  0.161963
3  0.356579  1.714390 -0.465777
4 -0.373227 -1.154646  0.221765



####  Series → DataFrame

In [19]:
# 단일 Series
series = pd.Series([1, 2, 3, 4, 5], name = '숫자')
df11 = series.to_frame()
print(df11)
print()

# 여러 Series 결합
series1 = pd.Series([1, 2, 3], name = 'A')
series2 = pd.Series([4, 5, 6], name = 'B')
series3 = pd.Series([7, 8, 9], name = 'C')
df12 = pd.concat([series1, series2, series3], axis=1)
print(df12)
print()

   숫자
0   1
1   2
2   3
3   4
4   5

   A  B  C
0  1  4  7
1  2  5  8
2  3  6  9



#### JSON 스타일 → DataFrame

In [20]:
# JSON 문자열

import json

json_str = '''
[
    {"이름": "김철수", "나이": 25, "지역": "서울"},
    {"이름": "이영희", "나이": 30, "지역": "부산"}
]
'''
df14 = pd.DataFrame(json.loads(json_str))
print(df14)
print()

# 중첩된 JSON
nested_json = {
    'data': [
        {'name': '김철수', 'scores': {'math': 90, 'english': 85}},
        {'name': '이영희', 'scores': {'math': 95, 'english': 92}}
    ]
}
df15 = pd.json_normalize(nested_json['data'])
print(df15)
print()


    이름  나이  지역
0  김철수  25  서울
1  이영희  30  부산

  name  scores.math  scores.english
0  김철수           90              85
1  이영희           95              92

