# 데이터 분석 - Pandas 기초 실습

**주제**
- Pandas 라이브러리
- 데이터프레임과 시리즈
- 데이터 살펴보기
- 데이터 변환하기
- 데이터 요약하기
---

## 숫자세기

medical.csv에는 성인 1만명의 건강검진 데이터이며 데이터는 다음과 같이 구성되어 있습니다.
```
컬럼 명	데이터 소개
BTH_G	연령(그룹)
SBP	수축기 혈압
DBP	연령(그룹)
FBS	공복 혈당
SEX	성별
DIS	고혈압/당뇨병 진료 여부
BMI     체질량 지수
```	

데이터셋을 읽고, 아래 지시사항을 따르세요.

1. 데이터프레임 df의 SEX 컬럼에 숫자로 된 데이터를 변환합니다.
- 1 → 남성
- 2 → 여성

2. 데이터프레임 df의 DIS 컬럼에 숫자로 된 데이터를 변환합니다. 
- 1 → 고혈압/당뇨병 진료내역 있음
- 2 → 고혈압 진료내역 있음
- 3 → 당뇨병 진료내역 있음
- 4 → 고혈압/당뇨병 진료내역 없음
3. 데이터프레임 df의 DIS 컬럼에 들어있는 각 값들이 몇 개씩 저장되어 있는지 출력합니다.



In [46]:
import pandas as pd

#1.csv파일 불러오기
df = pd.read_csv("medical.csv")

#2. 데이터셋 살펴보기
print(df.head())
print(df.tail())

df.info()

#3. 성별 값 변환하기
gender_mapper = {
    1: "남성",
    2: "여성",
}
df["SEX"] = df["SEX"].map(gender_mapper)

#4. DIS 변환하기
dis_mapper = {
    
    1:"고혈압/당뇨병 진료내역 있음",
    2:"고혈압 진료내역 있음",
    3:"당뇨병 진료내역 있음",
    4:"고혈압/당뇨병 진료내역 없음"
}

df["DIS"] = df["DIS"].map(dis_mapper)

#5.dis 컬럼 고유 값 빈도수 출력하기
df["DIS"].value_counts()


   Unnamed: 0  SEX  BTH_G  SBP  DBP  FBS  DIS   BMI
0           0    2      6  102   72   86    4  19.2
1           1    2     27  106   64   99    4  26.2
2           2    2     13  108   61   90    4  22.9
3           3    2     18  110   67   90    4  24.5
4           4    2     18  124   80   86    4  26.2
      Unnamed: 0  SEX  BTH_G  SBP  DBP  FBS  DIS   BMI
9995        9995    1     22  120   80   89    4  22.7
9996        9996    1      4  102   65   97    4  21.8
9997        9997    2     13  120   74   75    4  21.9
9998        9998    2     19  130   70   90    2  27.2
9999        9999    2     16  110   70   87    4  21.1
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  10000 non-null  int64  
 1   SEX         10000 non-null  int64  
 2   BTH_G       10000 non-null  int64  
 3   SBP         10000 non-null  int64  
 4   

DIS
고혈압/당뇨병 진료내역 없음    7330
고혈압 진료내역 있음        1684
고혈압/당뇨병 진료내역 있음     538
당뇨병 진료내역 있음         448
Name: count, dtype: int64

## 콤마가 있는 숫자 처리하기

access_data.csv 에는 한 홈페이지의 접속경로 통계 데이터가 저장되어 있습니다.

```
컬럼 명	데이터 소개	데이터 유형
접속일자	접속한 날짜	object
PC접속수	PC를 통해 홈페이지에 접속한 수	object
모바일접속수	모바일을 통해 홈페이지에 접속한 수	object
```

데이터를 읽고, 아래 지시사항을 따르세요.

1. df(데이터프레임)의 '접속일자' 컬럼의 자료형을 datetime으로 변경합니다.
2. del_comma() 함수를 완성하여 'PC접속수' 와 '모바일접속수' 컬럼의 콤마를 제거합니다. (문자열의 replace를 활용)
  - 매개변수로 받은 문자열에 콤마(,)가 있다면 제거
3. 콤마를 지운 'PC접속수' 와 '모바일접속수' 컬럼의 자료형을 숫자형 자료형(int)으로 변경합니다.
4. df의 'PC접속수' 컬럼과 '모바일접속수' 컬럼을 이용해서 df에 '전체접속수' 컬럼을 추가합니다.

In [48]:
import pandas as pd

#1.csv파일 불러오기
df = pd.read_csv("access_data.csv")

df.info()
print("="*40)
print(df.head())
print(df.tail())

#1. 자료형 변경
df["접속일자"] = pd.to_datetime(df["접속일자"])
print(df["접속일자"])



#2.함수를 완성하세요.
def del_comma(data): #문자열
    if "," in data: #문자열에 콤마가 있다면
        data = data.replace(",","") #그 문자열에서 콤마를 제거
    return data
df["PC접속수"]   = df["PC접속수"].apply(del_comma)
df["모바일접속수"]   = df["모바일접속수"].apply(del_comma)

print(df["PC접속수"])
print(df["모바일접속수"])

#3.숫자형 자료형으로 변경
df["모바일접속수"] = df["모바일접속수"].astype(int)
df["PC접속수"] = df["PC접속수"].astype(int)

df.info()
#4.전체 접속수 구하기
df["전체접속수"] = df["PC접속수"] + df["모바일접속수"]
 
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   접속일자    365 non-null    object
 1   PC접속수   365 non-null    object
 2   모바일접속수  365 non-null    object
dtypes: object(3)
memory usage: 8.7+ KB
         접속일자  PC접속수 모바일접속수
0  2021-01-01  1,870    900
1  2021-01-02  1,660  1,280
2  2021-01-03  4,440    550
3  2021-01-04  2,890    520
4  2021-01-05  2,500    400
           접속일자  PC접속수 모바일접속수
360  2021-12-27  4,130  1,750
361  2021-12-28  5,550  1,710
362  2021-12-29  6,970  1,650
363  2021-12-30  4,760  1,910
364  2021-12-31  3,880  2,110
0     2021-01-01
1     2021-01-02
2     2021-01-03
3     2021-01-04
4     2021-01-05
         ...    
360   2021-12-27
361   2021-12-28
362   2021-12-29
363   2021-12-30
364   2021-12-31
Name: 접속일자, Length: 365, dtype: datetime64[ns]
0      1870
1      1660
2      4440
3      2890
4      2500
       ... 
360    4130
361    555

Unnamed: 0,접속일자,PC접속수,모바일접속수,전체접속수
0,2021-01-01,1870,900,2770
1,2021-01-02,1660,1280,2940
2,2021-01-03,4440,550,4990
3,2021-01-04,2890,520,3410
4,2021-01-05,2500,400,2900
...,...,...,...,...
360,2021-12-27,4130,1750,5880
361,2021-12-28,5550,1710,7260
362,2021-12-29,6970,1650,8620
363,2021-12-30,4760,1910,6670


## 서울시 인구수 기반 고령화 정도 분석

seoul_population.csv 파일에 2023년 서울시 지역구별 인구수 데이터가 저장되어 있습니다.

데이터를 읽고 아래 지시사항을 따르세요.

1. 데이터프레임 df에 "노인인구비율" 컬럼을 생성하여 지역구별로 총인구수 대비 노인인구의 비율을 저장합니다. (70대 이상의 인구를 노인 인구라고 가정합니다)
2. 데이터프레임 df에 "고령여부" 컬럼을 생성하고 "노인인구비율" 컬럼값이 0.14 이상이면 O (대문자 o), 0.14 미만이면 X (대문자 x)를 저장합니다.
3. 최종 완성된 데이터프레임을 출력합니다.

In [None]:
import pandas as pd

#1.csv파일 불러오기
df = pd.read_csv("seoul_population.csv")
#1. 노인인구 비율 저장
df.info()
df.head()

df["노인인구비율"] = df["70대"] + df["80대"] + df["90대 이상"]
df["노인인구비율"] = df["노인인구비율"]/df["총인구수"]

df.head()
#2.고령여부 
def whether(data):
    if 0.14 <= data:
        return "o"
    else:
        return "x"

df["고령여부"] = df["노인인구비율"].apply(whether)

#3.출력
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   동별      25 non-null     object
 1   10대 미만  25 non-null     int64 
 2   10대     25 non-null     int64 
 3   20대     25 non-null     int64 
 4   30대     25 non-null     int64 
 5   40대     25 non-null     int64 
 6   50대     25 non-null     int64 
 7   60대     25 non-null     int64 
 8   70대     25 non-null     int64 
 9   80대     25 non-null     int64 
 10  90대 이상  25 non-null     int64 
 11  총인구수    25 non-null     int64 
dtypes: int64(11), object(1)
memory usage: 2.5+ KB


Unnamed: 0,동별,10대 미만,10대,20대,30대,40대,50대,60대,70대,80대,90대 이상,총인구수,노인인구비율,고령여부
0,종로구,6559,10735,27787,21014,20982,25061,20952,11556,6600,966,152212,18156.006346,o
1,중구,6313,6909,21404,22120,18283,20648,18898,10432,5504,879,131390,15936.00669,o
2,용산구,12886,15451,33676,41419,35389,37195,30318,15744,8987,1417,232482,24731.006095,o
3,성동구,17968,18917,45156,46557,42643,45743,38809,20199,9980,1268,287240,30179.004414,o
4,광진구,16678,25060,66308,56979,50188,54710,46016,22985,10650,1351,350925,33635.00385,o


## 당뇨 데이터 변환

diabetes.csv에는 환자에 대한 당뇨병 데이터가 저장되어 있습니다.
```
컬럼	의미	설명
Pregnancies	임신 횟수	정수형
Glucose	포도당 부하검사 수치	정수형
BloodPressure	혈압	정수형
SkinThickness	팔 삼두근 뒤쪽의 피하지방 측정값	정수형
Insulin	혈청 인슐린	정수형
BMI	체질량 지수	실수형
DiabetesPedigreeFunction	당뇨 내력 가중치 값	실수형
Age	나이	정수형
Outcome	당뇨여부	1(Yes), 0(No)
```

1. categorize_bmi(bmi) : 비만도 분류하기
bmi에 따른 비만도를 분류합니다.
아래 조건에 맞는 레이블을 return 할 수 있도록 categorize_bmi를 작성합니다.
```
범위	            분류	    레이블
18.5 이하	        저체중	   0
18.5 초과 23.0 이하	 정상	   1
23.0 초과 25.0 이하	 과체중	    2
25.0 초과	        비만	  3
```

2. bmi_to_categorical(data) : 데이터 변환하기
데이터프레임의 BMI 컬럼 데이터를 매개변수로 받아 연속형 데이터를 범주형 데이터(0~3)의 레이블을 가지도록 변환하는 함수를 작성합니다.


In [None]:
import pandas as pd

def categorize_bmi(bmi: str) -> int:  
    """비만도를 분류하는 함수입니다."""
    if  bmi < 18.5:  
        return 0
    elif 18.5 < bmi <= 23.0:  
        return 1 
    elif 23.0 < bmi < 25.0:  
        return 2
    else:  
        return 3

def bmi_to_categorical(data):
    new_series = {
        0: "저체중",
        1: "정상",
        2: "과체중",
        3: "비만"
    }
    return new_series

# 데이터를 읽어오세요!
df = pd.read_csv("diabetes.csv")


df["BMI"] = df["BMI"].apply(categorize_bmi)
# df의 BMI Column을 범주형 데이터로 변환하여 저장합니다.
df["BMI"] =df["BMI"].map(bmi_to_categorical(df["BMI"]))

# BMI 컬럼을 출력하세요.
df["BMI"]
df["BMI"].value_counts()

0       비만
1       비만
2       비만
3       비만
4       비만
5       비만
6       비만
7       비만
8       비만
9       비만
10      비만
11      비만
12     과체중
13      정상
14      비만
15     과체중
16     과체중
17      비만
18      비만
19      비만
20      정상
21     과체중
22     과체중
23      비만
24      비만
25      비만
26      비만
27      비만
28      비만
29      정상
30      비만
31      비만
32      비만
33      비만
34      비만
35      비만
36      비만
37      비만
38      비만
39      비만
40     과체중
41      비만
42      정상
43      비만
44      비만
45      비만
46      비만
47      비만
48      비만
49      비만
50      비만
51      비만
52      비만
53      비만
54     과체중
55      비만
56      비만
57      비만
58      비만
59      비만
60      비만
61      비만
62      비만
63      정상
64      비만
65      비만
66      비만
67      비만
68      비만
69      비만
70      비만
71      비만
72      비만
73      비만
74     과체중
75      비만
76      비만
77      비만
78      비만
79      비만
80      비만
81      비만
82      비만
83      비만
84      비만
85      비만
86      비만
87      비만
88      비만
89      비만
90      비만

## 그룹으로 묶기
아래와 같은 학생들의 성적을 나타낸 데이터 프레임이 주어집니다. 아래 지시사항을 따르세요.

```
인덱스	반	국어성적	수학성적
0	A	100	85
1	B	96	88
2	C	94	91
3	A	92	94
4	B	90	97
5	C	86	100
```

1. 반별 국어성적의 합, 수학성적의 합, 반별 국어성적의 평균, 수학성적의 평균
2. 위 4개의 값을 구하고 출력합니다. 



In [35]:
import pandas as pd


df = pd.DataFrame(
        {
            "class": ["A", "B", "C", "A", "B", "C"],
            "Korean": [100, 96, 94, 92, 90, 86],
            "Math": [85, 88, 91, 94, 97, 100],
        }
    )

#1. 노인인구 비율 저장
df.info()
df.head()

korea_all =   df.groupby("class")["Korean"].sum()
print("국어 합",korea_all)
math_all =   df.groupby("class")["Math"].sum()
print("수학 합",math_all)

koreanagv = df.groupby("class")["Korean"].mean()
print("국어 반별 평균:",koreanagv)

mathagv = df.groupby("class")["Math"].mean()
print("수학 반별 평균",mathagv)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   class   6 non-null      object
 1   Korean  6 non-null      int64 
 2   Math    6 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 272.0+ bytes
국어 합 class
A    192
B    186
C    180
Name: Korean, dtype: int64
수학 합 class
A    179
B    185
C    191
Name: Math, dtype: int64
국어 반별 평균: class
A    96.0
B    93.0
C    90.0
Name: Korean, dtype: float64
수학 반별 평균 class
A    89.5
B    92.5
C    95.5
Name: Math, dtype: float64


## 펭귄 데이터 그룹화하기
데이터의 구조는 아래와 같습니다. 아래 데이터를 바탕으로 아래 지시사항을 따르세요.
```
컬럼 명	형식	내용
species	object	펭귄의 종
island	object	펭귄이 관찰된 섬의 이름
bill_length_mm	float64	펭귄 부리의 길이
bill_depth_mm	float64	펭귄 부리의 깊이
flipper_length_mm	float64	펭귄의 지느러미 길이
body_mass_g	float64	펭귄의 체중
sex	object	펭귄의 성별
```

1. penguins.csv 파일을 읽어옵니다.
2. 첫번째 줄에 그룹화할 기준의 컬럼명을 입력받습니다.
  - 그룹화할 컬럼은 최소 한 개에서 최대 두 개까지 입력받습니다.
  - 입력하는 컬럼은 , 로 구분됩니다.
3. 첫 번째 줄에 입력받은 컬럼 명을 기준으로 순서대로 그룹화한 후, 평균을 구하여 출력합니다.
숫자형 자료에 대해서만 출력합니다.
(mean 메서드 사용시 numeric_only 인자에 True를 전달하면 숫자형 자료에 대해서만 출력할 수 있습니다.)

입력 예시 1
```
island
```

출력 예시 1
```
           bill_length_mm  bill_depth_mm  flipper_length_mm  body_mass_g
island                                                                  
Biscoe          44.300000      15.854839         207.709677  4671.774194
Dream           43.762500      18.459375         192.437500  3599.218750
Torgersen       39.133333      17.883333         187.500000  3716.666667
```

입력 예시 2
```
species,island
```

출력 예시 2
```
                     bill_length_mm  bill_depth_mm  flipper_length_mm  body_mass_g
species   island                                                                  
Adelie    Biscoe          38.800000      18.255556         188.333333  3627.777778
          Dream           37.520000      18.320000         188.733333  3486.666667
          Torgersen       39.133333      17.883333         187.500000  3716.666667
Chinstrap Dream           49.270588      18.582353         195.705882  3698.529412
Gentoo    Biscoe          46.550000      14.872727         215.636364  5098.863636
```





In [83]:
import pandas as pd

df = pd.read_csv("penguins.csv")
# df.head()

a = input().split(",")
print(df.groupby(a).mean(numeric_only = True))


                     bill_length_mm  bill_depth_mm  flipper_length_mm  \
species   island                                                        
Adelie    Biscoe          38.800000      18.255556         188.333333   
          Dream           37.520000      18.320000         188.733333   
          Torgersen       39.133333      17.883333         187.500000   
Chinstrap Dream           49.270588      18.582353         195.705882   
Gentoo    Biscoe          46.550000      14.872727         215.636364   

                     body_mass_g  
species   island                  
Adelie    Biscoe     3627.777778  
          Dream      3486.666667  
          Torgersen  3716.666667  
Chinstrap Dream      3698.529412  
Gentoo    Biscoe     5098.863636  


## 인도 IT 시장 점유율 확인하기
인도에서 스마트폰, 데스크탑, 태블릿PC 점유율을 기록한 csv 파일을 이용하여 csv 파일을 기준에 따라 그룹화하고 특정 인덱스의 최댓값을 구하려고 합니다. 파일 내의 컬럼에 대한 설명은 다음과 같습니다.
```
컬럼 명	형식	내용
Date	object	측정 날짜
Mobile	float64	모바일 시장 점유율
Desktop	float64	데스크탑 시장 점유율
Tablet	float64	태블릿PC 시장 점유율
```
1. india_shares.csv 파일을 읽어옵니다.
2. Date 컬럼을 활용해서 연, 월 데이터를 아래의 컬럼을 만들어서 저장하세요.
  - Year : Date 컬럼의 연에 해당하는 데이터
  - Month : Date 컬럼의 월에 해당하는 데이터
3. 그룹화할 기준의 컬럼 명 하나를 입력받습니다.
4. 불러온 csv 파일을 이용하여 입력받은 컬럼 명을 기준으로 순서대로 그룹화한 후, 평균을 구하여 출력합니다.
5. 숫자형 자료에 대해서만 출력합니다. 
(mean 메서드 사용시 numeric_only 인자에 True를 전달하면 숫자형 자료에 대해서만 출력할 수 있습니다.)

입력 예시
```
Month
```

출력 예시
```
          Mobile    Desktop    Tablet  Year
Month                                      
1      57.332667  42.156667  0.510000  2016
2      56.698000  42.801333  0.501333  2016
3      57.479333  42.007333  0.512667  2016
4      58.248667  41.222000  0.530667  2016
5      58.652667  40.799333  0.546667  2016
6      58.950000  40.497333  0.552000  2016
7      58.965333  40.487333  0.547333  2016
8      59.707333  39.724000  0.567333  2016
9      60.142667  39.306667  0.550667  2016
10     60.892000  38.572667  0.534000  2016
11     61.545333  37.924667  0.530000  2016
12     62.525333  36.951333  0.524667  2016
```

In [36]:
import pandas as pd

df = pd.read_csv("india_shares.csv")
df["Date"] = pd.to_datetime(df["Date"])

df["year"] = df["Date"].dt.year
df["month"] = df["Date"].dt.month
df.head()

a =input()
month = df.groupby(a).mean(numeric_only=True)

month['year'] = month['year'].astype(int)
print(month)


          Mobile    Desktop    Tablet  year
month                                      
1      57.332667  42.156667  0.510000  2016
2      56.698000  42.801333  0.501333  2016
3      57.479333  42.007333  0.512667  2016
4      58.248667  41.222000  0.530667  2016
5      58.652667  40.799333  0.546667  2016
6      58.950000  40.497333  0.552000  2016
7      58.965333  40.487333  0.547333  2016
8      59.707333  39.724000  0.567333  2016
9      60.142667  39.306667  0.550667  2016
10     60.892000  38.572667  0.534000  2016
11     61.545333  37.924667  0.530000  2016
12     62.525333  36.951333  0.524667  2016
