In [2]:
import pandas as pd

In [3]:
data = pd.Series(['서울', '부산', '대전'])
print(data)

0    서울
1    부산
2    대전
dtype: object


In [9]:
import numpy as np
data = pd.Series(np.array([1,2,3]))
print(data)

0    1
1    2
2    3
dtype: int32


In [10]:
data = pd.Series({'서울':1, '부산':2, '대전':3})
print(data)

서울    1
부산    2
대전    3
dtype: int64


In [12]:
data = pd.DataFrame([['서울', '부산', '대전'],[1,2,3]])
data

Unnamed: 0,0,1,2
0,서울,부산,대전
1,1,2,3


In [13]:
df = pd.DataFrame({"강남구":[1,2,3], 
                   "영등포구":[4,5,6],
                   "서초구":[7,8,9]})
df

Unnamed: 0,강남구,영등포구,서초구
0,1,4,7
1,2,5,8
2,3,6,9


In [15]:
df["강남구"] # 인덱스, 강남구, 영등포구 --> columns

0    1
1    2
2    3
Name: 강남구, dtype: int64

In [18]:
df.columns = ['강남','영등포', '서초'] # columns값을 변경하는 법
df

Unnamed: 0,강남,영등포,서초
0,1,4,7
1,2,5,8
2,3,6,9


In [20]:
df.index = ["1 주차","2 주차","3 주차"]
df

Unnamed: 0,강남,영등포,서초
1 주차,1,4,7
2 주차,2,5,8
3 주차,3,6,9


In [35]:
df = df.rename(columns={'강남':'강남구'})
df

Unnamed: 0,강남구,영등포,서초
1 주차,1,4,7
2 주차,2,5,8
3 주차,3,6,9


### 데이터 조회하기

In [39]:
df.iloc[1:,:2]

Unnamed: 0,강남구,영등포
2 주차,2,5
3 주차,3,6


In [41]:
df.iloc[1:,1]

2 주차    5
3 주차    6
Name: 영등포, dtype: int64

In [42]:
df.iloc[:,:2]

Unnamed: 0,강남구,영등포
1 주차,1,4
2 주차,2,5
3 주차,3,6


In [43]:
df

Unnamed: 0,강남구,영등포,서초
1 주차,1,4,7
2 주차,2,5,8
3 주차,3,6,9


In [49]:
df[df["영등포"]>=5]

Unnamed: 0,강남구,영등포,서초
2 주차,2,5,8
3 주차,3,6,9


In [50]:
df[df["서초"]==8]

Unnamed: 0,강남구,영등포,서초
2 주차,2,5,8


### 랜덤 추출

In [51]:
import pandas as pd

In [53]:
df = pd.DataFrame({"서울":[10,20,30,40,50,60],
                   "부산":[5,10,15,20,25,30],
                   "대구":[7,14,21,28,35,42]})
df

Unnamed: 0,서울,부산,대구
0,10,5,7
1,20,10,14
2,30,15,21
3,40,20,28
4,50,25,35
5,60,30,42


In [54]:
df.sample(frac = 0.5)

Unnamed: 0,서울,부산,대구
2,30,15,21
0,10,5,7
5,60,30,42


In [55]:
df.sample(n=4)

Unnamed: 0,서울,부산,대구
3,40,20,28
1,20,10,14
2,30,15,21
4,50,25,35


In [56]:
data = pd.DataFrame({
    "지역명":['강남','서초','노원'],
    '번호':[1,2,3],
    '매출':[100,200,300]
})
data

Unnamed: 0,지역명,번호,매출
0,강남,1,100
1,서초,2,200
2,노원,3,300


In [57]:
data.index = ['1월','2월','3월']
data

Unnamed: 0,지역명,번호,매출
1월,강남,1,100
2월,서초,2,200
3월,노원,3,300


In [58]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, 1월 to 3월
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역명     3 non-null      object
 1   번호      3 non-null      int64 
 2   매출      3 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 96.0+ bytes


In [60]:
data.describe() #숫자들만 계산

Unnamed: 0,번호,매출
count,3.0,3.0
mean,2.0,200.0
std,1.0,100.0
min,1.0,100.0
25%,1.5,150.0
50%,2.0,200.0
75%,2.5,250.0
max,3.0,300.0


In [69]:
data

Unnamed: 0,지역명,번호,매출
1월,강남,1,100
2월,서초,2,200
3월,노원,3,300


In [70]:
data["매출"]+100

1월    200
2월    300
3월    400
Name: 매출, dtype: int64

In [71]:
data["매출"]+data["번호"]

1월    101
2월    202
3월    303
dtype: int64

### 데이터 처리
- 외부 데이터 처리
- 외부 데이터 읽어오기
- 외부 데이터 파악해보기
- 원하는 Column 선택하기

In [76]:
df = pd.read_csv("cdata.csv")
df

Unnamed: 0,index,이름,나이,지역
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


In [78]:
df = pd.read_csv("cdata.csv", index_col= 0) # index_col= 0  index를 내 자료의 index 값을 쓰고 싶을 때
df

Unnamed: 0_level_0,이름,나이,지역
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,홍길동,25,서울
2,김준기,21,서울
9,이명식,22,부산
32,방준혁,24,광주
47,최명기,31,부산


In [80]:
df = pd.read_csv("cdata.csv",
                 index_col= None)
df

Unnamed: 0,index,이름,나이,지역
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


In [83]:
df.columns = ['인덱스','이름', '나이','지역']
df

Unnamed: 0,인덱스,이름,나이,지역
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


### Excel File 불러오기

In [86]:
df = pd.read_excel("cdata.xlsx")
df

Unnamed: 0,index,이름,나이,지역
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


1. 데이터 확인
2. 결측치 처리

In [116]:
df = pd.read_csv("cdata_nan.csv")
df

Unnamed: 0,index,이름,나이,지역
0,1,홍길동,25.0,서울
1,2,김준기,,서울
2,9,이명식,22.0,
3,32,방준혁,,광주
4,47,최명기,31.0,부산


In [117]:
## 1. 데이터 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   index   5 non-null      int64  
 1   이름      5 non-null      object 
 2   나이      3 non-null      float64
 3   지역      4 non-null      object 
dtypes: float64(1), int64(1), object(2)
memory usage: 288.0+ bytes


In [118]:
df.head(2) # 위에서부터 두 줄

Unnamed: 0,index,이름,나이,지역
0,1,홍길동,25.0,서울
1,2,김준기,,서울


In [119]:
df.tail(2) # 아래에서부터 두 줄

Unnamed: 0,index,이름,나이,지역
3,32,방준혁,,광주
4,47,최명기,31.0,부산


In [120]:
df.isnull() # 비어있는 값(결측치) True / False 로 나타냄

Unnamed: 0,index,이름,나이,지역
0,False,False,False,False
1,False,False,True,False
2,False,False,False,True
3,False,False,True,False
4,False,False,False,False


In [121]:
df.dropna() # 비어있는 값(결측치)가 있는 정보 빼고 출력

Unnamed: 0,index,이름,나이,지역
0,1,홍길동,25.0,서울
4,47,최명기,31.0,부산


In [122]:
df.fillna(5) # 비어있는 값(결측치)에 설정값 입력

Unnamed: 0,index,이름,나이,지역
0,1,홍길동,25.0,서울
1,2,김준기,5.0,서울
2,9,이명식,22.0,5
3,32,방준혁,5.0,광주
4,47,최명기,31.0,부산


In [124]:
df['나이'] = df['나이'].fillna(25)
df

Unnamed: 0,index,이름,나이,지역
0,1,홍길동,25.0,서울
1,2,김준기,25.0,서울
2,9,이명식,22.0,광주
3,32,방준혁,25.0,광주
4,47,최명기,31.0,부산


In [125]:
df['지역'] = df['지역'].fillna("광주")
df

Unnamed: 0,index,이름,나이,지역
0,1,홍길동,25.0,서울
1,2,김준기,25.0,서울
2,9,이명식,22.0,광주
3,32,방준혁,25.0,광주
4,47,최명기,31.0,부산


In [129]:
df = pd.read_csv("cdata_nohead.csv",
                 header=None,
                 index_col=0)
df

Unnamed: 0_level_0,1,2,3
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,홍길동,25,서울
2,김준기,21,서울
9,이명식,22,부산
32,방준혁,24,광주
47,최명기,31,부산


In [142]:
newdf = df.sort_index() # Index로 정렬
newdf

Unnamed: 0_level_0,1,2,3
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,홍길동,25,서울
2,김준기,21,서울
9,이명식,22,부산
32,방준혁,24,광주
47,최명기,31,부산


In [145]:
newdf = df.sort_values(by = 2) # 값으로 정렬 // by = 2 // 2번 Column 나이 순으로 정렬
newdf

Unnamed: 0_level_0,1,2,3
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2,김준기,21,서울
9,이명식,22,부산
32,방준혁,24,광주
1,홍길동,25,서울
47,최명기,31,부산


In [149]:
newdf = df.sort_values(by = 2, ascending= True) # ascending 오름차순 // 내림차순
newdf

Unnamed: 0_level_0,1,2,3
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2,김준기,21,서울
9,이명식,22,부산
32,방준혁,24,광주
1,홍길동,25,서울
47,최명기,31,부산
