In [1]:
import pandas as pd

In [2]:
scientists = pd.read_csv('scientists.csv')

In [3]:
names = scientists['Name']
names

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object

In [4]:
names.to_pickle('sci_names.pickle')

In [5]:
# 데이터 프레임 전체를 피클로 저장할 수 있다 
scientists.to_pickle('sci_all.pickle')

In [7]:
# 피클 읽어오기
sci_names_from_pickle = pd.read_pickle('sci_names.pickle')
sci_names_from_pickle

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object

In [8]:
sci_df_from_pickle = pd.read_pickle('sci_all.pickle')
sci_df_from_pickle

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [9]:
# CSV, TSV 로 저장하기
# CSV 는 데이터를 쉼표/콤마로 구분하여 저장한 파일
# TSV 는 데이터를 탭으로 구분하여 저장한 파일
# 일반 프로그램으로 쉽게 열어서 볼 수 있다

names

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object

In [10]:
# CSV 로 저장
names.to_csv('sci_names_csv.csv')

In [11]:
# TSV 로 저장
names.to_csv('sci_names_csv.tsv', sep='\t')

In [12]:
# 엑셀로 저장
import openpyxl
scientists.to_excel('scientists_df_xlsx.xlsx')

In [None]:
# 데이터 연결
# 분석하기 좋은 데이터는 분석하기 쉬운 상태로 가공 된 데이터
# 실전 필드에서도 전처리 작업이 데이터 분석 작업의 80% 이상 차지

# 분석하기 좋은 데이터의 기본 조건
# 1. 변수는 열로 구성
# 2. 값은 행으로 구성
# 3. 열과 행으로 구성된 표 형태

In [13]:
df1 = pd.read_csv('concat_1.csv')
df2 = pd.read_csv('concat_2.csv')
df3 = pd.read_csv('concat_3.csv')

In [14]:
row_concat = pd.concat([df1, df2, df3])
print(row_concat)

     A    B    C    D
0   a0   b0   c0   d0
1   a1   b1   c1   d1
2   a2   b2   c2   d2
3   a3   b3   c3   d3
0   a4   b4   c4   d4
1   a5   b5   c5   d5
2   a6   b6   c6   d6
3   a7   b7   c7   d7
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11


In [15]:
print(row_concat.iloc[3, ])

A    a3
B    b3
C    c3
D    d3
Name: 3, dtype: object


In [16]:
new_row_series = pd.Series(['n1', 'n2', 'n3', 'n4'])

In [17]:
print(pd.concat([df1, new_row_series]))
# NaN : 누락값/결측치
# 시리즈가 새로운 열로 삽입 되었다

# 시리즈를 데이터프레임에 넣으려고 하면 제대로 처리되지 않음
# 열 이름이 없기 때문

     A    B    C    D    0
0   a0   b0   c0   d0  NaN
1   a1   b1   c1   d1  NaN
2   a2   b2   c2   d2  NaN
3   a3   b3   c3   d3  NaN
0  NaN  NaN  NaN  NaN   n1
1  NaN  NaN  NaN  NaN   n2
2  NaN  NaN  NaN  NaN   n3
3  NaN  NaN  NaN  NaN   n4


In [18]:
# 데이터프레임에 추가하려면 반드시 데이터프레임에 담아서 연결해야함
new_row_df = pd.DataFrame([['n1', 'n2', 'n3', 'n4']], columns=['A', 'B', 'C', 'D'])
print(new_row_df)

    A   B   C   D
0  n1  n2  n3  n4


In [19]:
# concat
print(pd.concat([df1, new_row_df]))

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
0  n1  n2  n3  n4


In [20]:
# append
print(df1.append(new_row_df))

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
0  n1  n2  n3  n4


  print(df1.append(new_row_df))


In [21]:
# ignore_index=True 기존 인덱스 무력화
data_dict = {'A':'n1', 'B':'n2', 'C':'n3', 'D':'n4'}
print(df1.append(data_dict, ignore_index=True))

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
4  n1  n2  n3  n4


  print(df1.append(data_dict, ignore_index=True))


In [22]:
# 열 방향으로 데이터 붙이기 axis=1
col_concat = pd.concat([df1, df2, df3], axis=1)
print(col_concat)

    A   B   C   D   A   B   C   D    A    B    C    D
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11


In [23]:
# 같은 이름의 열들만 추출
print(col_concat['A'])

    A   A    A
0  a0  a4   a8
1  a1  a5   a9
2  a2  a6  a10
3  a3  a7  a11


In [24]:
# 새로운 열을 간단히 추가
col_concat['new_col_list'] = ['n1', 'n2', 'n3', 'n4']
print(col_concat)

    A   B   C   D   A   B   C   D    A    B    C    D new_col_list
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8           n1
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9           n2
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10           n3
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11           n4


In [25]:
print(pd.concat([df1, df2, df3], axis=1, ignore_index=True))

   0   1   2   3   4   5   6   7    8    9    10   11
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11


In [26]:
# 공통 열과 공통 인덱스만 연결

df1.columns = ['A', 'B', 'C', 'D'] 
df2.columns = ['E', 'F', 'G', 'H'] 
df3.columns = ['A', 'C', 'F', 'H']
print(df1)
print(type(df1))

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
<class 'pandas.core.frame.DataFrame'>


In [None]:
print(df2)
print(type(df2))

print(df3)
print(type(df3))

row_concat = pd.concat([df1, df2, df3]) 
print(row_concat)

# 데이터 프레임의 공통 열들만 골라서 연결하면 결측치 가 생기지 않을 것이다. 
# 그러나 df1, df2, df3 모두의 공통열은 존재하지 않는다. 
# 만약에 공통열이 있다면 공통열만을 추출하는 명령은 join='inner'
print(pd.concat([df1, df2, df3], join='inner'))

print(pd.concat([df1,df3], ignore_index=False, join='inner'))

# 행방향으로 연결 시....
df1.index = [0, 1, 2, 3] 
df2.index = [4, 5, 6, 7] 
df3.index = [0, 2, 5, 7]

print(df1)

col_concat = pd.concat([df1, df2, df3], axis=1) 
print(col_concat)

# merge 매서드 사용하여 데이터 연결하기

person = pd.read_csv('survey_person.csv')
site = pd.read_csv('survey_site.csv')
survey = pd.read_csv('survey_survey.csv')
visited = pd.read_csv('survey_visited.csv')


print(person)
print(site)

visited_subset = visited.loc[[0, 2, 6], ]
print(visited_subset)

o2o_merge = site.merge(visited_subset, left_on='name', right_on='site') 
print(o2o_merge)

site

m2o_merge = site.merge(visited, left_on='name', right_on='site') 
print(m2o_merge)

visited

ps = person.merge(survey, left_on='ident', right_on='person') 
vs = visited.merge(survey, left_on='ident', right_on='taken')

print(ps)

# 전처리 - 결측값(누락값, 결측치) 처리
# NaN NAN nan 모두 가능하다. NaN을 선호한다. 
from numpy import NAN, NaN, nan 

# 결측치는 0이 아니다. ''도 아니다. 말 그대로 값이 없음을 나타낸다. 
# 따라서 '같다'도 사용할수 없다. 

print(NaN == True)
print(NaN == False)
print(NaN == 0)
print(NaN == '')
print(NaN == NaN)
print(NaN == nan)
print(NaN == NAN)
print(nan == NAN)

# NaN은 값 자체가 없기 때문에 자기 자신도 True 가 아니라 False 로 출력한다. 

import pandas as pd 

print(pd.isnull(NaN))
print(pd.isnull(nan))
print(pd.isnull(NAN))


#  원래 결측치가 존재하는 파일을 불러오기도 하지만 결측치는 그 과정에서 - 
# 데이터 연결, 입력할때 등등에서 발생한다. 

visited = pd.read_csv('survey_visited.csv') 
survey = pd.read_csv('survey_survey.csv')

print(visited)

print(survey)

vs = visited.merge(survey, left_on='ident', right_on='taken') 
print(vs)

# 결측치의 개수 구하기

# 전체 개수수
ebola = pd.read_csv('country_timeseries.csv')
print(ebola.count())

num_rows = ebola.shape[0]
num_missing = num_rows - ebola.count() 
print(num_missing)

In [None]:
ebola.isnull()

ebola['Cases_Guinea'].isnull()

print(ebola.Cases_Guinea.value_counts(dropna=False).head())

print(ebola.Cases_Guinea.value_counts(dropna=False))

# 결측치 처리

# 1.임의의 값을 넣는다. (0,평균값, 최빈값)
# 2.삭제한다. 

# 1.임의의 값(0) 으로 대체하는 방법
print(ebola.fillna(0).iloc[0:10, 0:5])

# 2.삭제한다. 

print(ebola.shape)

ebola_dropna = ebola.dropna() 
print(ebola_dropna.shape)

print(ebola_dropna)

# 데이터 분석과 인공지능 분야에서는 결측치를 처리하는 능력이 매우매우 중요하다. 
# 결측치를 처리하는 방법은 반드시 숙지해야 한다.  

# 자료형 변환

import seaborn as sns   #  matplotlib() 보다 그림을 조금더 세련되게 그릴수 있다. 

tips = sns.load_dataset("tips")

tips

tips.dtypes

tips['sex_str'] = tips['sex'].astype(str)
print(tips.dtypes)

tips['total_bill'] = tips['total_bill'].astype(str) 
print(tips.dtypes)

tips['total_bill'] = tips['total_bill'].astype(float) 
print(tips.dtypes)

# 이상한 데이터, 이상치, 잘못된 데이터를 변환
# 정수가 있어야하는 열에 문자가 있으면 변환이 필요하다. 
tips_sub_miss = tips.head(10)
tips_sub_miss

tips_sub_miss.loc[[1, 3, 5, 7], 'total_bill'] = 'missing'

tips_sub_miss

print(tips_sub_miss.dtypes)
#데이터에 문자가 포함되어 있어서 자료형 자체가 변경되었다. 

#tips_sub_miss['total_bill'].astype(float)
#데이터 중에 글자가 있어서 실수형으로 변환이 불가능하다. 

#pd.to_numeric(tips_sub_miss['total_bill'])
# 다른 방법을 시도해보았으나 역시 변환이 불가능하다. 


tips_sub_miss['total_bill'] = pd.to_numeric( tips_sub_miss['total_bill'], errors='coerce')

print(tips_sub_miss.dtypes)

# 옵션값을 coerce 로 설정하면 missing 값이 누락값으로 변경된다. 

# 카테고리 자료형

# 판다스에는 유한한 범위 값만 가질수 있는 카테고리라는 특수한 자료형이 있다. 
# 만약에 5개의 언어만 저장할 열이 있다고 생각한다면 문자열 자료형보다는
# 카테고리 자료형을 사용하는 것이 용량과 속도면에서도 훨씬 효율적이다. 

# 1. 용량과 속도면에서 탁월하다. 
# 2. 주로 동일한 문자열이 반복되어 데이터를 구성하는 경우 사용된다. 



tips['sex'] = tips['sex'].astype('str') 
print(tips.info())

tips['sex'] = tips['sex'].astype('category') 
print(tips.info())

tips['sex'] = tips['sex'].astype('str') 
tips['smoker'] = tips['smoker'].astype('str') 
tips['day'] = tips['day'].astype('str') 
tips['time'] = tips['time'].astype('str') 
print(tips.info())

#groupby

import pandas as pd 
df = pd.read_csv('gapminder.tsv', sep='\t')


df

gdf_dict = df.groupby('year').agg({'lifeExp': 'mean', 'pop': 'median', 'gdpPercap': 'median'}) 
print(gdf_dict)

# 타이타닉 

# 1. 전처리
# 2. 데이터분석
# 3. 인공지능(머신러닝)
# 4. 예측 (디카프리오, 21, 남성, 3등석 ? 생존률)
#         (윈슬렛, 18, 여성, 1등석 ? 생존률)

# 연예인 닮은 꼴 찾기 API

