In [1]:
import pandas as pd
import numpy as np


In [2]:
s = pd.Series([12, -4, 7, 9])
s

0    12
1    -4
2     7
3     9
dtype: int64

In [3]:
s = pd.Series([12, -4, 7, 9], index=['a', 'b', 'c', 'd'])
s

a    12
b    -4
c     7
d     9
dtype: int64

In [4]:
s[2]      # 7


  s[2]      # 7


np.int64(7)

In [5]:
s.iloc[2]

np.int64(7)

In [6]:
s['b']

np.int64(-4)

In [7]:
s[0:2]              # a    12, b   -4
      # b   -4, c    7


a    12
b    -4
dtype: int64

In [8]:
s[['b', 'c']]

b   -4
c    7
dtype: int64

In [9]:
s.iloc[1] = 0
s['b'] = 999
s

a     12
b    999
c      7
d      9
dtype: int64

In [10]:
arr = np.array([1, 2, 3, 4])
s3 = pd.Series(arr)
s3

0    1
1    2
2    3
3    4
dtype: int64

In [11]:
s[s > 8]

a     12
b    999
d      9
dtype: int64

In [12]:
s / 2

a      6.0
b    499.5
c      3.5
d      4.5
dtype: float64

In [13]:
np.log(s)

a    2.484907
b    6.906755
c    1.945910
d    2.197225
dtype: float64

# Series Analysis
| Метод                    | Опис                                                                 |
|--------------------------|----------------------------------------------------------------------|
| `Series.unique()`        | Повертає масив унікальних значень у Series                          |
| `Series.value_counts()`  | Повертає кількість повторень кожного значення у Series               |
| `Series.isin([...])`     | Повертає маску (True/False), чи входить значення до заданого списку  |


In [14]:
serd = pd.Series([1,0,2,1,2,3],
                 index=['white','white','blue','green','green','yellow'])
serd

white     1
white     0
blue      2
green     1
green     2
yellow    3
dtype: int64

In [15]:
serd.unique()

array([1, 0, 2, 3])

In [16]:
serd.value_counts()

1    2
2    2
0    1
3    1
Name: count, dtype: int64

In [17]:
serd.isin([0, 3])

white     False
white      True
blue      False
green     False
green     False
yellow     True
dtype: bool

NAN values
| Метод                  | Опис                                                                 | Приклад                               |
|------------------------|----------------------------------------------------------------------|----------------------------------------|
| `Series.isnull()`      | Повертає маску: `True`, якщо значення є `NaN`                        | `s.isnull()`                           |
| `Series.notnull()`     | Повертає маску: `True`, якщо значення **не** є `NaN`                 | `s.notnull()`                          |
| `Series.isna()`        | Синонім до `isnull()`                                                | `s.isna()`                             |
| `Series.notna()`       | Синонім до `notnull()`                                               | `s.notna()`                            |
| `Series[mask]`         | Фільтрація за маскою                                                 | `s[s.notnull()]`                       |
| `Series.fillna(value)` | Замінює всі `NaN` на задане значення                                 | `s.fillna(0)`                          |
| `Series.dropna()`      | Видаляє всі елементи, де значення — `NaN`                            | `s.dropna()`                           |


In [18]:
# Створимо Series з пропущеними значеннями
s = pd.Series([10, np.nan, 30, np.nan, 50])

print("Початкова Series:")
print(s)

# isnull: де значення пропущене
print("\nМаска isnull():")
print(s.isnull())

# notnull: де значення присутнє
print("\nМаска notnull():")
print(s.notnull())

# isna/notna — те саме:
print("\nisna():", s.isna())
print("notna():", s.notna())

# Фільтрація лише непорожніх значень
print("\nФільтрація (s[s.notnull()]):")
print(s[s.notnull()])

# Заповнення пропущених значень нулями
print("\nЗаповнення NaN нулями:")
print(s.fillna(0))

# Видалення рядків з NaN
print("\nВидалення NaN (dropna):")
print(s.dropna())

Початкова Series:
0    10.0
1     NaN
2    30.0
3     NaN
4    50.0
dtype: float64

Маска isnull():
0    False
1     True
2    False
3     True
4    False
dtype: bool

Маска notnull():
0     True
1    False
2     True
3    False
4     True
dtype: bool

isna(): 0    False
1     True
2    False
3     True
4    False
dtype: bool
notna(): 0     True
1    False
2     True
3    False
4     True
dtype: bool

Фільтрація (s[s.notnull()]):
0    10.0
2    30.0
4    50.0
dtype: float64

Заповнення NaN нулями:
0    10.0
1     0.0
2    30.0
3     0.0
4    50.0
dtype: float64

Видалення NaN (dropna):
0    10.0
2    30.0
4    50.0
dtype: float64


# Dictionary to Series

In [19]:
mydict = {'red': 2000, 'blue': 1000, 'yellow': 500, 'orange': 1000}
myseries = pd.Series(mydict)
myseries

red       2000
blue      1000
yellow     500
orange    1000
dtype: int64

In [20]:
colors = ['red', 'yellow', 'orange', 'blue', 'green']
myseries = pd.Series(mydict, index=colors)
myseries

red       2000.0
yellow     500.0
orange    1000.0
blue      1000.0
green        NaN
dtype: float64

In [21]:
mydict2 = {'red': 400, 'yellow': 1000, 'black': 700}
myseries2 = pd.Series(mydict2)
result = myseries + myseries2
result

black        NaN
blue         NaN
green        NaN
orange       NaN
red       2400.0
yellow    1500.0
dtype: float64

# Nan значення

In [22]:
import pandas as pd
import numpy as np
ser = pd.Series([0, 1, 2, np.nan, 9], index=['red','blue','yellow','white','green'])
ser

red       0.0
blue      1.0
yellow    2.0
white     NaN
green     9.0
dtype: float64

In [33]:
frame3 = pd.DataFrame(
    [[6, np.nan, 6], [np.nan, np.nan, np.nan], [2, np.nan, 5]],
    index=['blue', 'green', 'red'],
    columns=['ball', 'mug', 'pen']
)
frame3


Unnamed: 0,ball,mug,pen
blue,6.0,,6.0
green,,,
red,2.0,,5.0


In [34]:
frame3.dropna()

Unnamed: 0,ball,mug,pen


In [24]:

frame3.dropna(how='all')

Unnamed: 0,ball,mug,pen
blue,6.0,,6.0
red,2.0,,5.0


In [25]:
frame3.fillna(0)

Unnamed: 0,ball,mug,pen
blue,6.0,0.0,6.0
green,0.0,0.0,0.0
red,2.0,0.0,5.0


In [26]:

frame3.fillna({'ball': 1, 'mug': 0, 'pen': 99})

Unnamed: 0,ball,mug,pen
blue,6.0,0.0,6.0
green,1.0,0.0,99.0
red,2.0,0.0,5.0


# Reading and writing data

In [27]:
import pandas as pd
csvframe = pd.read_csv('ch05_01.csv')
csvframe

Unnamed: 0,white,red,blue,green,animal
0,1,5,2,3,cat
1,2,7,8,5,dog
2,3,3,6,7,horse
3,2,2,8,3,duck
4,4,4,2,1,mouse


In [28]:
pd.read_csv('ch05_01.csv', header=None)


Unnamed: 0,0,1,2,3,4
0,white,red,blue,green,animal
1,1,5,2,3,cat
2,2,7,8,5,dog
3,3,3,6,7,horse
4,2,2,8,3,duck
5,4,4,2,1,mouse


In [35]:
frame = pd.DataFrame(
    np.arange(16).reshape((4,4)),
    index=['red','blue','yellow','white'],
    columns=['ball','pen','pencil','paper']
)
frame

Unnamed: 0,ball,pen,pencil,paper
red,0,1,2,3
blue,4,5,6,7
yellow,8,9,10,11
white,12,13,14,15


In [36]:
frame.to_csv('ch05_07.csv')

In [39]:
pd.read_csv('ch05_07.csv', index_col=0)

Unnamed: 0,ball,pen,pencil,paper
red,0,1,2,3
blue,4,5,6,7
yellow,8,9,10,11
white,12,13,14,15


In [40]:
excelframe = pd.read_excel('ch05_data2.xlsx', index_col=0)
excelframe

Unnamed: 0,Jan2015,Fab2015,Mar2015,Apr2005
exp1,0.142039,0.546635,0.090242,0.665234
exp2,0.08773,0.921791,0.536359,0.937995
exp3,0.288152,0.229669,0.189153,0.271844
exp4,0.814593,0.915312,0.795699,0.171684


In [41]:
excelframe.describe()

Unnamed: 0,Jan2015,Fab2015,Mar2015,Apr2005
count,4.0,4.0,4.0,4.0
mean,0.333128,0.653352,0.402863,0.511689
std,0.331947,0.332455,0.324317,0.355172
min,0.08773,0.229669,0.090242,0.171684
25%,0.128462,0.467394,0.164426,0.246804
50%,0.215096,0.730973,0.362756,0.468539
75%,0.419762,0.916931,0.601194,0.733424
max,0.814593,0.921791,0.795699,0.937995


In [42]:
excelframe.mean()

Jan2015    0.333128
Fab2015    0.653352
Mar2015    0.402863
Apr2005    0.511689
dtype: float64

In [43]:
excelframe.sum()

Jan2015    1.332514
Fab2015    2.613407
Mar2015    1.611453
Apr2005    2.046757
dtype: float64

In [31]:
frame = pd.DataFrame(
    np.random.random((4, 4)),
    index=['exp1','exp2','exp3','exp4'],
    columns=['Jan2015','Fab2015','Mar2015','Apr2005']
)
frame.to_excel('ch05_data2.xlsx')

In [32]:
df1 = pd.DataFrame(
    np.random.random((4, 4)),
)
df2 = pd.DataFrame(
    np.random.random((7, 7)),
)
with pd.ExcelWriter('multiple_sheets.xlsx') as writer:
    df1.to_excel(writer, sheet_name='Sheet1')
    df2.to_excel(writer, sheet_name='Sheet2')