### Imports

In [340]:
import pandas as pd
import numpy as np
import random
from string import ascii_uppercase
import os
from faker import Faker

### Series creation

In [341]:
data = [num for num in range(10, 110, 10)]
print(data)

[10, 20, 30, 40, 50, 60, 70, 80, 90, 100]


In [342]:
data_serie = pd.Series(data)
print(data_serie)

0     10
1     20
2     30
3     40
4     50
5     60
6     70
7     80
8     90
9    100
dtype: int64


In [343]:
print(type(data_serie))

<class 'pandas.core.series.Series'>


In [344]:
int_array = [num for num in range(10, 60, 10)]
print(type(int_array))
indexes = ['A B C D E'.split(' ')]
data_series = pd.Series(int_array, indexes)
print(data_series)

<class 'list'>
A    10
B    20
C    30
D    40
E    50
dtype: int64


In [345]:
np_array = np.array(int_array)
print(np_array)
print(type(np_array))

[10 20 30 40 50]
<class 'numpy.ndarray'>


In [346]:
data_series = pd.Series(np_array)
print(data_series)

0    10
1    20
2    30
3    40
4    50
dtype: int64


In [347]:
print(f"Lines: {data_series.shape}")
print(f'Dimension: {data_series.ndim}')
print(f'Size: {data_series.size}')

Lines: (5,)
Dimension: 1
Size: 5


In [348]:
data_series.index = [random.choice(ascii_uppercase) for _ in range(5)]
print(data_series)

K    10
V    20
D    30
R    40
Z    50
dtype: int64


In [349]:
values = np.random.random(10)
indexes = np.arange(0, 10)

print(f'Values: {values}')
print(f'Indexes: {indexes}')

data_series = pd.Series(values, indexes)

print(data_series)

Values: [0.3274333  0.50488361 0.03222258 0.95845526 0.0082483  0.87273124
 0.25247963 0.45962126 0.33102696 0.28826494]
Indexes: [0 1 2 3 4 5 6 7 8 9]
0    0.327433
1    0.504884
2    0.032223
3    0.958455
4    0.008248
5    0.872731
6    0.252480
7    0.459621
8    0.331027
9    0.288265
dtype: float64


In [350]:
dict_data = {random.choice(ascii_uppercase):random.randint(1, 10) for _ in range(5)}

print(dict_data)

data_series = pd.Series(dict_data)

print(data_series)

{'R': 1, 'D': 5, 'M': 10, 'U': 10, 'T': 1}
R     1
D     5
M    10
U    10
T     1
dtype: int64


### Slicing

In [351]:
data_serie = pd.Series(data=np.random.random(10))

print(data_serie)

0    0.667298
1    0.557160
2    0.173417
3    0.589933
4    0.372122
5    0.944333
6    0.419220
7    0.076310
8    0.053263
9    0.632059
dtype: float64


In [352]:
data_serie[:]

0    0.667298
1    0.557160
2    0.173417
3    0.589933
4    0.372122
5    0.944333
6    0.419220
7    0.076310
8    0.053263
9    0.632059
dtype: float64

In [353]:
data_serie[-1::]

9    0.632059
dtype: float64

In [354]:
data_serie[-1:]

9    0.632059
dtype: float64

### Copying, converting and concatenating

In [355]:
# Copy
data_serie2 = data_serie.copy()

In [356]:
data_serie2

0    0.667298
1    0.557160
2    0.173417
3    0.589933
4    0.372122
5    0.944333
6    0.419220
7    0.076310
8    0.053263
9    0.632059
dtype: float64

In [357]:
# Convert from float
data_serie2.dtype

dtype('float64')

In [358]:
# To int
data_serie3 = data_serie2.astype(int)
data_serie3

0    0
1    0
2    0
3    0
4    0
5    0
6    0
7    0
8    0
9    0
dtype: int64

In [359]:
# Concat

# Two dicts
dic1 = {'João': 22, 'Alice': 34, 'Gustavo': 29, 'Pedro': 21}
dic2 = {'Gustavo': 17, 'Alana': 30}

# for to Series
data_serie4 = pd.Series(data=dic1)
data_serie5 = pd.Series(data=dic2)


In [360]:
# Concat two series
data_serie6 = pd.concat([data_serie4, data_serie5])
data_serie6

João       22
Alice      34
Gustavo    29
Pedro      21
Gustavo    17
Alana      30
dtype: int64

### Acesso aos dados com iLoc
 - Acessar elementos pelo índice

In [361]:
filename = 'census.csv'
dataset = pd.read_csv(f"{os.path.join(os.path.dirname(os.getcwd()), 'data', filename)}")

In [362]:
print(type(dataset))

<class 'pandas.core.frame.DataFrame'>


In [363]:
dataset.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [364]:
serie_age = dataset['age']
print(serie_age)
print(type(serie_age))
print(serie_age.values, type(serie_age.values))

0        39
1        50
2        38
3        53
4        28
         ..
32556    27
32557    40
32558    58
32559    22
32560    52
Name: age, Length: 32561, dtype: int64
<class 'pandas.core.series.Series'>
[39 50 38 ... 58 22 52] <class 'numpy.ndarray'>


In [365]:
print(serie_age.iloc[0])
print(serie_age.iloc[32])
print(serie_age.iloc[-1])

39
45
52


In [366]:
print(serie_age.iloc[2:10])

2    38
3    53
4    28
5    37
6    49
7    52
8    31
9    42
Name: age, dtype: int64


In [367]:
for i in serie_age.iloc[2:10]:
    print(i)

38
53
28
37
49
52
31
42


In [368]:
menor_que_30 = list(map(lambda value: value < 30, serie_age.iloc[2:10]))
menor_que_30

[False, False, True, False, False, False, False, False]

In [369]:
# Pesquisando por índices
serie_age.iloc[[2,10,18]]

2     38
10    37
18    38
Name: age, dtype: int64

In [370]:
ages_list = []

for age in serie_age.items():
    # print(age)
    # print(f"Indice: {age[0]} - Idade: {age[1]}")
    if age[1] < 30:
        # salvando as idades
        # ages_list.append(age[1])
        # salvando os índices
        ages_list.append(age[0])

In [371]:
print(len(ages_list))

serie_age.iloc[ages_list]

9711


4        28
12       23
16       25
26       19
30       23
         ..
32529    29
32535    22
32555    22
32556    27
32559    22
Name: age, Length: 9711, dtype: int64

### Acessando os dados com Loc
- Acessar elementos com "string"

In [372]:
fake = Faker('pt-BR')

indexes_name = []

for _ in range(len(serie_age)):
    indexes_name.append(fake.name())
    
print(indexes_name[0:11])

['Ágatha Vasconcelos', 'Dra. Letícia Moura', 'Dr. Arthur Miguel Porto', 'Carlos Eduardo Campos', 'João Pedro Peixoto', 'Srta. Maria Julia Sampaio', 'Bernardo Fogaça', 'Rebeca Araújo', 'Ana Clara Freitas', 'Bella Sales', 'Cauê Santos']


In [373]:
serie_name_age = pd.Series(serie_age.values, index=indexes_name)
serie_name_age[0:11]

Ágatha Vasconcelos           39
Dra. Letícia Moura           50
Dr. Arthur Miguel Porto      38
Carlos Eduardo Campos        53
João Pedro Peixoto           28
Srta. Maria Julia Sampaio    37
Bernardo Fogaça              49
Rebeca Araújo                52
Ana Clara Freitas            31
Bella Sales                  42
Cauê Santos                  37
dtype: int64

In [374]:
serie_name_age["Antony Costa"]

np.int64(45)

In [375]:
serie_name_age_filter = serie_name_age.drop_duplicates()
serie_name_age_filter.size

73

In [376]:
serie_name_age_filter

Ágatha Vasconcelos         39
Dra. Letícia Moura         50
Dr. Arthur Miguel Porto    38
Carlos Eduardo Campos      53
João Pedro Peixoto         28
                           ..
Milena Jesus               83
Caio da Conceição          84
José Miguel da Mota        85
Léo Barros                 86
Pedro Henrique Melo        87
Length: 73, dtype: int64

In [377]:
serie_name_age_filter.index[0]

'Ágatha Vasconcelos'

In [378]:
print("Sem LOC")
print(serie_name_age_filter[1:3])
print()
print("Com LOC")
print(serie_name_age_filter.loc[serie_name_age_filter.index[0]:serie_name_age_filter.index[4]])
print()
print("Lista")
print(serie_name_age_filter.loc[serie_name_age_filter.index[0]:serie_name_age_filter.index[4]])
print()
print("Tamanho")
print(len(serie_name_age_filter[1:3]))

Sem LOC
Dra. Letícia Moura         50
Dr. Arthur Miguel Porto    38
dtype: int64

Com LOC
Ágatha Vasconcelos         39
Dra. Letícia Moura         50
Dr. Arthur Miguel Porto    38
Carlos Eduardo Campos      53
João Pedro Peixoto         28
dtype: int64

Lista
Ágatha Vasconcelos         39
Dra. Letícia Moura         50
Dr. Arthur Miguel Porto    38
Carlos Eduardo Campos      53
João Pedro Peixoto         28
dtype: int64

Tamanho
2


In [379]:
reset_index = serie_name_age_filter.copy()
reset_index.reset_index(drop=True, inplace=True)
reset_index

0     39
1     50
2     38
3     53
4     28
      ..
68    83
69    84
70    85
71    86
72    87
Length: 73, dtype: int64

In [380]:
reset_index.index

RangeIndex(start=0, stop=73, step=1)

### Ordenação

In [381]:
# Ordenando idades em ordem crescente
serie_name_age.sort_values()

Daniela Pereira              17
Dr. Ravi Lucca Sales         17
Murilo Cassiano              17
Esther Rios                  17
Maria Cecília Albuquerque    17
                             ..
Mariane da Mota              90
Dra. Maria Alice Novaes      90
Pedro Lucas Farias           90
João Miguel Machado          90
Thiago Sá                    90
Length: 32561, dtype: int64

In [382]:
# Ordenando idades em ordem decrescente
serie_name_age.sort_values(ascending=False)

Leandro Marques                90
Yuri da Rocha                  90
Dr. Nicolas Mendes             90
Aurora Pimenta                 90
Larissa Farias                 90
                               ..
Isabella Barbosa               17
João Lucas Almeida             17
Agatha das Neves               17
Yasmin Martins                 17
Gustavo Henrique Cavalcanti    17
Length: 32561, dtype: int64

In [383]:
# Ordenando os índices em ordem crescente
serie_name_age.sort_index()

Agatha Abreu          20
Agatha Abreu          20
Agatha Abreu          61
Agatha Albuquerque    40
Agatha Albuquerque    22
                      ..
Ísis da Costa         35
Ísis da Cunha         54
Ísis da Luz           45
Ísis da Rocha         53
Ísis da Rocha         27
Length: 32561, dtype: int64

In [384]:
# Ordenando os índices em ordem decrescente
serie_name_age.sort_index(ascending=False)

Ísis da Rocha         53
Ísis da Rocha         27
Ísis da Luz           45
Ísis da Cunha         54
Ísis da Costa         35
                      ..
Agatha Albuquerque    22
Agatha Albuquerque    40
Agatha Abreu          20
Agatha Abreu          20
Agatha Abreu          61
Length: 32561, dtype: int64

In [385]:
# Retornando as dez pessoas com a maior idade da série
serie_name_age.sort_values(ascending=False).iloc[0:11]

Leandro Marques         90
Yuri da Rocha           90
Dr. Nicolas Mendes      90
Aurora Pimenta          90
Larissa Farias          90
Enzo Gabriel Andrade    90
Mateus Câmara           90
Enrico Ferreira         90
Miguel Sales            90
Mariane da Mota         90
Maria Fernanda Melo     90
dtype: int64

### Contagem

In [386]:
serie_name_age.size

32561

In [387]:
serie_name_age.value_counts()

36    898
31    888
34    886
23    877
35    876
     ... 
83      6
88      3
85      3
86      1
87      1
Name: count, Length: 73, dtype: int64

In [388]:
# Porcentagem
serie_name_age.value_counts(normalize=True, sort = True) # ordenando

36    0.027579
31    0.027272
34    0.027210
23    0.026934
35    0.026903
        ...   
83    0.000184
88    0.000092
85    0.000092
86    0.000031
87    0.000031
Name: proportion, Length: 73, dtype: float64

In [389]:
# Dividindo por faixas
serie_name_age.value_counts(bins=10)

(38.9, 46.2]      6163
(31.6, 38.9]      6048
(24.3, 31.6]      5890
(16.926, 24.3]    5570
(46.2, 53.5]      3967
(53.5, 60.8]      2591
(60.8, 68.1]      1595
(68.1, 75.4]       496
(75.4, 82.7]       174
(82.7, 90.0]        67
Name: count, dtype: int64

### Filtragem

In [390]:
indices_paises = []
for _ in range(len(serie_age)):
    indices_paises.append(fake.country())

indices_paises[0:11]

['Guernsey',
 'Geórgia do Sul e Sandwich do Sul',
 'Suazilândia',
 'Vaticano',
 'Libéria',
 'Timor Leste',
 'Navassa Island',
 'Israel',
 'Guam',
 'Coreia do Sul',
 'Letônia']

In [391]:
serie_pais = pd.Series(serie_age.values, index=indices_paises)
serie_pais.head()

Guernsey                            39
Geórgia do Sul e Sandwich do Sul    50
Suazilândia                         38
Vaticano                            53
Libéria                             28
dtype: int64

In [392]:
serie_pais.loc[serie_pais > 50]

Vaticano           53
Israel             52
Lesoto             54
Congo-Kinshasa     59
Alemanha           56
                   ..
Samoa Americana    72
Taiwan             65
Marrocos           53
Suazilândia        58
Moçambique         52
Length: 6460, dtype: int64

In [393]:
print(serie_pais.loc[(serie_pais > 50) & (serie_pais.index == 'Brasil')])
print(len(serie_pais.loc[(serie_pais > 50) & (serie_pais.index == 'Brasil')]))

Brasil    52
Brasil    53
Brasil    61
Brasil    57
Brasil    56
Brasil    61
Brasil    70
Brasil    51
Brasil    56
Brasil    78
Brasil    55
Brasil    58
Brasil    58
Brasil    68
Brasil    61
Brasil    62
Brasil    68
Brasil    55
Brasil    51
Brasil    57
Brasil    63
Brasil    51
Brasil    65
Brasil    56
Brasil    61
Brasil    62
Brasil    66
Brasil    55
Brasil    72
Brasil    51
Brasil    51
Brasil    63
dtype: int64
32


In [394]:
serie_pais.index.isin(["India", "Brasil"])

array([False, False, False, ..., False, False, False], shape=(32561,))

### Operações matemáticas

In [395]:
serie_pais

Guernsey                            39
Geórgia do Sul e Sandwich do Sul    50
Suazilândia                         38
Vaticano                            53
Libéria                             28
                                    ..
Liechtenstein                       27
Bósnia e Herzegovina                40
Suazilândia                         58
Guam                                22
Moçambique                          52
Length: 32561, dtype: int64

In [396]:
### Comando python
serie_pais + 2

Guernsey                            41
Geórgia do Sul e Sandwich do Sul    52
Suazilândia                         40
Vaticano                            55
Libéria                             30
                                    ..
Liechtenstein                       29
Bósnia e Herzegovina                42
Suazilândia                         60
Guam                                24
Moçambique                          54
Length: 32561, dtype: int64

In [397]:
### Comando pandas
serie_pais.add(2)

Guernsey                            41
Geórgia do Sul e Sandwich do Sul    52
Suazilândia                         40
Vaticano                            55
Libéria                             30
                                    ..
Liechtenstein                       29
Bósnia e Herzegovina                42
Suazilândia                         60
Guam                                24
Moçambique                          54
Length: 32561, dtype: int64

In [398]:
serie_pais.sub(2)

Guernsey                            37
Geórgia do Sul e Sandwich do Sul    48
Suazilândia                         36
Vaticano                            51
Libéria                             26
                                    ..
Liechtenstein                       25
Bósnia e Herzegovina                38
Suazilândia                         56
Guam                                20
Moçambique                          50
Length: 32561, dtype: int64

In [399]:
serie_pais.mul(2)

Guernsey                             78
Geórgia do Sul e Sandwich do Sul    100
Suazilândia                          76
Vaticano                            106
Libéria                              56
                                   ... 
Liechtenstein                        54
Bósnia e Herzegovina                 80
Suazilândia                         116
Guam                                 44
Moçambique                          104
Length: 32561, dtype: int64

In [400]:
serie_pais.div(2)

Guernsey                            19.5
Geórgia do Sul e Sandwich do Sul    25.0
Suazilândia                         19.0
Vaticano                            26.5
Libéria                             14.0
                                    ... 
Liechtenstein                       13.5
Bósnia e Herzegovina                20.0
Suazilândia                         29.0
Guam                                11.0
Moçambique                          26.0
Length: 32561, dtype: float64

In [401]:
s1 = pd.Series([10, 20, 30])
s2 = pd.Series([1, 2, 3])
s1, s2

(0    10
 1    20
 2    30
 dtype: int64,
 0    1
 1    2
 2    3
 dtype: int64)

In [402]:
s1.add(s2)

0    11
1    22
2    33
dtype: int64

In [403]:
s1.sub(s2)

0     9
1    18
2    27
dtype: int64

In [404]:
s1.mul(2)

0    20
1    40
2    60
dtype: int64

In [405]:
s1.div(2)

0     5.0
1    10.0
2    15.0
dtype: float64

### Operações com String

In [406]:
serie_pais_index = serie_pais.index.to_series()
serie_pais_index.reset_index(drop = True, inplace=True)
serie_pais_index

0                                Guernsey
1        Geórgia do Sul e Sandwich do Sul
2                             Suazilândia
3                                Vaticano
4                                 Libéria
                       ...               
32556                       Liechtenstein
32557                Bósnia e Herzegovina
32558                         Suazilândia
32559                                Guam
32560                          Moçambique
Length: 32561, dtype: object

In [407]:
serie_pais_index.str.contains("ido")

0        False
1        False
2        False
3        False
4        False
         ...  
32556    False
32557    False
32558    False
32559    False
32560    False
Length: 32561, dtype: bool

In [408]:
serie_pais_index.str.upper()

0                                GUERNSEY
1        GEÓRGIA DO SUL E SANDWICH DO SUL
2                             SUAZILÂNDIA
3                                VATICANO
4                                 LIBÉRIA
                       ...               
32556                       LIECHTENSTEIN
32557                BÓSNIA E HERZEGOVINA
32558                         SUAZILÂNDIA
32559                                GUAM
32560                          MOÇAMBIQUE
Length: 32561, dtype: object

In [409]:
serie_pais_index.str.lower()

0                                guernsey
1        geórgia do sul e sandwich do sul
2                             suazilândia
3                                vaticano
4                                 libéria
                       ...               
32556                       liechtenstein
32557                bósnia e herzegovina
32558                         suazilândia
32559                                guam
32560                          moçambique
Length: 32561, dtype: object

In [410]:
serie_pais_index.str.strip("Ilhas")

0                               Guernsey
1        Geórgia do Sul e Sandwich do Su
2                             Suazilândi
3                               Vaticano
4                                 Libéri
                      ...               
32556                      Liechtenstein
32557                Bósnia e Herzegovin
32558                         Suazilândi
32559                               Guam
32560                         Moçambique
Length: 32561, dtype: object

In [411]:
serie_pais_index.str.split(' ', expand=True)

Unnamed: 0,0,1,2,3,4,5,6
0,Guernsey,,,,,,
1,Geórgia,do,Sul,e,Sandwich,do,Sul
2,Suazilândia,,,,,,
3,Vaticano,,,,,,
4,Libéria,,,,,,
...,...,...,...,...,...,...,...
32556,Liechtenstein,,,,,,
32557,Bósnia,e,Herzegovina,,,,
32558,Suazilândia,,,,,,
32559,Guam,,,,,,


In [412]:
serie_pais_index.str[0:5]

0        Guern
1        Geórg
2        Suazi
3        Vatic
4        Libér
         ...  
32556    Liech
32557    Bósni
32558    Suazi
32559     Guam
32560    Moçam
Length: 32561, dtype: object

### Agrupamento Numérico

In [413]:
serie_pais

Guernsey                            39
Geórgia do Sul e Sandwich do Sul    50
Suazilândia                         38
Vaticano                            53
Libéria                             28
                                    ..
Liechtenstein                       27
Bósnia e Herzegovina                40
Suazilândia                         58
Guam                                22
Moçambique                          52
Length: 32561, dtype: int64

In [414]:
serie_pais.sum()

np.int64(1256257)

In [415]:
serie_pais.mean()

np.float64(38.58164675532078)

In [416]:
serie_pais.median()

np.float64(37.0)

In [417]:
serie_pais.count()

np.int64(32561)

In [418]:
serie_pais.std()

np.float64(13.640432553581341)

In [419]:
serie_pais.var()

np.float64(186.0614002488016)

In [420]:
serie_pais.loc["Brasil"].mean()

np.float64(40.25373134328358)

In [421]:
serie_pais.loc["Índia"].mean()

np.float64(40.03703703703704)

In [422]:
serie_pais.quantile([0.25, 0.50, 0.75, 1])

0.25    28.0
0.50    37.0
0.75    48.0
1.00    90.0
dtype: float64

### Agrupamento Categórico

In [423]:
serie_pais_index

0                                Guernsey
1        Geórgia do Sul e Sandwich do Sul
2                             Suazilândia
3                                Vaticano
4                                 Libéria
                       ...               
32556                       Liechtenstein
32557                Bósnia e Herzegovina
32558                         Suazilândia
32559                                Guam
32560                          Moçambique
Length: 32561, dtype: object

In [424]:
serie_pais_index.value_counts()

Costa Rica         269
Egito              263
Cuba               260
Dinamarca          257
Costa do Marfim    250
                  ... 
Países Baixos      102
Congo-Kinshasa     100
Guiné               98
Serra Leoa          97
Bolívia             97
Name: count, Length: 247, dtype: int64

In [425]:
serie_pais_index.value_counts(normalize=True)

Costa Rica         0.008261
Egito              0.008077
Cuba               0.007985
Dinamarca          0.007893
Costa do Marfim    0.007678
                     ...   
Países Baixos      0.003133
Congo-Kinshasa     0.003071
Guiné              0.003010
Serra Leoa         0.002979
Bolívia            0.002979
Name: proportion, Length: 247, dtype: float64

In [426]:
serie_pais_index.unique()

array(['Guernsey', 'Geórgia do Sul e Sandwich do Sul', 'Suazilândia',
       'Vaticano', 'Libéria', 'Timor Leste', 'Navassa Island', 'Israel',
       'Guam', 'Coreia do Sul', 'Letônia', 'Dhekelia', 'Butão', 'Equador',
       'Grécia', 'Albânia', 'Tuvalu', 'Brunei', 'Islândia', 'Lesoto',
       'São Marinho', 'Antígua e Barbuda', 'Congo-Kinshasa', 'Alemanha',
       'Bélgica', 'Nova Caledónia', 'Coreia do Norte', 'Ilhas Cook',
       'Sudão', 'Moldávia', 'Seicheles', 'União Europeia', 'Monserrate',
       'Noruega', 'Gâmbia', 'Ilhas dos Cocos', 'Kuwait', 'Liechtenstein',
       'Níger', 'Jordânia', 'Suriname', 'Hong Kong', 'Trindade e Tobago',
       'São Cristóvão e Neves', 'Salvador',
       'Territórios Austrais Franceses', 'Zimbábue', 'Dinamarca',
       'Clipperton Island', 'Antilhas Holandesas', 'Armênia', 'Catar',
       'Maldivas', 'Jersey', 'Cazaquistão', 'Estados Unidos', 'China',
       'Bermudas', 'Palau', 'Ilhas Caiman', 'Filipinas', 'Montenegro',
       'Uganda', 'Canadá',

In [427]:
serie_pais_index.nunique()

247

### Valores faltantes

In [428]:
serie_faltante = pd.Series([1, 2, 3, np.nan, 5, 6, np.nan, 7, 8, np.nan, np.nan])
serie_faltante

0     1.0
1     2.0
2     3.0
3     NaN
4     5.0
5     6.0
6     NaN
7     7.0
8     8.0
9     NaN
10    NaN
dtype: float64

In [429]:
serie_faltante.isna()

0     False
1     False
2     False
3      True
4     False
5     False
6      True
7     False
8     False
9      True
10     True
dtype: bool

In [430]:
serie_faltante.isna().sum()

np.int64(4)

In [431]:
serie_faltante.value_counts()

1.0    1
2.0    1
3.0    1
5.0    1
6.0    1
7.0    1
8.0    1
Name: count, dtype: int64

In [432]:
serie_faltante.value_counts(dropna=False)

NaN    4
1.0    1
2.0    1
3.0    1
5.0    1
6.0    1
7.0    1
8.0    1
Name: count, dtype: int64

In [433]:
serie_faltante.fillna(0)

0     1.0
1     2.0
2     3.0
3     0.0
4     5.0
5     6.0
6     0.0
7     7.0
8     8.0
9     0.0
10    0.0
dtype: float64

In [434]:
serie_faltante.dropna()

0    1.0
1    2.0
2    3.0
4    5.0
5    6.0
7    7.0
8    8.0
dtype: float64

In [435]:
serie_faltante.fillna(serie_faltante.mean())

0     1.000000
1     2.000000
2     3.000000
3     4.571429
4     5.000000
5     6.000000
6     4.571429
7     7.000000
8     8.000000
9     4.571429
10    4.571429
dtype: float64

In [436]:
serie_faltante_s = pd.Series([
    "Maça", "Banana", "Arroz", "Feijão", "Feijão", np.nan, np.nan, "Batata"
])
serie_faltante_s

0      Maça
1    Banana
2     Arroz
3    Feijão
4    Feijão
5       NaN
6       NaN
7    Batata
dtype: object

In [437]:
serie_faltante_s.isna().sum()

np.int64(2)

In [438]:
serie_faltante_s.fillna("Não informado")

0             Maça
1           Banana
2            Arroz
3           Feijão
4           Feijão
5    Não informado
6    Não informado
7           Batata
dtype: object

In [439]:
serie_faltante_s.mode()

0    Feijão
dtype: object

In [440]:
serie_faltante_s.mode().iloc[0]

'Feijão'

In [441]:
serie_faltante_s.fillna(serie_faltante_s.mode().iloc[0])

0      Maça
1    Banana
2     Arroz
3    Feijão
4    Feijão
5    Feijão
6    Feijão
7    Batata
dtype: object

### Funções

In [442]:
serie_age

0        39
1        50
2        38
3        53
4        28
         ..
32556    27
32557    40
32558    58
32559    22
32560    52
Name: age, Length: 32561, dtype: int64

In [443]:
serie_age.loc[serie_age < 18]

106      17
209      17
262      17
271      17
335      17
         ..
31772    17
31864    17
31959    17
32282    17
32447    17
Name: age, Length: 395, dtype: int64

In [444]:
# 1ª Opção
# def corrige_idade(idade):
#     if idade < 18:
#         idade = 18
#     return idade

# serie_age = serie_age.apply(corrige_idade)
# serie_age.loc[serie_age < 18]



In [447]:
# 2ª Opção
serie_age = serie_age.apply(lambda idade: 18 if idade < 18 else idade)
serie_age.loc[serie_age == 18]

51       18
78       18
80       18
106      18
168      18
         ..
32345    18
32392    18
32443    18
32447    18
32496    18
Name: age, Length: 945, dtype: int64

In [448]:
serie_age = serie_age.apply(lambda idade: 17 if idade == 18 else idade)
serie_age.loc[serie_age < 18]

51       17
78       17
80       17
106      17
168      17
         ..
32345    17
32392    17
32443    17
32447    17
32496    17
Name: age, Length: 945, dtype: int64

In [449]:
serie_age2 = serie_age.iloc[0:11]
serie_age2

0     39
1     50
2     38
3     53
4     28
5     37
6     49
7     52
8     31
9     42
10    37
Name: age, dtype: int64

In [451]:
serie_age2.where(serie_age2 < 40, 15)

0     39
1     15
2     38
3     15
4     28
5     37
6     15
7     15
8     31
9     15
10    37
Name: age, dtype: int64