### Imports

In [1]:
import pandas as pd
import numpy as np
import random
from string import ascii_uppercase
import os
from faker import Faker

### Series creation

In [2]:
data = [num for num in range(10, 110, 10)]
print(data)

[10, 20, 30, 40, 50, 60, 70, 80, 90, 100]


In [3]:
data_serie = pd.Series(data)
print(data_serie)

0     10
1     20
2     30
3     40
4     50
5     60
6     70
7     80
8     90
9    100
dtype: int64


In [4]:
print(type(data_serie))

<class 'pandas.core.series.Series'>


In [5]:
int_array = [num for num in range(10, 60, 10)]
print(type(int_array))
indexes = ['A B C D E'.split(' ')]
data_series = pd.Series(int_array, indexes)
print(data_series)

<class 'list'>
A    10
B    20
C    30
D    40
E    50
dtype: int64


In [6]:
np_array = np.array(int_array)
print(np_array)
print(type(np_array))

[10 20 30 40 50]
<class 'numpy.ndarray'>


In [7]:
data_series = pd.Series(np_array)
print(data_series)

0    10
1    20
2    30
3    40
4    50
dtype: int64


In [8]:
print(f"Lines: {data_series.shape}")
print(f'Dimension: {data_series.ndim}')
print(f'Size: {data_series.size}')

Lines: (5,)
Dimension: 1
Size: 5


In [9]:
data_series.index = [random.choice(ascii_uppercase) for _ in range(5)]
print(data_series)

C    10
Y    20
B    30
N    40
Y    50
dtype: int64


In [10]:
values = np.random.random(10)
indexes = np.arange(0, 10)

print(f'Values: {values}')
print(f'Indexes: {indexes}')

data_series = pd.Series(values, indexes)

print(data_series)

Values: [0.25708262 0.2518731  0.45178466 0.15847449 0.65512416 0.15880467
 0.28567035 0.52601151 0.79699179 0.34535002]
Indexes: [0 1 2 3 4 5 6 7 8 9]
0    0.257083
1    0.251873
2    0.451785
3    0.158474
4    0.655124
5    0.158805
6    0.285670
7    0.526012
8    0.796992
9    0.345350
dtype: float64


In [11]:
dict_data = {random.choice(ascii_uppercase):random.randint(1, 10) for _ in range(5)}

print(dict_data)

data_series = pd.Series(dict_data)

print(data_series)

{'P': 10, 'Q': 4, 'I': 7, 'M': 10, 'X': 3}
P    10
Q     4
I     7
M    10
X     3
dtype: int64


### Slicing

In [12]:
data_serie = pd.Series(data=np.random.random(10))

print(data_serie)

0    0.188593
1    0.863766
2    0.622692
3    0.341958
4    0.652123
5    0.232080
6    0.115872
7    0.634369
8    0.016837
9    0.132717
dtype: float64


In [13]:
data_serie[:]

0    0.188593
1    0.863766
2    0.622692
3    0.341958
4    0.652123
5    0.232080
6    0.115872
7    0.634369
8    0.016837
9    0.132717
dtype: float64

In [14]:
data_serie[-1::]

9    0.132717
dtype: float64

In [15]:
data_serie[-1:]

9    0.132717
dtype: float64

### Copying, converting and concatenating

In [16]:
# Copy
data_serie2 = data_serie.copy()

In [17]:
data_serie2

0    0.188593
1    0.863766
2    0.622692
3    0.341958
4    0.652123
5    0.232080
6    0.115872
7    0.634369
8    0.016837
9    0.132717
dtype: float64

In [18]:
# Convert from float
data_serie2.dtype

dtype('float64')

In [19]:
# To int
data_serie3 = data_serie2.astype(int)
data_serie3

0    0
1    0
2    0
3    0
4    0
5    0
6    0
7    0
8    0
9    0
dtype: int64

In [20]:
# Concat

# Two dicts
dic1 = {'João': 22, 'Alice': 34, 'Gustavo': 29, 'Pedro': 21}
dic2 = {'Gustavo': 17, 'Alana': 30}

# for to Series
data_serie4 = pd.Series(data=dic1)
data_serie5 = pd.Series(data=dic2)


In [21]:
# Concat two series
data_serie6 = pd.concat([data_serie4, data_serie5])
data_serie6

João       22
Alice      34
Gustavo    29
Pedro      21
Gustavo    17
Alana      30
dtype: int64

### Acesso aos dados com iLoc
 - Acessar elementos pelo índice

In [22]:
filename = 'census.csv'
dataset = pd.read_csv(f"{os.path.join(os.path.dirname(os.getcwd()), 'data', filename)}")

In [23]:
print(type(dataset))

<class 'pandas.core.frame.DataFrame'>


In [24]:
dataset.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [25]:
serie_age = dataset['age']
print(serie_age)
print(type(serie_age))
print(serie_age.values, type(serie_age.values))

0        39
1        50
2        38
3        53
4        28
         ..
32556    27
32557    40
32558    58
32559    22
32560    52
Name: age, Length: 32561, dtype: int64
<class 'pandas.core.series.Series'>
[39 50 38 ... 58 22 52] <class 'numpy.ndarray'>


In [26]:
print(serie_age.iloc[0])
print(serie_age.iloc[32])
print(serie_age.iloc[-1])

39
45
52


In [27]:
print(serie_age.iloc[2:10])

2    38
3    53
4    28
5    37
6    49
7    52
8    31
9    42
Name: age, dtype: int64


In [28]:
for i in serie_age.iloc[2:10]:
    print(i)

38
53
28
37
49
52
31
42


In [29]:
menor_que_30 = list(map(lambda value: value < 30, serie_age.iloc[2:10]))
menor_que_30

[False, False, True, False, False, False, False, False]

In [30]:
# Pesquisando por índices
serie_age.iloc[[2,10,18]]

2     38
10    37
18    38
Name: age, dtype: int64

In [31]:
ages_list = []

for age in serie_age.items():
    # print(age)
    # print(f"Indice: {age[0]} - Idade: {age[1]}")
    if age[1] < 30:
        # salvando as idades
        # ages_list.append(age[1])
        # salvando os índices
        ages_list.append(age[0])

In [32]:
print(len(ages_list))

serie_age.iloc[ages_list]

9711


4        28
12       23
16       25
26       19
30       23
         ..
32529    29
32535    22
32555    22
32556    27
32559    22
Name: age, Length: 9711, dtype: int64

### Acessando os dados com Loc
- Acessar elementos com "string"

In [33]:
fake = Faker('pt-BR')

indexes_name = []

for _ in range(len(serie_age)):
    indexes_name.append(fake.name())
    
print(indexes_name[0:11])

['Srta. Milena Moreira', 'Lorena Aparecida', 'Kevin Ribeiro', 'Sofia Moreira', 'Rafaela da Paz', 'Sr. Otávio Cavalcante', 'Lorenzo Souza', 'Maria Vitória da Mota', 'Maria Liz da Rosa', 'José Pedro Pires', 'Eduardo Jesus']


In [34]:
serie_name_age = pd.Series(serie_age.values, index=indexes_name)
serie_name_age[0:11]

Srta. Milena Moreira     39
Lorena Aparecida         50
Kevin Ribeiro            38
Sofia Moreira            53
Rafaela da Paz           28
Sr. Otávio Cavalcante    37
Lorenzo Souza            49
Maria Vitória da Mota    52
Maria Liz da Rosa        31
José Pedro Pires         42
Eduardo Jesus            37
dtype: int64

In [35]:
serie_name_age["Antony Costa"]

Antony Costa    39
Antony Costa    33
Antony Costa    45
Antony Costa    65
dtype: int64

In [36]:
serie_name_age_filter = serie_name_age.drop_duplicates()
serie_name_age_filter.size

73

In [37]:
serie_name_age_filter

Srta. Milena Moreira    39
Lorena Aparecida        50
Kevin Ribeiro           38
Sofia Moreira           53
Rafaela da Paz          28
                        ..
Maria Júlia Rezende     83
Ana Laura Souza         84
Henrique Duarte         85
Dra. Aylla Marques      86
Sofia Ribeiro           87
Length: 73, dtype: int64

In [38]:
serie_name_age_filter.index[0]

'Srta. Milena Moreira'

In [39]:
print("Sem LOC")
print(serie_name_age_filter[1:3])
print()
print("Com LOC")
print(serie_name_age_filter.loc[serie_name_age_filter.index[0]:serie_name_age_filter.index[4]])
print()
print("Lista")
print(serie_name_age_filter.loc[serie_name_age_filter.index[0]:serie_name_age_filter.index[4]])
print()
print("Tamanho")
print(len(serie_name_age_filter[1:3]))

Sem LOC
Lorena Aparecida    50
Kevin Ribeiro       38
dtype: int64

Com LOC
Srta. Milena Moreira    39
Lorena Aparecida        50
Kevin Ribeiro           38
Sofia Moreira           53
Rafaela da Paz          28
dtype: int64

Lista
Srta. Milena Moreira    39
Lorena Aparecida        50
Kevin Ribeiro           38
Sofia Moreira           53
Rafaela da Paz          28
dtype: int64

Tamanho
2


In [40]:
reset_index = serie_name_age_filter.copy()
reset_index.reset_index(drop=True, inplace=True)
reset_index

0     39
1     50
2     38
3     53
4     28
      ..
68    83
69    84
70    85
71    86
72    87
Length: 73, dtype: int64

In [41]:
reset_index.index

RangeIndex(start=0, stop=73, step=1)

### Ordenação

In [42]:
# Ordenando idades em ordem crescente
serie_name_age.sort_values()

Olívia Gonçalves        17
Dante Sá                17
João Felipe da Cunha    17
Maria Júlia Santos      17
André Barros            17
                        ..
José Pedro Souza        90
Benicio Freitas         90
Eloah Vasconcelos       90
Vicente Ribeiro         90
Anthony Nogueira        90
Length: 32561, dtype: int64

In [43]:
# Ordenando idades em ordem decrescente
serie_name_age.sort_values(ascending=False)

Camila Alves                  90
João Felipe Moreira           90
Sr. Luigi Borges              90
Emilly Viana                  90
Luiza Novaes                  90
                              ..
Luiz Henrique da Conceição    17
Evelyn da Paz                 17
Sr. Erick Borges              17
Ana Vitória Fonseca           17
Srta. Isadora Borges          17
Length: 32561, dtype: int64

In [44]:
# Ordenando os índices em ordem crescente
serie_name_age.sort_index()

Agatha Almeida    19
Agatha Alves      36
Agatha Andrade    43
Agatha Aragão     31
Agatha Araújo     51
                  ..
Ísis da Mata      42
Ísis da Mota      30
Ísis da Paz       48
Ísis da Rosa      46
Ísis das Neves    38
Length: 32561, dtype: int64

In [45]:
# Ordenando os índices em ordem decrescente
serie_name_age.sort_index(ascending=False)

Ísis das Neves    38
Ísis da Rosa      46
Ísis da Paz       48
Ísis da Mota      30
Ísis da Mata      17
                  ..
Agatha Araújo     51
Agatha Aragão     31
Agatha Andrade    43
Agatha Alves      36
Agatha Almeida    19
Length: 32561, dtype: int64

In [46]:
# Retornando as dez pessoas com a maior idade da série
serie_name_age.sort_values(ascending=False).iloc[0:11]

Camila Alves            90
João Felipe Moreira     90
Sr. Luigi Borges        90
Emilly Viana            90
Luiza Novaes            90
Hadassa da Conceição    90
Apollo Cavalcante       90
Dr. Felipe Porto        90
Fernanda Garcia         90
José Pedro Souza        90
Luigi Albuquerque       90
dtype: int64

### Contagem

In [47]:
serie_name_age.size

32561

In [48]:
serie_name_age.value_counts()

36    898
31    888
34    886
23    877
35    876
     ... 
83      6
88      3
85      3
86      1
87      1
Name: count, Length: 73, dtype: int64

In [49]:
# Porcentagem
serie_name_age.value_counts(normalize=True, sort = True) # ordenando

36    0.027579
31    0.027272
34    0.027210
23    0.026934
35    0.026903
        ...   
83    0.000184
88    0.000092
85    0.000092
86    0.000031
87    0.000031
Name: proportion, Length: 73, dtype: float64

In [50]:
# Dividindo por faixas
serie_name_age.value_counts(bins=10)

(38.9, 46.2]      6163
(31.6, 38.9]      6048
(24.3, 31.6]      5890
(16.926, 24.3]    5570
(46.2, 53.5]      3967
(53.5, 60.8]      2591
(60.8, 68.1]      1595
(68.1, 75.4]       496
(75.4, 82.7]       174
(82.7, 90.0]        67
Name: count, dtype: int64

### Filtragem

In [51]:
indices_paises = []
for _ in range(len(serie_age)):
    indices_paises.append(fake.country())

indices_paises[0:11]

['Honduras',
 'Salvador',
 'Monserrate',
 'Uganda',
 'Antártica',
 'Gabão',
 'Quirguizistão',
 'Polônia',
 'Filipinas',
 'São Pedro e Miquelon',
 'Marrocos']

In [52]:
serie_pais = pd.Series(serie_age.values, index=indices_paises)
serie_pais.head()

Honduras      39
Salvador      50
Monserrate    38
Uganda        53
Antártica     28
dtype: int64

In [53]:
serie_pais.loc[serie_pais > 50]

Uganda                       53
Polônia                      52
Malásia                      54
República Centro-Africana    59
Uruguai                      56
                             ..
Guiné-Bissau                 72
Brasil                       65
Ilha Wake                    53
Reino Unido                  58
Niue                         52
Length: 6460, dtype: int64

In [54]:
print(serie_pais.loc[(serie_pais > 50) & (serie_pais.index == 'Brasil')])
print(len(serie_pais.loc[(serie_pais > 50) & (serie_pais.index == 'Brasil')]))

Brasil    51
Brasil    54
Brasil    51
Brasil    74
Brasil    51
Brasil    53
Brasil    63
Brasil    72
Brasil    65
Brasil    63
Brasil    58
Brasil    53
Brasil    52
Brasil    52
Brasil    66
Brasil    58
Brasil    60
Brasil    54
Brasil    63
Brasil    61
Brasil    65
dtype: int64
21


In [55]:
serie_pais.index.isin(["India", "Brasil"])

array([False, False, False, ..., False, False, False], shape=(32561,))

### Operações matemáticas

In [56]:
serie_pais

Honduras                    39
Salvador                    50
Monserrate                  38
Uganda                      53
Antártica                   28
                            ..
Gâmbia                      27
Ilhas Virgens Britânicas    40
Reino Unido                 58
Tokelau                     22
Niue                        52
Length: 32561, dtype: int64

In [57]:
### Comando python
serie_pais + 2

Honduras                    41
Salvador                    52
Monserrate                  40
Uganda                      55
Antártica                   30
                            ..
Gâmbia                      29
Ilhas Virgens Britânicas    42
Reino Unido                 60
Tokelau                     24
Niue                        54
Length: 32561, dtype: int64

In [58]:
### Comando pandas
serie_pais.add(2)

Honduras                    41
Salvador                    52
Monserrate                  40
Uganda                      55
Antártica                   30
                            ..
Gâmbia                      29
Ilhas Virgens Britânicas    42
Reino Unido                 60
Tokelau                     24
Niue                        54
Length: 32561, dtype: int64

In [59]:
serie_pais.sub(2)

Honduras                    37
Salvador                    48
Monserrate                  36
Uganda                      51
Antártica                   26
                            ..
Gâmbia                      25
Ilhas Virgens Britânicas    38
Reino Unido                 56
Tokelau                     20
Niue                        50
Length: 32561, dtype: int64

In [60]:
serie_pais.mul(2)

Honduras                     78
Salvador                    100
Monserrate                   76
Uganda                      106
Antártica                    56
                           ... 
Gâmbia                       54
Ilhas Virgens Britânicas     80
Reino Unido                 116
Tokelau                      44
Niue                        104
Length: 32561, dtype: int64

In [61]:
serie_pais.div(2)

Honduras                    19.5
Salvador                    25.0
Monserrate                  19.0
Uganda                      26.5
Antártica                   14.0
                            ... 
Gâmbia                      13.5
Ilhas Virgens Britânicas    20.0
Reino Unido                 29.0
Tokelau                     11.0
Niue                        26.0
Length: 32561, dtype: float64

In [62]:
s1 = pd.Series([10, 20, 30])
s2 = pd.Series([1, 2, 3])
s1, s2

(0    10
 1    20
 2    30
 dtype: int64,
 0    1
 1    2
 2    3
 dtype: int64)

In [63]:
s1.add(s2)

0    11
1    22
2    33
dtype: int64

In [64]:
s1.sub(s2)

0     9
1    18
2    27
dtype: int64

In [65]:
s1.mul(2)

0    20
1    40
2    60
dtype: int64

In [66]:
s1.div(2)

0     5.0
1    10.0
2    15.0
dtype: float64

### Operações com String

In [69]:
serie_pais_index = serie_pais.index.to_series()
serie_pais_index.reset_index(drop = True, inplace=True)
serie_pais_index

0                        Honduras
1                        Salvador
2                      Monserrate
3                          Uganda
4                       Antártica
                   ...           
32556                      Gâmbia
32557    Ilhas Virgens Britânicas
32558                 Reino Unido
32559                     Tokelau
32560                        Niue
Length: 32561, dtype: object

In [74]:
serie_pais_index.str.contains("ido")

0        False
1        False
2        False
3        False
4        False
         ...  
32556    False
32557    False
32558     True
32559    False
32560    False
Length: 32561, dtype: bool

In [71]:
serie_pais_index.str.upper()

0                        HONDURAS
1                        SALVADOR
2                      MONSERRATE
3                          UGANDA
4                       ANTÁRTICA
                   ...           
32556                      GÂMBIA
32557    ILHAS VIRGENS BRITÂNICAS
32558                 REINO UNIDO
32559                     TOKELAU
32560                        NIUE
Length: 32561, dtype: object

In [72]:
serie_pais_index.str.lower()

0                        honduras
1                        salvador
2                      monserrate
3                          uganda
4                       antártica
                   ...           
32556                      gâmbia
32557    ilhas virgens britânicas
32558                 reino unido
32559                     tokelau
32560                        niue
Length: 32561, dtype: object

In [77]:
serie_pais_index.str.strip("Ilhas")

0                   Hondur
1                 Salvador
2               Monserrate
3                    Ugand
4                 Antártic
               ...        
32556                Gâmbi
32557     Virgens Britânic
32558          Reino Unido
32559              Tokelau
32560                 Niue
Length: 32561, dtype: object

In [78]:
serie_pais_index.str.split(' ', expand=True)

Unnamed: 0,0,1,2,3,4,5,6
0,Honduras,,,,,,
1,Salvador,,,,,,
2,Monserrate,,,,,,
3,Uganda,,,,,,
4,Antártica,,,,,,
...,...,...,...,...,...,...,...
32556,Gâmbia,,,,,,
32557,Ilhas,Virgens,Britânicas,,,,
32558,Reino,Unido,,,,,
32559,Tokelau,,,,,,


In [79]:
serie_pais_index.str[0:5]

0        Hondu
1        Salva
2        Monse
3        Ugand
4        Antár
         ...  
32556    Gâmbi
32557    Ilhas
32558    Reino
32559    Tokel
32560     Niue
Length: 32561, dtype: object

### Agrupamento Numérico

In [80]:
serie_pais

Honduras                    39
Salvador                    50
Monserrate                  38
Uganda                      53
Antártica                   28
                            ..
Gâmbia                      27
Ilhas Virgens Britânicas    40
Reino Unido                 58
Tokelau                     22
Niue                        52
Length: 32561, dtype: int64

In [81]:
serie_pais.sum()

np.int64(1256257)

In [82]:
serie_pais.mean()

np.float64(38.58164675532078)

In [83]:
serie_pais.median()

np.float64(37.0)

In [84]:
serie_pais.count()

np.int64(32561)

In [85]:
serie_pais.std()

np.float64(13.640432553581341)

In [86]:
serie_pais.var()

np.float64(186.0614002488016)

In [87]:
serie_pais.loc["Brasil"].mean()

np.float64(37.70676691729323)

In [88]:
serie_pais.loc["Índia"].mean()

np.float64(38.481751824817515)

In [89]:
serie_pais.quantile([0.25, 0.50, 0.75, 1])

0.25    28.0
0.50    37.0
0.75    48.0
1.00    90.0
dtype: float64

### Agrupamento Categórico

In [90]:
serie_pais_index

0                        Honduras
1                        Salvador
2                      Monserrate
3                          Uganda
4                       Antártica
                   ...           
32556                      Gâmbia
32557    Ilhas Virgens Britânicas
32558                 Reino Unido
32559                     Tokelau
32560                        Niue
Length: 32561, dtype: object

In [91]:
serie_pais_index.value_counts()

Dinamarca                    279
Dhekelia                     273
Costa Rica                   250
Egito                        246
Cuba                         240
                            ... 
Jersey                       104
Bósnia e Herzegovina         104
República Centro-Africana    102
Lesoto                       101
Venezuela                     99
Name: count, Length: 247, dtype: int64

In [92]:
serie_pais_index.value_counts(normalize=True)

Dinamarca                    0.008569
Dhekelia                     0.008384
Costa Rica                   0.007678
Egito                        0.007555
Cuba                         0.007371
                               ...   
Jersey                       0.003194
Bósnia e Herzegovina         0.003194
República Centro-Africana    0.003133
Lesoto                       0.003102
Venezuela                    0.003040
Name: proportion, Length: 247, dtype: float64

In [93]:
serie_pais_index.unique()

array(['Honduras', 'Salvador', 'Monserrate', 'Uganda', 'Antártica',
       'Gabão', 'Quirguizistão', 'Polônia', 'Filipinas',
       'São Pedro e Miquelon', 'Marrocos', 'México', 'Butão',
       'Montenegro', 'Bulgária', 'Aruba', 'Somália', 'Dhekelia',
       'Pitcairn', 'Cuba', 'Malásia', 'Guiné', 'Turquemenistão',
       'República Centro-Africana', 'Uruguai', 'Brasil',
       'Congo-Brazzaville', 'Brunei', 'São Marinho', 'Antígua e Barbuda',
       'Suécia', 'Roménia', 'Granada', 'Clipperton Island', 'Angola',
       'Guiana', 'Macedônia do Norte', 'Ilhas Caiman', 'Nicarágua',
       'Ruanda', 'Mayotte', 'Guiné-Bissau', 'Letônia', 'Macau',
       'Portugal', 'Geórgia', 'Bahamas', 'Zimbábue', 'Vietnam',
       'Geórgia do Sul e Sandwich do Sul', 'Estônia', 'China', 'Eritreia',
       'Nova Caledónia', 'Ilha Wake', 'Zâmbia', 'Lesoto',
       'República Checa', 'Kuwait', 'Palau', 'Barein', 'Bielorrússia',
       'Coreia do Sul', 'Maldivas', 'Birmânia', 'Coreia do Norte',
       'Paquist

In [94]:
serie_pais_index.nunique()

247