In [159]:
import pandas as pd

## 10. What Is A Series?

Series é uma estrutura de dados fundamental no pandas, similar <span style="color:red">**a uma coluna**</span> em uma planilha. Ela organiza dados unidimensionais e oferece funcionalidades poderosas para manipulação e análise, incluindo seleção, filtragem, e cálculos estatísticos. Uma Series consiste em uma sequência de valores, cada um associado a um índice. É uma maneira eficiente de lidar com dados em Python, especialmente em conjunto com outras estruturas de dados do pandas, como o DataFrame.

In [160]:
students = ['Andrew', 'Brie', 'Kanika']

In [161]:
type(students)

list

In [162]:
pd.Series(students)

0    Andrew
1      Brie
2    Kanika
dtype: object

In [163]:
ages = [27, 49, 37]

In [164]:
pd.Series(ages)

0    27
1    49
2    37
dtype: int64

In [165]:
heights = [167.4, 173.2, 190.0]

In [166]:
pd.Series(heights)

0    167.4
1    173.2
2    190.0
dtype: float64

In [167]:
mixed = [True, 'say', {"my_mood": 100}]

In [168]:
pd.Series(mixed)

0                True
1                 say
2    {'my_mood': 100}
dtype: object

## 11. Parameters vs Arguments

![image.png](attachment:image.png)

In [169]:
pd.Series(data=students)

0    Andrew
1      Brie
2    Kanika
dtype: object

In [170]:
def greeting(something):
    print(something)

In [171]:
greeting('good morning to you')

good morning to you


## 12. What’s In The Data?

In [172]:
books_list = ['Fooled by Randomness', 'Sapiens', 'Lenin on the Train']

In [173]:
pd.Series(books_list)

0    Fooled by Randomness
1                 Sapiens
2      Lenin on the Train
dtype: object

In [174]:
books_dict = {
    0: 'Fooled by Randomness',
    1: 'Sapiens',
    2: 'Lenin on the Train'
}

In [175]:
pd.Series(books_dict)

0    Fooled by Randomness
1                 Sapiens
2      Lenin on the Train
dtype: object

In [176]:
books_list == books_dict

False

In [177]:
pd.Series(books_list) == pd.Series(books_dict)

0    True
1    True
2    True
dtype: bool

In [178]:
type(pd.Series(books_list)) == type(pd.Series(books_dict))

True

In [179]:
type(pd.Series(books_dict))

pandas.core.series.Series

In [180]:
type(pd.Series(books_list))

pandas.core.series.Series

In [181]:
list_series = pd.Series(books_list)

In [182]:
dict_series =  pd.Series(books_dict)

In [183]:
list_series.equals(dict_series)

True

O método `equals()` é comumente usado em pandas, uma biblioteca de análise de dados em Python. Ele é utilizado para verificar se dois objetos **`pandas`** são iguais. No seu exemplo, `list_series.equals(dict_series)` verifica se dois objetos pandas, `list_series` e `dict_series`, são iguais.

No entanto, é importante notar que `list_series` e `dict_series` provavelmente são tipos diferentes de objetos. Uma é uma série (Series) e a outra é um dicionário (dict). Normalmente, você não pode comparar diretamente uma série com um dicionário usando `equals()`, pois eles são estruturas de dados diferentes. 

Se você quiser comparar duas séries ou dois dicionários, `equals()` pode ser útil. Por exemplo, se `list_series` e `dict_series` forem ambos objetos do tipo `pandas.Series`, então a comparação faria sentido. Caso contrário, pode não ser a comparação desejada.

In [184]:
pd.Series(714)

0    714
dtype: int64

In [185]:
pd.Series('Diego')

0    Diego
dtype: object

## 13. The .dtype Attribute

In [186]:
ages

[27, 49, 37]

In [187]:
pd.Series(ages)

0    27
1    49
2    37
dtype: int64

In [188]:
pd.Series(ages, dtype='float')

0    27.0
1    49.0
2    37.0
dtype: float64

Em pandas, quando você tem uma coluna que contém strings, essa coluna é frequentemente representada como um tipo de dados "object". Isso ocorre porque o tipo de dados "object" é um tipo genérico que pode conter qualquer tipo de dado Python, incluindo strings.

O motivo pelo qual as strings são representadas como "object" em pandas é para permitir flexibilidade. Como o tipo "object" pode conter qualquer tipo de objeto Python, isso permite que você armazene não apenas strings, mas também outros tipos de dados, como listas, dicionários e até mesmo objetos personalizados.

No entanto, o uso extensivo do tipo "object" para armazenar strings pode ter algumas desvantagens, como um aumento no consumo de memória e uma possível diminuição na eficiência das operações de pandas, especialmente em comparação com tipos de dados mais específicos, como `str` ou `object`. Se você estiver lidando principalmente com strings em uma coluna, é geralmente recomendável converter essa coluna para o tipo `str` para melhorar o desempenho e a eficiência das operações de pandas. Isso pode ser feito usando o método `.astype()` do DataFrame do pandas.

In [189]:
name_series = pd.Series(students)

In [190]:
name_series

0    Andrew
1      Brie
2    Kanika
dtype: object

In [191]:
name_series.dtype

dtype('O')

## 14. BONUS: What Is dtype('o'), Really?

O numpy é uma biblioteca fundamental para computação numérica em Python, e o pandas é construído sobre o numpy. O numpy oferece suporte a uma ampla variedade de tipos de dados através do conceito de `dtype`, que especifica o tipo de dados de um array numpy.

Quando você cria um DataFrame do pandas, as colunas são representadas internamente como arrays numpy, e cada coluna tem um `dtype` associado que especifica o tipo de dados dos elementos naquela coluna. Quando uma coluna contém strings, o pandas usa o `dtype` "object" para representar essa coluna, o que significa que os elementos são tratados como objetos Python genéricos.

A relação entre pandas, numpy, `dtype` e strings é a seguinte:

1. **pandas e numpy**: O pandas utiliza o numpy como sua base para armazenar e manipular dados. Os DataFrames do pandas são construídos sobre arrays numpy, que são mais eficientes em termos de memória e oferecem operações vetorizadas para computação numérica.

2. **dtype**: O `dtype` (tipo de dados) é uma propriedade fundamental em numpy que especifica o tipo de dados dos elementos em um array numpy. Ele pode ser `int`, `float`, `object`, entre outros.

3. **Strings e o dtype "object"**: Quando uma coluna do pandas contém strings, ela é representada internamente como um array numpy com um `dtype` "object", o que significa que cada elemento é tratado como um objeto Python genérico. Isso oferece flexibilidade para armazenar diferentes tipos de dados, mas pode ter algumas desvantagens em termos de desempenho e eficiência.

Em resumo, o `dtype` em numpy especifica como os dados são armazenados e interpretados, e o pandas usa numpy para lidar com a representação e manipulação eficiente de dados, incluindo strings. Quando uma coluna do pandas contém strings, ela é representada como um array numpy com `dtype` "object".

In [192]:
heights

[167.4, 173.2, 190.0]

In [193]:
pd.Series(heights)

0    167.4
1    173.2
2    190.0
dtype: float64

In [194]:
heights2 = [167.4, "173.2", 190.0]

<span style="color:green">The presence of this string forces pandas to store pointers references instead of the actual float numbers themselves:</span>


In [195]:
pd.Series(heights2)

0    167.4
1    173.2
2    190.0
dtype: object

## 15. Index And RangeIndex

In [196]:
books_list

['Fooled by Randomness', 'Sapiens', 'Lenin on the Train']

In [197]:
list_series

0    Fooled by Randomness
1                 Sapiens
2      Lenin on the Train
dtype: object

In [198]:
pd.Series(data=books_list, index=['funny', 'serious and amusing', 'kinda interesting'])

funny                  Fooled by Randomness
serious and amusing                 Sapiens
kinda interesting        Lenin on the Train
dtype: object

In [199]:
pd.Series(books_list, ['funny', 'serious and amusing', 'kinda interesting'])

funny                  Fooled by Randomness
serious and amusing                 Sapiens
kinda interesting        Lenin on the Train
dtype: object

In [200]:
pd.__version__

'2.2.2'

In [201]:
pd.Series(books_list, ['funny', 'serious and amusing', 'kinda interesting'], dtype='string')

funny                  Fooled by Randomness
serious and amusing                 Sapiens
kinda interesting        Lenin on the Train
dtype: string

<span style="color:blue">**positional arguments:**</span>


In [202]:
pd.Series(books_list, ['funny', 'serious and amusing', 'kinda interesting'], 'string')

funny                  Fooled by Randomness
serious and amusing                 Sapiens
kinda interesting        Lenin on the Train
dtype: string

In [203]:
list_series.index

RangeIndex(start=0, stop=3, step=1)

In [204]:
type(list_series.index)

pandas.core.indexes.range.RangeIndex

`pd.RangeIndex` é uma classe do Pandas usada para representar um índice padrão gerado automaticamente para DataFrames quando nenhum índice é especificado explicitamente. Ele cria um índice que é uma sequência de inteiros, similar à função `range()` do Python.

Uma característica importante do `RangeIndex` é sua imutabilidade. Isso significa que, uma vez criado, um `RangeIndex` não pode ser modificado. Isso resulta em economia de memória, já que apenas o início, o fim e o passo da sequência são armazenados, em vez de todos os valores de índice individualmente.

O `RangeIndex` é eficiente em termos de memória e é adequado para muitos casos de uso. No entanto, se você precisar de funcionalidades adicionais ou de um índice com um tipo diferente de dados, como datas ou strings, você pode criar um índice personalizado usando outras classes de índice do Pandas.

In [205]:
pd.RangeIndex(start=4, stop=7, step=1)

RangeIndex(start=4, stop=7, step=1)

In [206]:
list(pd.RangeIndex(start=4, stop=7, step=1))

[4, 5, 6]

In [207]:
list(pd.RangeIndex(start=10, stop=-11, step=-1))

[10, 9, 8, 7, 6, 5, 4, 3, 2, 1, 0, -1, -2, -3, -4, -5, -6, -7, -8, -9, -10]

## 16. Series And Index Names

In [208]:
books_series = list_series

In [209]:
books_series

0    Fooled by Randomness
1                 Sapiens
2      Lenin on the Train
dtype: object

In [210]:
books_series.size

3

![image.png](attachment:image.png)

In [211]:
list_series.equals(dict_series)

True

In [212]:
list_series.dtype

dtype('O')

In [213]:
books_series.name

In [214]:
books_series.name == None

True

In [215]:
type(list_series.dtype)

numpy.dtypes.ObjectDType

In [216]:
books_series.name = "my favorite books"

In [217]:
books_series

0    Fooled by Randomness
1                 Sapiens
2      Lenin on the Train
Name: my favorite books, dtype: object

In [218]:
books_series.index.name == None

True

In [219]:
books_series.index.name = "My books"

In [220]:
books_series

My books
0    Fooled by Randomness
1                 Sapiens
2      Lenin on the Train
Name: my favorite books, dtype: object

### 17. Skill Challenge

In [221]:
actor_names = ["Jennifer Lawrence", "Tom Hanks", "Scarlett Johansson", "Leonardo DiCaprio"]

In [222]:
actor_ages = [31, 65, 37, 47]


In [223]:
opa = pd.Series(actor_names, actor_ages)

In [224]:
opa

31     Jennifer Lawrence
65             Tom Hanks
37    Scarlett Johansson
47     Leonardo DiCaprio
dtype: object

In [225]:
opa.name = "actors"

In [226]:
opa

31     Jennifer Lawrence
65             Tom Hanks
37    Scarlett Johansson
47     Leonardo DiCaprio
Name: actors, dtype: object

### 18. Solution

In [227]:
actor_pandas_series = pd.Series(data=actor_ages, index=actor_names, name='actors')

In [228]:
actor_pandas_series

Jennifer Lawrence     31
Tom Hanks             65
Scarlett Johansson    37
Leonardo DiCaprio     47
Name: actors, dtype: int64

In [229]:
zip(actor_names, actor_ages)

<zip at 0x7f93dd3ec280>


O zip() é uma função embutida do Python que combina elementos de duas ou mais listas em tuplas. Ele cria um iterador que agrupa elementos correspondentes de cada lista juntos.

No contexto dos atores e suas idades, podemos usar o zip() para combinar os nomes dos atores e suas idades em pares correspondentes. Isso nos permite iterar sobre esses pares e realizar operações em cada par de nome de ator e idade de forma conjunta.

In [230]:
list(zip(actor_names, actor_ages))

[('Jennifer Lawrence', 31),
 ('Tom Hanks', 65),
 ('Scarlett Johansson', 37),
 ('Leonardo DiCaprio', 47)]

In [231]:
dict(zip(actor_names, actor_ages))

{'Jennifer Lawrence': 31,
 'Tom Hanks': 65,
 'Scarlett Johansson': 37,
 'Leonardo DiCaprio': 47}

In [232]:
pd.Series(dict(zip(actor_names, actor_ages)))

Jennifer Lawrence     31
Tom Hanks             65
Scarlett Johansson    37
Leonardo DiCaprio     47
dtype: int64

### 19. Another Solution

In [233]:
{name:age for name,age in zip(actor_names, actor_ages)}

{'Jennifer Lawrence': 31,
 'Tom Hanks': 65,
 'Scarlett Johansson': 37,
 'Leonardo DiCaprio': 47}

In [234]:
pd.Series({name:age for name,age in zip(actor_names, actor_ages)})

Jennifer Lawrence     31
Tom Hanks             65
Scarlett Johansson    37
Leonardo DiCaprio     47
dtype: int64

Este código acima cria uma Series do pandas usando um dicionário de compreensão, onde as chaves são os nomes dos atores e os valores são suas idades. O zip() é usado para combinar os nomes dos atores e suas idades em pares correspondentes. Em seguida, o dicionário de compreensão é utilizado para criar o dicionário, onde cada par de nome e idade é inserido no dicionário. Finalmente, este dicionário é passado como argumento para a função pd.Series(), criando assim uma Series do pandas onde os índices são os nomes dos atores e os valores são suas idades.

## 20. The head() And tail() Methods

In [235]:
int_series = pd.Series([i for i in range(60)])

In [236]:
int_series

0      0
1      1
2      2
3      3
4      4
5      5
6      6
7      7
8      8
9      9
10    10
11    11
12    12
13    13
14    14
15    15
16    16
17    17
18    18
19    19
20    20
21    21
22    22
23    23
24    24
25    25
26    26
27    27
28    28
29    29
30    30
31    31
32    32
33    33
34    34
35    35
36    36
37    37
38    38
39    39
40    40
41    41
42    42
43    43
44    44
45    45
46    46
47    47
48    48
49    49
50    50
51    51
52    52
53    53
54    54
55    55
56    56
57    57
58    58
59    59
dtype: int64

In [237]:
pd.Series(range(60))

0      0
1      1
2      2
3      3
4      4
5      5
6      6
7      7
8      8
9      9
10    10
11    11
12    12
13    13
14    14
15    15
16    16
17    17
18    18
19    19
20    20
21    21
22    22
23    23
24    24
25    25
26    26
27    27
28    28
29    29
30    30
31    31
32    32
33    33
34    34
35    35
36    36
37    37
38    38
39    39
40    40
41    41
42    42
43    43
44    44
45    45
46    46
47    47
48    48
49    49
50    50
51    51
52    52
53    53
54    54
55    55
56    56
57    57
58    58
59    59
dtype: int64

In [238]:
int_series.size

60

In [239]:
len(int_series)

60

In [240]:
int_series.head()

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [241]:
int_series.tail()

55    55
56    56
57    57
58    58
59    59
dtype: int64

In [242]:
int_series.head(3)

0    0
1    1
2    2
dtype: int64

In [243]:
int_series.head(n=3)

0    0
1    1
2    2
dtype: int64

In [244]:
int_series.tail(n=7)

53    53
54    54
55    55
56    56
57    57
58    58
59    59
dtype: int64

In [245]:
# force pandas to display more lines 
# pd.options.display.min_rows = 40

## 21. Extracting By Index Position

In [246]:
from string import ascii_lowercase

In [247]:
ascii_lowercase

'abcdefghijklmnopqrstuvwxyz'

In [248]:
pd.Series('Diego')

0    Diego
dtype: object

In [249]:
pd.Series(ascii_lowercase)

0    abcdefghijklmnopqrstuvwxyz
dtype: object

In [250]:
list(ascii_lowercase)

['a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z']

In [251]:
len(list(ascii_lowercase))

26

In [252]:
letters = list(ascii_lowercase)

In [253]:
alphabet = pd.Series(letters)

In [254]:
alphabet

0     a
1     b
2     c
3     d
4     e
5     f
6     g
7     h
8     i
9     j
10    k
11    l
12    m
13    n
14    o
15    p
16    q
17    r
18    s
19    t
20    u
21    v
22    w
23    x
24    y
25    z
dtype: object

In [255]:
alphabet.head(1)

0    a
dtype: object

In [256]:
alphabet[1]

'b'

In [257]:
# 1. what is the first letter ?
alphabet[0]

'a'

In [258]:
# 2. what is the 11th letter ?
alphabet[10]

'k'

In [259]:
# 3. what are the first three letters ?
alphabet[0:3]

0    a
1    b
2    c
dtype: object

In [260]:
alphabet[:3]

0    a
1    b
2    c
dtype: object

In [261]:
# 4. what are the sixth through tenth letters?
alphabet[5:10]

5    f
6    g
7    h
8    i
9    j
dtype: object

In [262]:
# 5. what are the last six letters ?
alphabet[-6:]

20    u
21    v
22    w
23    x
24    y
25    z
dtype: object

## 22. Accessing Elements By Label

In [263]:
from string import ascii_uppercase

In [264]:
ascii_lowercase

'abcdefghijklmnopqrstuvwxyz'

In [265]:
ascii_uppercase

'ABCDEFGHIJKLMNOPQRSTUVWXYZ'

In [266]:
labeled_alphabet = pd.Series(data=list(ascii_lowercase), index=list(ascii_uppercase))

In [267]:
labeled_alphabet.head(3)

A    a
B    b
C    c
dtype: object

In [268]:
labeled_alphabet = pd.Series(data=list(ascii_lowercase), index=map(lambda x: 'label_' + x, list(ascii_uppercase)))

In [269]:
labeled_alphabet

label_A    a
label_B    b
label_C    c
label_D    d
label_E    e
label_F    f
label_G    g
label_H    h
label_I    i
label_J    j
label_K    k
label_L    l
label_M    m
label_N    n
label_O    o
label_P    p
label_Q    q
label_R    r
label_S    s
label_T    t
label_U    u
label_V    v
label_W    w
label_X    x
label_Y    y
label_Z    z
dtype: object

In [270]:
# 1. what is the first letter?
# 2. what is the 11th letter?
# 3. what are the first three letters?
# 4. what are the sixth through tenth letters?
# 5. what are the last six letters?

In [271]:
# 1. what is the first letter?
labeled_alphabet[0]

  labeled_alphabet[0]


'a'

In [272]:
labeled_alphabet['label_A']

'a'

In [273]:
# 2. what is the 11th letter?
labeled_alphabet[10]


  labeled_alphabet[10]


'k'

In [274]:
labeled_alphabet['label_K']

'k'

In [275]:
# 3. what are the first three letters?
labeled_alphabet[:3]

label_A    a
label_B    b
label_C    c
dtype: object

In [276]:
labeled_alphabet[:'label_C']

label_A    a
label_B    b
label_C    c
dtype: object

In [277]:
# 4. what are the sixth through tenth letters?
labeled_alphabet[5:10]

label_F    f
label_G    g
label_H    h
label_I    i
label_J    j
dtype: object

In [278]:
labeled_alphabet['label_F':'label_J']

label_F    f
label_G    g
label_H    h
label_I    i
label_J    j
dtype: object

In [279]:
# 5. what are the last six letters?
labeled_alphabet[-6:]

label_U    u
label_V    v
label_W    w
label_X    x
label_Y    y
label_Z    z
dtype: object

In [280]:
labeled_alphabet['label_U':]

label_U    u
label_V    v
label_W    w
label_X    x
label_Y    y
label_Z    z
dtype: object

## 23. BONUS: The add_prefix() And add_suffix() Methods

Em Pandas, os métodos add_prefix() e add_suffix() são usados para adicionar um prefixo ou sufixo às colunas de um DataFrame. Aqui está uma explicação resumida de cada um:

add_prefix(prefix): Este método adiciona o prefixo especificado a todas as colunas do DataFrame. Por exemplo, df.add_prefix('X_') adicionaria o prefixo 'X_' a todas as colunas do DataFrame df.
add_suffix(suffix): Este método adiciona o sufixo especificado a todas as colunas do DataFrame. Por exemplo, df.add_suffix('_Y') adicionaria o sufixo '_Y' a todas as colunas do DataFrame df.
Esses métodos são úteis quando você deseja renomear várias colunas ao mesmo tempo, adicionando um prefixo ou sufixo para indicar uma transformação específica ou para evitar conflitos de nomes.

Na biblioteca Pandas, tanto a classe DataFrame quanto a classe Series possuem os métodos add_prefix() e add_suffix(), mas seus usos são um pouco diferentes em relação aos DataFrames. Vou explicar brevemente como esses métodos funcionam quando aplicados a uma Series:

add_prefix(prefix): Este método adiciona o prefixo especificado a cada rótulo (índice) da Series. Por exemplo, se você tiver uma Series s com rótulos 'A', 'B' e 'C', chamar s.add_prefix('X_') resultará em uma Series com rótulos 'X_A', 'X_B' e 'X_C'.
add_suffix(suffix): Similarmente, este método adiciona o sufixo especificado a cada rótulo da Series. Usando o exemplo anterior, s.add_suffix('_Y') resultaria em uma Series com rótulos 'A_Y', 'B_Y' e 'C_Y'.
Esses métodos são úteis para modificar os rótulos de uma Series de forma rápida e conveniente, adicionando um prefixo ou sufixo para facilitar a identificação ou para evitar conflitos de nomes.

In [281]:
alphabet.head()

0    a
1    b
2    c
3    d
4    e
dtype: object

In [282]:
alphabet.add_prefix('label_')

label_0     a
label_1     b
label_2     c
label_3     d
label_4     e
label_5     f
label_6     g
label_7     h
label_8     i
label_9     j
label_10    k
label_11    l
label_12    m
label_13    n
label_14    o
label_15    p
label_16    q
label_17    r
label_18    s
label_19    t
label_20    u
label_21    v
label_22    w
label_23    x
label_24    y
label_25    z
dtype: object

In [283]:
alphabet.add_suffix('_some_cool_ending')

0_some_cool_ending     a
1_some_cool_ending     b
2_some_cool_ending     c
3_some_cool_ending     d
4_some_cool_ending     e
5_some_cool_ending     f
6_some_cool_ending     g
7_some_cool_ending     h
8_some_cool_ending     i
9_some_cool_ending     j
10_some_cool_ending    k
11_some_cool_ending    l
12_some_cool_ending    m
13_some_cool_ending    n
14_some_cool_ending    o
15_some_cool_ending    p
16_some_cool_ending    q
17_some_cool_ending    r
18_some_cool_ending    s
19_some_cool_ending    t
20_some_cool_ending    u
21_some_cool_ending    v
22_some_cool_ending    w
23_some_cool_ending    x
24_some_cool_ending    y
25_some_cool_ending    z
dtype: object

In [284]:
alphabet = alphabet.add_suffix('_some_cool_ending')

In [285]:
alphabet

0_some_cool_ending     a
1_some_cool_ending     b
2_some_cool_ending     c
3_some_cool_ending     d
4_some_cool_ending     e
5_some_cool_ending     f
6_some_cool_ending     g
7_some_cool_ending     h
8_some_cool_ending     i
9_some_cool_ending     j
10_some_cool_ending    k
11_some_cool_ending    l
12_some_cool_ending    m
13_some_cool_ending    n
14_some_cool_ending    o
15_some_cool_ending    p
16_some_cool_ending    q
17_some_cool_ending    r
18_some_cool_ending    s
19_some_cool_ending    t
20_some_cool_ending    u
21_some_cool_ending    v
22_some_cool_ending    w
23_some_cool_ending    x
24_some_cool_ending    y
25_some_cool_ending    z
dtype: object

## 25. Boolean Masks And The .loc Indexer

In [286]:
labeled_alphabet['label_F': 'label_J']

label_F    f
label_G    g
label_H    h
label_I    i
label_J    j
dtype: object

In [287]:
#loc

In [288]:
labeled_alphabet.loc['label_F': 'label_J']

label_F    f
label_G    g
label_H    h
label_I    i
label_J    j
dtype: object

O `.loc` é um método usado em Pandas. Ele é usado para acessar grupos de linhas e colunas em um DataFrame (estrutura de dados tabular) usando rótulos.

Aqui está uma explicação detalhada linha por linha do código fornecido:

1. `labeled_alphabet`: Este é o nome do DataFrame com o qual estamos lidando. Pode ser qualquer DataFrame que você tenha criado ou carregado, e no qual você atribuiu rótulos (labels) às linhas.

2. `.loc[]`: Este é o método `.loc` usado para acessar partes específicas do DataFrame com base em rótulos. É seguido por colchetes `[]` onde você fornece os rótulos das linhas e/ou colunas que deseja acessar.

3. `['label_F': 'label_J']`: Dentro dos colchetes `[]`, estamos especificando o intervalo de rótulos das linhas que queremos acessar. Este intervalo começa em 'label_F' e vai até 'label_J', incluindo ambas as extremidades.

Agora, vamos supor que `labeled_alphabet` seja um DataFrame onde as linhas tenham sido rotuladas de 'label_A' a 'label_Z'. Quando usamos `.loc['label_F': 'label_J']`, estamos instruindo o Pandas para nos dar todas as linhas que estão entre 'label_F' e 'label_J', incluindo 'label_F' e 'label_J' também. Então, se 'label_F' corresponder à 6ª linha e 'label_J' corresponder à 10ª linha no DataFrame, o `.loc` nos retornará as linhas da 6ª à 10ª, inclusive.

``Em resumo, o `.loc` nos permite acessar um intervalo de linhas de um DataFrame com base em seus rótulos. Ele é útil quando você tem um grande conjunto de dados e quer selecionar apenas uma parte específica com base nos rótulos atribuídos.``

In [289]:
# boolean

In [290]:
books_series

My books
0    Fooled by Randomness
1                 Sapiens
2      Lenin on the Train
Name: my favorite books, dtype: object

In [291]:
books_series.loc[[True, True, True]]

My books
0    Fooled by Randomness
1                 Sapiens
2      Lenin on the Train
Name: my favorite books, dtype: object

`.loc[]: Aqui, estamos usando o método .loc para acessar elementos específicos da série com base em seus rótulos de índice.
[[True, False, True]]: Dentro dos colchetes [], estamos fornecendo uma lista de valores booleanos que correspondem aos rótulos de índice da série. Esses valores booleanos indicam quais elementos da série queremos acessar. Se o valor booleano for True, o elemento correspondente será incluído na seleção; se for False, o elemento correspondente será excluído.
Então, vamos supor que books_series seja uma série com os rótulos de índice 'A', 'B', e 'C', nesta ordem. Quando usamos .loc[[True, False, True]], estamos instruindo o Pandas a nos dar os elementos da série cujos rótulos correspondentes têm o valor True. Portanto, neste caso, estaríamos selecionando os elementos com os rótulos 'A' e 'C', pois eles correspondem aos valores True na lista fornecida.
Em resumo, o .loc nos permite selecionar elementos de uma série com base em rótulos de índice, e podemos usar uma lista de valores booleanos para especificar quais elementos queremos incluir na seleção, com True indicando inclusão e False indicando exclusão.`

In [292]:
books_series.loc[[True, False, True]]

My books
0    Fooled by Randomness
2      Lenin on the Train
Name: my favorite books, dtype: object

In [293]:
labeled_alphabet.size

26

In [294]:
labeled_alphabet.loc[[True for i in range(26)]]

label_A    a
label_B    b
label_C    c
label_D    d
label_E    e
label_F    f
label_G    g
label_H    h
label_I    i
label_J    j
label_K    k
label_L    l
label_M    m
label_N    n
label_O    o
label_P    p
label_Q    q
label_R    r
label_S    s
label_T    t
label_U    u
label_V    v
label_W    w
label_X    x
label_Y    y
label_Z    z
dtype: object

In [295]:
labeled_alphabet.loc[[True if i%2==0 else False for i in range(26)]]

label_A    a
label_C    c
label_E    e
label_G    g
label_I    i
label_K    k
label_M    m
label_O    o
label_Q    q
label_S    s
label_U    u
label_W    w
label_Y    y
dtype: object

`[[True if i%2==0 else False for i in range(26)]]: Aqui, estamos criando uma lista de valores booleanos usando uma compreensão de lista. Vamos desmembrar o que está acontecendo dentro dos colchetes:
for i in range(26): Isso cria um loop que percorre os números de 0 a 25 (26 números no total).
True if i%2==0 else False: Para cada valor i no intervalo de 0 a 25, estamos verificando se i é divisível por 2 (ou seja, se o resto da divisão de i por 2 é zero). Se for divisível por 2, estamos definindo o valor como True, caso contrário, como False.
Então, ao final deste processo, teremos uma lista de valores booleanos onde o valor será True se o índice for par e False se for ímpar.
Então, se aplicarmos essa lista de valores booleanos dentro do .loc, estaremos instruindo o Pandas a selecionar apenas as linhas do DataFrame onde o valor booleano correspondente seja True. Isso significa que vamos selecionar apenas as linhas com índices pares no DataFrame labeled_alphabet.`

**Em resumo, o código está selecionando apenas as linhas com índices pares do DataFrame labeled_alphabet usando uma lista de valores booleanos gerada com base na compreensão de lista e a condição de paridade do índice.**

![image.png](attachment:image.png)

## 26. Extracting By Position With .iloc

In [296]:
# iloc => integer loc => indexing by position
# loc => location => indexing by label

In [297]:
labeled_alphabet.iloc[0]

'a'

In [298]:
labeled_alphabet.iloc[1]

'b'

In [299]:
labeled_alphabet.iloc[1:3]

label_B    b
label_C    c
dtype: object

#### `Esta operação abaixo é útil para extrair subconjuntos específicos de dados de um DataFrame com base na posição das linhas.`

In [300]:
labeled_alphabet.iloc[[1,4,9]]

label_B    b
label_E    e
label_J    j
dtype: object

labeled_alphabet: Este parece ser o nome de um DataFrame em pandas. `Um DataFrame é uma estrutura de dados bidimensional, como uma tabela, com linhas e colunas.`

.iloc: Este é um indexador em pandas usado para `selecionar dados com base na posição dos índices` (inteiros). **`O iloc permite acessar linhas e colunas pelo seu índice numérico.`**

[[1,4,9]]: Isso é uma lista de índices que você deseja selecionar. No contexto do iloc, isso significa que você está selecionando as linhas que estão nas posições 1, 4 e 9 do DataFrame labeled_alphabet.

Portanto, labeled_alphabet.iloc[[1,4,9]] seleciona e retorna as linhas do DataFrame labeled_alphabet que estão nas posições 1, 4 e 9. Essas posições são baseadas em indexação zero, o que significa que a primeira linha é a linha 0, a segunda linha é a linha 1, e assim por diante.

### iloc
O indexador .iloc (index location) é usado para selecionar dados em um DataFrame baseado na posição dos índices (numéricos). Ele <u>**_`permite acessar linhas e colunas de um DataFrame usando índices inteiros.`_**</u>

**Seleção de Múltiplas Linhas**
<span style="color:red">Quando queremos selecionar <u>`múltiplas linhas`</u> usando .iloc, precisamos passar uma <u style="color:green">lista de índices</u> que desejamos selecionar.</span> Em Python, listas são definidas usando colchetes []. Para selecionar as linhas 1, 4 e 9, passamos a lista [1, 4, 9].

Detalhamento da Sintaxe [[1, 4, 9]]
A expressão [[1, 4, 9]] é um pouco mais complexa do que apenas uma lista simples. Vamos entender por que temos dois conjuntos de colchetes.

Listas em Python: [1, 4, 9] é uma lista simples contendo os índices 1, 4 e 9. Esta lista é usada para indicar múltiplas posições de linhas que queremos selecionar.

Passando a Lista para iloc: Quando usamos iloc para selecionar várias linhas, passamos essa lista como um argumento. No entanto, no contexto de indexação em pandas, frequentemente vemos a lista de listas (ou listas dentro de listas) quando estamos trabalhando com seleção de várias dimensões (linhas e colunas). No caso de seleção apenas de linhas, a lista simples [1, 4, 9] é suficiente.
A sintaxe é assim porque pandas usa listas para permitir a seleção de múltiplos índices de maneira flexível e intuitiva. 

## 27. BONUS: Using Callables With .loc And .iloc

![image.png](attachment:image.png)

In [301]:
labeled_alphabet.loc['label_V']

'v'

In [302]:
labeled_alphabet.loc[lambda x: 'label_V']

'v'

Vamos detalhar e explicar o código `labeled_alphabet.loc[lambda x: 'label_V']`.

### Estrutura Geral

O método `.loc[]` é utilizado para acessar um grupo de linhas e colunas por labels ou uma condição booleana.

### Desconstruindo o Código

1. **`labeled_alphabet`**: Suponho que `labeled_alphabet` é um DataFrame do pandas.

2. **`.loc[]`**: Este é um método usado para acessar uma parte do DataFrame. <spam style="color:green">O `.loc[]` permite selecionar dados por labels de linhas e colunas.</spam> 

3. **`lambda x: 'label_V'`**: Aqui estamos passando uma função lambda para o `.loc[]`. Uma função lambda é uma função anônima em Python, que é definida usando a palavra-chave `lambda`. A sintaxe básica é `lambda argumentos: expressão`. Neste caso, a função lambda aceita um argumento `x` e retorna a string `'label_V'`.

### Interpretação do Código

O código `labeled_alphabet.loc[lambda x: 'label_V']` está tentando usar uma função lambda para selecionar dados do DataFrame. No entanto, este código específico não faz muito sentido no contexto típico do uso de `.loc[]`, pois a função lambda `lambda x: 'label_V'` simplesmente retorna a string `'label_V'` e não depende do argumento `x` de forma alguma.

### Comportamento Esperado

No pandas, `.loc[]` geralmente é usado com uma label ou uma condição booleana, por exemplo:

- `df.loc['row_label']` para selecionar uma linha com um label específico.
- `df.loc[condition]` onde `condition` é uma expressão booleana para selecionar linhas que atendem a essa condição.

Portanto, um código típico e mais útil seria algo como:
```python
# Supondo que labeled_alphabet tenha uma coluna 'label'
labeled_alphabet.loc[labeled_alphabet['label'] == 'label_V']
```
Este código selecionaria todas as linhas do DataFrame `labeled_alphabet` onde o valor da coluna `'label'` é igual a `'label_V'`.

### Possível Uso Correto do Lambda

O pandas permite o uso de funções aplicadas a DataFrames com métodos como `.apply()`, mas não com `.loc[]` diretamente da maneira mostrada. No entanto, se realmente quisermos usar uma função lambda dentro de `.loc[]`, poderíamos fazer algo mais significativo, como:

```python
labeled_alphabet.loc[lambda df: df['label'] == 'label_V']
```
Este código usaria a função lambda para criar uma condição booleana, selecionando todas as linhas onde a coluna `'label'` tem o valor `'label_V'`.

### Resumo

O código `labeled_alphabet.loc[lambda x: 'label_V']` tenta usar uma função lambda com `.loc[]`, mas não está formulado de uma maneira que faça sentido ou seja útil. Provavelmente, a intenção era filtrar o DataFrame com base em uma condição na coluna `label`. A maneira correta de fazer isso seria usar uma expressão booleana dentro de `.loc[]`, como mostrado acima.

In [303]:
labeled_alphabet.loc[lambda x: ['label_V', 'label_A']]

label_V    v
label_A    a
dtype: object

In [304]:
labeled_alphabet.loc[lambda x: [True for i in range(x.size)]]

label_A    a
label_B    b
label_C    c
label_D    d
label_E    e
label_F    f
label_G    g
label_H    h
label_I    i
label_J    j
label_K    k
label_L    l
label_M    m
label_N    n
label_O    o
label_P    p
label_Q    q
label_R    r
label_S    s
label_T    t
label_U    u
label_V    v
label_W    w
label_X    x
label_Y    y
label_Z    z
dtype: object

Vamos detalhar e explicar o código `labeled_alphabet.loc[lambda x: [True for i in range(x.size)]]`.

### Estrutura Geral

O método `.loc[]` é utilizado para acessar um grupo de linhas e colunas por labels ou uma condição booleana.

### Desconstruindo o Código

1. **`labeled_alphabet`**: Suponho que `labeled_alphabet` é um DataFrame do pandas. Um DataFrame é uma estrutura de dados bidimensional, como uma tabela, com linhas e colunas.

2. **`.loc[]`**: Este é um método usado para acessar uma parte do DataFrame. O `.loc[]` permite selecionar dados por labels de linhas e colunas.

3. **`lambda x: [True for i in range(x.size)]`**: Aqui estamos passando uma função lambda para o `.loc[]`. Uma função lambda é uma função anônima em Python, que é definida usando a palavra-chave `lambda`. A sintaxe básica é `lambda argumentos: expressão`.

### Interpretação da Função Lambda

A função lambda `lambda x: [True for i in range(x.size)]` faz o seguinte:

- Aceita um argumento `x`, que será o DataFrame `labeled_alphabet` passado implicitamente pelo método `.loc[]`.
- `x.size` retorna o número total de elementos no DataFrame (ou seja, o número de células, que é o número de linhas vezes o número de colunas).
- `[True for i in range(x.size)]` cria uma lista de valores booleanos `True` cujo comprimento é igual ao número total de elementos no DataFrame.

### Comportamento Esperado

Este código está criando uma lista de valores booleanos `True` que tem o mesmo comprimento que o número total de células no DataFrame. No entanto, o método `.loc[]` do pandas espera uma condição booleana que é aplicada a cada linha ou a cada coluna, não a todas as células individualmente.

### Resultado do Código

O código provavelmente não vai funcionar como esperado, pois o `.loc[]` está sendo fornecido com uma lista de booleans cujo comprimento é igual ao número total de elementos (células) no DataFrame, não ao número de linhas ou colunas.

Para selecionar todas as linhas do DataFrame (o que parece ser a intenção, dado que todas as condições são `True`), você pode simplificar isso usando:

```python
labeled_alphabet.loc[lambda x: [True] * len(x)]
```

ou, mais diretamente, apenas:

```python
labeled_alphabet.loc[:, :]
```

### Alternativa Correta

Se você quiser criar uma condição que selecione todas as linhas, o código pode ser simplificado sem a necessidade de lambda ou listas booleanas:

```python
labeled_alphabet.loc[:, :]
```
ou

```python
labeled_alphabet
```

Ambas as formas selecionam todo o DataFrame.

### Resumo

O código `labeled_alphabet.loc[lambda x: [True for i in range(x.size)]]` tenta usar uma função lambda para criar uma lista de valores booleanos `True` para todos os elementos do DataFrame, mas isso não é necessário e não se ajusta ao uso típico do `.loc[]`. Para selecionar todas as linhas e colunas, você pode simplesmente usar `labeled_alphabet.loc[:, :]` ou apenas `labeled_alphabet`.

In [305]:
def every_fifth(x):
    return [True if i%5==0 else False for i in range(x.size)]

In [306]:
labeled_alphabet.iloc[every_fifth]

label_A    a
label_F    f
label_K    k
label_P    p
label_U    u
label_Z    z
dtype: object

O `return` no código da função `every_fifth(x)` cria uma lista de valores booleanos onde cada quinto elemento é `True` e os outros são `False`.

```python
def every_fifth(x):
    return [True if i % 5 == 0 else False for i in range(x.size)]
```

### Resumo do `return`

- **`i % 5 == 0`**: Verifica se o índice `i` é múltiplo de 5.
- **`True if i % 5 == 0 else False`**: Gera `True` se `i` é múltiplo de 5, caso contrário, `False`.
- **`for i in range(x.size)`**: Itera sobre todos os índices `i` de 0 até `x.size - 1`.

### Resultado

O `return` cria e retorna uma lista de booleans onde:
- O primeiro elemento (índice 0) é `True`.
- O quinto elemento (índice 5) é `True`.
- O décimo elemento (índice 10) é `True`.
- E assim por diante.
- Todos os outros elementos são `False`.

Portanto, a função retorna uma lista onde cada quinto índice (começando do zero) é marcado como `True`.

## 28. Selecting With .get()

O método `.get()` em pandas é uma ferramenta útil e versátil para acessar elementos em Series e DataFrames. Ele possui algumas vantagens importantes em comparação com outros métodos de acesso, especialmente devido ao seu comportamento padrão de retornar `None` quando a chave não é encontrada. Aqui estão alguns pontos-chave que destacam as vantagens do `.get()`:

1. **Segurança no Acesso a Chaves Inexistentes**:
   - Ao usar o `.get()`, se a chave não estiver presente na Series ou no DataFrame, o método retorna `None` (ou um valor padrão especificado), em vez de gerar um erro. Isso é particularmente útil para evitar exceções que poderiam interromper a execução do código.
   ```python
   import pandas as pd

   s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])

   print(s.get('d'))  # Saída: None
   ```

2. **Especificação de um Valor Padrão**:
   - Além de retornar `None` por padrão, o `.get()` permite especificar um valor padrão customizado. Isso pode ser útil para fornecer valores substitutos ou para facilitar o tratamento de dados ausentes.
   ```python
   print(s.get('d', default=0))  # Saída: 0
   ```

3. **Consistência com Dicionários**:
   - A sintaxe e o comportamento do `.get()` são consistentes com o método `get()` de dicionários em Python, tornando o código mais intuitivo e fácil de aprender para quem já está familiarizado com a manipulação de dicionários.
   ```python
   d = {'a': 1, 'b': 2, 'c': 3}
   print(d.get('d'))  # Saída: None
   ```

4. **Evita a Necessidade de Verificações Manuais**:
   - Usar `.get()` elimina a necessidade de verificações manuais de existência da chave antes de acessar os valores, simplificando o código e reduzindo a quantidade de lógica condicional necessária.
   ```python
   if 'd' in s:
       value = s['d']
   else:
       value = None
   # Com .get(), isso se reduz a:
   value = s.get('d')
   ```

### Comparação com Outros Métodos de Acesso

- **Acesso Direto**:
  - Usar a notação de colchetes (e.g., `s['d']`) gera um KeyError se a chave não estiver presente.
  - Usar `loc` e `iloc` também gera KeyError ou IndexError se a chave ou índice não existir.
  ```python
  try:
      print(s['d'])
  except KeyError as e:
      print(e)  # Saída: 'd'
  ```

- **Método `.at` e `.iat`**:
  - Estes métodos são mais eficientes para acesso único, mas também geram erros se a chave ou índice não existir.
  ```python
  try:
      print(s.at['d'])
  except KeyError as e:
      print(e)  # Saída: 'd'
  ```

Em resumo, o método `.get()` do pandas é particularmente vantajoso para acessar elementos de maneira segura e eficiente, especialmente quando há incerteza sobre a presença da chave ou do índice. Ele proporciona um comportamento previsível e flexível, alinhando-se com práticas comuns em Python e contribuindo para um código mais limpo e robusto.

In [307]:
labeled_alphabet.get('label_I')

'i'

In [308]:
labeled_alphabet.loc['label_I']

'i'

In [309]:
labeled_alphabet['label_I']

'i'

In [310]:
labeled_alphabet.get('label_lala')

In [311]:
labeled_alphabet.get('label_lala') == None

True

In [312]:
labeled_alphabet.get('label_lala', default=None)

In [313]:
labeled_alphabet.get('label_lala', default='Não achei nada')

'Não achei nada'

In [314]:
labeled_alphabet.get(8)

  labeled_alphabet.get(8)


'i'

In [315]:
labeled_alphabet.iloc[8]

'i'

In [316]:
labeled_alphabet[8]

  labeled_alphabet[8]


'i'

## 29. Selection Recap

![image.png](attachment:image.png)

![image.png](attachment:image.png)

## 30. Skill Challenge

### 1) Create a series of lenght 100 containing the squares of integers from 0 to 99. Assign it to the variable squares.

### 2) Extract the last three items from the squares series using square bracket indexing.

### 3) Repeat Step 2 but using the .tail() method instead.

### 4) Verify that the output of steps 2 and 3 is the same using the .equals() method.

## 31. Solution

In [317]:
# 1
squares = pd.Series(data=[i**2 for i in range(100)])


In [318]:
squares.head()

0     0
1     1
2     4
3     9
4    16
dtype: int64

In [319]:
# 2 
squares[-3:]

97    9409
98    9604
99    9801
dtype: int64

In [320]:
squares.iloc[-3] 

9409

In [321]:
squares.iloc[-3:] 

97    9409
98    9604
99    9801
dtype: int64

In [322]:
# 3 
squares.tail(n=3)

97    9409
98    9604
99    9801
dtype: int64

In [323]:
# 4
squares[-3:].equals(squares.tail(3))


True

In [324]:
a = squares[-3:]
b = squares.tail(n=3)

In [325]:
a.equals(b)

True

In [326]:
b.equals(a)

True

In [327]:
a == b

97    True
98    True
99    True
dtype: bool