In [1]:
import pandas as pd

## 10. What Is A Series?

Series é uma estrutura de dados fundamental no pandas, similar <span style="color:red">**a uma coluna**</span> em uma planilha. Ela organiza dados unidimensionais e oferece funcionalidades poderosas para manipulação e análise, incluindo seleção, filtragem, e cálculos estatísticos. Uma Series consiste em uma sequência de valores, cada um associado a um índice. É uma maneira eficiente de lidar com dados em Python, especialmente em conjunto com outras estruturas de dados do pandas, como o DataFrame.

In [2]:
students = ['Andrew', 'Brie', 'Kanika']

In [3]:
type(students)

list

In [4]:
pd.Series(students)

0    Andrew
1      Brie
2    Kanika
dtype: object

In [5]:
ages = [27, 49, 37]

In [6]:
pd.Series(ages)

0    27
1    49
2    37
dtype: int64

In [7]:
heights = [167.4, 173.2, 190.0]

In [8]:
pd.Series(heights)

0    167.4
1    173.2
2    190.0
dtype: float64

In [9]:
mixed = [True, 'say', {"my_mood": 100}]

In [10]:
pd.Series(mixed)

0                True
1                 say
2    {'my_mood': 100}
dtype: object

## 11. Parameters vs Arguments

![image.png](attachment:image.png)

In [11]:
pd.Series(data=students)

0    Andrew
1      Brie
2    Kanika
dtype: object

In [12]:
def greeting(something):
    print(something)

In [13]:
greeting('good morning to you')

good morning to you


## 12. What’s In The Data?

In [14]:
books_list = ['Fooled by Randomness', 'Sapiens', 'Lenin on the Train']

In [15]:
pd.Series(books_list)

0    Fooled by Randomness
1                 Sapiens
2      Lenin on the Train
dtype: object

In [16]:
books_dict = {
    0: 'Fooled by Randomness',
    1: 'Sapiens',
    2: 'Lenin on the Train'
}

In [17]:
pd.Series(books_dict)

0    Fooled by Randomness
1                 Sapiens
2      Lenin on the Train
dtype: object

In [18]:
books_list == books_dict

False

In [19]:
pd.Series(books_list) == pd.Series(books_dict)

0    True
1    True
2    True
dtype: bool

In [20]:
type(pd.Series(books_list)) == type(pd.Series(books_dict))

True

In [21]:
type(pd.Series(books_dict))

pandas.core.series.Series

In [22]:
type(pd.Series(books_list))

pandas.core.series.Series

In [23]:
list_series = pd.Series(books_list)

In [24]:
dict_series =  pd.Series(books_dict)

In [25]:
list_series.equals(dict_series)

True

O método `equals()` é comumente usado em pandas, uma biblioteca de análise de dados em Python. Ele é utilizado para verificar se dois objetos pandas são iguais. No seu exemplo, `list_series.equals(dict_series)` verifica se dois objetos pandas, `list_series` e `dict_series`, são iguais.

No entanto, é importante notar que `list_series` e `dict_series` provavelmente são tipos diferentes de objetos. Uma é uma série (Series) e a outra é um dicionário (dict). Normalmente, você não pode comparar diretamente uma série com um dicionário usando `equals()`, pois eles são estruturas de dados diferentes. 

Se você quiser comparar duas séries ou dois dicionários, `equals()` pode ser útil. Por exemplo, se `list_series` e `dict_series` forem ambos objetos do tipo `pandas.Series`, então a comparação faria sentido. Caso contrário, pode não ser a comparação desejada.

In [26]:
pd.Series(714)

0    714
dtype: int64

In [27]:
pd.Series('Diego')

0    Diego
dtype: object

## 13. The .dtype Attribute

In [28]:
ages

[27, 49, 37]

In [29]:
pd.Series(ages)

0    27
1    49
2    37
dtype: int64

In [30]:
pd.Series(ages, dtype='float')

0    27.0
1    49.0
2    37.0
dtype: float64

Em pandas, quando você tem uma coluna que contém strings, essa coluna é frequentemente representada como um tipo de dados "object". Isso ocorre porque o tipo de dados "object" é um tipo genérico que pode conter qualquer tipo de dado Python, incluindo strings.

O motivo pelo qual as strings são representadas como "object" em pandas é para permitir flexibilidade. Como o tipo "object" pode conter qualquer tipo de objeto Python, isso permite que você armazene não apenas strings, mas também outros tipos de dados, como listas, dicionários e até mesmo objetos personalizados.

No entanto, o uso extensivo do tipo "object" para armazenar strings pode ter algumas desvantagens, como um aumento no consumo de memória e uma possível diminuição na eficiência das operações de pandas, especialmente em comparação com tipos de dados mais específicos, como `str` ou `object`. Se você estiver lidando principalmente com strings em uma coluna, é geralmente recomendável converter essa coluna para o tipo `str` para melhorar o desempenho e a eficiência das operações de pandas. Isso pode ser feito usando o método `.astype()` do DataFrame do pandas.

In [31]:
name_series = pd.Series(students)

In [32]:
name_series

0    Andrew
1      Brie
2    Kanika
dtype: object

In [33]:
name_series.dtype

dtype('O')

## 14. BONUS: What Is dtype('o'), Really?

O numpy é uma biblioteca fundamental para computação numérica em Python, e o pandas é construído sobre o numpy. O numpy oferece suporte a uma ampla variedade de tipos de dados através do conceito de `dtype`, que especifica o tipo de dados de um array numpy.

Quando você cria um DataFrame do pandas, as colunas são representadas internamente como arrays numpy, e cada coluna tem um `dtype` associado que especifica o tipo de dados dos elementos naquela coluna. Quando uma coluna contém strings, o pandas usa o `dtype` "object" para representar essa coluna, o que significa que os elementos são tratados como objetos Python genéricos.

A relação entre pandas, numpy, `dtype` e strings é a seguinte:

1. **pandas e numpy**: O pandas utiliza o numpy como sua base para armazenar e manipular dados. Os DataFrames do pandas são construídos sobre arrays numpy, que são mais eficientes em termos de memória e oferecem operações vetorizadas para computação numérica.

2. **dtype**: O `dtype` (tipo de dados) é uma propriedade fundamental em numpy que especifica o tipo de dados dos elementos em um array numpy. Ele pode ser `int`, `float`, `object`, entre outros.

3. **Strings e o dtype "object"**: Quando uma coluna do pandas contém strings, ela é representada internamente como um array numpy com um `dtype` "object", o que significa que cada elemento é tratado como um objeto Python genérico. Isso oferece flexibilidade para armazenar diferentes tipos de dados, mas pode ter algumas desvantagens em termos de desempenho e eficiência.

Em resumo, o `dtype` em numpy especifica como os dados são armazenados e interpretados, e o pandas usa numpy para lidar com a representação e manipulação eficiente de dados, incluindo strings. Quando uma coluna do pandas contém strings, ela é representada como um array numpy com `dtype` "object".

In [34]:
heights

[167.4, 173.2, 190.0]

In [35]:
pd.Series(heights)

0    167.4
1    173.2
2    190.0
dtype: float64

In [36]:
heights2 = [167.4, "173.2", 190.0]

<span style="color:green">The presence of this string forces pandas to store pointers references instead of the actual float numbers themselves:</span>


In [37]:
pd.Series(heights2)

0    167.4
1    173.2
2    190.0
dtype: object

## 15. Index And RangeIndex

In [38]:
books_list

['Fooled by Randomness', 'Sapiens', 'Lenin on the Train']

In [39]:
list_series

0    Fooled by Randomness
1                 Sapiens
2      Lenin on the Train
dtype: object

In [40]:
pd.Series(data=books_list, index=['funny', 'serious and amusing', 'kinda interesting'])

funny                  Fooled by Randomness
serious and amusing                 Sapiens
kinda interesting        Lenin on the Train
dtype: object

In [41]:
pd.Series(books_list, ['funny', 'serious and amusing', 'kinda interesting'])

funny                  Fooled by Randomness
serious and amusing                 Sapiens
kinda interesting        Lenin on the Train
dtype: object

In [42]:
pd.__version__

'2.2.2'

In [43]:
pd.Series(books_list, ['funny', 'serious and amusing', 'kinda interesting'], dtype='string')

funny                  Fooled by Randomness
serious and amusing                 Sapiens
kinda interesting        Lenin on the Train
dtype: string

<span style="color:blue">**positional arguments:**</span>


In [44]:
pd.Series(books_list, ['funny', 'serious and amusing', 'kinda interesting'], 'string')

funny                  Fooled by Randomness
serious and amusing                 Sapiens
kinda interesting        Lenin on the Train
dtype: string

In [45]:
list_series.index

RangeIndex(start=0, stop=3, step=1)

In [46]:
type(list_series.index)

pandas.core.indexes.range.RangeIndex

`pd.RangeIndex` é uma classe do Pandas usada para representar um índice padrão gerado automaticamente para DataFrames quando nenhum índice é especificado explicitamente. Ele cria um índice que é uma sequência de inteiros, similar à função `range()` do Python.

Uma característica importante do `RangeIndex` é sua imutabilidade. Isso significa que, uma vez criado, um `RangeIndex` não pode ser modificado. Isso resulta em economia de memória, já que apenas o início, o fim e o passo da sequência são armazenados, em vez de todos os valores de índice individualmente.

O `RangeIndex` é eficiente em termos de memória e é adequado para muitos casos de uso. No entanto, se você precisar de funcionalidades adicionais ou de um índice com um tipo diferente de dados, como datas ou strings, você pode criar um índice personalizado usando outras classes de índice do Pandas.

In [47]:
pd.RangeIndex(start=4, stop=7, step=1)

RangeIndex(start=4, stop=7, step=1)

In [48]:
list(pd.RangeIndex(start=4, stop=7, step=1))

[4, 5, 6]

In [49]:
list(pd.RangeIndex(start=10, stop=-11, step=-1))

[10, 9, 8, 7, 6, 5, 4, 3, 2, 1, 0, -1, -2, -3, -4, -5, -6, -7, -8, -9, -10]

## 16. Series And Index Names

In [50]:
books_series = list_series

In [51]:
books_series

0    Fooled by Randomness
1                 Sapiens
2      Lenin on the Train
dtype: object

In [52]:
books_series.size

3

![image.png](attachment:image.png)

In [53]:
list_series.equals(dict_series)

True

In [54]:
list_series.dtype

dtype('O')

In [55]:
books_series.name

In [56]:
books_series.name == None

True

In [57]:
type(list_series.dtype)

numpy.dtypes.ObjectDType

In [58]:
books_series.name = "my favorite books"

In [59]:
books_series

0    Fooled by Randomness
1                 Sapiens
2      Lenin on the Train
Name: my favorite books, dtype: object

In [60]:
books_series.index.name == None

True

In [61]:
books_series.index.name = "My books"

In [62]:
books_series

My books
0    Fooled by Randomness
1                 Sapiens
2      Lenin on the Train
Name: my favorite books, dtype: object

### 17. Skill Challenge

In [63]:
actor_names = ["Jennifer Lawrence", "Tom Hanks", "Scarlett Johansson", "Leonardo DiCaprio"]

In [64]:
actor_ages = [31, 65, 37, 47]


In [65]:
opa = pd.Series(actor_names, actor_ages)

In [66]:
opa

31     Jennifer Lawrence
65             Tom Hanks
37    Scarlett Johansson
47     Leonardo DiCaprio
dtype: object

In [67]:
opa.name = "actors"

In [68]:
opa

31     Jennifer Lawrence
65             Tom Hanks
37    Scarlett Johansson
47     Leonardo DiCaprio
Name: actors, dtype: object

### 18. Solution

In [69]:
actor_pandas_series = pd.Series(data=actor_ages, index=actor_names, name='actors')

In [70]:
actor_pandas_series

Jennifer Lawrence     31
Tom Hanks             65
Scarlett Johansson    37
Leonardo DiCaprio     47
Name: actors, dtype: int64

In [71]:
zip(actor_names, actor_ages)

<zip at 0x7f893c15f0c0>


O zip() é uma função embutida do Python que combina elementos de duas ou mais listas em tuplas. Ele cria um iterador que agrupa elementos correspondentes de cada lista juntos.

No contexto dos atores e suas idades, podemos usar o zip() para combinar os nomes dos atores e suas idades em pares correspondentes. Isso nos permite iterar sobre esses pares e realizar operações em cada par de nome de ator e idade de forma conjunta.

In [72]:
list(zip(actor_names, actor_ages))

[('Jennifer Lawrence', 31),
 ('Tom Hanks', 65),
 ('Scarlett Johansson', 37),
 ('Leonardo DiCaprio', 47)]

In [73]:
dict(zip(actor_names, actor_ages))

{'Jennifer Lawrence': 31,
 'Tom Hanks': 65,
 'Scarlett Johansson': 37,
 'Leonardo DiCaprio': 47}

In [74]:
pd.Series(dict(zip(actor_names, actor_ages)))

Jennifer Lawrence     31
Tom Hanks             65
Scarlett Johansson    37
Leonardo DiCaprio     47
dtype: int64

### 19. Another Solution

In [75]:
{name:age for name,age in zip(actor_names, actor_ages)}

{'Jennifer Lawrence': 31,
 'Tom Hanks': 65,
 'Scarlett Johansson': 37,
 'Leonardo DiCaprio': 47}

In [76]:
pd.Series({name:age for name,age in zip(actor_names, actor_ages)})

Jennifer Lawrence     31
Tom Hanks             65
Scarlett Johansson    37
Leonardo DiCaprio     47
dtype: int64

Este código acima cria uma Series do pandas usando um dicionário de compreensão, onde as chaves são os nomes dos atores e os valores são suas idades. O zip() é usado para combinar os nomes dos atores e suas idades em pares correspondentes. Em seguida, o dicionário de compreensão é utilizado para criar o dicionário, onde cada par de nome e idade é inserido no dicionário. Finalmente, este dicionário é passado como argumento para a função pd.Series(), criando assim uma Series do pandas onde os índices são os nomes dos atores e os valores são suas idades.

## 20. The head() And tail() Methods

In [77]:
int_series = pd.Series([i for i in range(60)])

In [78]:
int_series

0      0
1      1
2      2
3      3
4      4
5      5
6      6
7      7
8      8
9      9
10    10
11    11
12    12
13    13
14    14
15    15
16    16
17    17
18    18
19    19
20    20
21    21
22    22
23    23
24    24
25    25
26    26
27    27
28    28
29    29
30    30
31    31
32    32
33    33
34    34
35    35
36    36
37    37
38    38
39    39
40    40
41    41
42    42
43    43
44    44
45    45
46    46
47    47
48    48
49    49
50    50
51    51
52    52
53    53
54    54
55    55
56    56
57    57
58    58
59    59
dtype: int64

In [79]:
pd.Series(range(60))

0      0
1      1
2      2
3      3
4      4
5      5
6      6
7      7
8      8
9      9
10    10
11    11
12    12
13    13
14    14
15    15
16    16
17    17
18    18
19    19
20    20
21    21
22    22
23    23
24    24
25    25
26    26
27    27
28    28
29    29
30    30
31    31
32    32
33    33
34    34
35    35
36    36
37    37
38    38
39    39
40    40
41    41
42    42
43    43
44    44
45    45
46    46
47    47
48    48
49    49
50    50
51    51
52    52
53    53
54    54
55    55
56    56
57    57
58    58
59    59
dtype: int64

In [80]:
int_series.size

60

In [81]:
len(int_series)

60

In [82]:
int_series.head()

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [83]:
int_series.tail()

55    55
56    56
57    57
58    58
59    59
dtype: int64

In [84]:
int_series.head(3)

0    0
1    1
2    2
dtype: int64

In [86]:
int_series.head(n=3)

0    0
1    1
2    2
dtype: int64

In [87]:
int_series.tail(n=7)

53    53
54    54
55    55
56    56
57    57
58    58
59    59
dtype: int64

In [88]:
# force pandas to display more lines 
# pd.options.display.min_rows = 40

## 21. Extracting By Index Position

In [89]:
from string import ascii_lowercase

In [90]:
ascii_lowercase

'abcdefghijklmnopqrstuvwxyz'

In [91]:
pd.Series('Diego')

0    Diego
dtype: object

In [92]:
pd.Series(ascii_lowercase)

0    abcdefghijklmnopqrstuvwxyz
dtype: object

In [93]:
list(ascii_lowercase)

['a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z']

In [94]:
len(list(ascii_lowercase))

26

In [95]:
letters = list(ascii_lowercase)

In [96]:
alphabet = pd.Series(letters)

In [97]:
alphabet

0     a
1     b
2     c
3     d
4     e
5     f
6     g
7     h
8     i
9     j
10    k
11    l
12    m
13    n
14    o
15    p
16    q
17    r
18    s
19    t
20    u
21    v
22    w
23    x
24    y
25    z
dtype: object

In [99]:
alphabet.head(1)

0    a
dtype: object

In [98]:
alphabet[1]

'b'

In [100]:
# 1. what is the first letter ?
alphabet[0]

'a'

In [101]:
# 2. what is the 11th letter ?
alphabet[10]

'k'

In [102]:
# 3. what are the first three letters ?
alphabet[0:3]

0    a
1    b
2    c
dtype: object

In [105]:
alphabet[:3]

0    a
1    b
2    c
dtype: object

In [106]:
# 4. what are the sixth through tenth letters?
alphabet[5:10]

5    f
6    g
7    h
8    i
9    j
dtype: object

In [108]:
# 5. what are the last six letters ?
alphabet[-6:]

20    u
21    v
22    w
23    x
24    y
25    z
dtype: object