In [28]:
import pandas as pd

## 10. What Is A Series?

Series é uma estrutura de dados fundamental no pandas, similar <span style="color:red">**a uma coluna**</span> em uma planilha. Ela organiza dados unidimensionais e oferece funcionalidades poderosas para manipulação e análise, incluindo seleção, filtragem, e cálculos estatísticos. Uma Series consiste em uma sequência de valores, cada um associado a um índice. É uma maneira eficiente de lidar com dados em Python, especialmente em conjunto com outras estruturas de dados do pandas, como o DataFrame.

In [29]:
students = ['Andrew', 'Brie', 'Kanika']

In [30]:
type(students)

list

In [31]:
pd.Series(students)

0    Andrew
1      Brie
2    Kanika
dtype: object

In [32]:
ages = [27, 49, 37]

In [33]:
pd.Series(ages)

0    27
1    49
2    37
dtype: int64

In [34]:
heights = [167.4, 173.2, 190.0]

In [35]:
pd.Series(heights)

0    167.4
1    173.2
2    190.0
dtype: float64

In [36]:
mixed = [True, 'say', {"my_mood": 100}]

In [37]:
pd.Series(mixed)

0                True
1                 say
2    {'my_mood': 100}
dtype: object

## 11. Parameters vs Arguments

![image.png](attachment:image.png)

In [38]:
pd.Series(data=students)

0    Andrew
1      Brie
2    Kanika
dtype: object

In [39]:
def greeting(something):
    print(something)

In [40]:
greeting('good morning to you')

good morning to you


## 12. What’s In The Data?

In [41]:
books_list = ['Fooled by Randomness', 'Sapiens', 'Lenin on the Train']

In [42]:
pd.Series(books_list)

0    Fooled by Randomness
1                 Sapiens
2      Lenin on the Train
dtype: object

In [43]:
books_dict = {
    0: 'Fooled by Randomness',
    1: 'Sapiens',
    2: 'Lenin on the Train'
}

In [44]:
pd.Series(books_dict)

0    Fooled by Randomness
1                 Sapiens
2      Lenin on the Train
dtype: object

In [45]:
books_list == books_dict

False

In [46]:
pd.Series(books_list) == pd.Series(books_dict)

0    True
1    True
2    True
dtype: bool

In [47]:
type(pd.Series(books_list)) == type(pd.Series(books_dict))

True

In [48]:
type(pd.Series(books_dict))

pandas.core.series.Series

In [49]:
type(pd.Series(books_list))

pandas.core.series.Series

In [51]:
list_series = pd.Series(books_list)

In [52]:
dict_series =  pd.Series(books_dict)

In [53]:
list_series.equals(dict_series)

True

O método `equals()` é comumente usado em pandas, uma biblioteca de análise de dados em Python. Ele é utilizado para verificar se dois objetos pandas são iguais. No seu exemplo, `list_series.equals(dict_series)` verifica se dois objetos pandas, `list_series` e `dict_series`, são iguais.

No entanto, é importante notar que `list_series` e `dict_series` provavelmente são tipos diferentes de objetos. Uma é uma série (Series) e a outra é um dicionário (dict). Normalmente, você não pode comparar diretamente uma série com um dicionário usando `equals()`, pois eles são estruturas de dados diferentes. 

Se você quiser comparar duas séries ou dois dicionários, `equals()` pode ser útil. Por exemplo, se `list_series` e `dict_series` forem ambos objetos do tipo `pandas.Series`, então a comparação faria sentido. Caso contrário, pode não ser a comparação desejada.

In [54]:
pd.Series(714)

0    714
dtype: int64

In [55]:
pd.Series('Diego')

0    Diego
dtype: object

## 13. The .dtype Attribute

In [56]:
ages

[27, 49, 37]

In [57]:
pd.Series(ages)

0    27
1    49
2    37
dtype: int64

In [58]:
pd.Series(ages, dtype='float')

0    27.0
1    49.0
2    37.0
dtype: float64

Em pandas, quando você tem uma coluna que contém strings, essa coluna é frequentemente representada como um tipo de dados "object". Isso ocorre porque o tipo de dados "object" é um tipo genérico que pode conter qualquer tipo de dado Python, incluindo strings.

O motivo pelo qual as strings são representadas como "object" em pandas é para permitir flexibilidade. Como o tipo "object" pode conter qualquer tipo de objeto Python, isso permite que você armazene não apenas strings, mas também outros tipos de dados, como listas, dicionários e até mesmo objetos personalizados.

No entanto, o uso extensivo do tipo "object" para armazenar strings pode ter algumas desvantagens, como um aumento no consumo de memória e uma possível diminuição na eficiência das operações de pandas, especialmente em comparação com tipos de dados mais específicos, como `str` ou `object`. Se você estiver lidando principalmente com strings em uma coluna, é geralmente recomendável converter essa coluna para o tipo `str` para melhorar o desempenho e a eficiência das operações de pandas. Isso pode ser feito usando o método `.astype()` do DataFrame do pandas.

In [59]:
name_series = pd.Series(students)

In [60]:
name_series

0    Andrew
1      Brie
2    Kanika
dtype: object

In [61]:
name_series.dtype

dtype('O')

## 14. BONUS: What Is dtype('o'), Really?

O numpy é uma biblioteca fundamental para computação numérica em Python, e o pandas é construído sobre o numpy. O numpy oferece suporte a uma ampla variedade de tipos de dados através do conceito de `dtype`, que especifica o tipo de dados de um array numpy.

Quando você cria um DataFrame do pandas, as colunas são representadas internamente como arrays numpy, e cada coluna tem um `dtype` associado que especifica o tipo de dados dos elementos naquela coluna. Quando uma coluna contém strings, o pandas usa o `dtype` "object" para representar essa coluna, o que significa que os elementos são tratados como objetos Python genéricos.

A relação entre pandas, numpy, `dtype` e strings é a seguinte:

1. **pandas e numpy**: O pandas utiliza o numpy como sua base para armazenar e manipular dados. Os DataFrames do pandas são construídos sobre arrays numpy, que são mais eficientes em termos de memória e oferecem operações vetorizadas para computação numérica.

2. **dtype**: O `dtype` (tipo de dados) é uma propriedade fundamental em numpy que especifica o tipo de dados dos elementos em um array numpy. Ele pode ser `int`, `float`, `object`, entre outros.

3. **Strings e o dtype "object"**: Quando uma coluna do pandas contém strings, ela é representada internamente como um array numpy com um `dtype` "object", o que significa que cada elemento é tratado como um objeto Python genérico. Isso oferece flexibilidade para armazenar diferentes tipos de dados, mas pode ter algumas desvantagens em termos de desempenho e eficiência.

Em resumo, o `dtype` em numpy especifica como os dados são armazenados e interpretados, e o pandas usa numpy para lidar com a representação e manipulação eficiente de dados, incluindo strings. Quando uma coluna do pandas contém strings, ela é representada como um array numpy com `dtype` "object".

In [62]:
heights

[167.4, 173.2, 190.0]

In [63]:
pd.Series(heights)

0    167.4
1    173.2
2    190.0
dtype: float64

In [64]:
heights2 = [167.4, "173.2", 190.0]

<span style="color:green">The presence of this string forces pandas to store pointers references instead of the actual float numbers themselves:</span>


In [65]:
pd.Series(heights2)

0    167.4
1    173.2
2    190.0
dtype: object

## 15. Index And RangeIndex

In [66]:
books_list

['Fooled by Randomness', 'Sapiens', 'Lenin on the Train']

In [67]:
list_series

0    Fooled by Randomness
1                 Sapiens
2      Lenin on the Train
dtype: object

In [68]:
pd.Series(data=books_list, index=['funny', 'serious and amusing', 'kinda interesting'])

funny                  Fooled by Randomness
serious and amusing                 Sapiens
kinda interesting        Lenin on the Train
dtype: object

In [69]:
pd.Series(books_list, ['funny', 'serious and amusing', 'kinda interesting'])

funny                  Fooled by Randomness
serious and amusing                 Sapiens
kinda interesting        Lenin on the Train
dtype: object

In [70]:
pd.__version__

'2.2.2'

In [71]:
pd.Series(books_list, ['funny', 'serious and amusing', 'kinda interesting'], dtype='string')

funny                  Fooled by Randomness
serious and amusing                 Sapiens
kinda interesting        Lenin on the Train
dtype: string

<span style="color:blue">**positional arguments:**</span>


In [72]:
pd.Series(books_list, ['funny', 'serious and amusing', 'kinda interesting'], 'string')

funny                  Fooled by Randomness
serious and amusing                 Sapiens
kinda interesting        Lenin on the Train
dtype: string

In [73]:
list_series.index

RangeIndex(start=0, stop=3, step=1)

In [74]:
type(list_series.index)

pandas.core.indexes.range.RangeIndex

`pd.RangeIndex` é uma classe do Pandas usada para representar um índice padrão gerado automaticamente para DataFrames quando nenhum índice é especificado explicitamente. Ele cria um índice que é uma sequência de inteiros, similar à função `range()` do Python.

Uma característica importante do `RangeIndex` é sua imutabilidade. Isso significa que, uma vez criado, um `RangeIndex` não pode ser modificado. Isso resulta em economia de memória, já que apenas o início, o fim e o passo da sequência são armazenados, em vez de todos os valores de índice individualmente.

O `RangeIndex` é eficiente em termos de memória e é adequado para muitos casos de uso. No entanto, se você precisar de funcionalidades adicionais ou de um índice com um tipo diferente de dados, como datas ou strings, você pode criar um índice personalizado usando outras classes de índice do Pandas.

In [75]:
pd.RangeIndex(start=4, stop=7, step=1)

RangeIndex(start=4, stop=7, step=1)

In [76]:
list(pd.RangeIndex(start=4, stop=7, step=1))

[4, 5, 6]

In [78]:
list(pd.RangeIndex(start=10, stop=-11, step=-1))

[10, 9, 8, 7, 6, 5, 4, 3, 2, 1, 0, -1, -2, -3, -4, -5, -6, -7, -8, -9, -10]