In [1]:
import pandas as pd
import random as rd

# 🎯 Conceito de Series e DataFrame

##  👾 <font size=5>Series<font>

<br>
Series é uma matriz rotulada unidimensional que pode receber diversos tipos dados como entrada, por exemplo, str, bool, int, float, uma lista, um 1D np.ndarray, alguns objetos python e etc. <br>

**Obs**: Dentro de uma Series pode haver uma salada de dados, no entanto vale ressalatar que o pandas é implementado usando o numpy, então se você colocar uma salada mista de dados dentro uma Series ela acabará perdendo performace e muitas das suas vantangens.<br><br>

<img src='https://pythonru.com/wp-content/uploads/2020/05/struktura-obekta-series.png' style='float:left'>

## 👾  <font size=5>DataFrame<font>

<br>
O DataFrame é uma estrutura de dados tabular, semelhante a planilha de dados do Excel, essa estrutrura conciste em três componentes principais, os dados, linhas e colunas, onde as linhas e colunas possuem rotulos.<br>

Olhando para a estrutura do DataFrame vamos perceber que ele é a junção de duas ou mais Series, ou seja, cada coluna de um _**DataFrame**_ é uma _**Series**_, veja.<br><br>


![S](https://www.datasciencemadesimple.com/wp-content/uploads/2020/05/create-series-in-python-pandas-0.png)

<br><br>

Os dados que compoem cada coluna de um DataFrame podem ser variados, ou seja, uma coluna pode conter vários tipos de dados, como por exemplo, int e object. No entanto como o pandas  é implementado usando o numpy, isso fará o DataFrame perder performance e muitas das suas vantagens.<br>

Alguns dados de entrada para a criação de um DataFrame são: Dict, listas, Series, np.ndarray de 1D ou 2D , outro DataFrame e muito mais ...<br>

Um DataFrame pode ter seu tamanho mudado, através da exclusão ou inserção de linhas ou colunas.


# 🎯 Criando uma Series e um DataFrame

## 👾 <font size=5>Series<font>

<br>
Os parametros para a criação de uma Series estão logo abaixo junto com a explicação de cada um. 

No entanto caso você queira beber da fonte o link está [aqui](https://pandas.pydata.org/docs/reference/api/pandas.Series.html?highlight=pandas%20series#pandas.Series).<br><br>

### <font color=purple>_pandas.Series (_<font>
<br>

**data** =  None<br> 
**index** =  None<br>
**dtype** =  None<br>
**name** =  None<br>
**copy** =  False<br>

### <font color=purple>_)_<font>
<br>


### <font color=purple>data : array-like, Iterable, dict, or scalar value<font>

O parâmetro data recebe um objeto python que será transformado em uma Series. Esse objeto pode ser uma iterable, um dicionário, um int, uma str, etc.

Quando você for passar ao parâmetro **data** alguma iterable, é bom lembrar que o pandas utiliza o numpy por baixo do capor, por isso passar uma iterable com elementos que possuem tipos de dados diferentes fará com que você tenha uma Series pouco performática. Você pode até criar uma Series que contém uma salada mista de dados, mas o ideal é utilizar apenas um tipo de dado.

Agora vamos criar uma Series a partir de uma lista e também apartir de um valor do tipo int.

In [2]:
se1 = pd.Series(data=['A', 'B', 'C', 'D'])
print(f'--se1-- \n{se1}')

print('\n')

se2 = pd.Series(data=2)
print(f'--se2-- \n{se2}')

--se1-- 
0    A
1    B
2    C
3    D
dtype: object


--se2-- 
0    2
dtype: int64


 <br>

Criando uma Series que contém uma salada mista de dados.

In [5]:
se = pd.Series(data=['Audax', 18, 1.81, 'M', True])
se

0    Audax
1       18
2     1.81
3        M
4     True
dtype: object

 <br>

Quando criamos uma Series a partir de um dicionário, as chaves do dicionário se tornarão os indices da Series e os valores da chaves se tornarão os elementos da Series. Mais adiante falaremos melhor sobre como funciona os indices de uma Series.

In [6]:
dicionario = {
    'Nome': 'Audax',
    'Idade': 18,
    'Sexo': 'Masculino'
}

se = pd.Series(data=dicionario)
se

Nome         Audax
Idade           18
Sexo     Masculino
dtype: object

 <br> 


### <font color=purple>index : array-like or Index (1d) <font>

Antes de tudo precisamos entender como os indices de uma Series funciona. 

Uma Series tem 3 tipos de indices: 

**Indice negativo:** São valores negativos usados para representar os índices de uma Series. Para entendermos como isso acontece, o último elemento fica na posição -1, o penúltimo fica na posição -2, o antepenúltimo, na posição -3 e assim por diante. 


**Indice padrão:** Funciona como parecido como os indices de uma lista. O primeiro elemento tem indice 0, o segundo tem indice 1 e assim por diante. O que difere esse indice do indice de uma lista é a maneira como ele é armazenado na memória, mais para frente veremos esse assunto.


**Index label:** Quando você defini os indices da uma Series ou DataFrame você está trabalhando com o index label (no português rótulo de indice). É possivel alterá-los sempre que necessário. 

---

Nesse primeiro momento não iremos ver como selecionar elementos ou fatias de uma Series. Apena iresmo aprender como definir os indices de uma Series.

---

O parâmetro **index** serve para definir o indice de uma Series. Você passa uma lista com o mesmo tamanho que o objeto passado ao parâmetro **data**, composta por qualquer tipo de dado, desde que esses dados sejam [hashable](https://stackoverflow.com/questions/14535730/what-does-hashable-mean-in-python). Quando não definimos o index label, a Series adota por padrão o RangeIndex (0, 1, 2, …, n).

In [3]:
# Criando uma Series com o RangeIndex

se = pd.Series(data=['Audax', 'Netuno', 'Ciclope'])
se

0      Audax
1     Netuno
2    Ciclope
dtype: object

In [8]:
# Criando uma Series e definindo o index label
se = pd.Series(data=['Audax', 'Netuno', 'Ciclope'],
               index=['nome1', 'nome2', 'nome3'])
se

nome1      Audax
nome2     Netuno
nome3    Ciclope
dtype: object

In [9]:
# Definindo um index label muito louco
se = pd.Series(data=['Audax', 'Netuno', 'Ciclope', 'Spike'],
               index=['nome1', 2.5, 2, True])
se

nome1      Audax
2.5       Netuno
2        Ciclope
True       Spike
dtype: object

 <br>

É importante lembrar que é possivel usar o indice negativo e o indice padrão para selecionar elementos mesmo após o index label ser definido, menos quando o index label for definido por valores do tipo int ou float. Nesse caso o index label meio que sobrescrevece os outros tipos de indices.

In [4]:
# Definindo um index label com valores numericos, mas que não remete ao RangeIndex(0, 1, 2, ..., n)
se = pd.Series(data=['Audax', 'Netuno', 'Ciclope',
               'Spike'], index=[-2, 13.3, 10, 0])
se

-2.0       Audax
 13.3     Netuno
 10.0    Ciclope
 0.0       Spike
dtype: object

 <br>

Parece meio estranho, mas podemos ter valores de índices iguais, quando buscamos pelo indice, ele tráz todos os elementos 'apontados' por aquele indice (todas as linhas que tem referência daquele índice).

In [11]:
# Definindo um index label com valores de indices repetidos
se = pd.Series(data=['Audax', 'Netuno', 'Ciclope',
               'Spike'], index=['A', 'A', 'B', 'C'])
print(se, '\n')

# Selecionando os valores que correspondem ao indice 'A'
se['A']

A      Audax
A     Netuno
B    Ciclope
C      Spike
dtype: object 



A     Audax
A    Netuno
dtype: object

 <br>


### <font color=purple>dtype : str, numpy.dtype, or ExtensionDtype, optional <font>

Esse parâmetro serve para definirmos o tipo de dado dos elementos de uma Series. Se não definirmos o tipo, o pandas infere a partir dos dados. É bem importante que uma Series tenha elementos com o mesmo tipo de dado, pois assim você terá mais eficiencia e muitas vantangens para manipulá-la.

In [12]:
# Usando uma string para definir o dtype de uma Series
# Poderia ser 'str32', 'str16', 'int8', 'int32', 'bool', etc.
se = pd.Series(data=[18, 25, 19, 31], dtype='float')
print(se.dtype)

float64


In [13]:
# Usando o numpy.dtype para definir o dtype de uma Series
se = pd.Series(data=[18, 25, 19, 31], dtype=np.float64)
print(se.dtype)

float64


 <br>

Quando uma Series tem uma salada mista de dados ou os dados são do tipo str, o dtype dela é defido pelo pandas como object.

In [14]:
se1 = pd.Series(data=['Audax', 18, 'M', 1.81])
se2 = pd.Series(data=['A', 'B', 'C', 'D'])

print(se1.dtype)
print(se2.dtype)

object
object


 <br>

Cuidado na hora conversão, para não tentar fazer conversões que não sejam possiveis.

In [15]:
se1 = pd.Series(data=[18.1, 25.3, 19.7, 31.8], dtype='int64')

ValueError: Trying to coerce float values to integers

 <br>


### <font color=purple>name : str, optional <font>

Serve para nomear uma Series, deve ser passado uma string. Se uma Serie for transformada numa coluna de um dataframe, o nome dela será usado como o rótulo da coluna do dataframe.

In [None]:
se = pd.Series(data=[13, 18, 17, 20, 23], name='Idade')
se

 <br>


### <font color=purple>copy : bool, default False <font>

Faz uma cópia do objeto de entrada. Afeta apenas a entrada Série ou 1d ndarray.

In [5]:
import numpy as np

# Criando um nd array para usar no exemplo
x = np.array([12, 13, 15, 11, 10])
print(x)

# Criando 2 Series, uma é uma copia e a outra apenas um tipo de apontamento para x
se1 = pd.Series(data=x, copy=True)
se2 = pd.Series(data=x, copy=False)

# Modificando o a variável x
x[0] = 99

# Mostrando as 2 Series e a variável x
print(x, '\n')
print(f'**se1** \n{se1}\n')
print(f'**se2** \n{se2}\n')

[12 13 15 11 10]
[99 13 15 11 10] 

**se1** 
0    12
1    13
2    15
3    11
4    10
dtype: int64

**se2** 
0    99
1    13
2    15
3    11
4    10
dtype: int64



<br>

## 👾 <font size=5>DataFrame<font>

<br>
Os parametros de criação de um DataFrame estão abaixo junto com a explicação de cada um. 

No entanto caso você queira beber da fonte o link está [aqui](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html?highlight=pandas%20dataframe#pandas.DataFrame).<br><br>

### <font color=purple>_pandas.DataFrame (_<font>

**data**    =  None<br> 
**index**   =  None<br>
**columns** =  None<br>
**dtype**   =  None<br>
**copy**    =  None<br>

### <font color=purple>_)_<font>
<br>


### <font color=purple>data : ndarray (structured or homogeneous), Iterable, dict, or DataFrame<font>


O parametro _**data**_ é responsavel por receber o objeto que será transformado em um DataFrame, esse objeto pode ser do tipo dict, listas, Series, np.ndarray de 1D ou 2D e outro DataFrame.<br>

Por padrão esse parametro é None, o que signica que não há a necessidade de atribuir algum valor para esse parametro na hora da criação do DataFrame.


Quando não atribuimos nenhum valor ao parametro **data** estamos criando um DF vazio.

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame()
df

 <br>

Podemos montar um DataFrame com os estados da região norte do Brasil com uma **lista**, ao fazer isso a lista se trasmormará em uma coluna do DF (as linhas e colunas terão rotulos numéricos).

In [None]:
estados = ['Acre',
           'Amapá',
           'Amazonas',
           'Pará',
           'Rondônia',
           'Roraima',
           'Tocantins']

df = pd.DataFrame(data=estados)
df

 <br>

Também podemos utilizar uma **lista de listas** para montar um DataFrame com várias colunas.

In [None]:
capitais = [['Acre', 'AC', '803,5 mil', 'Rio Branco'],
            ['Amapá', 'AP', '776,6 mil', 'Macapá'],
            ['Amazonas', 'AM', '3,9 milhões', 'Manaus'],
            ['Pará', 'PA', '8,1 milhões', 'Belém'],
            ['Rondônia', 'RO', '1,7 milhão', 'Porto Velho'],
            ['Roraima', 'RR', '505,6 mil', 'Boa Vista'],
            ['Tocantins', 'TO', '1,5 milhão', 'Palmas']]


df = pd.DataFrame(data=capitais)
df

 <br>

Outra forma de criar um DataFrame é apartir de um **dicionário**. Quando criamos um DF a partir de um dicionário, cada item do dicionário será uma coluna do df, a chave será o rotulo da coluna e o valor da chave serão os valores da coluna.

In [None]:
estados = {'Estado': ['Acre',
                      'Amapá',
                      'Amazonas',
                      'Pará',
                      'Rondônia',
                      'Roraima',
                      'Tocantins'],
           'Sigla': ['AC',
                     'AP',
                     'AM',
                     'PA',
                     'RO',
                     'RR',
                     'TO'],
           'População': ['803,5 mil',
                         '776,6 mil',
                         '3,9 milhões',
                         '8,1 milhões',
                         '1,7 milhão',
                         '505,6 mil',
                         '1,5 milhão'],
           'Capital': ['Rio Branco',
                       'Macapá',
                       'Manaus',
                       'Belém',
                       'Porto Velho',
                       'Boa Vista',
                       'Palmas']}


df = pd.DataFrame(data=estados)
df

 <br>

**Resumo**<br>
Resumindo, o parametro data serve para indicar o que queremos que o pandas transforme em um DataFrame.

 <br>


### <font color=purple>index : Index or array-like<font>

O parametro index é opcional, por padrão o índice do dataframe começa em 0 e termina no último valor. Ele define os índices das linha.

Quando criamos um DataFrame a partir de outros objetos ou de inportação de dados, o pandas define o indice das linhas por padrão como numérico, mas é possivel modificar esses índices e passar como valor para o parametro **index** algum array.

In [None]:
import pandas as pd

In [None]:
nomes = ['Alba', 'Ana', 'Amélia',
         'Breno', 'Bruno', 'Bernardo',
         'Carla', 'Cesar', 'Cris']

rotulo = [10, 11, 12, 13, 14, 15, 16, 17, 18]
# rotulo2 = [p[0] for p in nomes]

df = pd.DataFrame(data=nomes, index=rotulo)
df

 <br>


### <font color=purple>Columns : Index or array-like<font>

Este parâmetro se comporta de duas maneiras diferentes. Vamos ver ná prática.

Quando criamos um dataframe a partir de uma lista de listas, os indices das linhas e os rotulos das colunas serão numéricos. Quando o rótulo das colunas forem numéricos, podemos usar o parâmetro columns para nomear as colunas.

In [None]:
lista = [['huan', 18, 'm'],
         ['luigi', 19, 'm'],
         ['lucas', 18, 'm'],
         ['manoel', 17, 'm'],
         ['simão', 19, 'm']]

# colunas sem nome
df = pd.DataFrame(data=lista)
display(df)


# nomeando as colunas
df = pd.DataFrame(data=lista, columns=['nome', 'idade', 'sexo'])
display(df)

 <br>

Já quando criamos um dataframe a partir de um dicionário ou uma lista de Series, o parâmetro columns serve para definir quais itens do dicionário ou, quais Series da lista devem ser transformado no dataframe.

In [None]:
dic = {
    'nome': ['huan', 'luigi', 'lucas', 'manoel', 'simão'],
    'idade': [18, 19, 18, 17, 19],
    'sexo': ['m', 'm', 'm', 'm', 'm']

}

# dataframe completo
df = pd.DataFrame(data=dic)
display(df)


# apenas nome e sexo
df = pd.DataFrame(data=dic, columns=['nome', 'sexo'])
display(df)

 <br>


### <font color=purple>dtype : dtype, default None<font>

Esse parametro serve para forçar todos os valores a terem o mesmo tipo. Apenas um único dtype é permitido.<br>
Caso o DF tenha algum valor com tipo de dado igual a str não será possivel fazer a conversão.

In [None]:
idades = [12, 13, 14, 10, 11, 17, 10, 69]

# Alguns tipos de dados numéricos
flutuante = [np.float16, np.float32, np.float64]
inteiro = [np.int16, np.int32, np.int64]

df = pd.DataFrame(data=idades, dtype=inteiro[0])

df.dtypes

 <br>

Obs: caso exista um valor que é um numero, mas tem tipo str, é possivel fazer a conversão de todos os valores para float.

In [None]:
idades = ['12', 13, 14, 10, '11', '17', 10, '69']

flutuante = [np.float16, np.float32, np.float64]

df = pd.DataFrame(data=idades, dtype=flutuante[0])

df.dtypes

 <br>


### <font color=purple>copy : bool, default None<font>

O parametro **copy** serve para situações que você queira criar um dataframe novo a partir de uma Series ou um Dataframe antigo sem que alterações futuras nesses objetos possam alterar o DataFrame também.<br>

Esse parametro recebe valores booleanos, ou seja, **False** ou **True**. Por padrão ele é **False**.<br>

Caso o valor seja **True**, qualquer alteração no objeto de criação não acarretará em uma mudança no DataFrame.<br>

E se for **False**, qualquer alteração no objeto de criação acarretará em uma mudança no DataFrame.

In [None]:
dic = {
    'nome': ['huan', 'luigi', 'lucas', 'manoel', 'simão'],
    'idade': [18, 19, 18, 17, 19],
    'sexo': ['m', 'm', 'm', 'm', 'm']
}

df = pd.DataFrame(data=dic)

# Agora é possivel fazer alterações no df1 sem alterar o df, vice e versa.
df1 = pd.DataFrame(df, copy=True)
df2 = pd.DataFrame(df, copy=False)

df.loc[0, ['nome']] = 'modificado'

display(df1)
display(df2)

 <br>

# 🎯 Operações aritiméticas com Series

O pandas nos possibilita fazer operações matemáticas básicas com Series. Podemos utilizar duas **Series** para fazer operações de soma, subtração, multiplicação, divisão e etc. Ou podemos fazer essas mesmas operações entre uma **Series** e um valor do tipo **int** ou **float**.

Vamos utilizar duas Series para fazer operações de soma e multiplicação.

In [39]:
# Criando as Series
a = pd.Series([0, 1, 2, 3, 4, 5])
b = pd.Series([0, 1, 2, 3, 4, 5])

In [40]:
# Somando
a+b

0     0
1     2
2     4
3     6
4     8
5    10
dtype: int64

In [45]:
# Multiplicando
a*b

0      0.0
1     20.0
2     60.0
3    120.0
4    200.0
5      NaN
dtype: float64

Agora vamos fazer outras operações aritiméticas, só que envolverendo uma Series e um valor do tipo int ou float.

In [60]:
# Criando a Series
a = pd.Series([10, 20, 30, 40, 50])

In [69]:
# Dividindo
a/2

0     5.0
1    10.0
2    15.0
3    20.0
4    25.0
dtype: float64

In [79]:
# Subtraindo 
a-2.5

0     7.5
1    17.5
2    27.5
3    37.5
4    47.5
dtype: float64

<br>

Quando fazemos uma operação aritmética entre duas Series, não necessariamente elas precisam ter a mesma quantidade de elementos. Isso ocorre porque os elementos das Series estão interligados pelos indices, ou seja, quando fazemos uma soma entre Series por exemplo, o elemento que está na posição 0 da 1° Series será somado com o elemento da 2° Series que se encontra na mesma posição.

Vamos somar duas Series que possuem o tamanho e os indices em ordens diferentes.

In [114]:
# Criando as Series
b = pd.Series([1, 2], index=[3, 4])
a = pd.Series([10, 20, 30, 40, 50])

Perceba que cada elemento da 1° Series foi somado com outro elemento da 2° Series que possui o mesmo indice. Outro ponto importante de se notar é que alguns valores nulos foram retornados. Isso aconteceu porque a 1° Series não tem valores para serem somados com os valores da 2° Series.

In [115]:
# Somando as Series
a+b

0     NaN
1     NaN
2     NaN
3    41.0
4    52.0
dtype: float64

 <br>

Outra forma de valores nulos serem retornados é quando as duas Series possuem o mesmo tamanho, mas alguns elementos da **Series X** não encontram outro elemento na **Series Y** que possua o mesmo indice. Operações entre Series que possuem essas caracteristicas terão como retorno uma outra Series composta por valores reais, resultados das operações bem sucedidas, e também valores nulos, resultados das operações mal sucedidas.

Vamos somas duas Series que possuem alguns elementos com indices totalmente diferente.

In [131]:
# Criando as Series
a = pd.Series([10, 20, 30, 40, 50], index=[0, 1, 2, 3, 4])
b = pd.Series([1, 2, 3, 4, 5], index=[0, 1, 2, 88, 99])

In [133]:
# Somando as Series
b*a

# Perceba que alguns elementos das Series não possuem os mesmos indices
# As mesmas posições que foram retornadas com valores nulos

0     10.0
1     40.0
2     90.0
3      NaN
4      NaN
88     NaN
99     NaN
dtype: float64