# Criando estruturas de dados

In [1]:
import pandas as pd # noqa E402

## Series

In [2]:
data = [1, 2, 3, 4, 5]

Uma `Series` pode ser criada a partir de uma `list`.

In [3]:
s = pd.Series(data)

In [4]:
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

Podemos criar uma `Series` informando também uma lista como índice

In [5]:
index = [f'Linha {i}' for i in range(5)]
index

['Linha 0', 'Linha 1', 'Linha 2', 'Linha 3', 'Linha 4']

In [6]:
s = pd.Series(data=data, index=index)

In [7]:
s

Linha 0    1
Linha 1    2
Linha 2    3
Linha 3    4
Linha 4    5
dtype: int64

Podemos criar uma `Series` a partir de um dicionário. Nesse caso, as chaves 
serão o índice.

In [8]:
data = {f'Linha {i}': i + 1 for i in range(5)}

In [9]:
data

{'Linha 0': 1, 'Linha 1': 2, 'Linha 2': 3, 'Linha 3': 4, 'Linha 4': 5}

In [10]:
s = pd.Series(data)
s

Linha 0    1
Linha 1    2
Linha 2    3
Linha 3    4
Linha 4    5
dtype: int64

Podemos somar um número a cada elemento da `Series`.

In [11]:
s1 = s + 2

In [12]:
s1

Linha 0    3
Linha 1    4
Linha 2    5
Linha 3    6
Linha 4    7
dtype: int64

Podemos somar duas `Series`.

In [13]:
s2 = s + s1
s2

Linha 0     4
Linha 1     6
Linha 2     8
Linha 3    10
Linha 4    12
dtype: int64

## DataFrame

Podemos criar um `DataFrame` a partir de uma lista de listas. 
Cada lista é uma linha do `DataFrame`. Cada elemento na mesma 
lista é uma coluna. Se o alguma linha tiver menos elementos,
os elementos restantes serão preenchidos com `NaN`.

In [14]:
data = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9],
]

In [15]:
data

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [16]:
df1 = pd.DataFrame(data=data)

In [17]:
df1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


Podemos informar uma lista de strings como índice. Ela deve ter o mesmo tamanho do número de linhas do `DataFrame`.

In [18]:
index = [f"Linha {i}" for i in range(3)]

In [19]:
index

['Linha 0', 'Linha 1', 'Linha 2']

In [20]:
df1.index = index
df1

Unnamed: 0,0,1,2
Linha 0,1,2,3
Linha 1,4,5,6
Linha 2,7,8,9


Podemos também passar uma lista de Strings para nomear cada coluna do `DataFrame`. Aqui, também temos que informar o número exato de colunas.

In [21]:
columns = [f'Coluna {i}' for i in range(3)]

In [22]:
columns

['Coluna 0', 'Coluna 1', 'Coluna 2']

In [23]:
df1.columns = columns
df1

Unnamed: 0,Coluna 0,Coluna 1,Coluna 2
Linha 0,1,2,3
Linha 1,4,5,6
Linha 2,7,8,9


Podemos passar, para o `DataFrame`, um dicionário de dicionário. O dicionário 
contém itens que representam as colunas, com a chave sendo o nome da coluna. 
Cada um desses dicionário, por sua vez, contém as linhas daquela coluna. 

In [24]:
data = {
    'Coluna 0': {'Linha 0': 1, 'Linha 1': 4, 'Linha 2': 7},
    'Coluna 1': {'Linha 0': 2, 'Linha 1': 5, 'Linha 2': 8},
    'Coluna 2': {'Linha 0': 3, 'Linha 1': 6, 'Linha 2': 9},
}

In [25]:
df2 = pd.DataFrame(data)

In [26]:
df2

Unnamed: 0,Coluna 0,Coluna 1,Coluna 2
Linha 0,1,2,3
Linha 1,4,5,6
Linha 2,7,8,9


Podemos criar um DataFrame a partir de uma tupla de tuplas.

In [27]:
data = (
    (1, 2, 3),
    (4, 5, 6),
    (7, 8, 9),
)

In [28]:
data

((1, 2, 3), (4, 5, 6), (7, 8, 9))

In [29]:
df3 = pd.DataFrame(data, index=index, columns=columns)

In [30]:
df3

Unnamed: 0,Coluna 0,Coluna 1,Coluna 2
Linha 0,1,2,3
Linha 1,4,5,6
Linha 2,7,8,9


Alterando dados de um `DataFrame`:

In [31]:
df1[df1 > 0] = 'A'
df1

Unnamed: 0,Coluna 0,Coluna 1,Coluna 2
Linha 0,A,A,A
Linha 1,A,A,A
Linha 2,A,A,A


In [32]:
df2[df2 > 0] = 'B'
df2

Unnamed: 0,Coluna 0,Coluna 1,Coluna 2
Linha 0,B,B,B
Linha 1,B,B,B
Linha 2,B,B,B


In [33]:
df3[df3 > 0] = 'C'
df3

Unnamed: 0,Coluna 0,Coluna 1,Coluna 2
Linha 0,C,C,C
Linha 1,C,C,C
Linha 2,C,C,C


Com o método `pd.concat()`, podemos concatenar varios dataframes, na vertical, um embaixo do outro.

In [34]:
df4 = pd.concat([df1, df2, df3])
df4

Unnamed: 0,Coluna 0,Coluna 1,Coluna 2
Linha 0,A,A,A
Linha 1,A,A,A
Linha 2,A,A,A
Linha 0,B,B,B
Linha 1,B,B,B
Linha 2,B,B,B
Linha 0,C,C,C
Linha 1,C,C,C
Linha 2,C,C,C


Passando o parâmetro `axis=1`, podemos concatenar na horizontal, um ao lado do outro

In [35]:
df5 = pd.concat([df1, df2, df3], axis=1)
df5

Unnamed: 0,Coluna 0,Coluna 1,Coluna 2,Coluna 0.1,Coluna 1.1,Coluna 2.1,Coluna 0.2,Coluna 1.2,Coluna 2.2
Linha 0,A,A,A,B,B,B,C,C,C
Linha 1,A,A,A,B,B,B,C,C,C
Linha 2,A,A,A,B,B,B,C,C,C
