## Pandas -- Series e Dataframes

Series e Dataframes são estruturas que facilitam a manipulação de dados em Python e, por esse motivo, são largamente utilizadas na Análise de Dados.

Pandas Series corresponde a um array unidimensional que permite indexação por meio de labels. Vamos criar uma lista que corresponde a gastos realizados em dias da semana, em seguida, vamos indexar os gastos pelos respectivos dias criando uma Series.

In [1]:
import numpy as np
import pandas as pd

In [3]:
dias = ['segunda',  'terça', 'quarta', 'quinta', 'sexta']
gastos = [44,47,35,52,60]
pd.Series(gastos)

Unnamed: 0,0
0,44
1,47
2,35
3,52
4,60


In [4]:
gastos_dias = pd.Series(gastos, dias)
gastos_dias

Unnamed: 0,0
segunda,44
terça,47
quarta,35
quinta,52
sexta,60


Agora podemos acessar os gastos usando como índices os dias.

In [5]:
gastos_dias['terça']

np.int64(47)

### Dataframe
Um Pandas dataframe corresponde a um vetor bidimensional (matriz), no qual é possível indexar linhas e colunas por meio de labels, e utilizar esses labels para facilitar o acesso aos dados.

Vamos criar nosso primeiro dataframe a partir de uma matriz e, em seguida, reindexar as linhas e colunas do nosso dataframe.

In [6]:
mat = np.arange(1,10).reshape(3,3)
mat

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [7]:
pd.DataFrame(mat)

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


Agora vamos criar um dataframe e reindexar suas linhas e colunas.

In [9]:
linhas = ['linha1', 'linha2', 'linha3']
colunas = ['coluna1', 'coluna2', 'coluna3']
df = pd.DataFrame(mat, index = linhas, columns = colunas)
df

Unnamed: 0,coluna1,coluna2,coluna3
linha1,1,2,3
linha2,4,5,6
linha3,7,8,9


Obtenha as linhas nas quais o valor de col3 é maior que 5.

In [10]:
df[df['coluna3'] > 5]

Unnamed: 0,coluna1,coluna2,coluna3
linha2,4,5,6
linha3,7,8,9


Obtenha as linhas nas quais o valor de col1 é menor que 5.

In [11]:
df[df['coluna1'] < 5]

Unnamed: 0,coluna1,coluna2,coluna3
linha1,1,2,3
linha2,4,5,6


É possível criar um dataframe numa única linha, informando os labels das colunas e o índices das linhas.

In [13]:
pd.DataFrame({'col A': [1,2,3], 'col B' : [4,5,6]}, index=['primeira', 'segunda', 'terceira'])

Unnamed: 0,col A,col B
primeira,1,4
segunda,2,5
terceira,3,6


Exercício \

Crie um dataframe usando as listas de dias e de temperaturas (temps) a seguir. Renomei a única coluna do dataframe com o label 'Temperatura'.

In [16]:
from tempfile import tempdir
dias = ['segunda',  'terça', 'quarta', 'quinta', 'sexta', 'sabado', 'domingo']
temps = [30,32,28,22,30,28,25]
pd.DataFrame({'temperatura' : temps}, index=dias)

Unnamed: 0,temperatura
segunda,30
terça,32
quarta,28
quinta,22
sexta,30
sabado,28
domingo,25


### Dataset to DataFrame
Veremos agora como criar um DataFrame a partir de um dataset csv

In [17]:
df = pd.read_csv('Piece_Dim.csv')
df.head()

Unnamed: 0,Item_No,Length,Width,Height,Operator
0,Item-1,102.67,49.53,19.69,Op-1
1,Item-2,102.5,51.42,19.63,Op-1
2,Item-3,95.37,52.25,21.51,Op-1
3,Item-4,94.77,49.24,18.6,Op-1
4,Item-5,104.26,47.9,19.46,Op-1


Podemos notar que o dataset já contém um campo indexador. Vamos então utilizá-lo como índice do DataFrame.

In [18]:
df = pd.read_csv('Piece_Dim.csv', index_col='Item_No')
df.head()

Unnamed: 0_level_0,Length,Width,Height,Operator
Item_No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Item-1,102.67,49.53,19.69,Op-1
Item-2,102.5,51.42,19.63,Op-1
Item-3,95.37,52.25,21.51,Op-1
Item-4,94.77,49.24,18.6,Op-1
Item-5,104.26,47.9,19.46,Op-1


Podemos renomear as colunas de um DataFrame. Vamos passar os labels das colunas para o português.

In [24]:
df.rename(columns={'Length':'Comprimento', 'Width':'Largura', 'Height':'Altura',  'Operator' : 'operador'}, inplace=True)
df.head()

Unnamed: 0_level_0,Comprimento,Largura,Altura,operador
Item_No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Item-1,102.67,49.53,19.69,Op-1
Item-2,102.5,51.42,19.63,Op-1
Item-3,95.37,52.25,21.51,Op-1
Item-4,94.77,49.24,18.6,Op-1
Item-5,104.26,47.9,19.46,Op-1


Podemos usar info() para obter maiores informações sobre o dataframe, assim como describe para descrevê-lo.

In [27]:
df.info

In [28]:
df.describe()

Unnamed: 0,Comprimento,Largura,Altura
count,50.0,50.0,50.0
mean,100.1288,49.4614,20.014
std,5.075593,2.615639,1.074069
min,89.82,44.46,17.37
25%,95.675,48.105,19.375
50%,99.83,49.315,19.93
75%,104.4025,50.78,20.595
max,110.54,55.76,23.11


### Manipulação de colunas
Vamos agora manipular as colunas do nosso DataFrame, começando por selecionar a coluna 'Comprimento'.

In [30]:
df[['Comprimento']].head() # Change 'comprimento' to 'Comprimento'

Unnamed: 0_level_0,Comprimento
Item_No,Unnamed: 1_level_1
Item-1,102.67
Item-2,102.5
Item-3,95.37
Item-4,94.77
Item-5,104.26



Agora vamos selecionar 'Comprimento' e 'Largura'.

In [31]:
df[['Comprimento', 'Largura']].head() # Change 'comprimento' to 'Comprimento'

Unnamed: 0_level_0,Comprimento,Largura
Item_No,Unnamed: 1_level_1,Unnamed: 2_level_1
Item-1,102.67,49.53
Item-2,102.5,51.42
Item-3,95.37,52.25
Item-4,94.77,49.24
Item-5,104.26,47.9


A partir dos dados de comprimento, largura e altura de uma caixa, podemos obter seu volume. Vamos, então, obter o volume de cada item e criar uma nova coluna no nosso DataFrame chamada 'Volume'.

In [32]:
df['Volume'] = round(df['Comprimento'] * df['Largura'] * df['Altura'], 2)
df.head()

Unnamed: 0_level_0,Comprimento,Largura,Altura,operador,Volume
Item_No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Item-1,102.67,49.53,19.69,Op-1,100128.48
Item-2,102.5,51.42,19.63,Op-1,103460.9
Item-3,95.37,52.25,21.51,Op-1,107186.1
Item-4,94.77,49.24,18.6,Op-1,86796.43
Item-5,104.26,47.9,19.46,Op-1,97184.29


Para manter o padrão utilizado nas outras colunas, temos que limitar o valor do volume a duas casas decimais após o ponto. Vamos utilizar a função 'round' para obter este resultado.

Se quisermos eliminar uma coluna do nosso DataFrame, basta usar a função 'drop'. Vamos eliminar a coluna 'Volume'.

In [33]:
df = df.drop('Volume', axis=1)
df.head()

Unnamed: 0_level_0,Comprimento,Largura,Altura,operador
Item_No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Item-1,102.67,49.53,19.69,Op-1
Item-2,102.5,51.42,19.63,Op-1
Item-3,95.37,52.25,21.51,Op-1
Item-4,94.77,49.24,18.6,Op-1
Item-5,104.26,47.9,19.46,Op-1


### Manipulação de linhas
Para obter linhas (registros) específicas, usamos 'loc' ou 'iloc'. A localização se dá com base no índice utilizado no DataFrame.
Vamos começar obtendo a primeira linha (Item-1)

In [34]:
df.loc[['Item-1']]

Unnamed: 0_level_0,Comprimento,Largura,Altura,operador
Item_No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Item-1,102.67,49.53,19.69,Op-1


Vamos agora filtrar os itens 1 e 5.

In [35]:
df.loc[['Item-1', 'Item-5']]

Unnamed: 0_level_0,Comprimento,Largura,Altura,operador
Item_No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Item-1,102.67,49.53,19.69,Op-1
Item-5,104.26,47.9,19.46,Op-1


Se quisermos que no nosso resultado conste apenas Comprimento, Largura e Altura, fazemos da seguinte forma.

In [36]:
df.loc[['Item-1', 'Item-5'], ['Comprimento', 'Largura', 'Altura']]

Unnamed: 0_level_0,Comprimento,Largura,Altura
Item_No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Item-1,102.67,49.53,19.69
Item-5,104.26,47.9,19.46


Usando iloc, temos que utilizar o índice numérico. Assim, Item-1 está na posição 0.

In [37]:
df.iloc[[0]]

Unnamed: 0_level_0,Comprimento,Largura,Altura,operador
Item_No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Item-1,102.67,49.53,19.69,Op-1


Vamos fazer as mesmas operações que fizemos com loc agora com iloc.

In [39]:
df.iloc[[0,4], [0,1,2]]

Unnamed: 0_level_0,Comprimento,Largura,Altura
Item_No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Item-1,102.67,49.53,19.69
Item-5,104.26,47.9,19.46


Se eu quiser selecionar os 5 primeiros registros, basta usar :5

In [40]:
df.iloc[:5, [0,1,2]]

Unnamed: 0_level_0,Comprimento,Largura,Altura
Item_No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Item-1,102.67,49.53,19.69
Item-2,102.5,51.42,19.63
Item-3,95.37,52.25,21.51
Item-4,94.77,49.24,18.6
Item-5,104.26,47.9,19.46


Suponha que queremos agora obter Comprimento e largura de todos os registros.

In [41]:
df.iloc[:, :2]

Unnamed: 0_level_0,Comprimento,Largura
Item_No,Unnamed: 1_level_1,Unnamed: 2_level_1
Item-1,102.67,49.53
Item-2,102.5,51.42
Item-3,95.37,52.25
Item-4,94.77,49.24
Item-5,104.26,47.9
Item-6,105.18,49.39
Item-7,97.35,48.05
Item-8,99.35,44.59
Item-9,90.62,47.29
Item-10,97.22,52.14


Vamos agora calcular a média do comprimento dos itens produzidos por cada operador (Op-1 e Op-2).

In [45]:
df1 = df[df['operador'] == 'Op-1']
df2 = df[df['operador'] == 'Op-2']
print('média do comprimento operador 1; ' + str(round(df1['Comprimento'].mean(), 2)))
print('média do comprimento operador 2; ' + str(round(df2['Comprimento'].mean(), 2)))

média do comprimento operador 1; 99.55
média do comprimento operador 2; 100.71


Exercício 1\
Obter os itens cujo comprimento seja maior que 105 produzidos pelo Op-1.

In [46]:
# prompt: Obter os itens cujo comprimento seja maior que 105 produzidos pelo Op-1.

df_op1_comprimento_maior_105 = df[(df['operador'] == 'Op-1') & (df['Comprimento'] > 105)]
df_op1_comprimento_maior_105


Unnamed: 0_level_0,Comprimento,Largura,Altura,operador
Item_No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Item-6,105.18,49.39,20.36,Op-1
Item-13,105.72,50.04,20.06,Op-1
Item-17,107.69,48.18,19.33,Op-1
Item-18,106.83,50.81,19.12,Op-1
Item-23,108.45,44.46,22.31,Op-1


Exercício 2\
Obter os itens cujo comprimento seja maior que 98 e menor que 105.

In [47]:
# prompt: Obter os itens cujo comprimento seja maior que 98 e menor que 105.

df_comprimento_entre_98_105 = df[(df['Comprimento'] > 98) & (df['Comprimento'] < 105)]
df_comprimento_entre_98_105


Unnamed: 0_level_0,Comprimento,Largura,Altura,operador
Item_No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Item-1,102.67,49.53,19.69,Op-1
Item-2,102.5,51.42,19.63,Op-1
Item-5,104.26,47.9,19.46,Op-1
Item-8,99.35,44.59,21.03,Op-1
Item-11,100.0,54.76,20.62,Op-1
Item-15,99.17,53.54,20.25,Op-1
Item-19,98.73,55.76,19.37,Op-1
Item-21,104.87,49.73,19.94,Op-1
Item-22,98.06,48.39,19.79,Op-1
Item-28,101.68,52.79,19.42,Op-2


Exercício 3 \
Obter os itens cujo comprimento é maior ou igual a 110 OU cuja largura é maior ou igual a 53.

In [48]:
# prompt: Obter os itens cujo comprimento é maior ou igual a 110 OU cuja largura é maior ou igual a 53

df_comprimento_maior_igual_110_ou_largura_maior_igual_53 = df[(df['Comprimento'] >= 110) | (df['Largura'] >= 53)]
df_comprimento_maior_igual_110_ou_largura_maior_igual_53


Unnamed: 0_level_0,Comprimento,Largura,Altura,operador
Item_No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Item-11,100.0,54.76,20.62,Op-1
Item-15,99.17,53.54,20.25,Op-1
Item-19,98.73,55.76,19.37,Op-1
Item-32,95.53,53.83,23.11,Op-2
Item-36,105.22,54.61,20.64,Op-2
Item-40,100.57,53.52,19.98,Op-2
Item-41,110.54,51.07,21.95,Op-2
