## Pandas -- Series e Dataframes

Series e Dataframes são estruturas que facilitam a manipulação de dados em Python e, por esse motivo, são largamente utilizadas na Análise de Dados.

Pandas Series corresponde a um array unidimensional que permite indexação por meio de labels. Vamos criar uma lista que corresponde a gastos realizados em dias da semana, em seguida, vamos indexar os gastos pelos respectivos dias criando uma Series.

In [1]:
import numpy as np
import pandas as pd

In [2]:
gastos = [20, 35, 15, 40, 10]
dias = ['Segunda', 'Terça', 'Quarta', 'Quinta', 'Sexta']

In [3]:
gastos_series = pd.Series(gastos, index=dias)

Agora podemos acessar os gastos usando como índices os dias.

In [4]:
gastos_series['Segunda']

np.int64(20)

### Dataframe
Um Pandas dataframe corresponde a um vetor bidimensional (matriz), no qual é possível indexar linhas e colunas por meio de labels, e utilizar esses labels para facilitar o acesso aos dados.

Vamos criar nosso primeiro dataframe a partir de uma matriz e, em seguida, reindexar as linhas e colunas do nosso dataframe.

In [5]:
dados = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df = pd.DataFrame(dados, columns=['col1', 'col2', 'col3'])
print(df)

   col1  col2  col3
0     1     2     3
1     4     5     6
2     7     8     9


In [6]:
df.index = ['linha1', 'linha2', 'linha3']
print(df)

        col1  col2  col3
linha1     1     2     3
linha2     4     5     6
linha3     7     8     9


Otenha as linhas nas quais o valor de col3 é maior que 5.

In [7]:
filtro = df[df['col3'] > 5]
print(filtro)

        col1  col2  col3
linha2     4     5     6
linha3     7     8     9


Obtenha as linhas nas quais o valor de col1 é menor que 5.

In [8]:
filtro = df[df['col1'] < 5]
print(filtro)

        col1  col2  col3
linha1     1     2     3
linha2     4     5     6


É possível criar um dataframe numa única linha, informando os labels das colunas e o índices das linhas.

In [9]:
df2 = pd.DataFrame([[22, 33]], columns=['A', 'B'], index=['Linha1'])
print(df2)

         A   B
Linha1  22  33


Exercício \

Crie um dataframe usando as listas de dias e de temperaturas (temps) a seguir. Renomei a única coluna do dataframe com o label 'Temperatura'.

In [10]:
dias = ['Seg', 'Ter', 'Qua', 'Qui', 'Sex']
temps = [30, 32, 29, 28, 31]

df_temp = pd.DataFrame(temps, index=dias, columns=['Temperatura'])
print(df_temp)

     Temperatura
Seg           30
Ter           32
Qua           29
Qui           28
Sex           31


### Dataset to DataFrame
Veremos agora como criar um DataFrame a partir de um dataset csv

In [11]:
df_csv = pd.read_csv('Piece_Dim.csv', index_col=0)
print(df_csv.head())

         Length  Width  Height Operator
Item_No                                
Item-1   102.67  49.53   19.69     Op-1
Item-2   102.50  51.42   19.63     Op-1
Item-3    95.37  52.25   21.51     Op-1
Item-4    94.77  49.24   18.60     Op-1
Item-5   104.26  47.90   19.46     Op-1


Podemos notar que o dataset já contém um campo indexador. Vamos então utilizá-lo como índice do DataFrame.

In [13]:
print(df_csv.index)

Index(['Item-1', 'Item-2', 'Item-3', 'Item-4', 'Item-5', 'Item-6', 'Item-7',
       'Item-8', 'Item-9', 'Item-10', 'Item-11', 'Item-12', 'Item-13',
       'Item-14', 'Item-15', 'Item-16', 'Item-17', 'Item-18', 'Item-19',
       'Item-20', 'Item-21', 'Item-22', 'Item-23', 'Item-24', 'Item-25',
       'Item-26', 'Item-27', 'Item-28', 'Item-29', 'Item-30', 'Item-31',
       'Item-32', 'Item-33', 'Item-34', 'Item-35', 'Item-36', 'Item-37',
       'Item-38', 'Item-39', 'Item-40', 'Item-41', 'Item-42', 'Item-43',
       'Item-44', 'Item-45', 'Item-46', 'Item-47', 'Item-48', 'Item-49',
       'Item-50'],
      dtype='object', name='Item_No')


Podemos renomear as colunas de um DataFrame. Vamos passar os labels das colunas para o português.

In [12]:
df_csv.columns = ['Comprimento', 'Largura', 'Altura', 'Operador']
print(df_csv.head())

         Comprimento  Largura  Altura Operador
Item_No                                       
Item-1        102.67    49.53   19.69     Op-1
Item-2        102.50    51.42   19.63     Op-1
Item-3         95.37    52.25   21.51     Op-1
Item-4         94.77    49.24   18.60     Op-1
Item-5        104.26    47.90   19.46     Op-1


Podemos usar info() para obter maiores informações sobre o dataframe, assim como describe para descrevê-lo.

In [14]:
print(df_csv.info())

<class 'pandas.core.frame.DataFrame'>
Index: 50 entries, Item-1 to Item-50
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Comprimento  50 non-null     float64
 1   Largura      50 non-null     float64
 2   Altura       50 non-null     float64
 3   Operador     50 non-null     object 
dtypes: float64(3), object(1)
memory usage: 2.0+ KB
None


In [15]:
print(df_csv.describe())

       Comprimento    Largura     Altura
count    50.000000  50.000000  50.000000
mean    100.128800  49.461400  20.014000
std       5.075593   2.615639   1.074069
min      89.820000  44.460000  17.370000
25%      95.675000  48.105000  19.375000
50%      99.830000  49.315000  19.930000
75%     104.402500  50.780000  20.595000
max     110.540000  55.760000  23.110000


### Manipulação de colunas
Vamos agora manipular as colunas do nosso DataFrame, começando por selecionar a coluna 'Comprimento'.

In [16]:
print(df_csv['Comprimento'])

Item_No
Item-1     102.67
Item-2     102.50
Item-3      95.37
Item-4      94.77
Item-5     104.26
Item-6     105.18
Item-7      97.35
Item-8      99.35
Item-9      90.62
Item-10     97.22
Item-11    100.00
Item-12     97.23
Item-13    105.72
Item-14     89.82
Item-15     99.17
Item-16     95.51
Item-17    107.69
Item-18    106.83
Item-19     98.73
Item-20     94.31
Item-21    104.87
Item-22     98.06
Item-23    108.45
Item-24     95.34
Item-25     97.66
Item-26     95.69
Item-27    105.88
Item-28    101.68
Item-29     93.54
Item-30     99.66
Item-31     98.38
Item-32     95.53
Item-33    100.53
Item-34     95.67
Item-35    101.86
Item-36    105.22
Item-37    101.86
Item-38     97.19
Item-39    103.00
Item-40    100.57
Item-41    110.54
Item-42    109.22
Item-43     92.52
Item-44    107.05
Item-45    106.53
Item-46    101.21
Item-47    101.09
Item-48     95.61
Item-49    104.45
Item-50     93.28
Name: Comprimento, dtype: float64



Agora vamos selecionar 'Comprimento' e 'Largura'.

In [17]:
print(df_csv[['Comprimento', 'Largura']])

         Comprimento  Largura
Item_No                      
Item-1        102.67    49.53
Item-2        102.50    51.42
Item-3         95.37    52.25
Item-4         94.77    49.24
Item-5        104.26    47.90
Item-6        105.18    49.39
Item-7         97.35    48.05
Item-8         99.35    44.59
Item-9         90.62    47.29
Item-10        97.22    52.14
Item-11       100.00    54.76
Item-12        97.23    48.26
Item-13       105.72    50.04
Item-14        89.82    45.98
Item-15        99.17    53.54
Item-16        95.51    45.36
Item-17       107.69    48.18
Item-18       106.83    50.81
Item-19        98.73    55.76
Item-20        94.31    48.74
Item-21       104.87    49.73
Item-22        98.06    48.39
Item-23       108.45    44.46
Item-24        95.34    46.03
Item-25        97.66    50.69
Item-26        95.69    49.48
Item-27       105.88    49.53
Item-28       101.68    52.79
Item-29        93.54    51.05
Item-30        99.66    48.40
Item-31        98.38    46.79
Item-32   

A partir dos dados de comprimento, largura e altura de uma caixa, podemos obter seu volume. Vamos, então, obter o volume de cada item e criar uma nova coluna no nosso DataFrame chamada 'Volume'.

In [24]:
df_csv['Volume'] = df_csv['Comprimento'] * df_csv['Largura'] * df_csv['Altura']
print(df_csv)

         Comprimento  Largura  Altura Operador         Volume
Item_No                                                      
Item-1        102.67    49.53   19.69     Op-1  100128.476019
Item-2        102.50    51.42   19.63     Op-1  103460.896500
Item-3         95.37    52.25   21.51     Op-1  107186.104575
Item-4         94.77    49.24   18.60     Op-1   86796.431280
Item-5        104.26    47.90   19.46     Op-1   97184.290840
Item-6        105.18    49.39   20.36     Op-1  105766.946472
Item-7         97.35    48.05   20.22     Op-1   94582.436850
Item-8         99.35    44.59   21.03     Op-1   93163.246995
Item-9         90.62    47.29   19.78     Op-1   84765.603644
Item-10        97.22    52.14   20.71     Op-1  104980.042068
Item-11       100.00    54.76   20.62     Op-1  112915.120000
Item-12        97.23    48.26   19.51     Op-1   91547.159298
Item-13       105.72    50.04   20.06     Op-1  106121.989728
Item-14        89.82    45.98   20.30     Op-1   83837.449080
Item-15 

Para manter o padrão utilizado nas outras colunas, temos que limitar o valor do volume a duas casas decimais após o ponto. Vamos utilizar a função 'round' para obter este resultado.

In [25]:
df_csv['Volume'] = round(df_csv['Volume'], 2)
print(df_csv)

         Comprimento  Largura  Altura Operador     Volume
Item_No                                                  
Item-1        102.67    49.53   19.69     Op-1  100128.48
Item-2        102.50    51.42   19.63     Op-1  103460.90
Item-3         95.37    52.25   21.51     Op-1  107186.10
Item-4         94.77    49.24   18.60     Op-1   86796.43
Item-5        104.26    47.90   19.46     Op-1   97184.29
Item-6        105.18    49.39   20.36     Op-1  105766.95
Item-7         97.35    48.05   20.22     Op-1   94582.44
Item-8         99.35    44.59   21.03     Op-1   93163.25
Item-9         90.62    47.29   19.78     Op-1   84765.60
Item-10        97.22    52.14   20.71     Op-1  104980.04
Item-11       100.00    54.76   20.62     Op-1  112915.12
Item-12        97.23    48.26   19.51     Op-1   91547.16
Item-13       105.72    50.04   20.06     Op-1  106121.99
Item-14        89.82    45.98   20.30     Op-1   83837.45
Item-15        99.17    53.54   20.25     Op-1  107518.63
Item-16       

Se quisermos eliminar uma coluna do nosso DataFrame, basta usar a função 'drop'. Vamos eliminar a coluna 'Volume'.

In [26]:
df_csv = df_csv.drop('Volume', axis=1)
print(df_csv)

         Comprimento  Largura  Altura Operador
Item_No                                       
Item-1        102.67    49.53   19.69     Op-1
Item-2        102.50    51.42   19.63     Op-1
Item-3         95.37    52.25   21.51     Op-1
Item-4         94.77    49.24   18.60     Op-1
Item-5        104.26    47.90   19.46     Op-1
Item-6        105.18    49.39   20.36     Op-1
Item-7         97.35    48.05   20.22     Op-1
Item-8         99.35    44.59   21.03     Op-1
Item-9         90.62    47.29   19.78     Op-1
Item-10        97.22    52.14   20.71     Op-1
Item-11       100.00    54.76   20.62     Op-1
Item-12        97.23    48.26   19.51     Op-1
Item-13       105.72    50.04   20.06     Op-1
Item-14        89.82    45.98   20.30     Op-1
Item-15        99.17    53.54   20.25     Op-1
Item-16        95.51    45.36   20.52     Op-1
Item-17       107.69    48.18   19.33     Op-1
Item-18       106.83    50.81   19.12     Op-1
Item-19        98.73    55.76   19.37     Op-1
Item-20      

### Manipulação de linhas
Para obter linhas (registros) específicas, usamos 'loc' ou 'iloc'. A localização se dá com base no índice utilizado no DataFrame.
Vamos começar obtendo a primeira linha (Item-1)

In [27]:
print(df_csv.loc['Item-1'])

Comprimento    102.67
Largura         49.53
Altura          19.69
Operador         Op-1
Name: Item-1, dtype: object


Vamos agora filtrar os itens 1 e 5.

In [29]:
print(df_csv.loc[['Item-1', 'Item-5']])

         Comprimento  Largura  Altura Operador
Item_No                                       
Item-1        102.67    49.53   19.69     Op-1
Item-5        104.26    47.90   19.46     Op-1


Se quisermos que no nosso resultado conste apenas Comprimento, Largura e Altura, fazemos da seguinte forma.

In [30]:
print(df_csv.loc[['Item-1', 'Item-5']][['Comprimento', 'Largura', 'Altura']])

         Comprimento  Largura  Altura
Item_No                              
Item-1        102.67    49.53   19.69
Item-5        104.26    47.90   19.46


Usando iloc, temos que utilizar o índice numérico. Assim, Item-1 está na posição 0.

In [31]:
print(df_csv.iloc[0])

Comprimento    102.67
Largura         49.53
Altura          19.69
Operador         Op-1
Name: Item-1, dtype: object


Vamos fazer as mesmas operações que fizemos com loc agora com iloc.

In [32]:
print(df_csv.iloc[[0, 4]][['Comprimento', 'Largura', 'Altura']])

         Comprimento  Largura  Altura
Item_No                              
Item-1        102.67    49.53   19.69
Item-5        104.26    47.90   19.46


Se eu quiser selecionar os 5 primeiros registros, basta usar :5

In [33]:
print(df_csv.iloc[:5])

         Comprimento  Largura  Altura Operador
Item_No                                       
Item-1        102.67    49.53   19.69     Op-1
Item-2        102.50    51.42   19.63     Op-1
Item-3         95.37    52.25   21.51     Op-1
Item-4         94.77    49.24   18.60     Op-1
Item-5        104.26    47.90   19.46     Op-1


Suponha que queremos agora obter Comprimento e largura de todos os registros.

In [34]:
print(df_csv[['Comprimento', 'Largura']])

         Comprimento  Largura
Item_No                      
Item-1        102.67    49.53
Item-2        102.50    51.42
Item-3         95.37    52.25
Item-4         94.77    49.24
Item-5        104.26    47.90
Item-6        105.18    49.39
Item-7         97.35    48.05
Item-8         99.35    44.59
Item-9         90.62    47.29
Item-10        97.22    52.14
Item-11       100.00    54.76
Item-12        97.23    48.26
Item-13       105.72    50.04
Item-14        89.82    45.98
Item-15        99.17    53.54
Item-16        95.51    45.36
Item-17       107.69    48.18
Item-18       106.83    50.81
Item-19        98.73    55.76
Item-20        94.31    48.74
Item-21       104.87    49.73
Item-22        98.06    48.39
Item-23       108.45    44.46
Item-24        95.34    46.03
Item-25        97.66    50.69
Item-26        95.69    49.48
Item-27       105.88    49.53
Item-28       101.68    52.79
Item-29        93.54    51.05
Item-30        99.66    48.40
Item-31        98.38    46.79
Item-32   

Vamos agora calcular a média dos itens produzidos por cada operador (Op-1 e Op-2).

In [35]:
media_operadores = df_csv.groupby('Operador')[['Comprimento', 'Largura', 'Altura']].mean()
print(media_operadores)

          Comprimento  Largura   Altura
Operador                               
Op-1          99.5472  49.3012  20.0248
Op-2         100.7104  49.6216  20.0032


Exercício 1\
Obter os itens cujo comprimento seja maior que 105 produzidos pelo Op-1.

In [36]:
filtro1 = df_csv[(df_csv['Comprimento'] > 105) & (df_csv['Operador'] == 'Op-1')]
print(filtro1)

         Comprimento  Largura  Altura Operador
Item_No                                       
Item-6        105.18    49.39   20.36     Op-1
Item-13       105.72    50.04   20.06     Op-1
Item-17       107.69    48.18   19.33     Op-1
Item-18       106.83    50.81   19.12     Op-1
Item-23       108.45    44.46   22.31     Op-1


Exercício 2\
Obter os itens cujo comprimento seja maior que 98 e menor que 105.

In [37]:
filtro2 = df_csv[(df_csv['Comprimento'] > 98) & (df_csv['Comprimento'] < 105)]
print(filtro2)

         Comprimento  Largura  Altura Operador
Item_No                                       
Item-1        102.67    49.53   19.69     Op-1
Item-2        102.50    51.42   19.63     Op-1
Item-5        104.26    47.90   19.46     Op-1
Item-8         99.35    44.59   21.03     Op-1
Item-11       100.00    54.76   20.62     Op-1
Item-15        99.17    53.54   20.25     Op-1
Item-19        98.73    55.76   19.37     Op-1
Item-21       104.87    49.73   19.94     Op-1
Item-22        98.06    48.39   19.79     Op-1
Item-28       101.68    52.79   19.42     Op-2
Item-30        99.66    48.40   20.64     Op-2
Item-31        98.38    46.79   21.27     Op-2
Item-33       100.53    50.00   21.13     Op-2
Item-35       101.86    50.45   18.05     Op-2
Item-37       101.86    49.85   19.15     Op-2
Item-39       103.00    48.81   19.39     Op-2
Item-40       100.57    53.52   19.98     Op-2
Item-46       101.21    47.61   21.39     Op-2
Item-47       101.09    48.28   20.04     Op-2
Item-49      

Exercício 3 \
Obter os itens cujo comprimento é maior ou igual a 110 OU cuja largura é maior ou igual a 53.

In [38]:
filtro3 = df_csv[(df_csv['Comprimento'] >= 110) | (df_csv['Largura'] >= 53)]
print(filtro3)

         Comprimento  Largura  Altura Operador
Item_No                                       
Item-11       100.00    54.76   20.62     Op-1
Item-15        99.17    53.54   20.25     Op-1
Item-19        98.73    55.76   19.37     Op-1
Item-32        95.53    53.83   23.11     Op-2
Item-36       105.22    54.61   20.64     Op-2
Item-40       100.57    53.52   19.98     Op-2
Item-41       110.54    51.07   21.95     Op-2
