**Manipulação de Dados com Pandas**

In [2]:
import pandas as pd
df = pd.read_csv('/content/vendas_animais.csv')

print(df)

     ID_Venda  Data_Venda          Cliente    Animal    Produto   Valor  \
0           1  2023-02-05      Laura Silva    roedor    remédio  493.86   
1           2  2023-01-17   Lucas Carvalho   pássaro  acessório  366.75   
2           3  2023-03-18      Ana Ribeiro  cachorro  acessório  464.27   
3           4  2023-09-30      Ana Pereira   pássaro    higiene  378.23   
4           5  2023-12-04       João Costa    roedor      ração   79.31   
..        ...         ...              ...       ...        ...     ...   
195       196  2023-08-12  Sofia Rodrigues   pássaro  brinquedo   71.32   
196       197  2023-06-23  Isabela Ribeiro   pássaro      ração  405.88   
197       198  2023-05-14      Pedro Silva   pássaro      ração   30.16   
198       199  2023-08-01    João Carvalho      gato  brinquedo  376.75   
199       200  2023-03-01      Ana Almeida      gato    higiene   87.50   

    Pagamento           Vendedor  
0         pix        Ana Pereira  
1    dinheiro    Maria Rodrig

Ordenando Dados com sort_values()

A função sort_values() do Pandas permite ordenar um DataFrame por uma ou mais colunas, de forma ascendente ou descendente.

Ordenando por uma coluna:

In [9]:
df_ordenado_valor = df.sort_values('Valor') # Ordenando por valor em ordem crescente
print(df_ordenado_valor[['ID_Venda', 'Valor']].head())

     ID_Venda  Valor
123       124  11.39
55         56  16.60
111       112  19.40
58         59  24.32
125       126  28.70


Multiplas colunas

In [11]:
df_ordenado_multi = df.sort_values(['Animal', 'Valor'], ascending=[True, False]) # Ordenando por animal (crescente) e valor (decrescente)

print(df_ordenado_multi[['Animal', 'Valor']].head())

       Animal   Valor
101  cachorro  491.60
142  cachorro  487.26
126  cachorro  472.39
113  cachorro  464.79
2    cachorro  464.27


Adicionando e Removendo Dados

Adicionando Novas Colunas

Podemos adicionar novas colunas a um DataFrame, atribuindo valores a um novo nome de coluna.

In [12]:
df['Desconto'] = 0.10  # Adicionando uma coluna 'Desconto' com valor 10%
print(df[['Valor', 'Desconto']].head())

    Valor  Desconto
0  493.86       0.1
1  366.75       0.1
2  464.27       0.1
3  378.23       0.1
4   79.31       0.1


Também podemos criar novas colunas com base em cálculos ou transformações de outras colunas.

In [13]:
df['Valor_Com_Desconto'] = df['Valor'] * (1 - df['Desconto'])
print(df[['Valor', 'Desconto', 'Valor_Com_Desconto']].head())

    Valor  Desconto  Valor_Com_Desconto
0  493.86       0.1             444.474
1  366.75       0.1             330.075
2  464.27       0.1             417.843
3  378.23       0.1             340.407
4   79.31       0.1              71.379


Adicionando Novas Linhas

Para adicionar uma nova linha, podemos criar um dicionário com os valores da nova linha e usar o método concat().

In [15]:
nova_venda = {'ID_Venda': 201, 'Data_Venda': '2023-12-24', 'Cliente': 'Ana Pereira', 'Animal': 'Gato', 'Produto': 'Ração', 'Valor': 85.50, 'Pagamento': 'Pix', 'Vendedor': 'Pedro'}

# Convertendo a nova linha em um DataFrame e concatenando

df = pd.concat([df, pd.DataFrame([nova_venda])], ignore_index=True)

# Exibindo as últimas linhas do DataFrame

print(df.tail())

     ID_Venda  Data_Venda          Cliente   Animal    Produto   Valor  \
196       197  2023-06-23  Isabela Ribeiro  pássaro      ração  405.88   
197       198  2023-05-14      Pedro Silva  pássaro      ração   30.16   
198       199  2023-08-01    João Carvalho     gato  brinquedo  376.75   
199       200  2023-03-01      Ana Almeida     gato    higiene   87.50   
200       201  2023-12-24      Ana Pereira     Gato      Ração   85.50   

    Pagamento       Vendedor  Desconto  Valor_Com_Desconto  
196    cartão    Ana Almeida       0.1             365.292  
197  dinheiro    Lucas Costa       0.1              27.144  
198       pix  Gabriel Silva       0.1             339.075  
199       pix    Sofia Gomes       0.1              78.750  
200       Pix          Pedro       NaN                 NaN  


Removendo Colunas e Linhas

Podemos remover colunas e linhas usando os métodos drop().

In [16]:
df = df.drop(columns=['Desconto'])  # Removendo a coluna 'Desconto'
print(df.head())

   ID_Venda  Data_Venda         Cliente    Animal    Produto   Valor  \
0         1  2023-02-05     Laura Silva    roedor    remédio  493.86   
1         2  2023-01-17  Lucas Carvalho   pássaro  acessório  366.75   
2         3  2023-03-18     Ana Ribeiro  cachorro  acessório  464.27   
3         4  2023-09-30     Ana Pereira   pássaro    higiene  378.23   
4         5  2023-12-04      João Costa    roedor      ração   79.31   

  Pagamento           Vendedor  Valor_Com_Desconto  
0       pix        Ana Pereira             444.474  
1  dinheiro    Maria Rodrigues             330.075  
2    cartão    Isabela Almeida             417.843  
3    cartão  Gabriel Rodrigues             340.407  
4  dinheiro       Ana Oliveira              71.379  


In [17]:
df = df.drop(index=200)  # Removendo a última linha (índice 200)
print(df.tail())

     ID_Venda  Data_Venda          Cliente   Animal    Produto   Valor  \
195       196  2023-08-12  Sofia Rodrigues  pássaro  brinquedo   71.32   
196       197  2023-06-23  Isabela Ribeiro  pássaro      ração  405.88   
197       198  2023-05-14      Pedro Silva  pássaro      ração   30.16   
198       199  2023-08-01    João Carvalho     gato  brinquedo  376.75   
199       200  2023-03-01      Ana Almeida     gato    higiene   87.50   

    Pagamento       Vendedor  Valor_Com_Desconto  
195    cartão  Laura Ribeiro              64.188  
196    cartão    Ana Almeida             365.292  
197  dinheiro    Lucas Costa              27.144  
198       pix  Gabriel Silva             339.075  
199       pix    Sofia Gomes              78.750  


Removendo Duplicatas

Para remover linhas duplicadas, podemos usar o método drop_duplicates().

In [18]:
df = df.drop_duplicates()
print(df)

     ID_Venda  Data_Venda          Cliente    Animal    Produto   Valor  \
0           1  2023-02-05      Laura Silva    roedor    remédio  493.86   
1           2  2023-01-17   Lucas Carvalho   pássaro  acessório  366.75   
2           3  2023-03-18      Ana Ribeiro  cachorro  acessório  464.27   
3           4  2023-09-30      Ana Pereira   pássaro    higiene  378.23   
4           5  2023-12-04       João Costa    roedor      ração   79.31   
..        ...         ...              ...       ...        ...     ...   
195       196  2023-08-12  Sofia Rodrigues   pássaro  brinquedo   71.32   
196       197  2023-06-23  Isabela Ribeiro   pássaro      ração  405.88   
197       198  2023-05-14      Pedro Silva   pássaro      ração   30.16   
198       199  2023-08-01    João Carvalho      gato  brinquedo  376.75   
199       200  2023-03-01      Ana Almeida      gato    higiene   87.50   

    Pagamento           Vendedor  Valor_Com_Desconto  
0         pix        Ana Pereira            

Tratando Dados Faltantes (NaN)

Dados faltantes são comuns em conjuntos de dados reais e podem afetar a qualidade da análise. O Pandas oferece ferramentas para identificar, preencher ou remover valores nulos (NaN).

In [20]:
import pandas as pd
df_petshop = pd.read_csv('/content/petshop_vendas_completo_nulos.csv')

print(df_petshop.isnull().sum()) # Conta o número de valores nulos por coluna

ID_Venda      20
Data_Venda    20
Cliente       20
Animal        20
Produto       20
Valor         20
Pagamento     20
Vendedor      20
dtype: int64


Preenchendo Valores Nulos (fillna())

In [22]:
df_petshop['Vendedor'].fillna('Vendedor Desconhecido', inplace=True) # Preenche valores nulos na coluna 'Vendedor' com 'Vendedor Desconhecido'
print(df_petshop)

     ID_Venda  Data_Venda            Cliente    Animal    Produto   Valor  \
0         1.0  2023-06-16  Juliana Rodrigues     Peixe    Higiene   67.31   
1         2.0  2023-03-04    Francisca Gomes      Gato  Acessório  121.24   
2         3.0  2023-05-03    Francisca Costa     Peixe  Acessório   52.05   
3         4.0  2023-04-29   Antônio Oliveira  Cachorro  Acessório   69.38   
4         5.0  2023-11-13      Maria Almeida   Pássaro  Brinquedo  125.95   
..        ...         ...                ...       ...        ...     ...   
215       NaN         NaN                NaN       NaN        NaN     NaN   
216       NaN         NaN                NaN       NaN        NaN     NaN   
217       NaN         NaN                NaN       NaN        NaN     NaN   
218       NaN         NaN                NaN       NaN        NaN     NaN   
219       NaN         NaN                NaN       NaN        NaN     NaN   

    Pagamento               Vendedor  
0    Dinheiro                Juliana

Removendo Valores Nulos (dropna())

In [25]:
df_petshop.dropna(inplace=True) # Remove todas as linhas com pelo menos um valor nulo
display(df_petshop)

Unnamed: 0,ID_Venda,Data_Venda,Cliente,Animal,Produto,Valor,Pagamento,Vendedor
0,1.0,2023-06-16,Juliana Rodrigues,Peixe,Higiene,67.31,Dinheiro,Juliana
1,2.0,2023-03-04,Francisca Gomes,Gato,Acessório,121.24,Cartão,Ana
2,3.0,2023-05-03,Francisca Costa,Peixe,Acessório,52.05,Cartão,Lucas
3,4.0,2023-04-29,Antônio Oliveira,Cachorro,Acessório,69.38,Pix,Beatriz
4,5.0,2023-11-13,Maria Almeida,Pássaro,Brinquedo,125.95,Pix,João
...,...,...,...,...,...,...,...,...
195,196.0,2023-01-01,João Pereira,Pássaro,Remédio,140.26,Pix,Ana
196,197.0,2023-05-20,Ana Gomes,Gato,Remédio,122.37,Pix,Beatriz
197,198.0,2023-10-11,Paulo Ribeiro,Peixe,Acessório,119.55,Pix,Maria
198,199.0,2023-01-03,Juliana Ribeiro,Roedor,Ração,79.66,Dinheiro,Marcos
