In [139]:
import pandas as pd

df = pd.read_csv('vendas_por_fatura.csv')

#tirando todas as linha com valores null
df.dropna(inplace = True)

#puxa as informacoes do arquivo
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 22229 entries, 0 to 25951
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   N° da fatura    22229 non-null  object 
 1   Data da fatura  22229 non-null  object 
 2   ID Cliente      22229 non-null  float64
 3   País            22229 non-null  object 
 4   Quantidade      22229 non-null  int64  
 5   Valor           22229 non-null  object 
dtypes: float64(1), int64(1), object(4)
memory usage: 1.2+ MB
None


In [121]:
#ter alguma nocao de como estão os dados
print(df.head())

  N° da fatura       Data da fatura  ID Cliente            País  Quantidade  \
0       548370   3/30/2021 16:14:00     15528.0  United Kingdom         123   
1       575767  11/11/2021 11:11:00     17348.0  United Kingdom         163   
2      C570727  10/12/2021 11:32:00     12471.0         Germany          -1   
3       549106    4/6/2021 12:08:00     17045.0  United Kingdom           1   
4       573112  10/27/2021 15:33:00     16416.0  United Kingdom         357   

    Valor  
0  229,33  
1  209,73  
2   -1,45  
3   39,95  
4  344,83  


In [122]:
#tratar a coluna N° da fatura

#removendo espaços em branco extras
df['N° da fatura'] = df['N° da fatura'].str.strip()

#verificar a integridade dos dados (se todos têm 6 dígitos)
mask = df['N° da fatura'].str.len() == 6
df = df[mask]

# />/ converter para string (se necessário)
# >>> df['N° da fatura'] = df['N° da fatura'].astype(str)

#exibir o resultado da coluna
print(df['N° da fatura'])

0        548370
1        575767
3        549106
4        573112
5        576630
          ...  
25945    579252
25946    574908
25949    553060
25950    577049
25951    550122
Name: N° da fatura, Length: 18570, dtype: object


In [123]:
#tratar a coluna Data da fatura

#converter a coluna para datetime
df['Data da fatura'] = pd.to_datetime(df['Data da fatura'])
print(df['Data da fatura'])

0       2021-03-30 16:14:00
1       2021-11-11 11:11:00
3       2021-04-06 12:08:00
4       2021-10-27 15:33:00
5       2021-11-16 08:38:00
                ...        
25945   2021-11-28 16:47:00
25946   2021-11-07 15:37:00
25949   2021-05-13 10:44:00
25950   2021-11-17 13:58:00
25951   2021-04-14 12:39:00
Name: Data da fatura, Length: 18570, dtype: datetime64[ns]


In [148]:
# tratar a coluna id cliente

#converter em string
df['ID Cliente'] = df['ID Cliente'].astype(str)

#retirando tudo o que vem depois do ponto e o próprio ponto
df['ID Cliente'] = df['ID Cliente'].str.split('.').str[0]

#substituir valores vazios por NaN
df['ID Cliente'].replace('', pd.NA, inplace=True)

#remover linhas com valores NaN
df.dropna(subset=['ID Cliente'], inplace=True)

#remover duplicatas baseadas na coluna 'valor'
df.drop_duplicates(subset=['ID Cliente'])

#exibir o DataFrame resultante
print(df['ID Cliente'])


0        15528
1        17348
2        12471
3        17045
4        16416
         ...  
25947    18218
25948    16794
25949    15826
25950    17397
25951    12931
Name: ID Cliente, Length: 22229, dtype: object


In [112]:
# tratar a coluna País

#criar uma variavel agrupando as vezes que eles aparece
contagem_paises = df['País'].value_counts()

# Eliminar linhas com países específicos:
#>>> df = df[df['País'] != 'Desconhecido']
print(contagem_paises)

País
United Kingdom          16679
Germany                   457
France                    390
EIRE                      262
Belgium                    98
Netherlands                95
Spain                      90
Australia                  57
Portugal                   57
Switzerland                51
Finland                    41
Italy                      38
Sweden                     36
Norway                     36
Channel Islands            26
Japan                      20
Poland                     19
Denmark                    18
Austria                    17
Cyprus                     16
Unspecified                 8
Singapore                   7
Iceland                     7
Canada                      6
Israel                      5
Greece                      5
Malta                       5
USA                         5
European Community          4
Lithuania                   4
United Arab Emirates        3
Czech Republic              2
Bahrain                     2
Leban

In [113]:
# tratar a coluna Quantidade

#eliminar todas as linhas onde a quantidade é menor que zero:
df = df[df['Quantidade'] >= 0]
print(df['Quantidade'].value_counts())

Quantidade
1       196
12      190
24      185
48      151
72      136
       ... 
2893      1
896       1
991       1
1624      1
929       1
Name: count, Length: 1394, dtype: int64


In [114]:
# tratar a coluna Valor
print(df['Valor'])

0        229,33
1        209,73
3         39,95
4        344,83
5        199,98
          ...  
25945    1034,4
25946     82,76
25949       720
25950    298,78
25951      1488
Name: Valor, Length: 18570, dtype: object


In [115]:
#convertendo para string
df['Valor'] = df['Valor'].astype(str)

#transformando os as vergulas em ponto
df['Valor'] = df['Valor'].str.replace(',', '.')

#convertendo a coluna em typo float
df['Valor'] = df['Valor'].astype(float)

#percorrer a coluna 'valor' e tranformar em 0 todos os numeros negativos
for x in df.index:
    if df.loc[x, "Valor"] < 0:
        df.loc[x, "Valor"] = 0

print(df['Valor'])

0         229.33
1         209.73
3          39.95
4         344.83
5         199.98
          ...   
25945    1034.40
25946      82.76
25949     720.00
25950     298.78
25951    1488.00
Name: Valor, Length: 18570, dtype: float64


In [146]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 22229 entries, 0 to 25951
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   N° da fatura    22229 non-null  object
 1   Data da fatura  22229 non-null  object
 2   ID Cliente      22229 non-null  object
 3   País            22229 non-null  object
 4   Quantidade      22229 non-null  int64 
 5   Valor           22229 non-null  object
dtypes: int64(1), object(5)
memory usage: 1.2+ MB
None


In [117]:
#antes de salvar é bom converter a coluna 'valor' em string
#reverter os pontos e por virgula novamente
df['Valor'] = df['Valor'].astype(str)
df['Valor'] = df['Valor'].str.replace('.', ',')
print(df['Valor'])

#salvando o arquivo em csv com as alteracoes feita
df.to_csv('arquivo_limpo.csv', index=False)  # index=False para não incluir o índice do DataFrame no arquivo CSV

0        229,33
1        209,73
3         39,95
4        344,83
5        199,98
          ...  
25945    1034,4
25946     82,76
25949     720,0
25950    298,78
25951    1488,0
Name: Valor, Length: 18566, dtype: object
