In [118]:
import pandas as pd
from word2number import w2n
from googletrans import Translator
import logging

In [119]:
logging.basicConfig(level=logging.INFO, filename='log', format="%(asctime)s - %(filename)s - %(levelname)s - %(message)s")

translator = Translator()


In [120]:
df_ponto = pd.DataFrame({'Valor01':['2.000,00','3.500,00','12.650,00']})
print(df_ponto)


     Valor01
0   2.000,00
1   3.500,00
2  12.650,00


In [121]:
df_sifrao = pd.DataFrame({'Valor02':['R$ 2.000','R$ 3.500','R$ 12.650']})
print(df_sifrao)

     Valor02
0   R$ 2.000
1   R$ 3.500
2  R$ 12.650


In [122]:
df_sigla = pd.DataFrame({'Valor03':['2k','3.5k','12.65k']})
print(df_sigla)

  Valor03
0      2k
1    3.5k
2  12.65k


In [123]:
df_ext = pd.DataFrame({'Valor04':['dois mil','três mil e quinhentos','doze mil seicentos e ciquenta']})
print(df_ext)

                         Valor04
0                       dois mil
1          três mil e quinhentos
2  doze mil seicentos e ciquenta


In [124]:
def retirar_ponto(n):
    if pd.isna(n):
        return None
    n = str(n).strip().lower()
    n = n.replace('.','').replace(',','.')
    try:
        return float(n)
    except:
        return None

In [125]:
for col in df_ponto.columns:
    df_ponto['Corrigido'] = df_ponto[col].apply(retirar_ponto)
    
pd.set_option('display.max_columns', None)
print(df_ponto)

     Valor01  Corrigido
0   2.000,00     2000.0
1   3.500,00     3500.0
2  12.650,00    12650.0


In [126]:
def retirar_sifrao(n):
    if pd.isna(n):
        return None
    n = str(n).strip().lower() 
    n = n.replace('.','').replace(',','.')
    n = n.replace('r$','').replace('reais','').strip()
    try:
        return float(n)
    except: 
        return None

In [127]:
for col in df_sifrao.columns:
    df_sifrao['Corrigido'] = df_sifrao[col].apply(retirar_sifrao)

pd.set_option('display.max_columns', None)
print(df_sifrao)

     Valor02  Corrigido
0   R$ 2.000     2000.0
1   R$ 3.500     3500.0
2  R$ 12.650    12650.0


In [128]:
def retirar_sigla(n):
    if pd.isna(n):
        return None
    if n.endswith('k'):
        return float (n.replace('k',' ')) * 1000
    if n.endswith('m'):
        return float(n.replace('m','')) * 100000


In [129]:
for col in df_sigla.columns:
    df_sigla['Corrigido'] = df_sigla[col].apply(retirar_sigla)

pd.set_option('display.max_columns',None)
print(df_sigla)

  Valor03  Corrigido
0      2k     2000.0
1    3.5k     3500.0
2  12.65k    12650.0


In [130]:
def retirar_ext(n):
    if pd.isna(n):
        return None
    try:
        traducao = translator.translate(n, src='pt', dest='en').text
        n = w2n.word_to_num(traducao)
        return float(n)
    except:
        pass

In [131]:
for col in df_ext.columns:
    df_ext['Corrigido'] = df_ext[col].apply(retirar_ext)


pd.set_option('display.max_columns',None)
print(df_ext)


                         Valor04  Corrigido
0                       dois mil     2000.0
1          três mil e quinhentos     3500.0
2  doze mil seicentos e ciquenta    12650.0


In [132]:
print(df_ext)
print('\n')
print(df_sifrao)
print('\n')
print(df_sigla)
print('\n')
print(df_ponto)

                         Valor04  Corrigido
0                       dois mil     2000.0
1          três mil e quinhentos     3500.0
2  doze mil seicentos e ciquenta    12650.0


     Valor02  Corrigido
0   R$ 2.000     2000.0
1   R$ 3.500     3500.0
2  R$ 12.650    12650.0


  Valor03  Corrigido
0      2k     2000.0
1    3.5k     3500.0
2  12.65k    12650.0


     Valor01  Corrigido
0   2.000,00     2000.0
1   3.500,00     3500.0
2  12.650,00    12650.0
