In [26]:
import pandas as pd
import numpy as np

df_leads = pd.read_csv("/home/luisvinatea/Data/Gdrive/aquaculture/beraqua/processed/prospectos_exportadores/prospectos_2023.csv")

# Verify the loaded data
print(df_leads.head())
print(df_leads.tail())
print(df_leads.dtypes)
print(df_leads.isnull().sum())


        fecha  dia  mes   año           ruc  \
0  2023-12-31   31   12  2023  992838795001   
1  2023-12-31   31   12  2023  992838795001   
2  2023-12-31   31   12  2023  990033110001   
3  2023-12-30   30   12  2023  190152928001   
4  2023-12-30   30   12  2023  990608504001   

                                 probable_exportador pais_de_destino  \
0  procesadora_y_exportadora_de_camaron_procamaro...           china   
1  procesadora_y_exportadora_de_camaron_procamaro...           china   
2                sociedad_nacional_de_galapagos_c.a.           china   
3                        costecua_express_cia._ltda.   united_states   
4  operadora_y_procesadora_de_productos_marinos_o...          france   

      descripcion_producto_comercial  cantidad   us$_fob  us$_fob_unitario  \
0                  camaron_congelado  26000.00  300000.0             11.54   
1                  camaron_congelado  26000.00  300000.0             11.54   
2                  camaron_congelado  27109.04  10

In [27]:
# List of columns to drop
columns_to_drop = ["DEPOSITO COMERCIAL", "CODIGO DE LIBERACION", "CONTAINER", "FECHA DE EMBARQUE", 
                   "FECHA DE LLEGADA", "FECHA PAGO", "FACTURA", "DAU", "BULTOS", "NUMERO DE MANIFIESTO", 
                   "FECHA DE LIQUIDACIóN", "FECHA AFORO", "INCOTERM", "NUMERO DE CARGA FINAL", "FECHA DE SALIDA DE ALMACEN", "FECHA SALIDA", "TOTAL AJUSTES", "PUERTO DESEMBARQUE", "TOTAL OTROS AJUSTES", "VIA DE TRANSPORTE", "DESCRIPCION ARANCELARIA", "ESTADO MERCANCIA", "PROBABLE CONSIGNATARIO", "EMPRESA DE TRANSPORTE", "CUSTOMS AGENT", "AGENCIA DE CARGA", "NAVE", "NUMERO MANIFIESTO", "CONOCIMIENTO DE EMBARQUE", "DIRECCIóN CONSIGNATARIO","FECHA INGRESO SISTEMA", "REGIMEN ADUANERO", "REFRENDO", "ITEM", "UNIDAD DE MEDIDA", "ADUANA", "TIPO AFORO", "PARTIDA ARANCELARIA", "FECHA AFORO", "dia", "mes", "año"]

# Check which columns exist in df_leads
columns_to_drop_existing = [col for col in columns_to_drop if col in df_leads.columns]

# Drop only the existing columns
df_leads = df_leads.drop(columns=columns_to_drop_existing)

# Verify the changes
print(df_leads.isnull().sum())



fecha                             0
ruc                               0
probable_exportador               0
pais_de_destino                   0
descripcion_producto_comercial    0
cantidad                          0
us$_fob                           0
us$_fob_unitario                  0
peso_neto                         0
dtype: int64


In [13]:
# Replace missing values with NaN
df_leads = df_leads.fillna(np.nan)

# Verify the changes
print(df_leads.isnull().sum())


fecha                             0
ruc                               0
probable_exportador               0
pais_de_destino                   0
descripcion_producto_comercial    0
cantidad                          0
us$_fob                           0
peso_neto                         0
us$_fob_unitario                  1
dtype: int64


In [14]:
# List of columns to fill with 'generico' or 'desconocido'
columns_with_default_values = {
    'MARCA COMERCIAL': 'generico',
    'MARCA': 'generico',
    'NAVE': 'desconocido',
    'EMBARCADOR': 'desconocido',
    'PROBABLE EXPORTADOR': 'desconocido',
    'EMPRESA DE TRANSPORTE': 'desconocido',
    'PROBABLE IMPORTADOR': 'desconocido',
    'PAIS DE EMBARQUE': 'desconocido',
    'PAIS DE PROCEDENCIA': 'desconocido',
    'DESCRIPCION ARANCELARIA': 'desconocido',
    'DESCRIPCIóN ARANCELARIA': 'desconocido',
    'VIA DE TRANSPORTE': 'desconocido',
    'CIUDAD EMBARQUE': 'desconocido',
    'CONOCIMIENTO EMBARQUE': 'desconocido',
    'TIPO AFORO': 'desconocido',
    'DIRECCIóN CONSIGNATARIO': 'desconocido',
    'AGENCIA DE CARGA': 'desconocido',
    'CARACTERISTICAS': 'desconocido',
    'PRODUCTO': 'generico',
    'AñO FABRICACIóN': 'desconocido',
    'MODELO MERCADERIA': 'generico',
    'PAíS DE EMBARQUE' : 'desconocido'
}

# Loop through the dictionary and fill NaN values with the corresponding default value if the column exists
for column, default_value in columns_with_default_values.items():
    if column in df_leads.columns:
        df_leads[column] = df_leads[column].fillna(default_value)

# Fill missing numeric columns with the mean (if the column exists)
numeric_columns_to_fill = ['ADVALOREM', 'US$ FOB UNIT', 'us$_fob_unitario']
for column in numeric_columns_to_fill:
    if column in df_leads.columns:
        df_leads[column] = df_leads[column].fillna(df_leads[column].mean())

# Verify the changes
print(df_leads.isnull().sum())


fecha                             0
ruc                               0
probable_exportador               0
pais_de_destino                   0
descripcion_producto_comercial    0
cantidad                          0
us$_fob                           0
peso_neto                         0
us$_fob_unitario                  0
dtype: int64


In [44]:
# Convert column names to lowercase and replace spaces with underscores (snake_case)
df_leads.columns = df_leads.columns.str.lower().str.replace(' ', '_')

# Convert string data to lowercase and replace spaces with underscores (snake_case)
df_leads = df_leads.map(lambda x: x.lower().replace(' ', '_') if isinstance(x, str) else x)

# Verify the changes
print(df_leads.head())



   dia  mes   año            ruc  \
0   17    1  2023  1791959043001   
1   16    1  2023   991250913001   
2    9    1  2023  1791959043001   
3    4    1  2023  1791959043001   
4   31    1  2023   992911956001   

                            probable_exportador pais_de_destino  \
0          entregas_especiales_espentregas_s.a.   united_states   
1                               surexpress_s.a.   united_states   
2          entregas_especiales_espentregas_s.a.   united_states   
3          entregas_especiales_espentregas_s.a.   united_states   
4  exportadora_total_seafood_totalseafood_s._a.           china   

                      descripcion_producto_comercial  cantidad    us$_fob  \
0                               muestra_de_camarones       1.0       1.10   
1  pescado,_camaron,_concha,cangrejo_y_calamar_,_...       2.0      20.00   
2                               muestra_de_camarones       2.0       2.15   
3                muestra_de_atun_congelado_y_camaron       2.0       2.1

In [None]:
columns_to_inspect = ["marca", "marca_comercial", "modelo_mercaderia"]

# Loop through the specified columns and display unique values
for column in columns_to_inspect:
    print(f"Column: {column}")
    print(f"Unique values count: {df_leads[column].nunique()}")
    print(f"Unique values: {df_leads[column].unique()}")
    print("-" * 50)


In [None]:
# Define the mappings for the 'marca' column
marca_mapping = {
    'sin_marca': 'generico',
    'sweetwater-baldor': 'sweetwater',
    's_m': 'generico',
    'seetwater_baldor': 'sweetwater',
    '380v_60hz': 'generico',
    'kasco': 'kasko',
    'madam_trading': 'maofmadan',
    'pionner': 'pioneer',
    'rf020648315cn': 'generico',
    'rf014981436cn': 'generico',
    'maof-madan': 'maofmadan',
    'pioneer_group': 'pioneer',
    'pioneer_gruop': 'pioneer',
    'sin_modelo': 'generico',
    'aireadores_para_alimentar_animales': 'generico',
    'baldor': 'sweetwater',
    'oo03217825pec': 'generico',
    'aeration' : 'sun_asia_aeration',
    'sweetwater_baldor' : 'sweetwater',
    'sun_asia_aeration_intl_co_ltd' : 'sun_asia_aeration',
    '03706291835': 'generico',
    '0' : 'generico',
    'sm' : 'generico',
    '6159762685' : 'generico',
    's/m' : 'generico',
    'smarca' : 'generico',
    's/marca' : 'generico',
    'sin_maca' : 'generico',
    'sn' : 'generico',
    'madan' : 'maofmadan',
    'sin_model' : 'generico',
    'sin_modelo' : 'generico',
    'smodelo' : 'generico',
    's/modelo' : 'generico',
    'sin_modelo,' : 'generico',
    's/n' : 'generico',
    'aquapa' : 'beraqua',
    'n/m' : 'generico',
    's-m' : 'generico',
    's-n' : 'generico',
    'sinmarca' : 'generico',
    'nm' : 'generico',
    'sin_marca_comercial' : 'generico',
    'mv' : 'generico',
    'n-m' : 'generico'
}

# Apply the mapping to the 'marca' column
df_leads['marca'] = df_leads['marca'].replace(marca_mapping)
df_leads['marca_comercial'] = df_leads['marca_comercial'].replace(marca_mapping)
df_leads['modelo_mercaderia'] = df_leads['modelo_mercaderia'].replace(marca_mapping)

# Verify the changes
print(df_leads['marca'].unique())
print(df_leads['marca_comercial'].unique())
print(df_leads['modelo_mercaderia'].unique())


In [2]:
# Create the 'fecha' column by merging 'DIA', 'MES', and 'AÑO'
df_leads['fecha'] = pd.to_datetime(df_leads[['año', 'mes', 'dia']].astype(str).agg('-'.join, axis=1), format='%Y-%m-%d')

# Reorder columns so 'fecha' is the first column
columns_order = ['fecha'] + [col for col in df_leads.columns if col != 'fecha']
df_leads = df_leads[columns_order]

# Sort the DataFrame by 'fecha' in descending order (most recent to oldest)
df_leads = df_leads.sort_values(by='fecha', ascending=False)

# Drop the 'dia', 'mes', 'año' columns
df_clean = df_leads.drop(columns=['dia', 'mes', 'año'])

# Verify the changes
print(df_clean.head())
print(df_clean.tail())


         fecha           ruc                      probable_exportador  \
0   2017-10-31  990533652001                               estar_c.a.   
110 2017-10-31  990533652001                               estar_c.a.   
93  2017-10-31  991257721001  industrial_pesquera_santa_priscila_s.a.   
94  2017-10-31  991257721001  industrial_pesquera_santa_priscila_s.a.   
95  2017-10-31  991257721001  industrial_pesquera_santa_priscila_s.a.   

    pais_de_destino  descripcion_producto_comercial  cantidad    us$_fob  \
0     united_states  camaron_cola_congelado_quirola  10592.24   79685.67   
110   united_states  camaron_cola_congelado_quality   9812.34   79002.50   
93          vietnam   camarones_entero_y_cola_10-20  24383.33  280250.00   
94          vietnam   camarones_entero_y_cola_20-30   3850.00   42750.00   
95          vietnam   camarones_entero_y_cola_30-40   2566.67   27000.00   

     peso_neto  us$_fob_unitario  
0      9129.49          7.523023  
110    8459.61          8.051341  

In [9]:
print(df_clean.columns)


Index(['fecha', 'ruc', 'probable_exportador', 'pais_de_destino',
       'descripcion_producto_comercial', 'cantidad', 'us$_fob', 'peso_neto',
       'us$_fob_unitario'],
      dtype='object')


In [28]:
# Save the df_clean DataFrame as a CSV file
df_leads.to_csv('/home/luisvinatea/Data/Gdrive/aquaculture/beraqua/processed/prospectos_exportadores/prospectos_2023.csv', index=False)

print("File saved successfully.")



File saved successfully.
