# NOTEBOOK DATA WRANGLING
## In this notebook, you will be able to see the treatment applied to the data scraped in the first notebook.
## there are some null values, which weren't available on the 'compara online' website, I decided that the best way to complete this missing information was using chat GPT. This advantage made the process easier and faster. I ask chat GPT for searching that information in the official websites of each bank 

## Libraries 

In [122]:
# Importing the main libraries for data wrangling and analysis
import pandas as pd # Pandas is used to handle and manipulate tabular data (DataFrames)
import numpy as np # NumPy provides mathematical functions and efficient array operations

In [233]:
# Loading the dataset previously saved from the scraping process
# The file 'df_credit_cards.csv' contains all the credit cards information obtained in the first notebook
df = pd.read_csv('./df_credit_cards.csv')

In [235]:
# Display concise summary of the DataFrame
# Shows number of rows, columns, column names, non-null counts, and data types
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 8 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   nombre_tarjeta               234 non-null    object
 1   Tasa de interés mensual      234 non-null    object
 2   Ingreso mínimo               233 non-null    object
 3   Cuota de manejo              234 non-null    object
 4   Marca                        234 non-null    object
 5   Solicitar                    234 non-null    object
 6   Costo de avance en efectivo  181 non-null    object
 7   Tipo de tarjeta              141 non-null    object
dtypes: object(8)
memory usage: 14.8+ KB


In [237]:
# Count the number of missing (null) values per column
df.isnull().sum()

nombre_tarjeta                  0
Tasa de interés mensual         0
Ingreso mínimo                  1
Cuota de manejo                 0
Marca                           0
Solicitar                       0
Costo de avance en efectivo    53
Tipo de tarjeta                93
dtype: int64

In [239]:
# Display the first 5 rows of the dataset
df.head()

Unnamed: 0,nombre_tarjeta,Tasa de interés mensual,Ingreso mínimo,Cuota de manejo,Marca,Solicitar,Costo de avance en efectivo,Tipo de tarjeta
0,Tarjeta de Crédito Bancolombia Mastercard Joven,2.01%,$200.000,$15.490,Mastercard,Online,$6.900,Internacional
1,Tarjeta de Crédito Banco de Occidente Masterca...,No informado,$500.000,$ 16.300,Mastercard,Online,"$6,800",Internacional
2,Tarjeta de Crédito Banco de Occidente Visa Joven,No informado,$500.000,$ 16.300,Visa,Online,"$6,800",Internacional
3,Tarjeta de Crédito Davivienda Visa Liviana,"2,16%",1 SMLV,$20.000,Visa,Presencial,,Internacional
4,Tarjeta de Crédito Davivienda Diners Club Liviana,"2,16%",1 SMLV,$20.000,Diners Club,Presencial,,Internacional


# Treatment of the 'Tasa de interes mensual' column

In [242]:
# Get all unique values from the column 'Tasa de interés mensual'.
# This helps to identify repeated values, format inconsistencies, or missing data.
df['Tasa de interés mensual'].unique()

array([' 2.01%', ' No informado', ' 2,16%', ' 2.31%',
       ' Disponible en la web de Bancoomeva', ' 2,18%', ' 2,40%',
       ' 31,5100% E.A', ' 2.30821%', ' 2,31%', ' 2.52%', ' 2,29% M.V',
       ' 2.26%', ' 2.30%', ' 2,20%', ' 2.26% M.V'], dtype=object)

In [244]:
# Count the frequency of each unique value in the column 'Tasa de interés mensual'.
# This is useful to detect common values, outliers, or inconsistencies in the data.
df['Tasa de interés mensual'].value_counts()

Tasa de interés mensual
2.31%                                 64
2,40%                                 49
2,29% M.V                             19
No informado                          13
31,5100% E.A                          13
2,18%                                 11
2.30821%                              11
2,31%                                 10
2.52%                                  9
2,20%                                  8
2.30%                                  7
2.01%                                  6
2.26%                                  5
Disponible en la web de Bancoomeva     4
2,16%                                  3
2.26% M.V                              2
Name: count, dtype: int64

In [246]:
# Select all rows where the column 'Tasa de interés mensual' has the value 
# 'Disponible en la web de Bancoomeva'. 
# This helps to inspect specific cases of missing or special values in the dataset
df.loc[df['Tasa de interés mensual'] == ' Disponible en la web de Bancoomeva']

Unnamed: 0,nombre_tarjeta,Tasa de interés mensual,Ingreso mínimo,Cuota de manejo,Marca,Solicitar,Costo de avance en efectivo,Tipo de tarjeta
9,Tarjeta de Crédito Bancoomeva Coomeva Mastercard,Disponible en la web de Bancoomeva,No informado,Cero cuota de manejo por un año ($0),Mastercard,Online,$6.545,Internacional
10,Tarjeta de Crédito Bancoomeva Visa Platino,Disponible en la web de Bancoomeva,No informado,Cero cuota de manejo por un año ($0) Exonerac...,Visa,Online,$6.545,Internacional
11,Tarjeta de Crédito Bancoomeva Visa Oro,Disponible en la web de Bancoomeva,No informado,Cero cuota de manejo por un año ($0) Exonerac...,Visa,Online,$6.545,Internacional
12,Tarjeta de Crédito Bancoomeva Visa Clásica,Disponible en la web de Bancoomeva,No informado,Cero cuota de manejo por un año ($0) Exonerac...,Visa,Online,$6.545,Internacional


### Replacing missing value of Bancoomeva interest rate with 1.91

In [248]:
# Replace the missing value 'Disponible en la web de Bancoomeva' in the column 
# 'Tasa de interés mensual' with the numerical value 1.91
df['Tasa de interés mensual'] = df['Tasa de interés mensual'].replace(' Disponible en la web de Bancoomeva', 1.91)

### Checking which credit cards still have missing value interest rate 

In [250]:
# Display the 'nombre_tarjeta' values where the column 
# 'Tasa de interés mensual' is equal to ' No informado'
df[['nombre_tarjeta']].loc[df['Tasa de interés mensual'] == ' No informado']

Unnamed: 0,nombre_tarjeta
1,Tarjeta de Crédito Banco de Occidente Masterca...
2,Tarjeta de Crédito Banco de Occidente Visa Joven
74,Tarjeta de Crédito Banco de Occidente Visa Clá...
93,Tarjeta de Crédito Banco de Occidente LATAM Pa...
99,Tarjeta de Crédito Banco de Occidente Masterca...
100,Tarjeta de Crédito Banco de Occidente Visa Gold
116,Tarjeta de Crédito Banco de Occidente Masterca...
117,Tarjeta de Crédito Banco de Occidente Visa Pla...
118,Tarjeta de Crédito Banco de Occidente LATAM Pa...
136,Tarjeta de Crédito Banco de Occidente Masterca...


### Imputing the interest rate found for these credit cards 

In [253]:
# Replace the values in the column 'Tasa de interés mensual' with 2.24 
# for the rows with indices 1, 2, and 74
df.loc[[1,2,74], 'Tasa de interés mensual'] = 2.24

### I couldn't find the interest rate for the credit cards left, I'll create a new feature so that the model can identify it and it will be able to recognize this as a premium product or a credit card with personalized interest rate 

In [256]:
# Create a new column 'Tasa de interes no informada' that indicates whether 
# the interest rate in 'Tasa de interés mensual' is missing ('No informado')
# This will help the model identify credit cards with missing interest rates
df['Tasa de interes no informada'] = df['Tasa de interés mensual'] == ' No informado'

In [258]:
# Convert the boolean column 'Tasa de interes no informada' into integers:
# True (interest rate was present) becomes 0
# False (interest rate was missing) becomes 1
# This makes the feature numeric and suitable for modeling
df['Tasa de interes no informada'] = df['Tasa de interes no informada'].replace({False:1, True:0 }).astype(int)

  df['Tasa de interes no informada'] = df['Tasa de interes no informada'].replace({False:1, True:0 }).astype(int)


### Checking which interest rate values left to change 

In [260]:
# Count the frequency of each unique value in the column 'Tasa de interés mensual'.
df['Tasa de interés mensual'].value_counts()

Tasa de interés mensual
 2.31%           64
 2,40%           49
 2,29% M.V       19
 31,5100% E.A    13
 2.30821%        11
 2,18%           11
 2,31%           10
 No informado    10
 2.52%            9
 2,20%            8
 2.30%            7
 2.01%            6
 2.26%            5
1.91              4
2.24              3
 2,16%            3
 2.26% M.V        2
Name: count, dtype: int64

In [262]:
# Replace a specific value '31,5100% E.A' with the numeric value 2.27
df.loc[df['Tasa de interés mensual'] == ' 31,5100% E.A', 'Tasa de interés mensual'] = 2.27
# Replace the text 'No informado' with NaN to mark missing values properly
df['Tasa de interés mensual'] = df['Tasa de interés mensual'].replace(' No informado', np.nan)

# Clean and convert the column to numeric:
#    - Remove '%' symbols
#    - Remove 'M.V' text
#    - Replace commas with dots for decimal conversion
#    - Strip any extra spaces
#    - Convert the column to float type
df['Tasa de interés mensual'] = (
    df['Tasa de interés mensual'].astype(str).str.replace('%', '', regex=False).str.replace('M.V', '', regex=False).str.replace(',', '.', regex=False).str.strip().astype(float)
)


In [264]:
# Get all unique values from the column 'Tasa de interés mensual'.
df['Tasa de interés mensual'].unique()

array([2.01   , 2.24   , 2.16   , 2.31   , 1.91   , 2.18   , 2.4    ,
       2.27   , 2.30821, 2.52   , 2.29   , 2.26   , 2.3    , 2.2    ,
           nan])

In [266]:
# Round the values in the column 'Tasa de interés mensual' to 2 decimal places
df['Tasa de interés mensual'] = df['Tasa de interés mensual'].round(2)

In [268]:
# Get all unique values from the column 'Tasa de interés mensual'.
df['Tasa de interés mensual'].unique()

array([2.01, 2.24, 2.16, 2.31, 1.91, 2.18, 2.4 , 2.27, 2.52, 2.29, 2.26,
       2.3 , 2.2 ,  nan])

# Treatment of the 'ingreso minimo' column

In [147]:
# Get all unique values from the column 'Ingreso mínimo'.
df['Ingreso mínimo'].unique()

array([' $200.000', ' $500.000', ' 1 SMLV', ' 1 SMMLV', ' No informado',
       ' 1 y 1.5 SMMLV', ' 1 y 2 SMMLV', ' $400.000', ' No Informado',
       ' $1.000.000', ' 1 SMMLV.000', ' 1.5 SMMLV', ' 1.51 SMMLV',
       ' $1.562.484',
       ' Visualiza los datos de tu Tarjeta para comprar por internet',
       ' $1.800.000', ' $600.000', ' $2.500.000', ' $4.000.000',
       ' 6 SMMLV', ' $6.249.936', ' 10 SMMLV', nan, ' $9.374.904',
       ' $10.000.000', ' $5 Millones', ' $1.200.000', ' $2.100.000',
       ' 30 SMMLV', ' 60 SMMLV', ' $10Millones', ' 1 SMMLV / 5.2 SMMLV',
       ' $70 mil y $10 millones', ' 1SMLV', ' 1,5 SMLV / 2 SMLV'],
      dtype=object)

In [271]:
# Count the number of missing values in the column 'Ingreso mínimo'
df['Ingreso mínimo'].isnull().sum()

1

In [273]:
# Count the frequency of each unique value in the column 'Ingreso mínimo'.
df['Ingreso mínimo'].value_counts()

Ingreso mínimo
No informado                                                   105
1 SMMLV                                                         23
1,5 SMLV / 2 SMLV                                               17
1 SMLV                                                          15
No Informado                                                    13
$1.562.484                                                      10
6 SMMLV                                                          5
10 SMMLV                                                         4
30 SMMLV                                                         3
1.5 SMMLV                                                        3
$600.000                                                         2
$2.100.000                                                       2
$6.249.936                                                       2
$500.000                                                         2
1.51 SMMLV                                     

## The 'No informado' values are nearly 50% of the data, which is unrealistic, that percentage is unrealistic for premium products. I'll search the missing data manually 


In [275]:
# Select the credit cards where the 'Ingreso mínimo' is missing ('No informado')
# and get the unique names of these cards.
tarjetas_a_buscar_1 = df['nombre_tarjeta'].loc[df['Ingreso mínimo'] == ' No informado']
tarjetas_a_buscar_1.unique()

array(['Tarjeta de Crédito Bancoomeva Coomeva Mastercard',
       'Tarjeta de Crédito Bancoomeva Visa Platino',
       'Tarjeta de Crédito Bancoomeva Visa Oro',
       'Tarjeta de Crédito Bancoomeva Visa Clásica',
       'Tarjeta de Crédito Banco Popular Mastercard Cero',
       'Tarjeta de Crédito Davivienda Americanino',
       'Tarjeta de Crédito Davivienda NAF NAF',
       'Tarjeta de Crédito Davivienda Rifle',
       'Tarjeta de Crédito Davivienda Chevignon',
       'Tarjeta de Crédito Davivienda Mastercard Alianza Apple',
       'Tarjeta de Crédito Davivienda Visa Alianza Apple',
       'Tarjeta de Crédito Davivienda Avianca LifeMiles Clásica',
       'Tarjeta de Crédito AV Villas Mastercard Facilísima',
       'Tarjeta de Crédito AV Villas Portal 80 Gold',
       'Tarjeta de Crédito AV Villas Plaza de Las Américas Gold',
       'Tarjeta de Crédito AV Villas Plaza de Las Américas Clásica',
       'Tarjeta de Crédito AV Villas Auteco Gold',
       'Tarjeta de Crédito AV Villas Viv

## unfortunately, I couldn't find the missing values, so I decided to create a new feature. the data isn't available, possibly because the banks apply a special treatment with the clients from this products 
### I checked the official websites of each bank to confirm that the information isn't available

In [278]:
# Create a new boolean column 'ingreso minimo no informado' that indicates 
# whether the 'Ingreso mínimo' value is missing ('No informado' or 'No Informado')
df['ingreso minimo no informado'] = df['Ingreso mínimo'].isin([' No informado',' No Informado'])

In [280]:
# Count the frequency of each unique value in the column 'ingreso minimo no informado'.
df['ingreso minimo no informado'].value_counts()

ingreso minimo no informado
True     118
False    116
Name: count, dtype: int64

In [282]:
# Convert the boolean column 'ingreso minimo no informado' into integers:
# False (minimum income is missing) becomes 1
# True (minimum income is available) becomes 0
# This keeps the negative feature logic consistent and makes the column numeric for modeling
df['ingreso minimo no informado'] = df['ingreso minimo no informado'].replace({False: 1, True:0}).astype(int)

  df['ingreso minimo no informado'] = df['ingreso minimo no informado'].replace({False: 1, True:0}).astype(int)


In [284]:
# Select the credit cards where the 'Ingreso mínimo' column contains the text 
# 'Visualiza los datos de tu Tarjeta para comprar por internet'. 
df['nombre_tarjeta'].loc[df['Ingreso mínimo'] == ' Visualiza los datos de tu Tarjeta para comprar por internet']

87    Tarjeta de Crédito CMR Falabella
Name: nombre_tarjeta, dtype: object

In [286]:
# Get all unique values from the column 'Ingreso mínimo'.
df['Ingreso mínimo'].unique()

array([' $200.000', ' $500.000', ' 1 SMLV', ' 1 SMMLV', ' No informado',
       ' 1 y 1.5 SMMLV', ' 1 y 2 SMMLV', ' $400.000', ' No Informado',
       ' $1.000.000', ' 1 SMMLV.000', ' 1.5 SMMLV', ' 1.51 SMMLV',
       ' $1.562.484',
       ' Visualiza los datos de tu Tarjeta para comprar por internet',
       ' $1.800.000', ' $600.000', ' $2.500.000', ' $4.000.000',
       ' 6 SMMLV', ' $6.249.936', ' 10 SMMLV', nan, ' $9.374.904',
       ' $10.000.000', ' $5 Millones', ' $1.200.000', ' $2.100.000',
       ' 30 SMMLV', ' 60 SMMLV', ' $10Millones', ' 1 SMMLV / 5.2 SMMLV',
       ' $70 mil y $10 millones', ' 1SMLV', ' 1,5 SMLV / 2 SMLV'],
      dtype=object)

In [308]:
# Remove leading and trailing spaces from all values
df['Ingreso mínimo'] = df['Ingreso mínimo'].str.strip()
# Replace 'No informado' or 'No Informado' with NaN to mark missing values
df['Ingreso mínimo'] = df['Ingreso mínimo'].replace(['No informado', 'No Informado'], np.nan)
# Remove dollar signs ($) and dots (.) used as thousand separators,
# then strip any remaining spaces and keep the values as strings
df['Ingreso mínimo'] = df['Ingreso mínimo'].astype(str).str.replace('[\$.]', '', regex=True).str.strip()
#df['Ingreso mínimo'] = df['Ingreso mínimo']


  df['Ingreso mínimo'] = df['Ingreso mínimo'].astype(str).str.replace('[\$.]', '', regex=True).str.strip()


In [310]:
# Get all unique values from the column 'Ingreso mínimo'.
df['Ingreso mínimo'].unique()

array(['200000', '500000', '1 SMLV', '1 SMMLV', 'nan', '1 y 15 SMMLV',
       '1 y 2 SMMLV', '400000', '1000000', '1 SMMLV000', '15 SMMLV',
       '151 SMMLV', '1562484',
       'Visualiza los datos de tu Tarjeta para comprar por internet',
       '1800000', '600000', '2500000', '4000000', '6 SMMLV', '6249936',
       '10 SMMLV', '9374904', '10000000', '5 Millones', '1200000',
       '2100000', '30 SMMLV', '60 SMMLV', '10Millones',
       '1 SMMLV / 52 SMMLV', '70 mil y 10 millones', '1SMLV',
       '1,5 SMLV / 2 SMLV'], dtype=object)

In [338]:
# Replace specific text values in the 'Ingreso mínimo' column with their corresponding numeric amounts.
# This standardizes the minimum income values to be numeric and consistent for analysis or modeling.
df['Ingreso mínimo'] = df['Ingreso mínimo'].replace({'1 SMLV': 1423500, '1 SMMLV': 1423500,
                                                                      '1 y 15 SMMLV': 1423500, '1 y 2 SMMLV': 1423500, '1 SMMLV000': 1423500,
                                                                      '15 SMMLV': 2135250, '151 SMMLV': 2135250, 'Visualiza los datos de tu Tarjeta para comprar por internet': 1423500,
                                                                      '6 SMMLV': 8541000, '10 SMMLV': 14235000, '5 Millones': 5000000,
                                                                      '30 SMMLV': 42705000, '60 SMMLV': 85410000, '10Millones': 10000000,
                                                                      '1 SMMLV / 52 SMMLV': 1423500, '70 mil y 10 millones': 70000, '1SMLV': 1423500,
                                                                      '1,5 SMLV / 2 SMLV': 2135250}, regex=False)
# Convert the 'Ingreso mínimo' column to numeric values:
# - pd.to_numeric(..., errors='coerce') converts valid numeric strings to numbers and replaces invalid entries with NaN
df['Ingreso mínimo'] = pd.to_numeric(df['Ingreso mínimo'], errors='coerce')
# - .astype('Int64') ensures the column is of integer type while still allowing NaN values
df['Ingreso mínimo'] = df['Ingreso mínimo'].astype('Int64')

In [340]:
# Get all unique values from the column 'Ingreso mínimo'.
df['Ingreso mínimo'].unique()

<IntegerArray>
[  200000,   500000,  1423500,     <NA>,   400000,  1000000,  2135250,
  1562484,  1800000,   600000,  2500000,  4000000,  8541000,  6249936,
 14235000,  9374904, 10000000,  5000000,  1200000,  2100000, 42705000,
 85410000,    70000]
Length: 23, dtype: Int64

In [342]:
# Count the frequency of each unique value in the column 'Ingreso mínimo'.
df['Ingreso mínimo'].value_counts()

Ingreso mínimo
1423500     46
2135250     22
1562484     10
8541000      5
14235000     4
42705000     3
6249936      2
2100000      2
1200000      2
5000000      2
10000000     2
70000        2
500000       2
600000       2
400000       2
4000000      1
9374904      1
2500000      1
1800000      1
1000000      1
85410000     1
200000       1
Name: count, dtype: Int64

# Treatment of the 'Cuota de manejo' column 

In [345]:
# Display the first few rows of the dataframe to inspect the cleaned and transformed data
df.head()

Unnamed: 0,nombre_tarjeta,Tasa de interés mensual,Ingreso mínimo,Cuota de manejo,Marca,Solicitar,Costo de avance en efectivo,Tipo de tarjeta,Tasa de interes no informada,ingreso minimo no informado
0,Tarjeta de Crédito Bancolombia Mastercard Joven,2.01,200000,$15.490,Mastercard,Online,$6.900,Internacional,1,1
1,Tarjeta de Crédito Banco de Occidente Masterca...,2.24,500000,$ 16.300,Mastercard,Online,"$6,800",Internacional,1,1
2,Tarjeta de Crédito Banco de Occidente Visa Joven,2.24,500000,$ 16.300,Visa,Online,"$6,800",Internacional,1,1
3,Tarjeta de Crédito Davivienda Visa Liviana,2.16,1423500,$20.000,Visa,Presencial,,Internacional,1,1
4,Tarjeta de Crédito Davivienda Diners Club Liviana,2.16,1423500,$20.000,Diners Club,Presencial,,Internacional,1,1


In [347]:
# Get all unique values from the column 'Cuota de manejo'.
df['Cuota de manejo'].unique().

array([' $15.490', ' $ 16.300', ' $20.000', ' $30.790', ' $26.010',
       ' $24.710', ' Cero cuota de manejo por un año ($0)',
       ' Cero cuota de manejo por un año ($0) Exoneración Cuota de Manejo para tus tarjetas Bancoomeva',
       ' $109.680', ' $28.000', ' $ 0', ' $16.690', ' 6 meses a $0*',
       ' $34.962 M.V', ' $38.900', ' $34.900', ' $29.600', ' $17.900',
       ' $48.900', ' 50% de exoneracion*', ' $26.490', ' $26,990 M.V',
       ' $28,990 M.V', ' $29.380', ' $29.900', ' No informado',
       ' $27,990 M.V', ' $28,500 M.V', ' $37,990 M.V', ' $31,990 M.V',
       ' $27.400', ' $32,990', ' $ 25.900 MV', ' $26.533', ' $39,000 T.V',
       ' $ 26.533', ' $33.390*', ' $26.990', ' $31.600', ' $31,200 T.V',
       ' $31.100', ' $101.850', ' $31.000', ' $32.000', ' $37.000',
       ' $35.520', ' $34.700', ' $36.300', ' $44,800 T.V', ' $34.623',
       ' $40.260', ' $35.500', ' $39.080', ' Sin costo', ' No aplica',
       ' $45.000', ' $46.000', ' $43.900', ' $44.400', ' $39.4

In [353]:
# Clean the 'Cuota de manejo' column by:
# - Converting all values to strings
# - Removing dollar signs ($), dots, and commas
# - Stripping any leading or trailing spaces
# This prepares the column for numeric conversion and analysis
df['Cuota de manejo'] = df['Cuota de manejo'].astype(str).str.replace('[\$.,]', '', regex=True).str.strip()

  df['Cuota de manejo'] = df['Cuota de manejo'].astype(str).str.replace('[\$.,]', '', regex=True).str.strip()


In [425]:
# Get all unique values from the 'Cuota de manejo' column
unique = df['Cuota de manejo'].unique()

In [427]:
# Count the number of unique values in the 'Cuota de manejo' column manually
count_unique = 0
for i in unique:
    count_unique += 1

In [429]:
# Display the total number of unique values counted in the 'Cuota de manejo' column
count_unique

104

In [431]:
# Display the array of unique values from the 'Cuota de manejo' column
unique

array(['15490', '16300', '20000', '30790', '26010', '24710', 34000, 42000,
       38000, 32000, '109680', '28000', '0', '16690', 29400, '34962 MV',
       '38900', '34900', '29600', '17900', '48900', '50% de exoneracion*',
       38400, '26490', '26990 MV', '28990 MV', '29380', '29900',
       'No informado', '27990 MV', '28500 MV', '37990 MV', '31990 MV',
       '27400', '32990', '25900 MV', '26533', '39000 TV', 27590, 24590,
       '33390*', 40990, '26990', 26777, '31600', '31200 TV', '31100',
       '101850', '31000', '32000', '37000', '35520', '34700', '36300',
       '44800 TV', '34623', '40260', '35500', '39080', 'Sin costo',
       'No aplica', '45000', '46000', 48490, '43900', '44400', '39401 MV',
       '35000 MV', '49391 MV', '47980', '48410', '51890', '84600',
       '35400', '32680', '27740', '23150', '41990', '22633', '23990 MV',
       '21000', '16800', '22150', '40990', '26900', '47487', '29967 MV',
       '34407 MV', '52831 MV', '39956 MV', '11099 MV', '28600', '23400',

## Treatment of credit cards with a maintenance fee of $0 for six months
### Some of this data was collected manually or with the help of chat GPT

In [392]:
# Select the credit cards where the 'Cuota de manejo' (management fee) is '6 meses a 0*'
# and get the unique names of these cards
a_6_meses = df['nombre_tarjeta'].loc[df['Cuota de manejo'] == '6 meses a 0*']
a_6_meses.unique()

array(['Tarjeta de Crédito Bancolombia American Express Gold',
       'Tarjeta de Crédito Bancolombia Mastercard Oro',
       'Tarjeta de Crédito Bancolombia Mastercard Clásica',
       'Tarjeta de Crédito Bancolombia American Express Blue',
       'Tarjeta de Crédito Bancolombia Visa Platinum',
       'Tarjeta de Crédito Bancolombia Visa Oro',
       'Tarjeta de Crédito Bancolombia Avianca LifeMiles',
       'Tarjeta de Crédito Banco de Occidente Mastercard Clásica',
       'Tarjeta de Crédito Bancolombia Mastercard Black',
       'Tarjeta de Crédito Bancolombia American Express Platinum',
       'Tarjeta de Crédito Bancolombia Visa Infinite'], dtype=object)

In [394]:
# Update the 'Cuota de manejo' (maintenance fee) for a specific credit card 
# Use .loc to locate rows matching a condition and update a column with a specific value
df.loc[df['nombre_tarjeta'] == 'Tarjeta de Crédito Bancolombia Visa Clásica', 'Cuota de manejo'] = 29400
df.loc[df['nombre_tarjeta'] == 'Tarjeta de Crédito Bancolombia American Express Gold', 'Cuota de manejo'] = 38400
df.loc[df['nombre_tarjeta'] == 'Tarjeta de Crédito Bancolombia Mastercard Oro', 'Cuota de manejo'] = 27590
df.loc[df['nombre_tarjeta'] == 'Tarjeta de Crédito Bancolombia Mastercard Clásica', 'Cuota de manejo'] = 24590
df.loc[df['nombre_tarjeta'] == 'Tarjeta de Crédito Bancolombia American Express Blue', 'Cuota de manejo'] = 29400
df.loc[df['nombre_tarjeta'] == 'Tarjeta de Crédito Bancolombia Visa Platinum', 'Cuota de manejo'] = 38400
df.loc[df['nombre_tarjeta'] == 'Tarjeta de Crédito Bancolombia Visa Oro', 'Cuota de manejo'] = 27590
df.loc[df['nombre_tarjeta'] == 'Tarjeta de Crédito Bancolombia Avianca LifeMiles', 'Cuota de manejo'] = 40990
df.loc[df['nombre_tarjeta'] == 'Tarjeta de Crédito Banco de Occidente Mastercard Clásica', 'Cuota de manejo'] = 26777
df.loc[df['nombre_tarjeta'] == 'Tarjeta de Crédito Bancolombia Mastercard Black', 'Cuota de manejo'] = 48490
df.loc[df['nombre_tarjeta'] == 'Tarjeta de Crédito Bancolombia American Express Platinum', 'Cuota de manejo'] = 48490
df.loc[df['nombre_tarjeta'] == 'Tarjeta de Crédito Bancolombia Visa Infinite', 'Cuota de manejo'] = 48490

In [25]:
# Get all unique values from the column 'Cuota de manejo'.
df['Cuota de manejo'].unique()

NameError: name 'df' is not defined

## Treatment of credit cards with a maintenance fee of $0 for a year

In [407]:
# Select credit cards where the 'Cuota de manejo' indicates zero fee for one year
# Combine multiple filtered series into a single object using pd.concat
un_año = df['nombre_tarjeta'].loc[df['Cuota de manejo'] == 'Cero cuota de manejo por un año (0)']
un_año_1 = df['nombre_tarjeta'].loc[df['Cuota de manejo'] == 'Cero cuota de manejo por un año (0) Exoneración Cuota de Manejo para tus tarjetas Bancoomeva']
un_año_2 = pd.concat([un_año, un_año_1])

In [409]:
# Display the combined list of credit cards with a zero maintenance fee for one year
un_año_2

9     Tarjeta de Crédito Bancoomeva Coomeva Mastercard
10          Tarjeta de Crédito Bancoomeva Visa Platino
11              Tarjeta de Crédito Bancoomeva Visa Oro
12          Tarjeta de Crédito Bancoomeva Visa Clásica
Name: nombre_tarjeta, dtype: object

In [415]:
# Dictionary mapping credit card names to their corresponding maintenance fees
# This will be used to update the 'Cuota de manejo' column in the dataframe
coutas_año = {'Tarjeta de Crédito Bancoomeva Coomeva Mastercard': 34000,
             'Tarjeta de Crédito Bancoomeva Visa Platino': 42000,
             'Tarjeta de Crédito Bancoomeva Visa Oro': 38000,
             'Tarjeta de Crédito Bancoomeva Visa Clásica' : 32000}
# Update the 'Cuota de manejo' (maintenance fee) for multiple credit cards at once
# by iterating over a dictionary of card names and their corresponding fees
for name, valor in coutas_año.items():
    df.loc[df['nombre_tarjeta'] == name, 'Cuota de manejo'] = valor

In [417]:
# Get all unique values from the column 'Cuota de manejo'.
df['Cuota de manejo'].unique()

array(['15490', '16300', '20000', '30790', '26010', '24710', 34000, 42000,
       38000, 32000, '109680', '28000', '0', '16690', 29400, '34962 MV',
       '38900', '34900', '29600', '17900', '48900', '50% de exoneracion*',
       38400, '26490', '26990 MV', '28990 MV', '29380', '29900',
       'No informado', '27990 MV', '28500 MV', '37990 MV', '31990 MV',
       '27400', '32990', '25900 MV', '26533', '39000 TV', 27590, 24590,
       '33390*', 40990, '26990', 26777, '31600', '31200 TV', '31100',
       '101850', '31000', '32000', '37000', '35520', '34700', '36300',
       '44800 TV', '34623', '40260', '35500', '39080', 'Sin costo',
       'No aplica', '45000', '46000', 48490, '43900', '44400', '39401 MV',
       '35000 MV', '49391 MV', '47980', '48410', '51890', '84600',
       '35400', '32680', '27740', '23150', '41990', '22633', '23990 MV',
       '21000', '16800', '22150', '40990', '26900', '47487', '29967 MV',
       '34407 MV', '52831 MV', '39956 MV', '11099 MV', '28600', '23400',

## Treatment of credit cards with 50% off maintenance fee

In [435]:
# Select credit cards where the 'Cuota de manejo' indicates a 50% waived maintenance fee
df['nombre_tarjeta'].loc[df['Cuota de manejo'] == '50% de exoneracion*']

38    Tarjeta de Crédito Bancolombia Sufi
Name: nombre_tarjeta, dtype: object

In [440]:
# Use .loc to locate a specific credit card and update its 'Cuota de manejo' (maintenance fee) with a given value
df.loc[df['nombre_tarjeta'] == 'Tarjeta de Crédito Bancolombia Sufi', 'Cuota de manejo'] = 28690

In [442]:
# Get all unique values from the column 'Cuota de manejo'.
df['Cuota de manejo'].unique()

array(['15490', '16300', '20000', '30790', '26010', '24710', 34000, 42000,
       38000, 32000, '109680', '28000', '0', '16690', 29400, '34962 MV',
       '38900', '34900', '29600', '17900', '48900', 28690, 38400, '26490',
       '26990 MV', '28990 MV', '29380', '29900', 'No informado',
       '27990 MV', '28500 MV', '37990 MV', '31990 MV', '27400', '32990',
       '25900 MV', '26533', '39000 TV', 27590, 24590, '33390*', 40990,
       '26990', 26777, '31600', '31200 TV', '31100', '101850', '31000',
       '32000', '37000', '35520', '34700', '36300', '44800 TV', '34623',
       '40260', '35500', '39080', 'Sin costo', 'No aplica', '45000',
       '46000', 48490, '43900', '44400', '39401 MV', '35000 MV',
       '49391 MV', '47980', '48410', '51890', '84600', '35400', '32680',
       '27740', '23150', '41990', '22633', '23990 MV', '21000', '16800',
       '22150', '40990', '26900', '47487', '29967 MV', '34407 MV',
       '52831 MV', '39956 MV', '11099 MV', '28600', '23400',
       '0 mensu

## Treatment of credit cards with unknown maintenance fee

In [451]:
# Select the unique credit card names where the 'Cuota de manejo' (maintenance fee) is not informed
df['nombre_tarjeta'].loc[df['Cuota de manejo'] == 'No informado'].unique()

array(['Tarjeta de Crédito Banco Caja Social Círculo de suboficiales de las FFMM Mastercard',
       'Tarjeta de Crédito Banco Caja Social Círculo de suboficiales de las FFMM Visa',
       'Tarjeta de Crédito Banco Caja Social Comfacesar',
       'Tarjeta de Crédito GNB Sudameris Visa Corporativa'], dtype=object)

In [453]:
# Dictionary mapping credit cards with missing maintenance fee to their corresponding values
coutas_no_informadas = {'Tarjeta de Crédito Banco Caja Social Círculo de suboficiales de las FFMM Mastercard':4000,
                       'Tarjeta de Crédito Banco Caja Social Círculo de suboficiales de las FFMM Visa':4000,
                       'Tarjeta de Crédito Banco Caja Social Comfacesar': 13900,
                       'Tarjeta de Crédito GNB Sudameris Visa Corporativa': 30400}

# Iterate over the dictionary to update the 'Cuota de manejo' column for each card
for name, valor in coutas_no_informadas.items():
    df.loc[df['nombre_tarjeta'] == name, 'Cuota de manejo'] = valor 

In [455]:
# Get all unique values from the column 'Cuota de manejo'.
df['Cuota de manejo'].unique()

array(['15490', '16300', '20000', '30790', '26010', '24710', 34000, 42000,
       38000, 32000, '109680', '28000', '0', '16690', 29400, '34962 MV',
       '38900', '34900', '29600', '17900', '48900', 28690, 38400, '26490',
       '26990 MV', '28990 MV', '29380', '29900', 4000, 13900, '27990 MV',
       '28500 MV', '37990 MV', '31990 MV', '27400', '32990', '25900 MV',
       '26533', '39000 TV', 27590, 24590, '33390*', 40990, '26990', 26777,
       '31600', '31200 TV', '31100', '101850', '31000', '32000', '37000',
       '35520', '34700', '36300', '44800 TV', '34623', '40260', '35500',
       '39080', 'Sin costo', 'No aplica', '45000', '46000', 48490,
       '43900', '44400', '39401 MV', '35000 MV', '49391 MV', '47980',
       '48410', '51890', '84600', '35400', '32680', '27740', '23150',
       '41990', '22633', '23990 MV', '21000', '16800', '22150', '40990',
       '26900', '47487', 30400, '29967 MV', '34407 MV', '52831 MV',
       '39956 MV', '11099 MV', '28600', '23400', '0 mensuale

## Treatment of credit cards where the maintenance fee doesn't apply


In [460]:
# Select the unique credit card names where the 'Cuota de manejo' (maintenance fee) does not apply
df['nombre_tarjeta'].loc[df['Cuota de manejo'] == 'No aplica'].unique()

array(['Tarjeta de Crédito GNB Sudameris Mastercard GNB Premier',
       'Tarjeta de Crédito GNB Sudameris Visa Signature'], dtype=object)

In [462]:
# Use .loc to locate specific credit cards and update their 'Cuota de manejo' (maintenance fee) with given values
df.loc[df['nombre_tarjeta'] == 'Tarjeta de Crédito GNB Sudameris Mastercard GNB Premier', 'Cuota de manejo'] = 0
df.loc[df['nombre_tarjeta'] == 'Tarjeta de Crédito GNB Sudameris Visa Signature', 'Cuota de manejo'] = 47000

In [464]:
# Get all unique values from the column 'Cuota de manejo'.
df['Cuota de manejo'].unique()

array(['15490', '16300', '20000', '30790', '26010', '24710', 34000, 42000,
       38000, 32000, '109680', '28000', '0', '16690', 29400, '34962 MV',
       '38900', '34900', '29600', '17900', '48900', 28690, 38400, '26490',
       '26990 MV', '28990 MV', '29380', '29900', 4000, 13900, '27990 MV',
       '28500 MV', '37990 MV', '31990 MV', '27400', '32990', '25900 MV',
       '26533', '39000 TV', 27590, 24590, '33390*', 40990, '26990', 26777,
       '31600', '31200 TV', '31100', '101850', '31000', '32000', '37000',
       '35520', '34700', '36300', '44800 TV', '34623', '40260', '35500',
       '39080', 'Sin costo', 0, 47000, '45000', '46000', 48490, '43900',
       '44400', '39401 MV', '35000 MV', '49391 MV', '47980', '48410',
       '51890', '84600', '35400', '32680', '27740', '23150', '41990',
       '22633', '23990 MV', '21000', '16800', '22150', '40990', '26900',
       '47487', 30400, '29967 MV', '34407 MV', '52831 MV', '39956 MV',
       '11099 MV', '28600', '23400', '0 mensuales',

## Treatment of unique values in 'Cuota de manejo', converting string values to numeric

In [32]:
# Strip whitespace and ensure the 'Cuota de manejo' column is treated as string
df['Cuota de manejo'] = df['Cuota de manejo'].astype(str).str.strip()
# Replace specific string patterns and anomalies with numeric values or standardized representations
df['Cuota de manejo'] = df['Cuota de manejo'].replace({'34962 MV': 34962,
                                                      '26990 MV': 26990,
                                                       '28990 MV': 28990,
                                                       '27990 MV': 27990,
                                                       '28500 MV': 28500,
                                                       '37990 MV': 37990,
                                                       '31990 MV': 31990,
                                                       '25900 MV': 25900,
                                                       '39000 TV': 39000,
                                                       '33390*': 33390,
                                                       '31200 TV': 31200,
                                                       '44800 TV': 44800,
                                                       '39401 MV': 39401,
                                                       '35000 MV': 35000,
                                                       '49391 MV': 49391,
                                                       '23990 MV': 23990,
                                                       '29967 MV': 29967,
                                                       '34407 MV': 34407,
                                                       '52831 MV': 52831,
                                                       '39956 MV': 39956,
                                                       '11099 MV': 11099,
                                                      '0 mensuales': 0,
                                                      'Sin costo': 0,
                                                      '*': ''})
# Convert the column to numeric, coercing any remaining non-numeric values to NaN
df['Cuota de manejo'] = pd.to_numeric(df['Cuota de manejo'], errors='coerce')

NameError: name 'df' is not defined

In [511]:
# Get all unique values from the column 'Cuota de manejo'.
df['Cuota de manejo'].unique()

array([ 15490,  16300,  20000,  30790,  26010,  24710,  34000,  42000,
        38000,  32000, 109680,  28000,      0,  16690,  29400,  34962,
        38900,  34900,  29600,  17900,  48900,  28690,  38400,  26490,
        26990,  28990,  29380,  29900,   4000,  13900,  27990,  28500,
        37990,  31990,  27400,  32990,  25900,  26533,  39000,  27590,
        24590,  33390,  40990,  26777,  31600,  31200,  31100, 101850,
        31000,  37000,  35520,  34700,  36300,  44800,  34623,  40260,
        35500,  39080,  47000,  45000,  46000,  48490,  43900,  44400,
        39401,  35000,  49391,  47980,  48410,  51890,  84600,  35400,
        32680,  27740,  23150,  41990,  22633,  23990,  21000,  16800,
        22150,  26900,  47487,  30400,  29967,  34407,  52831,  39956,
        11099,  28600,  23400,  53990,  47990,  36990,  49990,  25700,
        26700,  27700,  27660], dtype=int64)

# Treatment of the 'Marca' column

In [517]:
# Get all unique values from the column 'Marca'.
df['Marca'].unique()

array([' Mastercard', ' Visa', ' Diners Club', ' American Express',
       ' Tarjetas Privadas', ' MasterCard', ' Tarjetas privadas'],
      dtype=object)

In [533]:
# Convert the 'Marca' column to string, remove leading/trailing whitespace, and standardize all text to lowercase
df['Marca'] = df['Marca'].astype(str).str.strip().str.lower()

In [535]:
# Get all unique values from the column 'Marca'.
df['Marca'].unique()

array(['mastercard', 'visa', 'diners club', 'american express',
       'tarjetas privadas'], dtype=object)

# Treatment of the 'Solicitar' column

In [542]:
# Display the first few rows of the dataframe to inspect the cleaned and transformed data
df.head()

Unnamed: 0,nombre_tarjeta,Tasa de interés mensual,Ingreso mínimo,Cuota de manejo,Marca,Solicitar,Costo de avance en efectivo,Tipo de tarjeta,Tasa de interes no informada,ingreso minimo no informado
0,Tarjeta de Crédito Bancolombia Mastercard Joven,2.01,200000,15490,mastercard,Online,$6.900,Internacional,1,1
1,Tarjeta de Crédito Banco de Occidente Masterca...,2.24,500000,16300,mastercard,Online,"$6,800",Internacional,1,1
2,Tarjeta de Crédito Banco de Occidente Visa Joven,2.24,500000,16300,visa,Online,"$6,800",Internacional,1,1
3,Tarjeta de Crédito Davivienda Visa Liviana,2.16,1423500,20000,visa,Presencial,,Internacional,1,1
4,Tarjeta de Crédito Davivienda Diners Club Liviana,2.16,1423500,20000,diners club,Presencial,,Internacional,1,1


In [546]:
# Get all unique values from the column 'Solicitar'.
df['Solicitar'].unique()

array([' Online', ' Presencial', ' No', ' Sí'], dtype=object)

In [548]:
# Count and display the frequency of each unique value in the 'Solicitar' column
df['Solicitar'].value_counts()

Solicitar
Online        86
Sí            68
No            50
Presencial    30
Name: count, dtype: int64

In [554]:
# Define a function to standardize availability values:
# - Converts the input to lowercase text
# - Returns 1 if the value indicates availability ('online', 'presencial', 'sí')
# - Returns 0 for all other cases
def disponibilidad(valor):
    valor = str(valor).strip().lower()
    if valor in ['online', 'presencial', 'sí']:
        return 1
    else:
        return 0

# Apply the function to the column 'Solicitar' and create a new binary column 'Disponibilidad'
df['Disponibilidad'] = df['Solicitar'].apply(disponibilidad)

In [558]:
df['Solicitar']= df['Solicitar'].replace({' Sí': 'ambas', ' No': np.nan})

# Treatment of the 'Costo de avance en efectivo' column

In [562]:
# Display the first few rows of the dataframe to inspect the cleaned and transformed data
df.head()

Unnamed: 0,nombre_tarjeta,Tasa de interés mensual,Ingreso mínimo,Cuota de manejo,Marca,Solicitar,Costo de avance en efectivo,Tipo de tarjeta,Tasa de interes no informada,ingreso minimo no informado,Disponibilidad
0,Tarjeta de Crédito Bancolombia Mastercard Joven,2.01,200000,15490,mastercard,Online,$6.900,Internacional,1,1,1
1,Tarjeta de Crédito Banco de Occidente Masterca...,2.24,500000,16300,mastercard,Online,"$6,800",Internacional,1,1,1
2,Tarjeta de Crédito Banco de Occidente Visa Joven,2.24,500000,16300,visa,Online,"$6,800",Internacional,1,1,1
3,Tarjeta de Crédito Davivienda Visa Liviana,2.16,1423500,20000,visa,Presencial,,Internacional,1,1,1
4,Tarjeta de Crédito Davivienda Diners Club Liviana,2.16,1423500,20000,diners club,Presencial,,Internacional,1,1,1


In [566]:
# Get all unique values from the column 'Costo de avance en efectivo'.
df['Costo de avance en efectivo'].unique()

array([' $6.900', ' $6,800', nan, ' $5.560', ' $6.545', ' $10.520',
       ' $ 0', ' $11,099', ' $10.500', ' $14,900', ' $8,571', ' $0',
       ' $26.990'], dtype=object)

In [582]:
# Selects the unique credit card names where the column 'Costo de avance en efectivo' has missing values (NaN)
# the object was called 'tarjetas_davivienda' because the missing values correspond to Davivienda bank cards
tarjetas_davivienda = df['nombre_tarjeta'].loc[pd.isna(df['Costo de avance en efectivo'])].unique()

In [584]:
# For all rows where the card name is in 'tarjetas_davivienda' and the column 'Costo de avance en efectivo' is missing (NaN),
# assigns the value 6400 to 'Costo de avance en efectivo'.
df.loc[df['nombre_tarjeta'].isin(tarjetas_davivienda) & df['Costo de avance en efectivo'].isna(), 'Costo de avance en efectivo'] = 6400

In [857]:
# Cleans the 'Costo de avance en efectivo' column by converting values to strings, 
# removing currency symbols ($, . ,), and stripping extra spaces.
df['Costo de avance en efectivo'] = df['Costo de avance en efectivo'].astype(str).str.replace('[\$.,]', '', regex=True).str.strip()

  df['Costo de avance en efectivo'] = df['Costo de avance en efectivo'].astype(str).str.replace('[\$.,]', '', regex=True).str.strip()


In [861]:
# Counts the number of missing values (NaN) in each column of the DataFrame.
df.isnull().sum()

nombre_tarjeta                    0
Tasa de interés mensual          10
Ingreso mínimo                  119
Cuota de manejo                   0
Marca                             0
Solicitar                        50
Costo de avance en efectivo       0
Tipo de tarjeta                   0
Tasa de interes no informada      0
ingreso minimo no informado       0
Disponibilidad                    0
dtype: int64

In [863]:
# Get all the unique values present in the column 'Costo de avance en efectivo'.
df['Costo de avance en efectivo'].unique()

array(['6900', '6800', '6400', '5560', '6545', '10520', '0', '11099',
       '10500', '14900', '8571', '26990'], dtype=object)

# Treatment of the 'Tipo de tarjeta' column 


In [589]:
# Get all unique values from the column 'Tipo de tarjeta'.
df['Tipo de tarjeta'].unique()

array([' Internacional', ' Nacional', nan], dtype=object)

In [768]:
# Selects the credit card names where the column 'Tipo de tarjeta' has missing values (NaN) 
# and stores them in the object 'tipo_nulo'.
tipo_nulo = df['nombre_tarjeta'].loc[df['Tipo de tarjeta'].isna()]
tipo_nulo

29                 Tarjeta de Crédito BBVA Visa Platinum
30                      Tarjeta de Crédito BBVA Visa Oro
31                  Tarjeta de Crédito BBVA Visa Clásica
32                Tarjeta de Crédito BBVA Visa Congelada
34              Tarjeta de Crédito BBVA Mastercard Black
35           Tarjeta de Crédito BBVA Mastercard Platinum
36               Tarjeta de Crédito BBVA Mastercard Gold
37           Tarjeta de Crédito BBVA Mastercard Standard
41        Tarjeta de Crédito AV Villas Portal 80 Clásica
42           Tarjeta de Crédito AV Villas Auteco Clásica
43     Tarjeta de Crédito AV Villas Mastercard Facilí...
51           Tarjeta de Crédito AV Villas Portal 80 Gold
52     Tarjeta de Crédito AV Villas Plaza de Las Amér...
53     Tarjeta de Crédito AV Villas Plaza de Las Amér...
54              Tarjeta de Crédito AV Villas Auteco Gold
55     Tarjeta de Crédito AV Villas Vivamos el Tiempo...
56     Tarjeta de Crédito AV Villas Vivamos el Tiempo...
57     Tarjeta de Crédito AV Vi

### After checking which credit cards don't have 'Tipo de tarjeta' value. I realized there are too many missing values. therefore, I'm going to save the credit card names into a list and then apply a function, it makes the process easier and faster 

In [742]:
# Create empty lists to store credit card names by their corresponding bank
itau = []
BBVA = []
Av_villas = []
cencosud = []
finandina = []
gnb = []
falabella = []
Scotiabank = []
davivienda = []
codensa = []

# Loop through each credit card name in 'tipo_nulo' (those with missing 'Tipo de tarjeta')
for i in tipo_nulo:
    # Check the bank name inside the card name and append it to the corresponding list
    if 'Itaú' in i:
        itau.append(i)
    elif 'BBVA' in i:
        BBVA.append(i)
    elif 'AV Villas' in i:
        Av_villas.append(i)
    elif 'Cencosud' in i:
        cencosud.append(i)
    elif 'Finandina' in i:
        finandina.append(i)
    elif 'GNB' in i:
        gnb.append(i)
    elif 'Falabella' in i:
        falabella.append(i)
    elif 'Scotiabank' in i:
        Scotiabank.append(i)
    elif 'Davivienda' in i:
        davivienda.append(i)
    elif 'CODENSA' in i:
        codensa.append(i)
        

In [794]:
Av_villas

['Tarjeta de Crédito AV Villas Portal 80 Clásica',
 'Tarjeta de Crédito AV Villas Auteco Clásica',
 'Tarjeta de Crédito AV Villas Mastercard Facilísima',
 'Tarjeta de Crédito AV Villas Portal 80 Gold',
 'Tarjeta de Crédito AV Villas Plaza de Las Américas Gold',
 'Tarjeta de Crédito AV Villas Plaza de Las Américas Clásica',
 'Tarjeta de Crédito AV Villas Auteco Gold',
 'Tarjeta de Crédito AV Villas Vivamos el Tiempo Platino',
 'Tarjeta de Crédito AV Villas Vivamos el Tiempo Gold',
 'Tarjeta de Crédito AV Villas Vivamos el Tiempo Clásica',
 'Tarjeta de Crédito AV Villas Mastercard Platinum',
 'Tarjeta de Crédito AV Villas Visa Platinum',
 'Tarjeta de Crédito AV Villas Mastercard Gold',
 'Tarjeta de Crédito AV Villas Visa Gold',
 'Tarjeta de Crédito AV Villas Mastercard Clásica',
 'Tarjeta de Crédito AV Villas Visa Clásica',
 'Tarjeta de Crédito AV Villas Mastercard Black',
 'Tarjeta de Crédito AV Villas Ventura Plaza Clásica',
 'Tarjeta de Crédito AV Villas Ventura Plaza Gold']

In [746]:
# Define a function to assign a card type based on a single keyword in the card's name
def tipo_tarjeta(nombre, tipo):
    # Loop through all card names with missing 'Tipo de tarjeta'
    for i in tipo_nulo:
        # If the given keyword is found inside the card name
        if nombre in i:
            # Update the column 'Tipo de tarjeta' with the provided type
            df.loc[df['nombre_tarjeta'] == i, 'Tipo de tarjeta'] = tipo 

# Define a function to assign a card type based on multiple possible keywords
def tipo_tarjeta_listas(listas_nombre, tipo):
    # Loop through all card names with missing 'Tipo de tarjeta'
    for i in tipo_nulo:
        # Loop through each keyword in the given list
        for nombre in listas_nombre:
             # If any of the keywords is found inside the card name
            if nombre in i:
                # Update the column 'Tipo de tarjeta' with the provided type
                df.loc[df['nombre_tarjeta'] == i, 'Tipo de tarjeta'] = tipo

### I had some errors when I just used the bank name, so I nearly had to use the full credit card name. Finally, the function works properly

In [748]:
tipo_tarjeta('Itaú', ' Internacional')

In [776]:
tipo_tarjeta_listas(['BBVA Visa Gold', 'BBVA Visa Platinum', 'BBVA Visa Black', 'BBVA Visa Oro', 'BBVA Mastercard Black', 'BBVA Mastercard Platinum',' BBVA Mastercard Gold',], ' Internacional')
tipo_tarjeta_listas(['BBVA Visa Clásica', 'BBVA Visa Congelada', 'BBVA Mastercard Standard', 'BBVA Mastercard Heroes', 'Tarjeta BBVA World Vision'], ' Nacional')

In [846]:
tipo_tarjeta_listas(['AV Villas Mastercard Black', 'AV Villas Mastercard Platinum', 'AV Villas Portal 80 Gold', 'AV Villas Plaza de Las Américas Gold', 'AV Villas Auteco Gold', 'AV Villas Vivamos el Tiempo Platino',
                    'AV Villas Vivamos el Tiempo Gold', 'AV Villas Visa Platinum', 'AV Villas Mastercard Gold', 'AV Villas Visa Gold', 'AV Villas Ventura Plaza Gold'], ' Internacional')
tipo_tarjeta_listas(['AV Villas 80 Clásica', 'AV Villas Mastercard Facilísima', 'AV Villas Experto', 'AV Villas Portal 80 Clásica', 'AV Villas Plaza de Las Américas Clásica',
                    'AV Villas Vivamos el Tiempo Clásica', 'AV Villas Mastercard Clásica', 'AV Villas Visa Clásica', 'AV Villas Ventura Plaza Clásica', 'AV Villas Auteco Clásica'], ' Nacional')

In [754]:
tipo_tarjeta_listas(['Cencosud Básica', 'Cencosud Clásica'], ' Nacional')
tipo_tarjeta_listas(['Cencosud Platinum', 'Cencosud Gold', 'Cencosud Infinite'], ' Internacional')

In [756]:
tipo_tarjeta('Finandina', ' Internacional')

In [758]:
tipo_tarjeta('GNB', ' Internacional')

In [760]:
tipo_tarjeta('Falabella', ' Internacional')
tipo_tarjeta('Scotiabank', ' Internacional')
tipo_tarjeta_listas(['Davivienda Clubes', 'Crédito Davivienda'], ' Internacional')
tipo_tarjeta('Móvil Davivienda', ' Nacional')
tipo_tarjeta('CODENSA MasterCard', ' Internacional')
tipo_tarjeta_listas(['CODENSA Amarilla', 'CODENSA Verde'], ' Nacional')

In [848]:
df.isnull().sum()

nombre_tarjeta                    0
Tasa de interés mensual          10
Ingreso mínimo                  119
Cuota de manejo                   0
Marca                             0
Solicitar                        50
Costo de avance en efectivo       0
Tipo de tarjeta                   0
Tasa de interes no informada      0
ingreso minimo no informado       0
Disponibilidad                    0
dtype: int64

## Clean dataframe ready for EDA and ML Training

In [869]:
df.head()

Unnamed: 0,nombre_tarjeta,Tasa de interés mensual,Ingreso mínimo,Cuota de manejo,Marca,Solicitar,Costo de avance en efectivo,Tipo de tarjeta,Tasa de interes no informada,ingreso minimo no informado,Disponibilidad
0,Tarjeta de Crédito Bancolombia Mastercard Joven,2.01,200000,15490,mastercard,Online,6900,Internacional,1,1,1
1,Tarjeta de Crédito Banco de Occidente Masterca...,2.24,500000,16300,mastercard,Online,6800,Internacional,1,1,1
2,Tarjeta de Crédito Banco de Occidente Visa Joven,2.24,500000,16300,visa,Online,6800,Internacional,1,1,1
3,Tarjeta de Crédito Davivienda Visa Liviana,2.16,1423500,20000,visa,Presencial,6400,Internacional,1,1,1
4,Tarjeta de Crédito Davivienda Diners Club Liviana,2.16,1423500,20000,diners club,Presencial,6400,Internacional,1,1,1


In [873]:
# Displays a concise summary of the DataFrame: number of rows and columns, column names, data types, and count of non-null values per column
# checking types of the each column 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 11 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   nombre_tarjeta                234 non-null    object 
 1   Tasa de interés mensual       224 non-null    float64
 2   Ingreso mínimo                115 non-null    Int64  
 3   Cuota de manejo               234 non-null    int64  
 4   Marca                         234 non-null    object 
 5   Solicitar                     184 non-null    object 
 6   Costo de avance en efectivo   234 non-null    int64  
 7   Tipo de tarjeta               234 non-null    object 
 8   Tasa de interes no informada  234 non-null    int32  
 9   ingreso minimo no informado   234 non-null    int32  
 10  Disponibilidad                234 non-null    int64  
dtypes: Int64(1), float64(1), int32(2), int64(3), object(4)
memory usage: 18.6+ KB


In [871]:
# Converts the column 'Costo de avance en efectivo' to numeric type; non-convertible values are replaced with NaN
df['Costo de avance en efectivo'] = pd.to_numeric(df['Costo de avance en efectivo'], errors='coerce')

In [875]:
# Exports the DataFrame to a CSV file named 'Dataset_credit_cards_df.csv' without including the index column
df.to_csv('Dataset_credit_cards_df.csv', index=False)