In [2]:
#Importaciones
import numpy as np
import pandas as pd

In [3]:
#Abrimos archivos csv
df_bank = pd.read_csv("./DatosProyecto/bank-additional.csv", index_col=0)
df_customer = pd.read_excel("./DatosProyecto/customer-details.xlsx")

In [4]:
#Vemos df_bank
df_bank.sample(3)

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,...,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
32315,49.0,blue-collar,MARRIED,basic.4y,0.0,1.0,0.0,cellular,87,1,...,-1.8,92893,-462,1313.0,50991,no,11-junio-2018,39.752,-115.625,89ab5b7a-e927-49e0-836e-81ba7551368d
8955,48.0,management,MARRIED,university.degree,0.0,0.0,1.0,telephone,94,1,...,1.4,94465,-418,4866.0,52281,no,17-octubre-2018,39.316,-85.217,d85447e1-2079-4a7d-923b-2e2662449b75
7161,39.0,blue-collar,DIVORCED,,,0.0,1.0,telephone,145,2,...,1.1,93994,-364,,5191,no,12-septiembre-2015,40.294,-84.884,b3589bfb-7a14-410f-917e-1a5c00e9ac82


In [5]:
#Limpieza df_bank
"""
Con el siguiente comando veo que hay bastantes nulos, sobre todo en euribor y default,
df_bank.isnull().sum()
podríamos plantearnos quitarlo pero no considero que haga falta, ya que hay mucha muestra 
incluso quitando todas esas filas que contienen algún nulo o duplicado

"""

# Borrar nulos
df = df_bank.dropna()

# Borrar duplicados
df = df.drop_duplicates()

#Cambiamos nombre de columna
df = df.rename(columns={'y': 'suscribed'})

#Pasar de float a entero
df["age"] = df["age"].astype(int)

#Pasar de float a bool
df['default'] = df['default'].astype(bool)
df['housing'] = df['housing'].astype(bool)
df['loan'] = df['loan'].astype(bool)

#Pasar de string a date
#Al estar los meses en español da error pandas, los necesita en inglés
meses = {
    'enero': 'January', 'febrero': 'February', 'marzo': 'March',
    'abril': 'April', 'mayo': 'May', 'junio': 'June',
    'julio': 'July', 'agosto': 'August', 'septiembre': 'September',
    'octubre': 'October', 'noviembre': 'November', 'diciembre': 'December'
}
#Cambiamos los meses por inglés para que pandas no tenga problema
df['date'] = df['date'].replace(meses, regex=True)
df['date'] = pd.to_datetime(df['date'], format='%d-%B-%Y')

df['suscribed'] = df['suscribed'].map({'yes': True, 'no': False})

#Corregimos strings
df['education'] = df['education'].str.replace('.', ' ', regex=False).str.title()
df['job'] = df['job'].str.replace('.', '', regex=False).str.title()
df['marital'] = df['marital'].str.title()
df['contact'] = df['contact'].str.title() #No lo cambio a bool porque lo veo más entendible de esta manera

df

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,...,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,suscribed,date,latitude,longitude,id_
2,37,Services,Married,High School,False,True,False,Telephone,226,1,...,1.1,93994,-364,4857,5191,False,2019-02-15,34.939,-94.847,3f9f49b5-e410-4948-bf6e-f9244f04918b
6,59,Admin,Married,Professional Course,False,False,False,Telephone,139,1,...,1.1,93994,-364,4857,5191,False,2019-01-25,31.456,-94.561,5e3483e5-236d-437d-8351-541f9d09b9dd
8,24,Technician,Single,Professional Course,False,True,False,Telephone,380,1,...,1.1,93994,-364,4857,5191,False,2018-01-18,44.632,-85.811,87b79988-2be5-419d-88f4-56655852c565
12,29,Blue-Collar,Single,High School,False,False,True,Telephone,137,1,...,1.1,93994,-364,4857,5191,False,2016-06-14,30.047,-112.472,66a752e2-b2f1-440c-9a8f-cc3b10d74dd0
13,57,Housemaid,Divorced,Basic 4Y,False,True,False,Telephone,293,1,...,1.1,93994,-364,4857,5191,False,2015-08-25,28.873,-70.852,54b1ea8a-a909-45d9-9562-775b64ac9c29
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14067,29,Blue-Collar,Single,Basic 9Y,False,False,False,Cellular,822,2,...,1.4,93918,-427,4963,52281,True,2017-08-03,34.971,-70.539,4c72e852-475d-4fb7-81d6-a7dd467cb4f0
906,31,Blue-Collar,Single,Basic 9Y,False,False,False,Telephone,143,1,...,1.1,93994,-364,4856,5191,False,2018-11-27,36.571,-117.094,13351101-1058-4284-be71-d4804d87c01f
9885,24,Self-Employed,Single,University Degree,False,True,False,Telephone,40,1,...,1.4,94465,-418,4959,52281,False,2017-05-11,37.680,-110.602,d245f268-6c67-470c-9387-abf731c50fe7
37852,26,Student,Single,High School,False,False,False,Cellular,133,1,...,-2.9,92201,-314,0825,50762,False,2016-06-01,29.871,-86.270,12d4e85c-39d9-4193-a27d-a58e7af15a43


In [6]:
#Limpieza df_customer
#Vemos df_customer
df_customer.sample(5)

#No tiene campos nulos ni duplicados
df_customer.isnull().sum()
df_customer.isna().sum()
df_customer.duplicated().sum()

#Las columnas tienen buen formato
df_customer.dtypes

#No veo que le haga falta limpieza

Unnamed: 0                    int64
Income                        int64
Kidhome                       int64
Teenhome                      int64
Dt_Customer          datetime64[ns]
NumWebVisitsMonth             int64
ID                           object
dtype: object

In [30]:
#Análisis de datos df_bank y visualización en tablas
df.shape #21728 filas

#Información acerca de la edad
df["age"].describe()

#Cantidad de ...
# Profesiones
df.groupby('job').size()

# Estado civil
df.groupby('marital').size()

#Porcentaje suscritos a newsletter
df['suscribed'].value_counts(normalize=True) * 100

#Porcentaje prestamos hipotecarios
df['housing'].value_counts(normalize=True) * 100

#Agrupado por edad
df['age_group'] = pd.cut(df['age'], bins=[0, 25, 35, 45, 60, 100], 
                         labels=['<25', '26-35', '36-45', '46-60', '60+'])

housing_pct = df.groupby(['age_group', 'housing']).size().unstack()
housing_pct = housing_pct.div(housing_pct.sum(axis=1), axis=0) * 100
print(housing_pct)

#Agrupado por trabajo
grouped = df.groupby(['job', 'housing']).size().unstack()
percent = grouped.div(grouped.sum(axis=1), axis=0) * 100
print(percent)

#Porcentaje otros prestamos 
df['loan'].value_counts(normalize=True) * 100

#Agrupado por edad
df['age_group'] = pd.cut(df['age'], bins=[0, 25, 35, 45, 60, 100], 
                         labels=['<25', '26-35', '36-45', '46-60', '60+'])

housing_pct = df.groupby(['age_group', 'loan']).size().unstack()
housing_pct = housing_pct.div(housing_pct.sum(axis=1), axis=0) * 100
print(housing_pct)

#Agrupado por trabajo
grouped = df.groupby(['job', 'loan']).size().unstack()
percent = grouped.div(grouped.sum(axis=1), axis=0) * 100
print(percent)



housing        False      True 
age_group                      
<25        46.122860  53.877140
26-35      45.831440  54.168560
36-45      45.896147  54.103853
46-60      45.655315  54.344685
60+        41.425819  58.574181
housing            False      True 
job                                
Admin          45.369625  54.630375
Blue-Collar    45.755643  54.244357
Entrepreneur   44.125326  55.874674
Housemaid      47.701149  52.298851
Management     47.009063  52.990937
Retired        43.873979  56.126021
Self-Employed  46.270544  53.729456
Services       47.781065  52.218935
Student        47.806005  52.193995
Technician     44.904294  55.095706
Unemployed     44.380952  55.619048
loan           False      True 
age_group                      
<25        83.585096  16.414904
26-35      83.802817  16.197183
36-45      84.680981  15.319019
46-60      85.180599  14.819401
60+        83.236994  16.763006
loan               False      True 
job                                
Admin       

  housing_pct = df.groupby(['age_group', 'housing']).size().unstack()
  housing_pct = df.groupby(['age_group', 'loan']).size().unstack()


In [47]:
#Análisis df_customer
#Análisis de ingresos
df_customer['Income'].describe()
#La desviación estandar es alta por lo que hay bastante variedad

#Análisis de niños/adolescentes en el hogar
df_customer['Kidhome'].describe()
df_customer['Teenhome'].describe()

count    20115.000000
mean         0.999503
std          0.815298
min          0.000000
25%          0.000000
50%          1.000000
75%          2.000000
max          2.000000
Name: Teenhome, dtype: float64

In [None]:
#Descripción de los datos
#El promedio de edad es de 39 años
#La mayoría de trabajos son Admin, Blue-Collar y Technician, en orden de mayor a menor
#La mitad de los clientes se encuentran casados, algo menos de la mitad están solteros y son pocos los divorciados, además en promedio tienen 1 hijo
#1 de cada 10 están suscritos a la newsletter, teniendo en cuenta los datos anteriores se debería hacer contenido adecuado a adultos en matrimonio, normalmente del área empresarial / ciencias

#La mitad tienen un préstamo hipotecario y 1 de cada 6 tienen otro tipo de préstamo
#Ambos tipos de préstamos se distribuyen prácticamente igual por edades y trabajos, puede que se estén haciendo préstamos muy generales y se debería focalizar un poco más en el tipo de cliente
#que hemos visto que tenemos, adultos casados

#Hay mucha variedad de ingresos respecto a los clientes

#Conclusión, se aplican estrategias muy generales, hay ingresos muy variados, tenemos más matrimonios que solteros y divorciados, por lo tanto en la newsletter como en los préstamos
#se debería aplicar estrategias de marketing más adecuadas a estos clientes, matrimonios con hijos únicos, e intentar adecuarnos más a una clase social para poder atraer más clientes,
#ya que respecto a los ingresos el banco tiene clientes muy variados



housing    False  True 
age_group              
<25        46.12  53.88
26-35      45.83  54.17
36-45      45.90  54.10
46-60      45.66  54.34
60+        41.43  58.57


  housing_pct = df.groupby(['age_group', 'housing']).size().unstack()
