# Segmentación de clientes de un banco por Afinidad en Sklearn

## Estudiantes

* Denise Baldivieso
* Nicole Góngora
* Llubitza Linares
* Benjamin Soto
* Ricardo Valencia

## Objetivo del código: 
Segmentación de clientes de un banco alemán basada en su Monto de Crédito (Credit Amount), Edad (Age) y la Duración del crédito (Duration), mediante la implementación del algoritmo de Clustering por Afinidad en un código escrito en el lenguaje Python, con el uso de la librería de Machine Learning para análisis predictivo de datos Sklearn

## Código

### Inicialización de las librerías 

In [11]:
# Pandas es analizador de base de datos
import pandas as pd
# Numpy es un procesador de funciones matemáticas
import numpy as np
# Seaborn es un visualizador de datos estadísticos
import seaborn as sns
# MatplotLib es un visualizador de gráficas de datos
import matplotlib.pyplot as plt
# Sklearn es una librería de análisis predictivo de datos
# a base de Machine Learning. Necesitaremos un método de
# escalamiento y el de Propagación por afinidad para este
# proyecto
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import AffinityPropagation
# Warnings ayuda a filtrar las advertencias de instalación y 
# en este caso, ocultarlas
import warnings
warnings.filterwarnings("ignore")

### Importando la base de datos

In [7]:
data = pd.read_csv('german_credit_data.csv')
data.head()

Unnamed: 0.1,Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose
0,0,67,male,2,own,,little,1169,6,radio/TV
1,1,22,female,2,own,little,moderate,5951,48,radio/TV
2,2,49,male,1,own,little,,2096,12,education
3,3,45,male,2,free,little,little,7882,42,furniture/equipment
4,4,53,male,2,free,little,little,4870,24,car


### Realizando ajustes iniciales en la base de datos y verificando información

In [9]:
#Borrando la primera columna, que sólo es un índice
data.drop(data.columns[0], inplace=True, axis=1)
#Imprimiendo el tamaño de la base de datos, los valores nulos en cada columna, y los tipos de datos admitidos de cada una
print("Esta base de datos tiene {} entradas (clientes) and {} columnas (atributos).".format(data.shape[0],data.shape[1]))
print("Datos faltantes o nulos en cada columna:\n{}".format(data.isnull().sum()))
print("Tipos de datos de columna:\n{}".format(data.dtypes))

Esta base de datos tiene 1000 entradas (clientes) and 8 columnas (atributos).
Datos faltantes o nulos en cada columna:
Sex                   0
Job                   0
Housing               0
Saving accounts     183
Checking account    394
Credit amount         0
Duration              0
Purpose               0
dtype: int64
Tipos de datos de columna:
Sex                 object
Job                  int64
Housing             object
Saving accounts     object
Checking account    object
Credit amount        int64
Duration             int64
Purpose             object
dtype: object


In [10]:
#Imprimiendo el número de valores únicos por columna, y la información acerca de estos
n_unique = data.nunique()
print("Número de valores únicos por columna:\n{}".format(n_unique))
print("Valores únicos encontrados por columna:")
for col in data.select_dtypes(include=[object]):
    print(col,":", data[col].unique())

Número de valores únicos por columna:
Sex                   2
Job                   4
Housing               3
Saving accounts       4
Checking account      3
Credit amount       921
Duration             33
Purpose               8
dtype: int64
Valores únicos encontrados por columna:
Sex : ['male' 'female']
Housing : ['own' 'free' 'rent']
Saving accounts : [nan 'little' 'quite rich' 'rich' 'moderate']
Checking account : ['little' 'moderate' nan 'rich']
Purpose : ['radio/TV' 'education' 'furniture/equipment' 'car' 'business'
 'domestic appliances' 'repairs' 'vacation/others']
