# Lectura de datos

## Descripción
Este conjunto de datos de UCI contiene cantidad crediticia, datos demográficos, historial de pagos y extractos de facturas de clientes de tarjetas de crédito en Taiwán desde abril de 2005 hasta septiembre de 2005. 
Finalmente esta investigación tiene como objetivo el caso de los pagos por incumplimiento de los clientes en Taiwán que es lo que se va a predecir.


In [102]:
import pandas as pd
import plotly.graph_objects as go

# Leer el archivo de dato csv
archivoDatos = pd.read_csv("default of credit card clients.csv").rename(columns={'PAY_0': 'PAY_1'})


## Mostrar datos

In [103]:
archivoDatos.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,1,20000,2,2,1,24,2,2,-1,-1,...,0,0,0,0,689,0,0,0,0,1
1,2,120000,2,2,2,26,-1,2,0,0,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,3,90000,2,2,2,34,0,0,0,0,...,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,4,50000,2,2,1,37,0,0,0,0,...,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,5,50000,1,2,1,57,-1,0,-1,0,...,20940,19146,19131,2000,36681,10000,9000,689,679,0


## Descripción de los datos
* ID: ID de cada cliente, variable numérica
* LIMIT_BAL: cantidad de credito otorgado en dolares de taiwan (variable númerica)
* SEX: Sexo, variable categórica (1  masculino, 2  femenino)
* EDUCATION: Nivel maximo eduacional, variable categórica (1 postgrado, 2 universidad, 3  bachillerato, 4 otros) 
* MARRIAGE: Estado civil, variable categórica (1 casado, 2 soltero, 3  otros)
* AGE: edad, variable numérica
* PAY_X: Historial de pagos pasados, variable numérica
* BILL_AMTX: Monto del estado de la cuenta  en dolares de taiwan, variable numérica
* PAY_AMTX: Monto del pago anterior en dolares de taiwan, variable numérica

https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients#


## Descriptiva Basica

In [104]:
# Generar estadisticas descriptivas
archivoDatos.describe()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
count,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,...,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0
mean,15000.5,167484.322667,1.603733,1.853133,1.551867,35.4855,-0.0167,-0.133767,-0.1662,-0.220667,...,43262.948967,40311.400967,38871.7604,5663.5805,5921.163,5225.6815,4826.076867,4799.387633,5215.502567,0.2212
std,8660.398374,129747.661567,0.489129,0.790349,0.52197,9.217904,1.123802,1.197186,1.196868,1.169139,...,64332.856134,60797.15577,59554.107537,16563.280354,23040.87,17606.96147,15666.159744,15278.305679,17777.465775,0.415062
min,1.0,10000.0,1.0,0.0,0.0,21.0,-2.0,-2.0,-2.0,-2.0,...,-170000.0,-81334.0,-339603.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,7500.75,50000.0,1.0,1.0,1.0,28.0,-1.0,-1.0,-1.0,-1.0,...,2326.75,1763.0,1256.0,1000.0,833.0,390.0,296.0,252.5,117.75,0.0
50%,15000.5,140000.0,2.0,2.0,2.0,34.0,0.0,0.0,0.0,0.0,...,19052.0,18104.5,17071.0,2100.0,2009.0,1800.0,1500.0,1500.0,1500.0,0.0
75%,22500.25,240000.0,2.0,2.0,2.0,41.0,0.0,0.0,0.0,0.0,...,54506.0,50190.5,49198.25,5006.0,5000.0,4505.0,4013.25,4031.5,4000.0,0.0
max,30000.0,1000000.0,2.0,6.0,3.0,79.0,8.0,8.0,8.0,8.0,...,891586.0,927171.0,961664.0,873552.0,1684259.0,896040.0,621000.0,426529.0,528666.0,1.0


### No existen datos nulos

In [105]:
# Verificamos si hay datos nulos
#Archivodatos.isnull().sum()
archivoDatos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype
---  ------                      --------------  -----
 0   ID                          30000 non-null  int64
 1   LIMIT_BAL                   30000 non-null  int64
 2   SEX                         30000 non-null  int64
 3   EDUCATION                   30000 non-null  int64
 4   MARRIAGE                    30000 non-null  int64
 5   AGE                         30000 non-null  int64
 6   PAY_1                       30000 non-null  int64
 7   PAY_2                       30000 non-null  int64
 8   PAY_3                       30000 non-null  int64
 9   PAY_4                       30000 non-null  int64
 10  PAY_5                       30000 non-null  int64
 11  PAY_6                       30000 non-null  int64
 12  BILL_AMT1                   30000 non-null  int64
 13  BILL_AMT2                   30000 non-null  int64
 14  BILL_A

## Preprocesamiento

### Columna EDUCATION, datos esperados en el rango [1 - 4]

In [106]:
archivoDatos['EDUCATION'].value_counts()

2    14030
1    10585
3     4917
5      280
4      123
6       51
0       14
Name: EDUCATION, dtype: int64

In [107]:
educationCountsByIndex = archivoDatos['EDUCATION'].value_counts()
index = educationCountsByIndex.index
values = educationCountsByIndex.values

fig = go.Figure([go.Bar(x = index, y = values)])
fig.show()
#https://plotly.com/python/bar-charts/
        


In [108]:
### se tomara la decision de eliminar la filas en las cuales los valores de educacion sean incorrentos considerando que la cantidad de valores incorrectos (0, 5, 6) considerando la documentacion son 345 de un total de 3000 elementos en la columna EDUCATION es decir tan sólo el 1.15% de los datos 

In [109]:
porBorrar = (archivoDatos['EDUCATION'] == 0)|(archivoDatos['EDUCATION'] == 6)|(archivoDatos['EDUCATION'] == 5)
archivoDatos = archivoDatos.drop(archivoDatos.EDUCATION[porBorrar].index.values, axis=0)

archivoDatos['EDUCATION'].value_counts()

2    14030
1    10585
3     4917
4      123
Name: EDUCATION, dtype: int64

#### Resultado final despues de limpiar la columna EDUCATION

In [110]:
educationCountsByIndex = archivoDatos['EDUCATION'].value_counts()
index = educationCountsByIndex.index
values = educationCountsByIndex.values

fig = go.Figure([go.Bar(x = index, y = values)])
fig.show()
#https://plotly.com/python/bar-charts/