## **GESTIÓN DE DATOS**

 **Nombre:** Juliana Castañeda Arredondo

### ***PROBLEMA 2***

##### **VIII) Realiza validaciones en un lenguaje de programación que cumplan con los criterios que estableciste.**

Cabe destacar que la falta de datos como lo son los datos vacíos o missing values pueden causar grandes fluctuaciones al momento de querer realizar nuestro pronóstico o simplemente graficar nuestros datos, es por ello que pueden tomarse ciertas medidas mediante la filtración y preparación de nuestra base de datos para un análisis más preciso. 


Es de suma importancia saber filtrar una base de datos de manera correcta. Es por ello que usaremos una base de datos específica para demostrar qué podemos hacer en cada situación y diferentes formas que podemos aplicar para estandarizar nuestros datos correctamente. 

In [41]:
# Importamos librerías básicas
import numpy  as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [42]:
# Dando de ejemplo del filtrado de una base de datos, tengo la siguiente la cual se adapta perfectamente para poder solucionar 
# las situaciones en caso de datos faltantes, inconsistentes, etc.
df_ful = pd.read_csv('https://raw.githubusercontent.com/JKiller505/Juliana-Castaneda-Arredondo/refs/heads/main/fulfillment%20avg.csv')

### Descripción de los datos

Los datos constan de 228 observaciones y 8 variables/columnas. La descripción de las variables es la siguiente:

* **loan:** ID de la sucursal
* **time:** tiempo de respuesta de desembolso del crédito
* **status:** 1 = desembolsado, 2 = solicitado (pendiente de dispersar el crédito)
* **age:** edad del cliente
* **sex:** sexo del cliente
* **sold:** proceso de liquidación del préstamo 0 = saldado, 1 = en proceso, 2 = retraso del pago
* **fulfill:** promedio de calificación del cumplimiento del cliente
* **payment:** pago mensual    

In [43]:
# Primero observamos de manera general como están ordenados nuestros datos
df_ful.head()

Unnamed: 0,loan,time,status,age,sex,sold,fulfill,payment
0,3.0,306,2,74,1,1.0,90.0,1175.0
1,3.0,455,2,68,1,0.0,90.0,1225.0
2,3.0,1010,1,56,1,0.0,90.0,
3,5.0,210,2,57,1,1.0,90.0,1150.0
4,1.0,883,2,60,1,0.0,100.0,


### Depuramos la base

Podemos observar varios detalles que a continuación filtraremos:

In [44]:
# Por practicidad, acomodamos la columna de status para que ahora sea 0 = desembolsado y 1 = solicitado
# De esta manera podemos contar cuántos créditos están pendientes de dispersar (de confirmar su desembolso)
df_ful['status'] = df_ful['status']-1

# Le restamos 1 a sexo para que ahora 0 sea los hombres y 1 las mujeres
df_ful['sex'] = df_ful['sex']-1

# No necesitamos la varible loan debido a que es el ID de la sucursal bancaria, entonces la eliminaremos
df_ful = df_ful.drop('loan', axis=1) # axis es donde viene el nombre de la columnas en la base de datos

Observamos el formato de nuestra base de datos

In [45]:
df_ful.head()

Unnamed: 0,time,status,age,sex,sold,fulfill,payment
0,306,1,74,0,1.0,90.0,1175.0
1,455,1,68,0,0.0,90.0,1225.0
2,1010,0,56,0,0.0,90.0,
3,210,1,57,0,1.0,90.0,1150.0
4,883,1,60,0,0.0,100.0,


In [46]:
# Ahora verificamos que las variables sean númericas 
df_ful.dtypes

time         int64
status       int64
age          int64
sex          int64
sold       float64
fulfill    float64
payment    float64
dtype: object

Podemos observar que la variable sold es decimal, pero debería de ser un número entero

In [47]:
# Eliminamos los valores faltantes o missing values
df_ful.isnull().sum() #-> para contar cuantos valores perdidos hay

# Hay 2 opciones que podmeos tomar en este caso 
# 1. Imputar (asignar) valores o 
# 2. Eliminar los valores perdidos
# Esto se decide dependiendo de el tamaño de la base y de los valores perdidos que tengamos

time        0
status      0
age         0
sex         0
sold        1
fulfill     1
payment    47
dtype: int64

Podemos observar que, por lo menos tenemos 47 valores perdidos, lo cual representa 1/4 de nuestra muestra. Debido a ello para no perder tantos datos decdimos asignarles nuevos los datos.

In [48]:
# Vamos a imputar los missing value con ayuda de un promedio y tenemos dos opciones:

# Opción 1
# df_ful['fulfill'] = df_ful['fulfill'].fillna(df_ful['fulfill'].mean())
# fillna va a cambiar los NA por lo que esta dento del paréntesis dentro de la función


# Opción 2
# Esta opción determina la media de los valores de la base de datos y los rellena
mean_payment = df_ful['payment'].mean()

df_ful['payment'] =df_ful['payment'].fillna(mean_payment)

In [49]:
# Observamos nuevamente la base de datos y vemos que los datos vacíos se han ido (Nan) en la columna payment
df_ful.head()

Unnamed: 0,time,status,age,sex,sold,fulfill,payment
0,306,1,74,0,1.0,90.0,1175.0
1,455,1,68,0,0.0,90.0,1225.0
2,1010,0,56,0,0.0,90.0,928.779006
3,210,1,57,0,1.0,90.0,1150.0
4,883,1,60,0,0.0,100.0,928.779006


In [50]:
# Observamos si quedan valores nulos en las otras columnas
df_ful.isnull().sum()

time       0
status     0
age        0
sex        0
sold       1
fulfill    1
payment    0
dtype: int64

Podemos observar que quedan muy pocos valores nulos en las columnas de sold y fulfill, por lo tanto, se eliminan.

In [51]:
# Eliminar missing values 
df_ful = df_ful.dropna()

In [52]:
# Verificamos nuevamente si quedan valores nulos en la base de datos
df_ful.isnull().sum()

time       0
status     0
age        0
sex        0
sold       0
fulfill    0
payment    0
dtype: int64

Ya que nuestros datos son consistentes y no hay valores vacíos, podemos continuar con el análisis de nuestra base de datos. Como conlusión también puedo añadir que es de suma importancia que nuestros datos sean obtenidos mediante fuentes confiables.