# Dataframes
**Dataframe:** Es una estructura bidireccional donde las columnas son variables y las filas son registros u observaciones

In [1]:
# Librería para la manipulación de dataframes
import pandas as pd 

## Convertir de diccionario a dataframes

- Tener en cuenta que las ``claves`` son las ``columnas`` del dataframe
- Los ``valores`` son los registros o ``filas`` 

In [2]:
diccionario = {'variable_1': [20,30,40,10,50],
               'variable_2': [2,4,5,6,7]}
df_1 = pd.DataFrame(diccionario)
df_1

Unnamed: 0,variable_1,variable_2
0,20,2
1,30,4
2,40,5
3,10,6
4,50,7


<div class="alert alert-block alert-warning">
    <b>Nota:</b> Por defecto, al momento de crear un dataframe se genera la indexación que comienza desde 0
</div>

## Convertir de lista a dataframes

In [3]:
nombre_columnas = ['ID', 'Precio','Cantidad']
lista = [['XC01', 20000, 3],
         ['XC02',30000, 2],
         ['XC03',10000, 4]]

In [4]:
df_2 = pd.DataFrame(data = lista, 
                 columns= nombre_columnas,
                 index = ['Propiedad '+str(x+1) for x in range(len(lista))])
df_2

Unnamed: 0,ID,Precio,Cantidad
Propiedad 1,XC01,20000,3
Propiedad 2,XC02,30000,2
Propiedad 3,XC03,10000,4


### Usar la función zip () 

In [5]:
nombre_columnas = ['ID', 'Precio','Cantidad']
variable_1 = ['XC01', 'XC02', 'XC03']
variable_2 = [20000, 30000, 10000]
variable_3 = [3,2,4]

lista_completa = list(zip(variable_1, variable_2, variable_3))
lista_completa  

[('XC01', 20000, 3), ('XC02', 30000, 2), ('XC03', 10000, 4)]

In [6]:
df_zip = pd.DataFrame(data = lista_completa, columns= nombre_columnas)
df_zip

Unnamed: 0,ID,Precio,Cantidad
0,XC01,20000,3
1,XC02,30000,2
2,XC03,10000,4


## Modificar la indexación

In [7]:
df_1 

Unnamed: 0,variable_1,variable_2
0,20,2
1,30,4
2,40,5
3,10,6
4,50,7


In [8]:
df_1.index = ['Propiedad '+str(x+1) for x in range(df_1.shape[0]) ]

In [9]:
df_1

Unnamed: 0,variable_1,variable_2
Propiedad 1,20,2
Propiedad 2,30,4
Propiedad 3,40,5
Propiedad 4,10,6
Propiedad 5,50,7


## Manipulación de columnas
Podemos manipular de diversas formas:
* Mencionando el nombre de la columna ``df['nombre_columna']``
* Usando el método ``.columns[]``
* Usando el método ``.loc[]`` $\longrightarrow$ cuando llamamos por nombre o etiqueta
* Usnado el método ``.iloc[]``$\longrightarrow$ cuando llamamos por su posición

In [10]:
import pandas as pd

df = pd.read_csv('data/diabetes.csv')
df.head() #usamos para visualizar las primera 5 filas

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [11]:
df[['Age']] #Seleccionamos toda la columna 'Age'

Unnamed: 0,Age
0,50
1,31
2,32
3,21
4,33
...,...
763,63
764,27
765,30
766,47


### Uso de columns

In [12]:
df.columns[2] # Hacemos el llamado del nombre de la columna con indexación 2

'BloodPressure'

In [13]:
df[df.columns[[0,1,2]]]

Unnamed: 0,Pregnancies,Glucose,BloodPressure
0,6,148,72
1,1,85,66
2,8,183,64
3,1,89,66
4,0,137,40
...,...,...,...
763,10,101,76
764,2,122,70
765,5,121,72
766,1,126,60


### Uso de Loc

El método ``.loc`` tiene la siguiente sintaxis:

``
df.loc[rango de filas, rango de columnas (nombres)]
``

In [14]:
df.loc[:,['Age']]

Unnamed: 0,Age
0,50
1,31
2,32
3,21
4,33
...,...
763,63
764,27
765,30
766,47


In [15]:
df.loc[:,['Age','BMI']]

Unnamed: 0,Age,BMI
0,50,33.6
1,31,26.6
2,32,23.3
3,21,28.1
4,33,43.1
...,...,...
763,63,32.9
764,27,36.8
765,30,26.2
766,47,30.1


In [16]:
df.loc[1:5,['Age','BMI']]

Unnamed: 0,Age,BMI
1,31,26.6
2,32,23.3
3,21,28.1
4,33,43.1
5,30,25.6


In [17]:
df.loc[1:2,:]

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1


In [18]:
df.loc[[20],:]

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
20,3,126,88,41,235,39.3,0.704,27,0


In [19]:
df.loc[[20],['Age','BMI']]

Unnamed: 0,Age,BMI
20,27,39.3


### Uso de Iloc

In [20]:
df.iloc[:,[7]]

Unnamed: 0,Age
0,50
1,31
2,32
3,21
4,33
...,...
763,63
764,27
765,30
766,47


In [21]:
df.iloc[:,[7,8]]

Unnamed: 0,Age,Outcome
0,50,1
1,31,0
2,32,1
3,21,0
4,33,1
...,...,...
763,63,0
764,27,0
765,30,0
766,47,1


In [22]:
df.iloc[1:5,[7,8]]

Unnamed: 0,Age,Outcome
1,31,0
2,32,1
3,21,0
4,33,1


In [23]:
df.iloc[[20],[7,8]]

Unnamed: 0,Age,Outcome
20,27,0


<div class="alert alert-block alert-info">
    <b>zip:</b> Usamos zip para poder enumerar las columnas de un dataframe 
</div>

In [24]:
list(zip(df.index,df.columns))

[(0, 'Pregnancies'),
 (1, 'Glucose'),
 (2, 'BloodPressure'),
 (3, 'SkinThickness'),
 (4, 'Insulin'),
 (5, 'BMI'),
 (6, 'DiabetesPedigreeFunction'),
 (7, 'Age'),
 (8, 'Outcome')]

## Manipulación de filas
Podemos manipular de diversas formas:
* Usando el método ``.loc[]`` $\longrightarrow$ cuando llamamos por nombre o etiqueta
* Usnado el método ``.iloc[]``$\longrightarrow$ cuando llamamos por su posición

In [25]:
df

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


In [26]:
df.index = ['Propiedad '+ str(x) for x in range(df.shape[0])]

### Uso de Loc

In [27]:
df.loc[['Propiedad 763'],:] #mostramos la fila con indexación 763

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
Propiedad 763,10,101,76,48,180,32.9,0.171,63,0


### Uso de Iloc

In [28]:
df.iloc[[763]] #mostramos la última fila

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
Propiedad 763,10,101,76,48,180,32.9,0.171,63,0


## Extraer elemento

In [29]:
df.loc['Propiedad 763', 'Glucose']

101

In [30]:
df.iloc[763,1]

101

In [31]:
df.loc[['Propiedad 762'],['Glucose']]

Unnamed: 0,Glucose
Propiedad 762,89


## Métodos en dataframes

### shape: Tamaño de un dataframe 

In [32]:
df_1

Unnamed: 0,variable_1,variable_2
Propiedad 1,20,2
Propiedad 2,30,4
Propiedad 3,40,5
Propiedad 4,10,6
Propiedad 5,50,7


El método ``.shape`` genera una tupla ``(# filas, # columnas)`` que tiene un dataframe

In [33]:
df_1.shape

(5, 2)

In [34]:
filas = df_1.shape[0] # número de filas
columnas = df_1.shape[1] # número de columnas
print('El número de filas es: {} \nEl número de columnas es: {}'.format(filas, columnas))

El número de filas es: 5 
El número de columnas es: 2


In [35]:
df_1.size # método para saber cuántos datos tiene la tabla(dataframe)

10

### copy: Duplicar un dataframe

<div class="alert alert-block alert-danger">
<b>Advertencia:</b> Evitar asignar un dataframe a una variable, ya que modificar la nueva variable implicaría modificar el dataframe original
</div>

In [36]:
df_copia = df.copy()

In [37]:
df_copia

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
Propiedad 0,6,148,72,35,0,33.6,0.627,50,1
Propiedad 1,1,85,66,29,0,26.6,0.351,31,0
Propiedad 2,8,183,64,0,0,23.3,0.672,32,1
Propiedad 3,1,89,66,23,94,28.1,0.167,21,0
Propiedad 4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
Propiedad 763,10,101,76,48,180,32.9,0.171,63,0
Propiedad 764,2,122,70,27,0,36.8,0.340,27,0
Propiedad 765,5,121,72,23,112,26.2,0.245,30,0
Propiedad 766,1,126,60,0,0,30.1,0.349,47,1


### rename (columns = ): Renombrar columnas

In [38]:
df_copia.rename(columns= {'Glucose': 'Glucosa',
                         'BMI': 'IMC',
                         'Age': 'Edad',
                         'Outcome': 'Target',
                         'DiabetesPedigreeFunction': 'Beta'},
                inplace = True)
df_copia

Unnamed: 0,Pregnancies,Glucosa,BloodPressure,SkinThickness,Insulin,IMC,Beta,Edad,Target
Propiedad 0,6,148,72,35,0,33.6,0.627,50,1
Propiedad 1,1,85,66,29,0,26.6,0.351,31,0
Propiedad 2,8,183,64,0,0,23.3,0.672,32,1
Propiedad 3,1,89,66,23,94,28.1,0.167,21,0
Propiedad 4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
Propiedad 763,10,101,76,48,180,32.9,0.171,63,0
Propiedad 764,2,122,70,27,0,36.8,0.340,27,0
Propiedad 765,5,121,72,23,112,26.2,0.245,30,0
Propiedad 766,1,126,60,0,0,30.1,0.349,47,1


### rename(index = ): renombrar indexación

In [39]:
df_copia.rename(index = {'Propiedad 0': 'Laura Ramirez'}, inplace = True)
df_copia

Unnamed: 0,Pregnancies,Glucosa,BloodPressure,SkinThickness,Insulin,IMC,Beta,Edad,Target
Laura Ramirez,6,148,72,35,0,33.6,0.627,50,1
Propiedad 1,1,85,66,29,0,26.6,0.351,31,0
Propiedad 2,8,183,64,0,0,23.3,0.672,32,1
Propiedad 3,1,89,66,23,94,28.1,0.167,21,0
Propiedad 4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
Propiedad 763,10,101,76,48,180,32.9,0.171,63,0
Propiedad 764,2,122,70,27,0,36.8,0.340,27,0
Propiedad 765,5,121,72,23,112,26.2,0.245,30,0
Propiedad 766,1,126,60,0,0,30.1,0.349,47,1


### columns

In [40]:
df_copia.columns  = ['Embarazo', 'Glucosa', 'Presión', 'Grosor_piel', 'Insulina', 'IMC', 'Beta', 'Edad','Target']

In [41]:
df_copia

Unnamed: 0,Embarazo,Glucosa,Presión,Grosor_piel,Insulina,IMC,Beta,Edad,Target
Laura Ramirez,6,148,72,35,0,33.6,0.627,50,1
Propiedad 1,1,85,66,29,0,26.6,0.351,31,0
Propiedad 2,8,183,64,0,0,23.3,0.672,32,1
Propiedad 3,1,89,66,23,94,28.1,0.167,21,0
Propiedad 4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
Propiedad 763,10,101,76,48,180,32.9,0.171,63,0
Propiedad 764,2,122,70,27,0,36.8,0.340,27,0
Propiedad 765,5,121,72,23,112,26.2,0.245,30,0
Propiedad 766,1,126,60,0,0,30.1,0.349,47,1


### drop(labels = [ ] , axis = 1): Eliminar columnas

In [42]:
df_copia.drop(labels = ['Embarazo','Presión'], axis = 1, inplace= True)
df_copia

Unnamed: 0,Glucosa,Grosor_piel,Insulina,IMC,Beta,Edad,Target
Laura Ramirez,148,35,0,33.6,0.627,50,1
Propiedad 1,85,29,0,26.6,0.351,31,0
Propiedad 2,183,0,0,23.3,0.672,32,1
Propiedad 3,89,23,94,28.1,0.167,21,0
Propiedad 4,137,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...
Propiedad 763,101,48,180,32.9,0.171,63,0
Propiedad 764,122,27,0,36.8,0.340,27,0
Propiedad 765,121,23,112,26.2,0.245,30,0
Propiedad 766,126,0,0,30.1,0.349,47,1


### drop(labels = [ ] , axis = 0): Eliminar filas

In [43]:
df_copia.drop(labels = ['Laura Ramirez', 'Propiedad 4'], axis = 0, inplace = True)
df_copia

Unnamed: 0,Glucosa,Grosor_piel,Insulina,IMC,Beta,Edad,Target
Propiedad 1,85,29,0,26.6,0.351,31,0
Propiedad 2,183,0,0,23.3,0.672,32,1
Propiedad 3,89,23,94,28.1,0.167,21,0
Propiedad 5,116,0,0,25.6,0.201,30,0
Propiedad 6,78,32,88,31.0,0.248,26,1
...,...,...,...,...,...,...,...
Propiedad 763,101,48,180,32.9,0.171,63,0
Propiedad 764,122,27,0,36.8,0.340,27,0
Propiedad 765,121,23,112,26.2,0.245,30,0
Propiedad 766,126,0,0,30.1,0.349,47,1


### unique and value_counts

In [44]:
df

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
Propiedad 0,6,148,72,35,0,33.6,0.627,50,1
Propiedad 1,1,85,66,29,0,26.6,0.351,31,0
Propiedad 2,8,183,64,0,0,23.3,0.672,32,1
Propiedad 3,1,89,66,23,94,28.1,0.167,21,0
Propiedad 4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
Propiedad 763,10,101,76,48,180,32.9,0.171,63,0
Propiedad 764,2,122,70,27,0,36.8,0.340,27,0
Propiedad 765,5,121,72,23,112,26.2,0.245,30,0
Propiedad 766,1,126,60,0,0,30.1,0.349,47,1


In [45]:
list(df['Outcome'].unique())

[1, 0]

In [46]:
df['Outcome'].value_counts()

0    500
1    268
Name: Outcome, dtype: int64

### apply

In [47]:
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
Propiedad 0,6,148,72,35,0,33.6,0.627,50,1
Propiedad 1,1,85,66,29,0,26.6,0.351,31,0
Propiedad 2,8,183,64,0,0,23.3,0.672,32,1
Propiedad 3,1,89,66,23,94,28.1,0.167,21,0
Propiedad 4,0,137,40,35,168,43.1,2.288,33,1


In [48]:
df['Glucose'] = df['Glucose'].apply(lambda x: x**(1/2))

In [49]:
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
Propiedad 0,6,12.165525,72,35,0,33.6,0.627,50,1
Propiedad 1,1,9.219544,66,29,0,26.6,0.351,31,0
Propiedad 2,8,13.527749,64,0,0,23.3,0.672,32,1
Propiedad 3,1,9.433981,66,23,94,28.1,0.167,21,0
Propiedad 4,0,11.7047,40,35,168,43.1,2.288,33,1


In [50]:
df

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
Propiedad 0,6,12.165525,72,35,0,33.6,0.627,50,1
Propiedad 1,1,9.219544,66,29,0,26.6,0.351,31,0
Propiedad 2,8,13.527749,64,0,0,23.3,0.672,32,1
Propiedad 3,1,9.433981,66,23,94,28.1,0.167,21,0
Propiedad 4,0,11.704700,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
Propiedad 763,10,10.049876,76,48,180,32.9,0.171,63,0
Propiedad 764,2,11.045361,70,27,0,36.8,0.340,27,0
Propiedad 765,5,11.000000,72,23,112,26.2,0.245,30,0
Propiedad 766,1,11.224972,60,0,0,30.1,0.349,47,1


# Proceso de modelamiento

* **Dataset:** Total de datos sobre el que queremos desarrollar un algoritmo de *Machine learning*. Dicha contendrá variables independientes y variables dependientes
* **Feactures (variables independientes):** columnas del dataset que serán usaras por el algoritmo para generar un modelo.
* **Target (Variables depentientes):** Columna del dataset que se desea predecir conel futuro modelo
* **Train (conjunto de datos de entrenamiento):** Subconjuto del dataset que será usado para entrenar el modelo.
* **Test (conjunto de datos de test):** Subconjuto del dataset que se le pasará el modelo para genrar los indicadores más importantes de calidad
* **Val (conjunto de validación):** Subconjutno del dataset que se usa para medir el rendimiento del modelo en el mismo instante de su entrenamiento

![aprendizaje_supervisado-2.png](attachment:aprendizaje_supervisado-2.png)

## Preprocesamiento
Esta etapa le preceden:
* *Conocimiento del negocio:* Principalmente es saber tener en claro el Objetivo del proyecto.
* *Conocimiento de la data:* Saber de dónde extraerá la data, cuál es su volumen, determinar la calidad de la data

### Importar librerías y cargar dataset

In [59]:
import pandas as pd #Usado para la manipulación de dataframes
import numpy as np #Realizar operaciones matemáticas
import matplotlib.pyplot as plt #Realizar gráficas

In [60]:
df = pd.read_csv('data/loan_prediction.csv')
df

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y
...,...,...,...,...,...,...,...,...,...,...,...,...,...
609,LP002978,Female,No,0,Graduate,No,2900,0.0,71.0,360.0,1.0,Rural,Y
610,LP002979,Male,Yes,3+,Graduate,No,4106,0.0,40.0,180.0,1.0,Rural,Y
611,LP002983,Male,Yes,1,Graduate,No,8072,240.0,253.0,360.0,1.0,Urban,Y
612,LP002984,Male,Yes,2,Graduate,No,7583,0.0,187.0,360.0,1.0,Urban,Y


In [53]:
print('Filas: {}\ncolumnas: {}'.format(df.shape[0],df.shape[1]))

Filas: 614
columnas: 13


### Conocimiento del negocio
Loan prediction o predicción de préstamos, qué es? qué buscamos? qué variables son necesarias?



In [54]:
#Enlistaremos nuestras variables para poder manipularalas más facilmente
list(zip([i for i in range(df.shape[0])],df.columns))

[(0, 'Loan_ID'),
 (1, 'Gender'),
 (2, 'Married'),
 (3, 'Dependents'),
 (4, 'Education'),
 (5, 'Self_Employed'),
 (6, 'ApplicantIncome'),
 (7, 'CoapplicantIncome'),
 (8, 'LoanAmount'),
 (9, 'Loan_Amount_Term'),
 (10, 'Credit_History'),
 (11, 'Property_Area'),
 (12, 'Loan_Status')]

In [55]:
df.rename(columns = {'Gender':'Genero',
                    'Married': 'Casado',
                    'Eduaction': 'Educacion',
                    'Property_Area': 'Propiedad',
                    'Loan_Status': 'Target'}, inplace = True)
df

Unnamed: 0,Loan_ID,Genero,Casado,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Propiedad,Target
0,LP001002,Male,No,0,Graduate,No,5849,0.0,,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y
...,...,...,...,...,...,...,...,...,...,...,...,...,...
609,LP002978,Female,No,0,Graduate,No,2900,0.0,71.0,360.0,1.0,Rural,Y
610,LP002979,Male,Yes,3+,Graduate,No,4106,0.0,40.0,180.0,1.0,Rural,Y
611,LP002983,Male,Yes,1,Graduate,No,8072,240.0,253.0,360.0,1.0,Urban,Y
612,LP002984,Male,Yes,2,Graduate,No,7583,0.0,187.0,360.0,1.0,Urban,Y


### Análisis exploratorio de datos

#### Datos Faltantes

In [56]:
df.isnull().sum()

Loan_ID               0
Genero               13
Casado                3
Dependents           15
Education             0
Self_Employed        32
ApplicantIncome       0
CoapplicantIncome     0
LoanAmount           22
Loan_Amount_Term     14
Credit_History       50
Propiedad             0
Target                0
dtype: int64

In [57]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 614 entries, 0 to 613
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Loan_ID            614 non-null    object 
 1   Genero             601 non-null    object 
 2   Casado             611 non-null    object 
 3   Dependents         599 non-null    object 
 4   Education          614 non-null    object 
 5   Self_Employed      582 non-null    object 
 6   ApplicantIncome    614 non-null    int64  
 7   CoapplicantIncome  614 non-null    float64
 8   LoanAmount         592 non-null    float64
 9   Loan_Amount_Term   600 non-null    float64
 10  Credit_History     564 non-null    float64
 11  Propiedad          614 non-null    object 
 12  Target             614 non-null    object 
dtypes: float64(4), int64(1), object(8)
memory usage: 62.5+ KB


#### Deteccón de outliers

#### Transformaciones