#  **Conocimientos basicos**
**Creditability - German Credit data**

**Autor**: Edward Guevara \
**Fecha**: 06/13/2023 \
**Ultima modificacino**: 06/13/2023 \
**Descripcion**: Obtener informacion preliminar del dataset

# Introduccion

Cuando una entidad finaciera como un banco, recibe una solicitud de prestamo, es necesario conocer el perfil del solicitante para tomar la decision de aprobar o no el prestamo. El banco toma dos clases de riesgo, si el solicitante es un buen riesgo, es muy probable que el solicitante devuelva el dinero. Sin embargo, si el solicitante es un mal riesgo, el muy probable que no devuelva el dinero. Por lo tanto, se requiere conocer cual son las variables que tienen mayor influencia en identificar a un buen riesgo crediciticio.


Variables:

1. **Account Balance**: Indica el estado de la cuenta bancaria del cliente. Tiene tres categorías:

    No account (1): El cliente no tiene una cuenta bancaria. \
    None (No balance) (2): El cliente tiene una cuenta bancaria, pero no tiene saldo. \
    Some Balance (3): El cliente tiene saldo en su cuenta bancaria. 

2. **Payment Status**: Representa el estado de los pagos del cliente. Tiene tres categorías:

    Some Problems (1): El cliente tiene algunos problemas de pago. \
    Paid Up (2): El cliente ha pagado todas sus deudas. \
    No Problems (in this bank) (3): El cliente no tiene problemas de pago en este banco.

3. **Savings/Stock Value**: Indica el valor de ahorros o acciones del cliente. Tiene cuatro categorías:

    None: El cliente no tiene ahorros ni acciones. \
    Below 100 DM: El cliente tiene ahorros o acciones por debajo de 100 DM (moneda alemana). \
    [100, 1000] DM: El cliente tiene ahorros o acciones entre 100 y 1000 DM. \
    Above 1000 DM: El cliente tiene ahorros o acciones por encima de 1000 DM.

4. **Employment Length**: Representa la duración del empleo del cliente. Tiene cuatro categorías:

    Below 1 year (including unemployed): El cliente ha estado empleado menos de 1 año, incluyendo el desempleo. \
    [1, 4): El cliente ha estado empleado entre 1 y 4 años. \
    [4, 7): El cliente ha estado empleado entre 4 y 7 años. \
    Above 7: El cliente ha estado empleado más de 7 años.

5. **Sex/Marital Status**: Indica el género y el estado civil del cliente. Tiene tres categorías:

    Male Divorced/Single: Hombre divorciado o soltero. \
    Male Married/Widowed: Hombre casado o viudo. 
    Female: Mujer.

6. **No of Credits at this bank**: Representa el número de créditos que el cliente tiene en este banco. Tiene dos categorías:

    1: El cliente tiene un crédito en este banco. \
    More than 1: El cliente tiene más de un crédito en este banco. 

7. **Guarantor**: Indica si el cliente tiene un aval o garantía. Tiene dos categorías:

    None: El cliente no tiene aval o garantía. \
    Yes: El cliente tiene un aval o garantía.

8. **Concurrent Credits**: Representa si el cliente tiene créditos simultáneos en otros bancos o tiendas departamentales. Tiene dos categorías:

    Other Banks or Dept Stores: El cliente tiene créditos simultáneos en otros bancos o tiendas departamentales. \
    None: El cliente no tiene créditos simultáneos en otros bancos o tiendas departamentales.

    ForeignWorker variable may be dropped from the study \
    Purpose of Credit: New car, Used car, Home Related, Other


# Setup

In [9]:
import pandas as pd
import numpy as np

# Importacion de datos

In [10]:
df = pd.read_csv("./dataset/german.csv", sep = ';')
df.head()

Unnamed: 0,Creditability,Account_Balance,Duration_of_Credit_monthly,Payment_Status_of_Previous_Credit,Purpose,Credit_Amount,Value_Savings_Stocks,Length_of_current_employment,Instalment_per_cent,Sex_Marital_Status,...,Duration_in_Current_address,Most_valuable_available_asset,Age_years,Concurrent_Credits,Type_of_apartment,No_of_Credits_at_this_Bank,Occupation,No_of_dependents,Telephone,Foreign_Worker
0,1,1,18,4,2,1049,1,2,4,2,...,4,2,21,3,1,1,3,1,1,1
1,1,1,9,4,0,2799,1,3,2,3,...,2,1,36,3,1,2,3,2,1,1
2,1,2,12,2,9,841,2,4,2,2,...,4,1,23,3,1,1,2,1,1,1
3,1,1,12,4,0,2122,1,3,3,3,...,2,1,39,3,1,2,2,2,1,2
4,1,1,12,4,0,2171,1,3,4,3,...,4,2,38,1,2,2,2,1,1,2


# Shape

In [16]:
df.shape

(1000, 21)



# Tipos de datos

In [12]:
print('Tipos de datos por columna: \n')
display(df.dtypes)

Tipos de datos por columna: 



Creditability                        int64
Account_Balance                      int64
Duration_of_Credit_monthly           int64
Payment_Status_of_Previous_Credit    int64
Purpose                              int64
Credit_Amount                        int64
Value_Savings_Stocks                 int64
Length_of_current_employment         int64
Instalment_per_cent                  int64
Sex_Marital_Status                   int64
Guarantors                           int64
Duration_in_Current_address          int64
Most_valuable_available_asset        int64
Age_years                            int64
Concurrent_Credits                   int64
Type_of_apartment                    int64
No_of_Credits_at_this_Bank           int64
Occupation                           int64
No_of_dependents                     int64
Telephone                            int64
Foreign_Worker                       int64
dtype: object

# Descripcion

In [17]:
df.describe(include="all")

Unnamed: 0,Creditability,Account_Balance,Duration_of_Credit_monthly,Payment_Status_of_Previous_Credit,Purpose,Credit_Amount,Value_Savings_Stocks,Length_of_current_employment,Instalment_per_cent,Sex_Marital_Status,...,Duration_in_Current_address,Most_valuable_available_asset,Age_years,Concurrent_Credits,Type_of_apartment,No_of_Credits_at_this_Bank,Occupation,No_of_dependents,Telephone,Foreign_Worker
count,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,...,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0
mean,0.7,2.577,20.903,2.545,2.828,3271.248,2.105,3.384,2.973,2.682,...,2.845,2.358,35.542,2.675,1.928,1.407,2.904,1.155,1.404,1.037
std,0.458487,1.257638,12.058814,1.08312,2.744439,2822.75176,1.580023,1.208306,1.118715,0.70808,...,1.103718,1.050209,11.35267,0.705601,0.530186,0.577654,0.653614,0.362086,0.490943,0.188856
min,0.0,1.0,4.0,0.0,0.0,250.0,1.0,1.0,1.0,1.0,...,1.0,1.0,19.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
25%,0.0,1.0,12.0,2.0,1.0,1365.5,1.0,3.0,2.0,2.0,...,2.0,1.0,27.0,3.0,2.0,1.0,3.0,1.0,1.0,1.0
50%,1.0,2.0,18.0,2.0,2.0,2319.5,1.0,3.0,3.0,3.0,...,3.0,2.0,33.0,3.0,2.0,1.0,3.0,1.0,1.0,1.0
75%,1.0,4.0,24.0,4.0,3.0,3972.25,3.0,5.0,4.0,3.0,...,4.0,3.0,42.0,3.0,2.0,2.0,3.0,1.0,2.0,1.0
max,1.0,4.0,72.0,4.0,10.0,18424.0,5.0,5.0,4.0,4.0,...,4.0,4.0,75.0,3.0,3.0,4.0,4.0,2.0,2.0,2.0


# Info

In [14]:
print('Informacion resumida del tipo de datos y valores no-null: \n')
display(df.info())

Informacion resumida del tipo de datos y valores no-null: 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 21 columns):
 #   Column                             Non-Null Count  Dtype
---  ------                             --------------  -----
 0   Creditability                      1000 non-null   int64
 1   Account_Balance                    1000 non-null   int64
 2   Duration_of_Credit_monthly         1000 non-null   int64
 3   Payment_Status_of_Previous_Credit  1000 non-null   int64
 4   Purpose                            1000 non-null   int64
 5   Credit_Amount                      1000 non-null   int64
 6   Value_Savings_Stocks               1000 non-null   int64
 7   Length_of_current_employment       1000 non-null   int64
 8   Instalment_per_cent                1000 non-null   int64
 9   Sex_Marital_Status                 1000 non-null   int64
 10  Guarantors                         1000 non-null   int64
 11  Duration_in_Current_add

None