# PANDAS BASE IV: CALIDAD DE DATOS: DIAGNÓSTICO

En proyectos reales los datos NUNCA van a estar en perfecto estado.

Así que es fundamental invertir tiempo en esta fase para localizar todos los problemas de calidad datos antes de continuar con las siguientes fases.

**Carga de paquetes**

In [2]:
import pandas as pd

**Carga de datos**

In [3]:
df = pd.read_csv('../../00_DATASETS/DataSetKivaCreditScoring.csv', 
                 sep = ';', index_col = 'id',
                 parse_dates = ['Funded Date','Paid Date'])
df.head(2)

Unnamed: 0_level_0,Funded Date,Funded Amount,Country,Country Code,Loan Amount,Paid Date,Paid Amount,Activity,Sector,Delinquent,Name,Use,Status
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
84,2005-03-31 06:27:55+00:00,500,Uganda,UG,500,2005-12-13 12:00:40+00:00,500.0,Butcher Shop,Food,False,Justine,"Buy bulls, open a butcher shop",paid
85,2005-03-31 06:27:55+00:00,500,Uganda,UG,500,2005-12-13 12:04:33+00:00,500.0,Food Production/Sales,Food,False,Geoffrey,Buying more produce each time for greater profit,paid


## CALIDAD DE DATOS

### CREAR UNA MUESTRA

No recomiendo crear una muestra para la fase de calidad de datos. Pero sí es una técnica importante a conocer para fases posteriorres.

sample()

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html

Parámetros más importantes:

* n: tamaño de la muestra en absoluto
* frac: tamaño de la muestra en porcentaje
* replace: si se admite reemplazamiento o no. Por defecto es False
* random_state: establecer una semilla reproducible

In [4]:
muestra = df.sample(n = 100)
muestra.shape

(100, 13)

### VISIÓN GLOBAL

#### Información general del dataset

info()

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html

Parámetros más importantes:

* memory_usage = por defecto nos da una estimación del tamaño en memoria. Si ponemos 'deep' nos da el valor real.

In [5]:
df.info(memory_usage = 'deep')

<class 'pandas.core.frame.DataFrame'>
Index: 5146 entries, 84 to 5259
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype              
---  ------         --------------  -----              
 0   Funded Date    5050 non-null   datetime64[ns, UTC]
 1   Funded Amount  5146 non-null   int64              
 2   Country        5146 non-null   object             
 3   Country Code   5146 non-null   object             
 4   Loan Amount    5146 non-null   int64              
 5   Paid Date      4121 non-null   datetime64[ns, UTC]
 6   Paid Amount    4072 non-null   float64            
 7   Activity       5146 non-null   object             
 8   Sector         5146 non-null   object             
 9   Delinquent     5146 non-null   bool               
 10  Name           5145 non-null   object             
 11  Use            5145 non-null   object             
 12  Status         5098 non-null   object             
dtypes: bool(1), datetime64[ns, UTC](2), float64(1), int6

#### Dimensión del dataset

shape

Nos da el número de filas y columnas.

In [6]:
df.shape

(5146, 13)

#### Información del índice

index

Nos da tipo de índice, el número de registros y una muestra

In [7]:
df.index

Index([  84,   85,   86,   88,   89,   90,   91,   95,   96,   97,
       ...
       5250, 5251, 5252, 5253, 5254, 5255, 5256, 5257, 5258, 5259],
      dtype='int64', name='id', length=5146)

Si queremos extraer los valores como tal usamos .values

In [8]:
df.index.values

array([  84,   85,   86, ..., 5257, 5258, 5259], shape=(5146,))

#### Información de las columnas

columns

Nos da los nombres de las columnas.

In [9]:
df.columns

Index(['Funded Date', 'Funded Amount', 'Country', 'Country Code',
       'Loan Amount', 'Paid Date', 'Paid Amount', 'Activity', 'Sector',
       'Delinquent', 'Name', 'Use', 'Status'],
      dtype='object')

Si queremos extraer los valores como tal usamos .values que nos devolverá un array.

In [10]:
df.columns.values

array(['Funded Date', 'Funded Amount', 'Country', 'Country Code',
       'Loan Amount', 'Paid Date', 'Paid Amount', 'Activity', 'Sector',
       'Delinquent', 'Name', 'Use', 'Status'], dtype=object)

O si los queremos como lista que muchas veces será más manejable usamos columns.to_list()

In [11]:
df.columns.to_list()

['Funded Date',
 'Funded Amount',
 'Country',
 'Country Code',
 'Loan Amount',
 'Paid Date',
 'Paid Amount',
 'Activity',
 'Sector',
 'Delinquent',
 'Name',
 'Use',
 'Status']

#### Tipos de las variables

dtypes

Nos da los tipos Pandas de todas las variables

In [12]:
df.dtypes

Funded Date      datetime64[ns, UTC]
Funded Amount                  int64
Country                       object
Country Code                  object
Loan Amount                    int64
Paid Date        datetime64[ns, UTC]
Paid Amount                  float64
Activity                      object
Sector                        object
Delinquent                      bool
Name                          object
Use                           object
Status                        object
dtype: object

#### Tipos de una variable

dtype

Nos da el tipo Pandas de una variable.

In [13]:
df.Country.dtype

dtype('O')

#### Visión global de estadísticos

describe()

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html

Parámetros más importantes:

* include: los tipos de datos a incluir: 'all' para todos los tipos, o un lista para tipos concretos

In [14]:
#Por defecto solo incluye los numéricos
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Funded Amount,5146.0,619.942674,448.487688,0.0,275.0,500.0,925.0,2000.0
Loan Amount,5146.0,689.103187,416.892651,25.0,375.0,600.0,950.0,2000.0
Paid Amount,4072.0,693.547397,410.247358,25.0,375.0,600.0,950.0,2000.0


In [15]:
#Con all los incluye todos
df.describe(include = 'all').T

Unnamed: 0,count,unique,top,freq,mean,min,25%,50%,75%,max,std
Funded Date,5050.0,,,,2006-11-20 03:28:49.537425664+00:00,2005-03-31 06:27:55+00:00,2006-11-06 18:52:12+00:00,2006-12-21 19:59:19+00:00,2007-01-28 22:20:41.249999872+00:00,2007-06-13 17:37:22+00:00,
Funded Amount,5146.0,,,,619.942674,0.0,275.0,500.0,925.0,2000.0,448.487688
Country,5146.0,25.0,Kenya,987.0,,,,,,,
Country Code,5146.0,25.0,KE,987.0,,,,,,,
Loan Amount,5146.0,,,,689.103187,25.0,375.0,600.0,950.0,2000.0,416.892651
Paid Date,4121.0,,,,2007-09-27 17:11:21.847124480+00:00,2005-08-27 07:33:49+00:00,2007-06-13 09:15:07+00:00,2007-09-10 09:15:28+00:00,2008-01-20 10:18:11+00:00,2008-11-19 08:28:28+00:00,
Paid Amount,4072.0,,,,693.547397,25.0,375.0,600.0,950.0,2000.0,410.247358
Activity,5146.0,97.0,Food Production/Sales,769.0,,,,,,,
Sector,5146.0,12.0,Food,1643.0,,,,,,,
Delinquent,5146.0,2.0,False,4560.0,,,,,,,


In [17]:
#O solo incluye los objetos
df.describe(include = ['O']).T

Unnamed: 0,count,unique,top,freq
Country,5146,25,Kenya,987
Country Code,5146,25,KE,987
Activity,5146,97,Food Production/Sales,769
Sector,5146,12,Food,1643
Name,5145,2633,Anonymous,983
Use,5145,4143,purchase merchandise,107
Status,5098,4,paid,4031


Repaso de lo aprendido:

- sample() permite crear subconjuntos del dataset para pruebas o exploraciones.
- info(), shape, columns, dtypes, index ofrecen una visión rápida de la estructura del dataset.
- describe() aporta estadísticos básicos y puede usarse para variables numéricas o categóricas (include='all' o ['O']).

### IDENTIFICACIÓN DE NULOS

####  Conteo de nulos por variable

isna() + sum()

In [18]:
df.isna().sum().sort_values(ascending = False)

Paid Amount      1074
Paid Date        1025
Funded Date        96
Status             48
Name                1
Use                 1
Country Code        0
Country             0
Funded Amount       0
Loan Amount         0
Activity            0
Sector              0
Delinquent          0
dtype: int64

####  Porcentaje de nulos por variable

isna() + mean()

In [24]:
df.isna().mean().sort_values(ascending = False) * 100

Paid Amount      20.870579
Paid Date        19.918383
Funded Date       1.865527
Status            0.932763
Name              0.019433
Use               0.019433
Country Code      0.000000
Country           0.000000
Funded Amount     0.000000
Loan Amount       0.000000
Activity          0.000000
Sector            0.000000
Delinquent        0.000000
dtype: float64

### IDENTIFICACIÓN DE DUPLICADOS

#### Conteo de duplicados

duplicated() + sum()

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.duplicated.html

In [25]:
df.duplicated().sum()

np.int64(1)

#### Localizar los duplicados

Usando duplicated() para filtrar como booleano.

Parámetros más importantes:

* subset: lista con los campos concretos que queremos usar para ver si hay duplicados
* keep: qué registro marca como el duplicado: el primero ('first'), el último ('last') o todos (False)

In [28]:
df[df.duplicated()]

Unnamed: 0_level_0,Funded Date,Funded Amount,Country,Country Code,Loan Amount,Paid Date,Paid Amount,Activity,Sector,Delinquent,Name,Use,Status
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
2505,NaT,0,Azerbaijan,AZ,600,NaT,,Services,Services,False,Balabeyim Baylar Giz,To buy kitchen appliances,deleted


### NÚMERO DE VALORES ÚNICOS

nunique()

https://pandas.pydata.org/docs/reference/api/pandas.Series.nunique.html

Parámetros más importantes:

* dropna: poner a False si queremos que cuente también los nulos

In [29]:
df.nunique()

Funded Date      4449
Funded Amount      68
Country            25
Country Code       25
Loan Amount        68
Paid Date        3226
Paid Amount        66
Activity           97
Sector             12
Delinquent          2
Name             2633
Use              4143
Status              4
dtype: int64

Para una variable en concreto:

In [30]:
df.Country.nunique()

25

### VALORES ÚNICOS DIFERENTES

unique()

https://pandas.pydata.org/docs/reference/api/pandas.Series.unique.html


In [31]:
df.Country.unique()

array(['Uganda', 'Tanzania', 'Kenya', 'Gaza', 'Bulgaria', 'Senegal',
       'Nicaragua', 'Honduras', 'Ecuador', 'Cambodia', 'India', 'Samoa',
       'Mexico', 'Moldova', 'Nigeria', 'Togo', 'Ghana', 'Mozambique',
       'Azerbaijan', 'Ukraine', 'Afghanistan', 'Indonesia', 'Cameroon',
       'Dominican Republic', 'The Democratic Republic of the Congo'],
      dtype=object)

Repaso de lo aprendido:

- Para evaluar la calidad de los datos:
  - .isna().sum() y .mean() permiten medir nulos.
  - .duplicated() ayuda a detectar registros repetidos (se puede restringir con subset=).
  - .nunique() y .unique() identifican la diversidad de valores por columna.

### ESTADÍSTICOS BÁSICOS

Diferentes funciones para comprobar básicos como medias, máximos, etc.

Se pueden aplicar sobre todo el dataset (Pandas identifica las variables sobre las que aplica por el tipo) o sobre una variable en concreto.

De momento aquí vamos a ver las funciones individuales, aunque seguramente durante un proyecto las querremos combinar con **select_dtypes()** para analizar en bloque.

#### Para variables categóricas

##### Conteo de frecuencias

value_counts()

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.value_counts.html

Parámetros más importantes:

* normalize: si lo ponemos a True devuelve tantos por uno
* sort: por defecto ordena por frecuencia en descendente

In [32]:
#Conteo de frecuencias
df.Country.value_counts()

Country
Kenya                                   987
Mexico                                  602
Azerbaijan                              556
Honduras                                504
Ecuador                                 474
Uganda                                  436
Togo                                    430
Bulgaria                                195
Nigeria                                 181
Ghana                                   175
Tanzania                                131
Samoa                                   113
Cambodia                                 69
Senegal                                  63
Moldova                                  58
Afghanistan                              57
Ukraine                                  45
Nicaragua                                20
Mozambique                               19
Cameroon                                 10
Gaza                                      8
India                                     5
Dominican Republic      

In [33]:
#En porcentaje
df.Country.value_counts(normalize=True)*100

Country
Kenya                                   19.179946
Mexico                                  11.698407
Azerbaijan                              10.804508
Honduras                                 9.794015
Ecuador                                  9.211038
Uganda                                   8.472600
Togo                                     8.356005
Bulgaria                                 3.789351
Nigeria                                  3.517295
Ghana                                    3.400700
Tanzania                                 2.545667
Samoa                                    2.195880
Cambodia                                 1.340847
Senegal                                  1.224252
Moldova                                  1.127089
Afghanistan                              1.107656
Ukraine                                  0.874466
Nicaragua                                0.388651
Mozambique                               0.369219
Cameroon                                 0

##### Moda

In [34]:
df.Country.mode()

0    Kenya
Name: Country, dtype: object

#### Para variables contínuas

##### Media

In [35]:
#Media
df['Paid Amount'].mean()

np.float64(693.5473968565815)

##### Mediana

In [36]:
#Mediana
df['Paid Amount'].median()

np.float64(600.0)

##### Máximo

In [37]:
#Máximo
df['Paid Amount'].max()

np.float64(2000.0)

##### Mínimo

In [38]:
#Mínimo
df['Paid Amount'].min()

np.float64(25.0)

##### Índice del máximo

In [39]:
#Localizar el índice del valor máximo
df['Paid Amount'].idxmax()

np.int64(1722)

##### Índice del mínimo

In [40]:
#Localizar el índice del valor mínimo
df['Paid Amount'].idxmin()

np.int64(3950)

In [41]:
df.loc[3950]

Funded Date                              2007-01-31 16:24:07+00:00
Funded Amount                                                   25
Country                                                      Kenya
Country Code                                                    KE
Loan Amount                                                     25
Paid Date                                2007-05-22 06:12:23+00:00
Paid Amount                                                   25.0
Activity                                            Bicycle Repair
Sector                                                    Services
Delinquent                                                   False
Name                                                          Shem
Use              To buy bicycle spares and purchase a business ...
Status                                                        paid
Name: 3950, dtype: object

#### Correlación

Con corr()

Podemos hacer varios tipos de correlación con el parámetro method.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html

Parámetros más importantes:

* numeric_only: para que nos identifique aquellas variables numéricas en el dataset lo ponemos a True
* method: pearson, kendall, spearman

##### Para contínuas

Para variables contínuas se suele usar la correlación de Pearson.

Aunque recordando algunos conceptos de estadística que solo sería técnicamente correcto usar esta técnica (que es paramétrica) cuando ambas variables son contínuas y tienen una distribución normal.

Igualmente sólo mide si existe relación lineal.

In [48]:
#Correlación
df.corr(numeric_only= True)

Unnamed: 0,Funded Amount,Loan Amount,Paid Amount,Delinquent
Funded Amount,1.0,0.846426,1.0,-0.009667
Loan Amount,0.846426,1.0,1.0,-0.069876
Paid Amount,1.0,1.0,1.0,
Delinquent,-0.009667,-0.069876,,1.0


Si solo queremos la correlación entre 2 variables tenemos que usar la sintaxis de Series.

In [49]:
df['Funded Amount'].corr(df['Loan Amount'])

np.float64(0.8464260904113345)

##### Para ordinales

Si las variables no son contínuas si no ordinales. O si son contínuas pero no normalmente distribuidas podemos usar bien la Tau de Kendall o bien la Rho de Spearman.

Ante la duda se suele preferir Kendall.

Estas técnicas detectan si existe relación monotónica entre las variables.

In [50]:
df['Funded Amount'].corr(df['Loan Amount'], method = 'kendall')

np.float64(0.7987477180649277)

#### Seleccionar variables por su tipología

select_dtypes()

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.select_dtypes.html

Nos permite filtrar el dataset solo para el tipo de variable que queremos y aplicar los métodos de análisis que correspondan a ese tipo.

In [53]:
#Ejemplo de variables continuas
df.select_dtypes('number').mean()

Funded Amount    619.942674
Loan Amount      689.103187
Paid Amount      693.547397
dtype: float64

In [55]:
#Ejemplo de variables categóricas
df.select_dtypes('object').mode()

Unnamed: 0,Country,Country Code,Activity,Sector,Name,Use,Status
0,Kenya,KE,Food Production/Sales,Food,Anonymous,purchase merchandise,paid


Repaso de lo aprendido:

- Estadísticos importantes:
  - mean(), median(), mode(), min(), max() resúmen el comportamiento numérico de las variables.

- Localización de extremos:
  - idmin(), idmax() permiten identificar el índice donde se encuentra el valor mínimo o máximo, útil para reuperar registros completos que representen outliers o casos especiales.
  
- Correlaciones:
  - corr(method='pearson'): relación lineal entre numéricas.
  - corr(method='kendall') o 'spearman': para relaciones monotónicas o no lineales.

- Variables por tipología:
  - select_dtypes(): ayuda a filtrar el dataset para aquellas variables a las cuales le queramos aplicar métodos de análsis.


## EJERCICIOS

###  Detectar las 3 variables con mayor proporción de valores nulos en el dataset y pasarlas a una lista

In [93]:
df.isna().mean().sort_values(ascending= False).head(3).index.to_list()


['Paid Amount', 'Paid Date', 'Funded Date']

### La empresa solicita revisar todas aquellas variables con más del 20% de valores faltantes para decidir si habría que imputarlas, eliminarlas o excluirlas del análisis principal 

In [99]:
criterio = df.isna().mean() >0.2
df.columns[criterio].to_list()

['Paid Amount']

### Detectar los 5 sectores (Sector) con menor representación en el dataset de cara a poder analizarlos posteriormente y determinar si pueden eliminarse por baja frecuencia

In [103]:
df['Sector'].value_counts(normalize= True).sort_values().head(5)*100

Sector
Entertainment     0.136028
Housing           0.835600
Transportation    1.340847
Manufacturing     1.379712
Health            1.612903
Name: proportion, dtype: float64

###  Contar duplicados basados solo en 'Loan Amount' y 'Activity' para validar si esta combinación supera el valor de 3k duplicidades

In [105]:
df.duplicated(subset=['Loan Amount','Activity']).sum()

np.int64(3618)

### Un equipo en terreno en Kenya necesita una muestra constante para pruebas manuales de calidad. Extraer una muestra reproducible del 2% del dataset para validar estos registros

In [112]:
muestra = df.sample(frac= 0.02, random_state=42)

criterio = muestra['Country'] == 'Kenya'

muestra[criterio].shape

(20, 13)

### ¿Cuál es el valor medio de las variables financieras dentro del sector Retail?

In [117]:
df[df.Sector == 'Retail'].select_dtypes('number').mean()

Funded Amount    587.511737
Loan Amount      667.910798
Paid Amount      665.865385
dtype: float64

###  El equipo de riesgos investiga el mayor préstamo del histórico para evaluar el perfil país. Identifica el país cuyo préstamo represente la máxima cantidad de dinero solicitado

In [119]:

filas = df['Loan Amount'].idxmax()
columnas = 'Country'
df.loc[filas, columnas]

'Uganda'

### Mostrar el resumen estadístico de las variables categóricas que permitan observar si hay campos mal codificados o que presenten una categoría dominante con frecuencia excesiva

In [123]:
df.describe(include=['object']).T

Unnamed: 0,count,unique,top,freq
Country,5146,25,Kenya,987
Country Code,5146,25,KE,987
Activity,5146,97,Food Production/Sales,769
Sector,5146,12,Food,1643
Name,5145,2633,Anonymous,983
Use,5145,4143,purchase merchandise,107
Status,5098,4,paid,4031
