# Número de Condición de una Matriz

## Introducción

El número de condición se utiliza para medir cuán sensible resulta una función a cambios o errores en el valor de entrada, y cuál será el error en el valor de salida debido a éste. El número de condición de una matriz de datos A, se calcula como el cociente entre su valor singular más grande y el más pequeño.

Se dice que una matriz está bien condicionada si su número de condición está cerca de 1 y se dice mal condicionada si es significativamente mayor que 1, lo que indicaría que pequeñas variaciones en los datos pueden producir grandes variaciones en los resultados y, por tanto, que la solución del sistema es propensa a grandes errores de redondeo.

In [1]:
%matplotlib inline

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

sns.set()

In [2]:
#Lectura de datos
datos= pd.read_csv('data/filtered1_dataset.csv', sep=',', index_col="patient_id")
datos.head()

Unnamed: 0_level_0,treatment,birth_date,start_date,start_night,end_night,gender,height,weight,age,smoking,...,beer,wine,alcohol,strong_licor,sistolic,diastolic,heart_rate,pulse_pressure,cardiac_index,systemic_vascular_resistance
patient_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
30,True,1983-12-25 00:00:00,2017-11-01 07:02:00,2017-10-27 04:30:00,2017-10-27 06:30:00,m,1.78,102.0,33.854327,0,...,0,0,1,0,120.457143,79.957143,72.685714,41.0,2.3,1158.0
31,False,1946-10-09 00:00:00,2017-11-01 08:40:00,2017-11-02 02:00:00,2017-11-02 04:00:00,m,1.67,82.4,71.064644,0,...,0,0,1,0,143.405405,91.067568,65.5,52.0,2.8,1417.0
32,True,1960-02-14 00:00:00,2017-11-01 09:57:00,2017-11-02 03:00:00,2017-11-02 05:00:00,m,1.7,93.2,57.71503,0,...,0,1,1,0,122.557143,90.257143,80.628571,32.0,3.0,1319.0
33,False,1974-03-11 00:00:00,2017-11-01 10:17:00,2017-11-02 03:20:00,2017-11-02 05:20:00,f,1.6,61.3,43.645252,0,...,0,0,0,0,145.893939,93.863636,79.787879,52.0,4.2,1353.0
34,True,1996-06-26 00:00:00,2017-11-01 10:36:00,2017-11-02 04:30:00,2017-11-02 06:30:00,m,1.73,72.3,21.35097,0,...,1,0,1,0,130.376812,82.73913,77.913043,48.0,3.2,1172.0


In [3]:
# Extraemos la variable respuesta "treatment"
y = pd.DataFrame(datos["treatment"])
y.head()

Unnamed: 0_level_0,treatment
patient_id,Unnamed: 1_level_1
30,True
31,False
32,True
33,False
34,True


In [4]:
np.shape(y)

(17644, 1)

Aqui eliminamos las variables que no son numericas (las que estan en tiempo y en texto)

In [5]:
# Extraer las variables independientes 
X = datos.iloc[:,6:]
X

Unnamed: 0_level_0,height,weight,age,smoking,excercise_frecuency,beer,wine,alcohol,strong_licor,sistolic,diastolic,heart_rate,pulse_pressure,cardiac_index,systemic_vascular_resistance
patient_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
30,1.78,102.0,33.854327,0,5,0,0,1,0,120.457143,79.957143,72.685714,41.0,2.3,1158.0
31,1.67,82.4,71.064644,0,2,0,0,1,0,143.405405,91.067568,65.500000,52.0,2.8,1417.0
32,1.70,93.2,57.715030,0,1,0,1,1,0,122.557143,90.257143,80.628571,32.0,3.0,1319.0
33,1.60,61.3,43.645252,0,1,0,0,0,0,145.893939,93.863636,79.787879,52.0,4.2,1353.0
34,1.73,72.3,21.350970,0,1,1,0,1,0,130.376812,82.739130,77.913043,48.0,3.2,1172.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20167,1.58,92.0,53.237779,0,1,0,0,0,0,138.567164,84.671642,81.298507,54.0,3.3,1244.0
20169,1.70,73.0,36.605367,0,1,0,0,0,0,116.902778,78.847222,73.513889,38.0,2.8,1172.0
20170,1.78,88.0,45.927804,0,3,0,0,0,0,128.328947,86.013158,77.013158,42.0,2.9,1258.0
20171,1.67,93.0,47.704776,0,2,0,0,1,1,126.970588,85.514706,74.088235,41.0,2.7,1251.0


In [6]:
# Hallamos número de condición
K= np.linalg.cond(X)
K

25596.435056159447

Con base en el resultado anterior (K=25596) se concluye que estamos ante una matriz de datos mal condicionada. Esto implica que pequeñas variaciones en los datos podrían causar grandes variaciones en los resultados y, por tanto, la solución del sistema estará propensa a errores.