# Tutorial de Análisis de Calidad y Exploración de Datos

Vamos a realizar un Análisis de los Datos de Hospitalizaciones

La exploración inicial la realizaremos utilizando las siguientes herramientas:

- [ipython notebook](http://ipython.org/)
- [Pandas](http://pandas.pydata.org/)
- [Seaborn](http://stanford.edu/~mwaskom/software/seaborn/)
- [numpy](http://www.numpy.org/)

# 1. Configurar el Ambiente

Importar librerias necesarias

In [None]:
import pandas as pd
from matplotlib import pyplot as plt
import numpy as np
import seaborn as sns
%matplotlib inline
sns.set_style("darkgrid")

Localizar el ambiente en la dirección de Trabajo

In [None]:
%cd #PATH

# 2. Leer los Datos

Leer los datos se puede realizar con una función de la libreria Pandas:

- read_csv
- read_excel
- read_hdf
- read_sql
- read_json
- read_html
- read_stata
- read_sas
- read_clipboard
- read_pickle

In [None]:
df = pd.read_csv("hospitalizacion2003.txt", encoding="ISO-8859-1")

# 3. Inspección Inicial de Los Datos

Inspeccionar las primeras o las últimas columnas de los datos

In [None]:
df.head()

In [None]:
df.tail(10)

Elminar comillas de los strings

In [None]:
df = df.replace({"''":None}, regex=True)

In [None]:
df = df.replace({"'":""}, regex=True)

In [None]:
df.columns = df.columns.map(lambda x: x.strip('\''))

In [None]:
df.head(2)

¿Cuál es el tamaño de los datos?

In [None]:
df.shape

¿Cuál es el tipo de los datos?

In [None]:
df.dtypes

¿Que tipo son los objetos?

In [None]:
type(df.FECHA_INGRESO[0])

¿Cuales son los tipos de Tipo de Identificación?

In [None]:
df["TIPO_IDENTI"].unique()

¿Cuantos registros hay por cada tipo de indentificación?

In [None]:
df.groupby("TIPO_IDENTI")["TIPO_IDENTI"].count()

¿Cuantas IPS hay?

In [None]:
df["COD_IPS"].unique().shape

¿Cuantos valores nulos existen en los datos?

In [None]:
df.isnull().sum()

¿Cual es el porcentaje de datos nulos?

In [None]:
df.isnull().sum()/df.shape[0]*100

¿Cual es el rango de los conscutivos?

In [None]:
df['consecutivo'].min()

In [None]:
df['consecutivo'].max()

¿Cuantos Hombres y Mujeres atendio cada IPS?

In [None]:
pd.pivot_table(df,columns="sexo", values="DIAG_PRIN_INGRE", index="COD_IPS", aggfunc=len).head()

Transformación de las fechas de ingreso

In [None]:
df["FECHA_INGRESO"] = pd.to_datetime(df.FECHA_INGRESO, format="%Y-%m-%d %H:%M:%S")

In [None]:
type(df["FECHA_INGRESO"][0])

¿Cuantos registros existen luego de una fecha?

In [None]:
df.loc[df["FECHA_INGRESO"]> "2003-07-31 00:00:00"].shape[0]

¿Cuantos registros existen en un periodo de tiempo?

In [None]:
df.loc[ (df["FECHA_INGRESO"]>= "2003-05-01 00:00:00") & (df["FECHA_INGRESO"]< "2003-07-31 00:00:00")].shape[0]

In [None]:
rango = (df["FECHA_INGRESO"]>= "2003-05-01 00:00:00") & (df["FECHA_INGRESO"]< "2003-07-31 00:00:00")

In [None]:
df.loc[rango].shape[0]

# 4.Gráficas

¿Cuál es la distribución de ingreso de hospitalizaciones por mes?

In [None]:
sns.distplot(df["FECHA_INGRESO"].dt.month)

¿Cual es el histograma de distribución de los meses de egreso?

In [None]:
n, bins, patches = plt.hist(df["FECHA_INGRESO"].dt.month)

¿Cual es el porcentaje de personas por los 15 diagnosticos más frecuentes?

- Agrupar por diagnóstico
- Contar el número de registros por diagnostico
- Seleccionar el top 15
- Hallar porcentaje
- Graficar

In [None]:
diag_group = df.groupby("DIAG_PRIN_INGRE")

In [None]:
diag_group_sum = diag_group["DIAG_PRIN_INGRE"].count()

In [None]:
diag_top = diag_group_sum.sort_values(ascending=False).head(15)

In [None]:
diag_top_percentage = diag_top/diag_top.sum()

In [None]:
diag_top_percentage

In [None]:
patches, texts = plt.pie(diag_top_percentage.values,labels=diag_top_percentage.index)

# 6. Herramienta para perfilar datos

La exploración automatica la realizaremos utilizando las herramienta pandas-profiling:

- [Pandas Profiling](https://pypi.python.org/pypi/pandas-profiling/1.2.0)

In [None]:
import pandas_profiling

In [None]:
pandas_profiling.ProfileReport(df)

# 5. Retos propuestos

¿Cuantos hombres y mujeres están registrados?

¿Cual es la distirbución de ingresos por horas?

¿Cuales son las 5 primeras causas de diagnóstico de ingreso?

¿Cuantas personas fueron atendidas por cada Tipo de Identificación en cada IPS?

¿Cual es la edad promedio de las personas hospitalizadas por cada género?

¿Cual es la distribución de la duración de las hospitalizaciones?

¿Cual es la evolución en el tiempo de los datos faltantes en cada una de las variables?

Realice la transformación de los códigos por su respectivo significado

Plantee una hipótesis y realice los análisis correspondientes que le permitan validarla