# Análisis exploratorio de datos Rápido

Veremos a continuación dos paquetes que permiten hacer un análisis exploratorio de datos bastante rápido usando diferentes recursos interactivos. Se trata de pandas-profiling y dataprep, ambos han sido altamente elogiados por su capacidad para perfilar conjuntos de datos. En particular, veremos en dataprep que hay una posibilidad de hacer un análisis iterativo y centrado en tareas, facilitando una exploración adecuada de los datos.



## Pandas-Profilling

<a href="https://pandas-profiling.github.io/pandas-profiling/docs/master/rtd/"><img src="https://pandas-profiling.github.io/pandas-profiling/docs/assets/logo_header.png" style="width:150px"></a>

`Pandas-profilling` es un módulo de Python que nos permite hacer rápidamente un análisis de datos exploratorio usando unas pocas líneas de código. También genera informes interactivos en formato web ahorra el trabajo de visualizar y comprender la distribución de cada variable.

Haremos una breve introducción a este paquete utilizando los datos proporcionados por la alcaldía de Bogotá acerca de cornavirus COVID-19. Iniciamos cargando la base de datos:

In [None]:
import pandas as pd
url = 'https://datosabiertos.bogota.gov.co/dataset/44eacdb7-a535-45ed-be03-16dbbea6f6da/resource/b64ba3c4-9e41-41b8-b3fd-2da21d627558/download/osb_enftransm-covid-19_05022021.csv'  
df=pd.read_csv(url,encoding='latin-1',sep=";",error_bad_lines=False)

In [None]:
df

Tenga un poco de paciencia mientras se carga la base, el sistema la está decargando. Se puede notar que los últimos registros no corresponden a la base de datos, más bien proporcionan información de las variables, separemos esa información:

In [None]:
otrainfo=df.iloc[-4:]
df=df.iloc[:-4]

In [None]:
otrainfo=otrainfo['CASO']

In [None]:
for i in otrainfo.values:
    print(i)

In [None]:
df.columns

Antes de continuar arreglemos las fechas:

In [None]:
df.dtypes

In [None]:
df["FECHA_DIAGNOSTICO"] = pd.to_datetime(df["FECHA_DIAGNOSTICO"])
df["FECHA_DE_INICIO_DE_SINTOMAS"] = pd.to_datetime(df["FECHA_DE_INICIO_DE_SINTOMAS"])
df.dtypes

Ahora crearemos el reporte de pandas profilling:

In [None]:
#pip install pandas-profiling

In [None]:
from pandas_profiling import ProfileReport
prof = ProfileReport(df)
prof.to_file(output_file='output.html')

En la carpeta donde está alojado el cuaderno encontrará un archivo HTML que contiene su reporte. Si lo quiere ver como salida simplemente llámelo:

In [None]:
prof

Si quiere una exploración más profunda utilice el argumento explorative:

In [None]:
prof2=ProfileReport(df,explorative=True)
prof2

Puede usar los widgets de jupyter:

In [None]:
prof2.to_widgets()

## DataPrep

`dataprep` es un paquete para hacer exploración de datos desarrollado por el grupo de [Investigación de la Ciencia de Datos de *Simon Fraser University*](https://data.cs.sfu.ca/index.html);  la idea es acelerar el proceso de exploración y preparación de datos para *Dta Science*. Un aspecto particular de este paquete es la velocidad en generar reportes en comparación con `pandas-priofilling`.

<a href="https://sfu-db.github.io/dataprep/index.html"><img src="https://raw.githubusercontent.com/sfu-db/dataprep/develop/assets/logo_cropped.jpg" style="width:150px;align:center"></a>

Usaremos nuevamente a base de datos acerca del COVID-19 en Bogotá.

### Función plot() análisis de distribuciones

La función `plot` explora las distribuciones de las variables, además calcula algunos estadísticos. Podrá apreciar una variedad de gráficos enfocados a una mejor comprensión de los datos. Antes arreglaremos las variables:

In [None]:
#pip install dataprep

In [None]:
from dataprep.eda import plot
plot(df)

Con la función plot también puedo hacer una exploración en cada variable:

In [None]:
plot(df,"EDAD")

Funciona diferente en una variable categórica:

In [None]:
plot(df,'LOCALIDAD_ASIS')

También es útil para comparar variables:

In [None]:
plot(df,'EDAD','LOCALIDAD_ASIS')

In [None]:
plot(df,'FUENTE_O_TIPO_DE_CONTAGIO','LOCALIDAD_ASIS')

In [None]:
plot(df,'ESTADO','FECHA_DIAGNOSTICO')

Falta comparar dos variables numéricas, usaremos la base [adult_dataset](http://archive.ics.uci.edu/ml/datasets/Adult)

In [None]:
adult_dataset = pd.read_csv("https://www.openml.org/data/get_csv/1595261/phpMawTba", na_values = [' ?'])

In [None]:
plot(adult_dataset, "age", "hours-per-week")

### plot correlation

La función `plot_correlation()` explora la correlación entre variables de múltiples formas, usa diferentes métricas de correlación. 

In [None]:
wine = pd.read_csv("https://www.openml.org/data/get_csv/4965268/wine-quality-red.arff")
from dataprep.eda import plot_correlation
plot_correlation(wine)

Si ponemos una sola variable la compara todas la demás:

In [None]:
plot_correlation(wine, "alcohol")

Si ponemos dos numéricas hace el diagrama de dispersión:

In [None]:
plot_correlation(wine, "alcohol","density")

### create_report

Finalmente un reporte completo:

In [None]:
from dataprep.eda import create_report
reportdf = create_report(df, title='COVID BOGOTÁ')
reportadult = create_report(adult_dataset, title='Adult dataset')
reportwine = create_report(wine, title='Vino')


In [None]:
reportdf

In [None]:
reportadult

In [None]:
reportwine