### Importar las librerías a utilizar

In [2]:
import pandas as pd
from pandas_profiling import ProfileReport
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

from quickda.explore_data import *
from quickda.clean_data import *
from quickda.explore_numeric import *
from quickda.explore_categoric import *
from quickda.explore_numeric_categoric import *
from quickda.explore_time_series import *

ModuleNotFoundError: No module named 'quickda'

### Leer archivo de datos

In [None]:
datos = pd.read_csv("titanic3.csv")

In [None]:
datos.head()

In [None]:
datos.info()

In [None]:
datos.shape

## Ejemplos de uso de Seaborn para explorar los datos

In [None]:
sns.displot(datos['pclass'], kde = True)

In [None]:
sns.countplot(x = 'sex', data = datos)

### Pura Magia

In [None]:
profile = ProfileReport(datos)
profile

Toda la información que nos da este reporte, la podemos obtener directamente con instrucciones de Pandas...obviamente, es mucho más simple dar una sola instrucción.

### Conocemos los datos y ahora qué hacer para prepararlos (limpiarlos)?

Pandas tiene todas las instrucciones para:
1.  estandarizar los nombres de las variables
2.  eliminar datos faltantes
3.  eliminar registros duplicados
4.  crear nuevas variables
5.  etc.

Sin embargo, si somos amantes de la ley del menor esfuerzo, hay otro paquete que nos facilita muchas cosas:

### QuickDA!

Demos un vistazo rápido a los datos:

In [None]:
explore(datos, method="summarize")   # method es opcional, de hecho el default es "summarize"

###  Eliminar columnas

In [None]:
columnas_a_eliminar = ['body']
datos = clean(datos, method = 'dropcols', columns = columnas_a_eliminar)

### Cambiar el tipo de algunos datos

In [None]:
#to_datetime = []
#to_numeric = []
to_categoric = ["name", "sex", "survived",
                "ticket", "boat", "cabin",
                "embarked", "home.dest", "pclass"]

In [None]:
#datos = clean(datos, method = 'dtypes', columns = to_datetime,             
#            dtype='datetime')
#datos = clean(datos, method = 'dtypes', columns = to_numeric,             
#            dtype='numeric')
datos = clean(datos, method = 'dtypes', columns = to_categoric, 
              dtype='category')

### Vistazo rápido a los datos 

In [None]:
explore(datos, method="summarize")   # method es opcional, de hecho el default es "summarize"

Esta instrucción nos da la misma información que los métodos .info() y .describe()

### Estandarizar los nombres de las columnas:

In [None]:
datos = clean(datos, method = "standardize")

### Eliminar filas duplicadas

In [3]:
datos = clean(datos, method = "duplicates")

NameError: name 'clean' is not defined

### Ojo!  la función clean() devuelve un dataframe nuevo, **NO** cambia el original

### Reemplazar valores con otro

In [None]:
datos = clean(datos, method = "replaceval",       
      columns = [],     #  Si no se dan columnas, lo hace en todas
      to_replace = "",  # Si no se da el valor que debe ser reemplazado, no cambia nada
      value = np.nan)   # Si no se da el valor con que se reemplazará, utiliza el valor nulo

### Reemplazar valores faltantes

In [None]:
clean(datos, method = "fillmissing")  # Utiliza el método de interpolación

### Eliminar filas con valores faltantes

In [None]:
clean(datos, method = "dropmissing")

### Explorar los datos numéricos

In [None]:
eda_num(datos)

### Explorar los datos categóricos

In [None]:
eda_cat(datos, x = "survived")

In [None]:
eda_cat(datos, x='survived', y='sex')

### Reducir la cardinalidad

In [None]:
clean(datos, method = "cardinality",       
      columns = [],    #  Si no se dan columnas, no hay cambios
      value = np.nan,  #  Si no se da un valor, reemplaza los valores que cumplen con el mínimo
                       #     porcentaje de frecuencia de el "treshold", con el valor "other"
      threshold = 0)   #  Si no se da un valor, no hay cambios 
                       #     (valores pueden ser entre 0 y 1, inclusivos)

### Eliminar datos atípicos

In [None]:
clean(datos, method="outliers", 
      columns=[])   #  Si no se da un valor, se hará en todas las columnas numéricas

### Si queremos obtener el mismo reporte del ProfileReport():

In [None]:
explore(datos, method = "profile", report_name = "Reporte de Datos Tutorial", 
        is_large_dataset = False)  # Si es muy grande poner True ahorra muchos cálculos

### Matriz de correlación

In [None]:
eda_num(datos, method='correlation')

### Punteo de potencial de predicción

In [None]:
x = "survived"
eda_numcat(datos, x, 
           method = "pps") # pps es el valor default