![logo](images/untumbes.PNG)

<b><center>Prof. Dr. Jorge Zavaleta - zavaleta.jorge@gmail.com </center></b>

# Preparación de datos

> La **fase de preparación de datos** cubre todas las actividades necesarias para
construir el conjunto de datos final a partir de los datos iniciales sin procesar.
> Es probable que las tareas de preparación de datos se realicen varias veces y no en ningún orden prescrito.
> Las tareas incluyen selección de tablas, registros y atributos, así como
transformación y limpieza de datos para herramientas de modelado.
> La preparación de datos es un paso crucial en el proceso de minería de datos y, a menudo, consume más tiempo que las propias técnicas de minería.

## Importación de las bibliotecas

In [None]:
# librarys
import numpy as np                          # calculo cientifico
import pandas as pd                         # manejo de dataframes
import matplotlib.pyplot as plt             # visualizacion grafica
import seaborn as sns                       # visualizacion grafica

## Lectura del dataset

In [None]:
# paths
path_dataset ='data/'    # diretorio do dataset local
# dataset read
file_name='covid_19.csv'          # nome do dataset
dataset1 = pd.read_csv(path_dataset+file_name,sep=';',encoding='utf-8',low_memory=False) #index_col=0  #encoding='ISO-8859-1','latin-1')     # leitura do dataset
dataset1.head()

## Visualizar el diccionario de datos

[Diccionario de datos](pdf/Dicionario_dados_19_09_2022.pdf)

## Verificar las dimensiones

In [None]:
# dimension
dataset1.shape

## Copia del dataset original

In [None]:
# fazendo uma copia do dataframe
work_data = dataset1.copy()

In [None]:
# work data
work_data.head()

## Visualizar Datos faltantes

In [None]:
# visualizando dados faltantes, os 30 maiores
md = work_data.isna().sum().sort_values(ascending=False)[:30]
md

## Algunos gráficos

In [None]:
# work data
fig_bar = sns.displot(data = work_data, x='SG_UF_NOT',hue='SG_UF_NOT')
plt.show(fig_bar)

In [None]:
# Tipos de testes no dataframe consultas
work_data.FNT_IN_COV.value_counts().plot(kind='barh', color='r');

## Operando con valores nulos

- **isnull()**: Genera una máscara booleana que indica los valores faltantes
- **notnull()**: Lo contrario de **isnull()**
- **dropna()**: Devuelve una versión filtrada de los datos
- **fillna()**: Devuelve una copia de los datos con valores faltantes completados o imputados

### Detectando valores null

Las estructuras de datos de **Pandas** tienen dos métodos útiles para detectar datos nulos: **isnull()** y **notnull()**. Cualquiera de los dos devolverá una máscara booleana sobre los datos.

In [None]:
# exemplo
data = pd.Series([1, np.nan, 'hello', None])

In [None]:
# isnull
data.isnull()

In [None]:
# work_data
work_data.isnull()

In [None]:
#
data[data.isnull()]

### Eliminando valores nulos

Existen los métodos convenientes, **dropna()** (que elimina los valores de NA) y **fillna()** (que completa los valores de NA).

In [None]:
# dropna()
data.dropna()

In [None]:
# exemplo
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df.head()

In [None]:
# drop
df.dropna()

In [None]:
# work_data
wd = work_data.dropna()
wd.head()

In [None]:
wd.shape

In [None]:
# work_data
work_data.head(7)

> Alternativamente, puede colocar los valores NA a lo largo de un eje diferente; axis=1 elimina todas las columnas que contienen un valor nulo

In [None]:
df.dropna(axis='columns')

In [None]:
wdc = work_data.dropna(axis='columns')
wdc.head()

In [None]:
wdc.shape

In [None]:
df[3] = np.nan
df

In [None]:
df.dropna(axis='columns', how='all')

> Para un control más detallado, el parámetro **thresh** le permite especificar un número mínimo de valores no nulos para la fila/columna que se mantendrá:

In [None]:
df.dropna(axis='rows', thresh=3)

### Llenando valores nulos
>A veces, en lugar de eliminar los valores de NA, es mejor reemplazarlos con un valor válido. Este valor podría ser un número único como cero, o podría ser algún tipo de imputación o interpolación de los buenos valores. Se podría hacer usando el método *isnull()* como máscara, pero debido a que es una operación tan común, **Pandas** proporciona el método **fillna()**, que devuelve una copia de la matriz con los valores nulos reemplazados.

In [None]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

In [None]:
data.fillna(0)

In [None]:
# wdc
print(wdc[['SEM_NOT']].isnull().sum())

### Función para encontrar porcentaje de valores nulos
Herramientas:
- Biblioteca Python Missingno

Instalación:

Terminal de comandos: `pip install missingno`

Anaconda: `conda search missingno --channel conda-forge`

Jupyter Notebook: `!pip install missingno`

Dataprep: https://dataprep.ai/

In [None]:
# 
def missing_values_dataset(df):
        # Total missing values
        mis_val = df.isnull().sum()
        
        # Percentage of missing values
        mis_val_percent = 100 * df.isnull().sum() / len(df)
        
        # Make a table with the results
        mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
        
        # Rename the columns
        mis_val_table_ren_columns = mis_val_table.rename(
        columns = {0 : 'Missing Values', 1 : '% of Total Values'})
        
        # Sort the table by percentage of missing descending
        mis_val_table_ren_columns = mis_val_table_ren_columns[
            mis_val_table_ren_columns.iloc[:,1] != 0].sort_values(
        '% of Total Values', ascending=False).round(1)
        
        # Print some summary information
        print ("Your selected dataframe has " + str(df.shape[1]) + " columns.\n"      
            "There are " + str(mis_val_table_ren_columns.shape[0]) +
              " columns that have missing values.")
        
        # Return the dataframe with missing information
        return mis_val_table_ren_columns

In [None]:
dm = missing_values_dataset(work_data)
dm

In [None]:
work_data.head(7)

In [None]:
# elimina colunas com dados faltantes usando drop
work_data.drop(['DT_VGM'], axis=1, inplace=True)
work_data.head()

## Ejercicios:

1. Eliminar todas las columnas com >70% de valores faltantes!!
2. Calcular las dimensiones del dataset final