# Conociendo datasets para manejo de datos faltantes

Ha llegado el momento de conocer los conjuntos de datos con los cuales trabajaremos lo largo del curso.

Vamos a cargarlos en nuestro entorno.

### Importando librerías

In [1]:
import janitor      #Crear pipelines de limpieza de datos
import matplotlib.pyplot as plt
import missingno    #Visualizar valores faltantes 
import numpy as np
import pandas as pd
import pyreadr      #Leer archivos adr para este curso
import seaborn as sns
import session_info
import upsetplot    #Para gráfica de relaciones 
                    #de nuestros valores faltantes

### Configurar el aspecto general de las gráficas del proyecto

In [2]:
%matplotlib inline

sns.set(
    rc={
        "figure.figsize": (10, 10)
    }
)

sns.set_style("whitegrid")

## Cargar los conjuntos de datos
### [Pima Indians Diabetes](https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database)

In [11]:
#Guardar url
pima_indians_diabetes_url = 'https://raw.githubusercontent.com/npradaschnor/Pima-Indians-Diabetes-Dataset/master/diabetes.csv'
#Descargar con linea de comandos
!wget -O ./dataset/pima-indians-diabetes.csv { pima_indians_diabetes_url } -q

In [12]:
#Cargar el dataset con Pandas
pd.read_csv('./dataset/pima-indians-diabetes.csv',sep=',')

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


Ya se han cargados nuestros datos. En caso de que no tengan los encabezados ejecuta el siguiente código:

```py
# https://nrvis.com/data/mldata/pima-indians-diabetes.csv
# La url anterior es del video y del data set
#Cargar el dataset con Pandas
pd.read_csv(
    './dataset/pima-indians-diabetes.csv',
    sep=',',
    names=[
            "pregnancies",
            "glucose",
            "blood_pressure",
            "skin_thickness",
            "insulin",
            "bmi",
            "diabetes_pedigree_function",
            "age",
            "outcome",
        ]
)
```

Finalmente podemos guardarlo en un data frame.

In [13]:
#Cargar el dataset con Pandas
diabetes_df = pd.read_csv(
    './dataset/pima-indians-diabetes.csv',
    sep=','
)

Descargando más datasets.

### naniar (oceanbuoys, pedestrian, riskfactors)
#### Crear unidades de información de los conjuntos de datos
```py
base_url = "https://github.com/njtierney/naniar"
datasets_name = ['oceanbuoys','pedestrian','riskfactors']
extension = '.rda'
```


In [14]:
base_url = "https://github.com/njtierney/naniar/raw/master/data/"
datasets_names = ("oceanbuoys", "pedestrian", "riskfactors")
extension = ".rda"

#### Descargar y cargar los conjuntos de datos

In [18]:
datasets_dfs = {}

for dataset_name in datasets_names:

    dataset_file = f"{ dataset_name }{ extension }"
    dataset_output_file = f"./dataset/{ dataset_file }"
    dataset_url = f"{ base_url }{ dataset_file }"
    
    !wget -q -O { dataset_output_file } { dataset_url }
    #Leer este tipo de archivos
    datasets_dfs[f"{ dataset_name }_df"] = pyreadr.read_r(dataset_output_file).get(dataset_name)

datasets_dfs.keys()

dict_keys(['oceanbuoys_df', 'pedestrian_df', 'riskfactors_df'])

#### Incluir conjuntos de datos en nuestro ambiente local

In [19]:
locals().update(**datasets_dfs)
del datasets_dfs

Mediante el código anterior hicimos una iteración para descargar y cargar nuestros archivos.

**IMPORTANTE:** Si no sabemos como leer en Python determinado archivo, siempre podemos Googlear "¿Cómo leer un archivo <.extension> en Python?".

Así encontraremos librerías que nos ayuden con el proceso

### Verificar carga

In [20]:
oceanbuoys_df.shape, pedestrian_df.shape, riskfactors_df.shape, diabetes_df.shape

((736, 8), (37700, 9), (245, 34), (768, 9))

In [21]:
riskfactors_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 245 entries, 0 to 244
Data columns (total 34 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   state             245 non-null    category
 1   sex               245 non-null    category
 2   age               245 non-null    int32   
 3   weight_lbs        235 non-null    object  
 4   height_inch       243 non-null    object  
 5   bmi               234 non-null    float64 
 6   marital           244 non-null    category
 7   pregnant          30 non-null     category
 8   children          245 non-null    int32   
 9   education         244 non-null    category
 10  employment        245 non-null    category
 11  income            245 non-null    category
 12  veteran           242 non-null    category
 13  hispanic          243 non-null    category
 14  health_general    245 non-null    category
 15  health_physical   245 non-null    int32   
 16  health_mental     245 non-

Como se puede ver los data frame anteriores tienen ciertos valores nulos y con `info()` podemos ver un resumen de los data set y sus columnas, además de cuantos poseen valores nulos.

### Extras:
- [Getting started with naniar](https://cran.r-project.org/web/packages/naniar/vignettes/getting-started-w-naniar.html)
- [Pima Indians Diabetes](https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database)
- [naniar](https://github.com/njtierney/naniar)