# An√°lise de Dados: Data Cleaning com a base Pima Indians Diabetes

Este notebook tem como objetivo ensinar as etapas de limpeza de dados (Data Cleaning) utilizando a base de dados `pima-indians-diabetes.data.csv`.

## Pima Indians Diabetes

A base de dados **Pima Indians Diabetes** √© um conjunto de dados cl√°ssico da √°rea de sa√∫de, frequentemente utilizado em estudos estat√≠sticos e cient√≠ficos para an√°lise explorat√≥ria e aprendizado de m√°quina. Seu objetivo √© estudar fatores associados ao diagn√≥stico de diabetes tipo 2 em mulheres de origem ind√≠gena Pima, que vivem no Arizona (EUA).

---

### Origem da Base

A base foi disponibilizada pelo **National Institute of Diabetes and Digestive and Kidney Diseases (NIDDK)** e tornou-se amplamente conhecida por meio do reposit√≥rio do **UCI Machine Learning Repository**:

üîó https://archive.ics.uci.edu/ml/datasets/pima+indians+diabetes

---

### Descri√ß√£o das Vari√°veis

A base cont√©m **768 observa√ß√µes** com **8 vari√°veis preditoras** e **1 vari√°vel alvo**, todas relacionadas a exames m√©dicos ou condi√ß√µes de sa√∫de. Todas as pacientes s√£o **mulheres com 21 anos ou mais**.

| Vari√°vel                | Tradu√ß√£o                           | Descri√ß√£o                                                                 |
|------------------------|------------------------------------|---------------------------------------------------------------------------|
| `Pregnancies`          | Gravidezes                         | N√∫mero de vezes que a paciente esteve gr√°vida                            |
| `Glucose`              | Glicose                            | Concentra√ß√£o de glicose no plasma em jejum                               |
| `BloodPressure`        | Press√£o Arterial                   | Press√£o arterial diast√≥lica (mm Hg)                                      |
| `SkinThickness`        | Espessura da Pele                  | Espessura da dobra cut√¢nea do tr√≠ceps (mm)                               |
| `Insulin`              | Insulina                           | N√≠vel de insulina s√©rica em 2h ap√≥s refei√ß√£o (mu U/ml)                   |
| `BMI`                  | IMC                                | √çndice de massa corporal (peso em kg / altura¬≤ em m¬≤)                    |
| `DiabetesPedigreeFunction` | Hist√≥rico Familiar             | Fun√ß√£o que expressa a probabilidade de diabetes com base no hist√≥rico familiar |
| `Age`                  | Idade                              | Idade da paciente (anos)                                                 |
| `Outcome`              | Diagn√≥stico                        | 0 = N√£o diab√©tica, 1 = Diab√©tica                                         |

---

### Observa√ß√µes importantes

- Alguns valores **zero** nas vari√°veis `Glucose`, `BloodPressure`, `SkinThickness`, `Insulin` e `BMI` s√£o considerados **inconsist√™ncias ou dados ausentes**, pois clinicamente n√£o fazem sentido.
- A vari√°vel `Outcome` √© bin√°ria e representa a **presen√ßa (1)** ou **aus√™ncia (0)** de diabetes tipo 2.

---

Esta base √© amplamente usada para praticar **data cleaning**, an√°lise descritiva e explora√ß√£o de rela√ß√µes entre vari√°veis de sa√∫de.


In [9]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Carregamento dos dados

column_names = [
    'Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness',
    'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'
]
df = pd.read_csv("/kaggle/input/pima-indians-diabetes-database/diabetes.csv", names=column_names, header=0)
df.head()

## 1. Verificando a estrutura dos dados

In [None]:
df.info()

### **Quantos atributos (vari√°veis) e quantas entradas o nosso conjunto de dados possui? Quais os tipos das vari√°veis?**

In [None]:
print(f'O dataset possui {df.shape[0]} entradas (registros) e {df.shape[1]} atributos (vari√°veis).')

# Tipos de dados dos atributos
print(f'\nOs tipos dos atributos s√£o do tipo:\n{df.dtypes}')

### **Qual a porcentagem de valores ausentes no *dataset*?**

In [None]:
print(f'As vari√°veis com mais dados faltantes, em porcentagem (%), s√£o:\n')
((df.isnull().sum() / df.shape[0])*100).sort_values(ascending=False)

### **Qual o tipo de distribui√ß√£o das vari√°veis?**

In [None]:
df.hist(bins=15, figsize=(20,16));

## 2. Estat√≠sticas descritivas iniciais

In [None]:
df.describe()

## 3. Verificando valores ausentes ou inv√°lidos
Na base, alguns campos t√™m o valor **0** que pode indicar aus√™ncia de medi√ß√£o (por exemplo, press√£o arterial = 0). Vamos verificar esses casos.

In [None]:
cols_with_zeros = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']
for col in cols_with_zeros:
    print(f"{col} - Total de zeros: { (df[col] == 0).sum() }")

In [None]:
# Substituindo zeros por NaN e contando os valores ausentes
df[cols_with_zeros] = df[cols_with_zeros].replace(0, np.nan)
df.isnull().sum()

## 4. Imputa√ß√£o de valores ausentes com a mediana (Usar com aten√ß√£o)

In [None]:
df.fillna(df.median(), inplace=True)
df.isnull().sum()

#Remover dados nulos
#df.dropna(inplace=True)

## 6. Visualizando distribui√ß√µes e outliers

In [None]:
plt.figure(figsize=(12, 8))
df.boxplot()
plt.title("Boxplots das vari√°veis com valores ausentes tratados")
plt.show()

## O que √© IQR (Interquartile Range)?

O **IQR**, ou **Intervalo Interquartil**, √© uma medida estat√≠stica de dispers√£o que descreve a faixa central de um conjunto de dados. Ele √© √∫til especialmente para detectar **valores discrepantes (outliers)**, pois √© **resistente a valores extremos**.

O IQR √© calculado como a diferen√ßa entre o terceiro quartil (Q3) e o primeiro quartil (Q1):

\[
**IQR** = Q3 - Q1
\]

- **Q1 (1¬∫ Quartil)**: 25% dos dados est√£o abaixo desse valor.
- **Q3 (3¬∫ Quartil)**: 75% dos dados est√£o abaixo desse valor.
- **IQR** representa os 50% centrais dos dados.

---

## Como interpretar o IQR?

O IQR serve como base para identificar poss√≠veis **outliers**. Valores s√£o considerados outliers se estiverem **muito abaixo de Q1 ou muito acima de Q3**, fora do intervalo definido por:

- **Limite Inferior**:  
  \[
  Q1 - 1.5 * IQR
  \]
- **Limite Superior**:  
  \[
  Q3 + 1.5 * IQR
  \]

Qualquer dado que esteja **fora desses limites** √© considerado um poss√≠vel outlier.

---

## Vantagens do uso do IQR

- **N√£o depende da distribui√ß√£o dos dados** (diferente do uso de m√©dia e desvio padr√£o).
- **Menos sens√≠vel a valores extremos**, tornando-o mais robusto.


In [None]:
def detectar_outliers_iqr(coluna):
    Q1 = df[coluna].quantile(0.25)
    Q3 = df[coluna].quantile(0.75)
    IQR = Q3 - Q1
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    outliers = df[(df[coluna] < limite_inferior) | (df[coluna] > limite_superior)]
    return outliers

outliers_insulin = detectar_outliers_iqr('Insulin')

print(outliers_insulin)

#remover outliers
#df = df.drop(outliers_insulin.index)

# Quest√£o

- Devo remover os outliers?