# Aula Prática de Análise de Dados

# Sumário

Esta aula é uma introdução prática ao uso das bibliotecas Pandas, Matplotlib e Seaborn para análise de dados em Python.

## Módulo 1: Pandas para Análise de Dados

### Tópico 1.1: Introdução ao Pandas

- Configuração e conceitos fundamentais
- Estruturas de dados do Pandas: Series e DataFrames
- Carregamento de dados de diferentes fontes (CSV, Excel, bancos de dados)

### Tópico 1.2: Manipulação Básica de Dados

- Escrever dados em diferentes formatos
- Inspeção inicial dos dados e funções úteis
- Indexação, filtragem e subconjuntos de dados

### Tópico 1.3: Limpeza e Preparação de Dado

- Verificação de dados faltantes
- Imputação/Preenchimento de dados
- Limpeza de dados por exclusão

### Tópico 1.4: Operações com DataFrames

- Operações estatísticas básicas
- Agrupamento e agregação com groupby
- Merge, join e concatenação

### Tópico 1.5: Transformação de Dados

- Transformação e normalização de dados
- Funções de mapeamento: apply, map e applymap
- Reshaping e pivotamento

### Tópico 1.5: Pandas Avançado

- Trabalhando com dados de texto e datas
- Criação e manipulação de índices multi-nível
- Técnicas de slicing e dicing avançadas
- Trabalhando com séries temporais e dados categóricos

## Módulo 2: Visualização de Dados com Matplotlib

### Tópico 2.1: Fundamentos de Plotagem com Matplotlib

- Estrutura de uma figura no Matplotlib
- Criando gráficos básicos: linhas, barras, histogramas


### Tópico 2.2: Estilização de Gráfico

- Customização de cores, linhas e marcadores
- Eixos, títulos, legendas e anotações

### Tópico 2.3: Gráficos Avançados

- Combinando múltiplos gráficos em uma figura
- Explorando subplots e figuras complexas
- Gráficos de barra empilhados e agrupados
- Visualizações de séries temporais

### Tópico 2.4: Gráficos Interativos e Animações

- Criando visualizações interativas
- Introdução a animações com Matplotlib

## Módulo 3: Exploração de Dados com Seaborn

### Tópico 3.1: Introdução ao Seaborn

- Diferenças entre Seaborn e Matplotlib
- Estilos e temas em Seaborn

### Tópico 3.2: Visualizações Estatísticas

- Plotagens de distribuição e densidade: distplot, kdeplot, rugplot 
- Histogramas e KDEs com Seaborn
- Visualizações de categorias: de caixa, violino e swarm (boxplot, violinplot, stripplot)

### Tópico 3.4: Visualizações Multivariados

- Visualizações de pares e matrizes de correlação
- Heatmaps para visualização de matrizes de correlação
- Explorando interações entre múltiplas variáveis

### Tópico 3.5: Visualizações Avançadas

- Regressões lineares com Seaborn (regplot e lmplot)
- Gráficos de contagem e categorias avançadas (factorplot e swarmplot)

### Tópico 3.6: Customização de Visualizações com Seaborn

- Personalização avançada de gráficos
- Combinação de múltiplos tipos de gráficos para visualizações complexas

# Módulo 1: Pandas para Análise de Dados

## Tópico 1.1: Introdução ao Pandas

### 1.1.1 Configuração e conceitos fundamentais

Pandas é uma biblioteca poderosa do Python que fornece estruturas de dados e ferramentas de análise de dados fáceis de usar e de alta performance. É fundamental no dia-a-dia de um cientista de dados para manipular e preparar dados para análise.

Nesta aula, vamos aprender como instalar o Pandas, entender suas principais estruturas de dados e começar a explorar um conjunto de dados.

#### - Instalação do Pandas

Para instalar o Pandas, execute a cécula abaixo:

In [1]:
%pip install pandas

Note: you may need to restart the kernel to use updated packages.




#### - Importando o Pandas  

Após a instalação, podemos importar o Pandas para o nosso ambiente de trabalho. A convenção é importá-lo com o alias pd:

In [None]:
import pandas as pd

#### - Carregando o Conjunto de Dados Iris  

O conjunto de dados Iris é um dos conjuntos mais famosos na literatura de reconhecimento de padrões e em aprendizado de máquina. Ele contém as medições das sépalas e pétalas de 150 flores de íris de três espécies diferentes.

Para fins didáticos, o conjunto de dados Iris está disponível diretamente através do repositório UCI Machine Learning ou de outras fontes na internet. Vamos carregá-lo utilizando o Pandas:

In [None]:
# Carregar o conjunto de dados Iris de uma URL pública diretamente para um DataFrame do Pandas
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
col_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'species']
iris = pd.read_csv(url, header=None, names=col_names)

#### - Explorando o Conjunto de Dados

Agora que carregamos os dados, vamos explorar o que temos no DataFrame:

In [None]:
# Visualizar as primeiras 5 linhas do DataFrame
iris.head()

In [None]:
# Visualizar as últimas 5 linhas do DataFrame
iris.tail()

In [None]:
# Verificar a quantidade de linhas e colunas no DataFrame
iris.shape

In [None]:
# O Pandas oferece métodos convenientes para uma descrição estatística rápida dos dados, como o método .describe():
# Obter uma descrição estatística do conjunto de dados
iris.describe()

In [None]:
# Verificando Tipos de Dados e Dados Ausentes
# É crucial conhecer os tipos de dados em cada coluna e verificar a existência de valores ausentes:
# Verificar os tipos de dados das colunas
iris.dtypes

In [None]:
# Verificar se há valores ausentes no DataFrame
iris.isnull().sum()

Ao final desta aula prática, os alunos terão uma compreensão básica de como começar a usar o Pandas para carregar e inspecionar um conjunto de dados.

No próximo tópico, aprofundaremos em manipulações de DataFrames, incluindo filtragem de dados, limpeza e transformações mais complexas.

### 1.1.2 Estruturas de dados do Pandas: Series e DataFrames

O Pandas fornece duas estruturas de dados principais: `Series` e `DataFrames`. Estas estruturas são construídas em cima do `NumPy`, o que significa que elas são rápidas.

#### - Series

Uma `Series` é como um array unidimensional, uma lista de valores. Cada valor tem um índice, e os índices são, por padrão, os números de 0 a n - 1, onde `n` é o número de valores na `Series`.

In [3]:
# Criando uma Series de um array NumPy
import numpy as np
import pandas as pd

data = np.array(['a', 'b', 'c', 'd'])
s = pd.Series(data)
print(s)

0    a
1    b
2    c
3    d
dtype: object


Você pode personalizar o índice dos valores ao criar a Series:

In [4]:
# Criando uma Series com um índice definido
s = pd.Series(data, index=[100, 101, 102, 103])
print(s)

100    a
101    b
102    c
103    d
dtype: object


#### - Dataframe

Um DataFrame é uma estrutura de dados bidimensional com colunas que podem ter tipos diferentes. Você pode pensar em um DataFrame como uma planilha do Excel ou uma tabela SQL.

In [5]:
# Criando um DataFrame a partir de um dicionário de arrays NumPy
data = {
    'Species': ['Setosa', 'Versicolor', 'Virginica'],
    'Length': [5.1, 6.9, 5.6],
    'Width': [3.5, 3.2, 2.8]
}
df = pd.DataFrame(data)
print(df)

      Species  Length  Width
0      Setosa     5.1    3.5
1  Versicolor     6.9    3.2
2   Virginica     5.6    2.8


Outra forma de visualizar é usando o comando display. Dessa forma, você visualiza o dataframe mais próximo de uma tabela

In [6]:
display(df)

Unnamed: 0,Species,Length,Width
0,Setosa,5.1,3.5
1,Versicolor,6.9,3.2
2,Virginica,5.6,2.8


#### - Criação de DataFrame a partir de uma Series

Um DataFrame também pode ser criado a partir de uma Series do Pandas:

In [8]:
# Criando uma Series com dados complexos
import pandas as pd

data = pd.Series({
    'a': ['Setosa', 5.1, 3.5],
    'b': ['Versicolor', 6.9, 3.2],
    'c': ['Virginica', 5.6, 2.8]
})

# Criando um DataFrame a partir de uma Series de listas
df = pd.DataFrame(data.tolist(), columns=['Species', 'Length', 'Width'])
print(df)

      Species  Length  Width
0      Setosa     5.1    3.5
1  Versicolor     6.9    3.2
2   Virginica     5.6    2.8


Este código primeiro cria uma Series onde cada chave no dicionário corresponde a uma lista de valores relacionados a espécies de íris e suas medidas. Em seguida, ele converte esta Series em um DataFrame, explicitamente convertendo a Series em uma lista de listas (usando .tolist()) e especificando os nomes das colunas.

Aqui está o que o código faz:

- `data.tolist()` converte a Series em uma lista de listas.
- `pd.DataFrame(...)` cria um DataFrame usando a lista de listas como dados e especifica os nomes das colunas com columns=[...].
Perceba que dessa forma, os índices dos dados das séries sumiram. No entanto, há formas de contornar isso

Na transformação para DataFrame, os índices da Series (neste caso `a`, `b`, `c`) não são automaticamente transferidos para o DataFrame como rótulos de linha, a menos que especificamente os mantenhamos.

Para incluir esses índices como uma coluna no DataFrame ou para usá-los como índices no DataFrame final, precisamos de uma etapa adicional.

In [10]:
import pandas as pd

# Dados originais com índices 'a', 'b', 'c'
data = pd.Series({
    'a': ['Setosa', 5.1, 3.5],
    'b': ['Versicolor', 6.9, 3.2],
    'c': ['Virginica', 5.6, 2.8]
})

# Criando um DataFrame usando os índices da Series como índices do DataFrame
df = pd.DataFrame(data.tolist(), columns=['Species', 'Length', 'Width'], index=data.index)
print(df)

      Species  Length  Width
a      Setosa     5.1    3.5
b  Versicolor     6.9    3.2
c   Virginica     5.6    2.8


#### - Acessando Dados no DataFrame

##### Acesso básico


Você pode acessar dados em um DataFrame de várias maneiras. Por exemplo:

In [13]:
# Acessando uma coluna específica
display(df['Length'])


a    5.1
b    6.9
c    5.6
Name: Length, dtype: float64

In [14]:
# Acessando uma linha específica pelo índice
print(df.iloc[1])

Species    Versicolor
Length            6.9
Width             3.2
Name: b, dtype: object


In [15]:
### Acessando um valor específico
print(df.iloc[1, 1])

6.9


In [18]:
### Acessando um valor específico usando o nome da coluna e do índice
print(df.at['b', 'Length'])

6.9


Você pode usar o método `iloc` para acessar valores pelo índice numérico (baseado na posição) ou `loc` para acessar valores usando o índice baseado em etiquetas (label). Para acessar usando o nome da coluna juntamente com o número da linha, a abordagem mais comum e recomendada é `iloc`, que é puramente baseada na posição numérica.

##### Uso avançado do iloc e get_loc

O `iloc` é usado para selecionar dados baseando-se na posição numérica das linhas e colunas. A sintaxe é `dataframe.iloc[linha, coluna]`, onde linha e coluna são as posições numéricas (iniciando de 0). O `get_loc` é para encontrar a posição da coluna pelo nome.

In [17]:
# Acessando o valor da coluna 'Length' na segunda linha
# Lembrando que a contagem começa do zero, então a segunda linha é indexada por 1
valor_especifico = df.iloc[1, df.columns.get_loc('Length')]  # Usando iloc e get_loc para encontrar a posição da coluna pelo nome
print('O valor acessado é:', valor_especifico)

O valor acessado é: 6.9


##### Uso de loc

O `loc`, em contraste, é usado para acessar elementos com base no nome do índice e no nome da coluna. A sintaxe é `dataframe.loc[indice, 'nome_da_coluna']`. Tem o mesmo efeito do `at`.

In [21]:
# Continuando com o DataFrame anterior:
# Acessando o valor da coluna 'Length' na segunda linha usando loc
# Supondo que o índice seja padrão (0, 1, 2, ...)
valor_especifico_loc = df.loc['a', 'Length']  # Usando loc com o índice numérico e o nome da coluna diretamente
print('O valor acessado é:', valor_especifico_loc)

valor_especifico_loc = df.at['a', 'Length']  # Usando at com o índice numérico e o nome da coluna diretamente
print('O valor acessado é:', valor_especifico_loc)

O valor acessado é: 5.1
O valor acessado é: 5.1


##### Quando Usar iloc vs loc
- Use `iloc` quando você precisa de acesso baseado na posição numérica das linhas/colunas.
- Use `loc` quando você está lidando com índices personalizados ou precisa acessar as linhas/colunas pelos seus nomes ou etiquetas.

#### - Resumo  
Series e DataFrames são os blocos de construção do Pandas. Com eles, você pode armazenar e manipular dados de maneira eficiente e intuitiva. Ao dominar essas estruturas, você terá uma base sólida para realizar análises de dados complexas e poderosas com o Pandas.

No próximo tópico, vamos mergulhar mais fundo em como manipular DataFrames, incluindo seleção, filtragem e limpeza de dados.

### 1.2.3 Carregamento de dados de diferentes fontes (CSV, Excel, bancos de dados)

#### - Carregando Dados de Arquivos CSV

- Pandas é uma ferramenta extremamente eficaz para ler dados de uma variedade de fontes como CSV, Excel e bancos de dados SQL. Neste tópico, vamos aprender como carregar dados de cada uma dessas fontes.
- Arquivos CSV (Comma-Separated Values) são uma das formas mais comuns e simples de troca de dados. Pandas facilita a leitura desses arquivos com a função `read_csv`.

In [None]:
# Exemplo de como carregar um arquivo CSV
import pandas as pd

# Substitua 'caminho_para_o_arquivo.csv' pelo caminho do seu arquivo
df_csv = pd.read_csv('caminho_para_o_arquivo.csv')
print(df_csv.head())

#### - Carregando Dados de Arquivos Excel

Você precisa ter a biblioteca `openpyxl` ou `xlrd` instalada para ler arquivos Excel. Você pode instalar qualquer uma delas usando pip:

In [39]:
# openpyxl é para o formato .xlsx
#%pip install openpyxl
# xlrd é para o formato .xls
#%pip install xlrd

Collecting xlrd
  Obtaining dependency information for xlrd from https://files.pythonhosted.org/packages/a6/0c/c2a72d51fe56e08a08acc85d13013558a2d793028ae7385448a6ccdfae64/xlrd-2.0.1-py2.py3-none-any.whl.metadata
  Downloading xlrd-2.0.1-py2.py3-none-any.whl.metadata (3.4 kB)
Downloading xlrd-2.0.1-py2.py3-none-any.whl (96 kB)
   ---------------------------------------- 0.0/96.5 kB ? eta -:--:--
   ------------ --------------------------- 30.7/96.5 kB 1.4 MB/s eta 0:00:01
   ------------ --------------------------- 30.7/96.5 kB 1.4 MB/s eta 0:00:01
   ------------------------- -------------- 61.4/96.5 kB 550.5 kB/s eta 0:00:01
   ---------------------------------------- 96.5/96.5 kB 690.3 kB/s eta 0:00:00
Installing collected packages: xlrd
Successfully installed xlrd-2.0.1
Note: you may need to restart the kernel to use updated packages.




##### Leitura Local

Pandas pode ler esses arquivos usando a função `read_excel`.

In [None]:
# Exemplo de como carregar um arquivo Excel
# Substitua 'caminho_para_o_arquivo.xlsx' pelo caminho do seu arquivo
df_excel = pd.read_excel('caminho_para_o_arquivo.xlsx')
print(df_excel.head())

##### Leitura direto de link on-line

Algumas vezes você pode querer fazer download diretamente da internet. Para fazer download e ler o excel usando código, faça o seguinte:

In [42]:
import pandas as pd
import io
import requests

# Use the direct raw link to the Excel file
url_excel = "https://raw.githubusercontent.com/bharathirajatut/sample-excel-dataset/master/airline.xls"
response = requests.get(url_excel)

if response.status_code == 200:
    data_excel = io.BytesIO(response.content)
    # Ensure you use the correct engine; 'openpyxl' is for .xlsx, use 'xlrd' for .xls files
    df_excel = pd.read_excel(data_excel, engine='xlrd')
    display(df_excel.head())
else:
    print("Falha ao baixar o arquivo. Status Code:", response.status_code)



Unnamed: 0,YEAR,Y,W,R,L,K
0,1948,1.214,0.243,0.1454,1.415,0.612
1,1949,1.354,0.26,0.2181,1.384,0.559
2,1950,1.569,0.278,0.3157,1.388,0.573
3,1951,1.948,0.297,0.394,1.55,0.564
4,1952,2.265,0.31,0.3559,1.802,0.574


##### Leitura direto de link on-line com descompactação automática

Algumas vezes você pode querer fazer download diretamente da internet, mas o arquivo pode estar zipado. Para fazer download, descompactar e ler o excel usando código, faça o seguinte:

In [45]:
import requests
from zipfile import ZipFile
import io
import pandas as pd

# URL do arquivo ZIP
url_zip = 'https://www.thespreadsheetguru.com/wp-content/uploads/2022/12/EmployeeSampleData.zip'

# Fazendo o download do arquivo ZIP
response = requests.get(url_zip)
if response.status_code == 200:
    zip_file = io.BytesIO(response.content)
    
    # Abrindo o arquivo ZIP
    with ZipFile(zip_file, 'r') as z:
        # Lista todos os arquivos contidos no arquivo ZIP
        print(z.namelist())
        
        # Supondo que você saiba o nome do arquivo Excel ou é o único arquivo
        # Extrai o arquivo Excel
        for file_name in z.namelist():
            if file_name.endswith('.xlsx'):
                z.extract(file_name, 'path_to_extract')
                # Carregando o arquivo Excel com Pandas
                df = pd.read_excel('path_to_extract/' + file_name)
                display(df.head())

else:
    print(f"Erro ao baixar o arquivo: {response.status_code}")


['Employee Sample Data.csv', 'Employee Sample Data.xlsx']


Unnamed: 0,EEID,Full Name,Job Title,Department,Business Unit,Gender,Ethnicity,Age,Hire Date,Annual Salary,Bonus %,Country,City,Exit Date
0,E02387,Emily Davis,Sr. Manger,IT,Research & Development,Female,Black,55,2016-04-08,141604,0.15,United States,Seattle,2021-10-16
1,E04105,Theodore Dinh,Technical Architect,IT,Manufacturing,Male,Asian,59,1997-11-29,99975,0.0,China,Chongqing,NaT
2,E02572,Luna Sanders,Director,Finance,Speciality Products,Female,Caucasian,50,2006-10-26,163099,0.2,United States,Chicago,NaT
3,E02832,Penelope Jordan,Computer Systems Manager,IT,Manufacturing,Female,Caucasian,26,2019-09-27,84913,0.07,United States,Chicago,NaT
4,E01639,Austin Vo,Sr. Analyst,Finance,Manufacturing,Male,Asian,55,1995-11-20,95409,0.0,United States,Phoenix,NaT


#### - Carregando Dados de Bancos de Dados SQL

Pandas também pode ser usado para ler dados diretamente de bancos de dados SQL. Você precisará de uma biblioteca adicional para fazer a conexão com o banco de dados específico que você está usando (por exemplo, PyMySQL para MySQL, psycopg2 para PostgreSQL).

In [None]:
#%pip install sqlalchemy

In [None]:
# Exemplo de como carregar dados de um banco de dados SQL usando SQLAlchemy
from sqlalchemy import create_engine

# Substitua 'tipo_de_banco://usuario:senha@host:porta/nome_do_banco' pela sua string de conexão
engine = create_engine('tipo_de_banco://usuario:senha@host:porta/nome_do_banco')
df_sql = pd.read_sql('SELECT * FROM nome_da_tabela', con=engine)
print(df_sql.head())

No entanto, não iremos explorar banco de dados nessa disciplina

## Tópico 1.2: Manipulação Básica de Dados

### 1.2.1 Escrever dados em diferentes formatos

Primeiro, vamos carregar um dataframe da internet

In [51]:
import requests
from zipfile import ZipFile
import io
import pandas as pd

# URL do arquivo ZIP
url_zip = 'https://www.thespreadsheetguru.com/wp-content/uploads/2022/12/EmployeeSampleData.zip'

# Fazendo o download do arquivo ZIP
response = requests.get(url_zip)
if response.status_code == 200:
    zip_file = io.BytesIO(response.content)
    
    # Abrindo o arquivo ZIP
    with ZipFile(zip_file, 'r') as z:
        # Lista todos os arquivos contidos no arquivo ZIP
        print(z.namelist())
        
        # Supondo que você saiba o nome do arquivo Excel ou é o único arquivo
        # Extrai o arquivo Excel
        for file_name in z.namelist():
            if file_name.endswith('.xlsx'):
                z.extract(file_name, 'path_to_extract')
                # Carregando o arquivo Excel com Pandas
                df = pd.read_excel('path_to_extract/' + file_name)
                display(df.head())

else:
    print(f"Erro ao baixar o arquivo: {response.status_code}")


['Employee Sample Data.csv', 'Employee Sample Data.xlsx']


Unnamed: 0,EEID,Full Name,Job Title,Department,Business Unit,Gender,Ethnicity,Age,Hire Date,Annual Salary,Bonus %,Country,City,Exit Date
0,E02387,Emily Davis,Sr. Manger,IT,Research & Development,Female,Black,55,2016-04-08,141604,0.15,United States,Seattle,2021-10-16
1,E04105,Theodore Dinh,Technical Architect,IT,Manufacturing,Male,Asian,59,1997-11-29,99975,0.0,China,Chongqing,NaT
2,E02572,Luna Sanders,Director,Finance,Speciality Products,Female,Caucasian,50,2006-10-26,163099,0.2,United States,Chicago,NaT
3,E02832,Penelope Jordan,Computer Systems Manager,IT,Manufacturing,Female,Caucasian,26,2019-09-27,84913,0.07,United States,Chicago,NaT
4,E01639,Austin Vo,Sr. Analyst,Finance,Manufacturing,Male,Asian,55,1995-11-20,95409,0.0,United States,Phoenix,NaT


#### - Escrever em Arquivos CSV

In [52]:
import pandas as pd

# Suponha que df seja o DataFrame que você deseja escrever em CSV
df.to_csv('meu_novo_arquivo.csv', index=False)
df2 = pd.read_csv('meu_novo_arquivo.csv')
display(df2.head())

Unnamed: 0,EEID,Full Name,Job Title,Department,Business Unit,Gender,Ethnicity,Age,Hire Date,Annual Salary,Bonus %,Country,City,Exit Date
0,E02387,Emily Davis,Sr. Manger,IT,Research & Development,Female,Black,55,2016-04-08,141604,0.15,United States,Seattle,2021-10-16
1,E04105,Theodore Dinh,Technical Architect,IT,Manufacturing,Male,Asian,59,1997-11-29,99975,0.0,China,Chongqing,
2,E02572,Luna Sanders,Director,Finance,Speciality Products,Female,Caucasian,50,2006-10-26,163099,0.2,United States,Chicago,
3,E02832,Penelope Jordan,Computer Systems Manager,IT,Manufacturing,Female,Caucasian,26,2019-09-27,84913,0.07,United States,Chicago,
4,E01639,Austin Vo,Sr. Analyst,Finance,Manufacturing,Male,Asian,55,1995-11-20,95409,0.0,United States,Phoenix,


#### - Escrever em Arquivos Excel

In [53]:
df2.to_excel('nome_do_arquivo.xlsx', sheet_name='Sheet1', index=False)
df3 = pd.read_excel('nome_do_arquivo.xlsx')
display(df3.head())

Unnamed: 0,EEID,Full Name,Job Title,Department,Business Unit,Gender,Ethnicity,Age,Hire Date,Annual Salary,Bonus %,Country,City,Exit Date
0,E02387,Emily Davis,Sr. Manger,IT,Research & Development,Female,Black,55,2016-04-08,141604,0.15,United States,Seattle,2021-10-16
1,E04105,Theodore Dinh,Technical Architect,IT,Manufacturing,Male,Asian,59,1997-11-29,99975,0.0,China,Chongqing,
2,E02572,Luna Sanders,Director,Finance,Speciality Products,Female,Caucasian,50,2006-10-26,163099,0.2,United States,Chicago,
3,E02832,Penelope Jordan,Computer Systems Manager,IT,Manufacturing,Female,Caucasian,26,2019-09-27,84913,0.07,United States,Chicago,
4,E01639,Austin Vo,Sr. Analyst,Finance,Manufacturing,Male,Asian,55,1995-11-20,95409,0.0,United States,Phoenix,


#### - Escrever em Arquivos JSON

In [54]:
df.to_json('nome_do_arquivo.json', orient='records')
df4 = pd.read_json('nome_do_arquivo.json')
display(df4.head())

Unnamed: 0,EEID,Full Name,Job Title,Department,Business Unit,Gender,Ethnicity,Age,Hire Date,Annual Salary,Bonus %,Country,City,Exit Date
0,E02387,Emily Davis,Sr. Manger,IT,Research & Development,Female,Black,55,1460073600000,141604,0.15,United States,Seattle,1634342000000.0
1,E04105,Theodore Dinh,Technical Architect,IT,Manufacturing,Male,Asian,59,880761600000,99975,0.0,China,Chongqing,
2,E02572,Luna Sanders,Director,Finance,Speciality Products,Female,Caucasian,50,1161820800000,163099,0.2,United States,Chicago,
3,E02832,Penelope Jordan,Computer Systems Manager,IT,Manufacturing,Female,Caucasian,26,1569542400000,84913,0.07,United States,Chicago,
4,E01639,Austin Vo,Sr. Analyst,Finance,Manufacturing,Male,Asian,55,816825600000,95409,0.0,United States,Phoenix,


#### - Escrever em Arquivos HTML

In [55]:
df.to_html('nome_do_arquivo.html')
df5 = pd.read_html('nome_do_arquivo.html')[0]
display(df5.head())

Unnamed: 0.1,Unnamed: 0,EEID,Full Name,Job Title,Department,Business Unit,Gender,Ethnicity,Age,Hire Date,Annual Salary,Bonus %,Country,City,Exit Date
0,0,E02387,Emily Davis,Sr. Manger,IT,Research & Development,Female,Black,55,2016-04-08,141604,0.15,United States,Seattle,2021-10-16
1,1,E04105,Theodore Dinh,Technical Architect,IT,Manufacturing,Male,Asian,59,1997-11-29,99975,0.0,China,Chongqing,NaT
2,2,E02572,Luna Sanders,Director,Finance,Speciality Products,Female,Caucasian,50,2006-10-26,163099,0.2,United States,Chicago,NaT
3,3,E02832,Penelope Jordan,Computer Systems Manager,IT,Manufacturing,Female,Caucasian,26,2019-09-27,84913,0.07,United States,Chicago,NaT
4,4,E01639,Austin Vo,Sr. Analyst,Finance,Manufacturing,Male,Asian,55,1995-11-20,95409,0.0,United States,Phoenix,NaT


### 1.2.2 Inspeção inicial dos dados e funções úteis

Para uma inspeção inicial de dados e utilização de funções úteis no Pandas, é essencial conhecer as ferramentas disponíveis que permitem explorar e entender rapidamente seus datasets. Aqui está um guia prático que aborda como realizar uma análise exploratória inicial de dados usando Pandas, uma biblioteca extremamente poderosa e flexível para manipulação de dados em Python.

Vamos explorar o dataset Titanic usando a biblioteca Pandas. Este dataset é frequentemente usado para introdução à análise de dados e machine learning.

In [57]:
# URL do dataset Titanic
url = 'https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv'

# Carregar o dataset Titanic
df = pd.read_csv(url)

# Mostra as primeiras 5 linhas do DataFrame
display(df.head())

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3,Mr. Owen Harris Braund,male,22.0,1,0,7.25
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
2,1,3,Miss. Laina Heikkinen,female,26.0,0,0,7.925
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.05


In [59]:
# Mostra as últimas 5 linhas do DataFrame
display(df.tail())

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
882,0,2,Rev. Juozas Montvila,male,27.0,0,0,13.0
883,1,1,Miss. Margaret Edith Graham,female,19.0,0,0,30.0
884,0,3,Miss. Catherine Helen Johnston,female,7.0,1,2,23.45
885,1,1,Mr. Karl Howell Behr,male,26.0,0,0,30.0
886,0,3,Mr. Patrick Dooley,male,32.0,0,0,7.75


In [60]:
# Retorna as dimensões do DataFrame (linhas, colunas)
print(df.shape)

(887, 8)


In [63]:
# Mostra o tipo de dados de cada coluna
print(df.dtypes)

Survived                     int64
Pclass                       int64
Name                        object
Sex                         object
Age                        float64
Siblings/Spouses Aboard      int64
Parents/Children Aboard      int64
Fare                       float64
dtype: object


In [64]:
# Fornece um resumo conciso do DataFrame
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 887 entries, 0 to 886
Data columns (total 8 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Survived                 887 non-null    int64  
 1   Pclass                   887 non-null    int64  
 2   Name                     887 non-null    object 
 3   Sex                      887 non-null    object 
 4   Age                      887 non-null    float64
 5   Siblings/Spouses Aboard  887 non-null    int64  
 6   Parents/Children Aboard  887 non-null    int64  
 7   Fare                     887 non-null    float64
dtypes: float64(2), int64(4), object(2)
memory usage: 55.6+ KB
None


In [65]:
# Sumário estatístico para colunas numéricas
print(df.describe())

         Survived      Pclass         Age  Siblings/Spouses Aboard  \
count  887.000000  887.000000  887.000000               887.000000   
mean     0.385569    2.305524   29.471443                 0.525366   
std      0.487004    0.836662   14.121908                 1.104669   
min      0.000000    1.000000    0.420000                 0.000000   
25%      0.000000    2.000000   20.250000                 0.000000   
50%      0.000000    3.000000   28.000000                 0.000000   
75%      1.000000    3.000000   38.000000                 1.000000   
max      1.000000    3.000000   80.000000                 8.000000   

       Parents/Children Aboard       Fare  
count               887.000000  887.00000  
mean                  0.383315   32.30542  
std                   0.807466   49.78204  
min                   0.000000    0.00000  
25%                   0.000000    7.92500  
50%                   0.000000   14.45420  
75%                   0.000000   31.13750  
max              

In [66]:
# Conta quantos valores NaN existem em cada coluna
print(df.isnull().sum())

Survived                   0
Pclass                     0
Name                       0
Sex                        0
Age                        0
Siblings/Spouses Aboard    0
Parents/Children Aboard    0
Fare                       0
dtype: int64


In [68]:
# Mostra a contagem de valores únicos na coluna 'Age'
print(df['Age'].value_counts())

Age
22.00    39
28.00    37
18.00    36
21.00    34
24.00    34
         ..
0.92      1
23.50     1
36.50     1
55.50     1
74.00     1
Name: count, Length: 89, dtype: int64


In [70]:
# Seleciona linhas onde a coluna 'age' é maior que 30
display(df[df['Age'] > 30])

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1000
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.0500
6,0,1,Mr. Timothy J McCarthy,male,54.0,0,0,51.8625
11,1,1,Miss. Elizabeth Bonnell,female,58.0,0,0,26.5500
...,...,...,...,...,...,...,...,...
869,0,3,Mr. Victor Vander Cruyssen,male,47.0,0,0,9.0000
875,1,1,Mrs. Thomas Jr (Lily Alexenia Wilson) Potter,female,56.0,0,1,83.1583
877,0,3,Mr. Johann Markun,male,33.0,0,0,7.8958
881,0,3,Mrs. William (Margaret Norton) Rice,female,39.0,0,5,29.1250


### 1.2.3 Indexação, filtragem e subconjuntos de dados

Neste tópico, vamos explorar técnicas eficazes para indexação, filtragem e criação de subconjuntos de dados usando Pandas. Essas operações são cruciais para a manipulação e análise de dados em qualquer projeto de ciência de dados.

#### - Seleção de Colunas

In [73]:
# Selecionar uma única coluna
display(df['Name'])

0                                 Mr. Owen Harris Braund
1      Mrs. John Bradley (Florence Briggs Thayer) Cum...
2                                  Miss. Laina Heikkinen
3            Mrs. Jacques Heath (Lily May Peel) Futrelle
4                                Mr. William Henry Allen
                             ...                        
882                                 Rev. Juozas Montvila
883                          Miss. Margaret Edith Graham
884                       Miss. Catherine Helen Johnston
885                                 Mr. Karl Howell Behr
886                                   Mr. Patrick Dooley
Name: Name, Length: 887, dtype: object


In [75]:
# Selecionar múltiplas colunas
display(df[['Name', 'Sex', 'Age']])

Unnamed: 0,Name,Sex,Age
0,Mr. Owen Harris Braund,male,22.0
1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0
2,Miss. Laina Heikkinen,female,26.0
3,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0
4,Mr. William Henry Allen,male,35.0
...,...,...,...
882,Rev. Juozas Montvila,male,27.0
883,Miss. Margaret Edith Graham,female,19.0
884,Miss. Catherine Helen Johnston,female,7.0
885,Mr. Karl Howell Behr,male,26.0


#### - Seleção de Linhas por Índices

In [77]:
# Selecionar linhas pelos índices numéricos
display(df.iloc[5:10])  # Seleciona linhas de índice 5 a 9

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
5,0,3,Mr. James Moran,male,27.0,0,0,8.4583
6,0,1,Mr. Timothy J McCarthy,male,54.0,0,0,51.8625
7,0,3,Master. Gosta Leonard Palsson,male,2.0,3,1,21.075
8,1,3,Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson,female,27.0,0,2,11.1333
9,1,2,Mrs. Nicholas (Adele Achem) Nasser,female,14.0,1,0,30.0708


In [79]:
# Selecionar uma linha específica
display(df.iloc[10])

Survived                                                1
Pclass                                                  3
Name                       Miss. Marguerite Rut Sandstrom
Sex                                                female
Age                                                   4.0
Siblings/Spouses Aboard                                 1
Parents/Children Aboard                                 1
Fare                                                 16.7
Name: 10, dtype: object

#### - Seleção Baseada em Condições

In [80]:
# Selecionar linhas onde a coluna 'sex' é 'female'
display(df[df['Sex'] == 'female'])

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
2,1,3,Miss. Laina Heikkinen,female,26.0,0,0,7.9250
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1000
8,1,3,Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson,female,27.0,0,2,11.1333
9,1,2,Mrs. Nicholas (Adele Achem) Nasser,female,14.0,1,0,30.0708
...,...,...,...,...,...,...,...,...
876,1,2,Mrs. William (Imanita Parrish Hall) Shelley,female,25.0,0,1,26.0000
878,0,3,Miss. Gerda Ulrika Dahlberg,female,22.0,0,0,10.5167
881,0,3,Mrs. William (Margaret Norton) Rice,female,39.0,0,5,29.1250
883,1,1,Miss. Margaret Edith Graham,female,19.0,0,0,30.0000


In [81]:
# Selecionar linhas com múltiplas condições
display(df[(df['Sex'] == 'male') & (df['Age'] >= 18)])

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3,Mr. Owen Harris Braund,male,22.0,1,0,7.2500
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.0500
5,0,3,Mr. James Moran,male,27.0,0,0,8.4583
6,0,1,Mr. Timothy J McCarthy,male,54.0,0,0,51.8625
12,0,3,Mr. William Henry Saundercock,male,20.0,0,0,8.0500
...,...,...,...,...,...,...,...,...
879,0,2,Mr. Frederick James Banfield,male,28.0,0,0,10.5000
880,0,3,Mr. Henry Jr Sutehall,male,25.0,0,0,7.0500
882,0,2,Rev. Juozas Montvila,male,27.0,0,0,13.0000
885,1,1,Mr. Karl Howell Behr,male,26.0,0,0,30.0000


#### - Uso de .loc para Seleções Mais Complexas

In [83]:
# Selecionar linhas e colunas por rótulos
display(df.loc[5:10, ['Name', 'Age']])


Unnamed: 0,Name,Age
5,Mr. James Moran,27.0
6,Mr. Timothy J McCarthy,54.0
7,Master. Gosta Leonard Palsson,2.0
8,Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson,27.0
9,Mrs. Nicholas (Adele Achem) Nasser,14.0
10,Miss. Marguerite Rut Sandstrom,4.0


In [84]:
# Selecionar linhas com uma condição e colunas específicas
display(df.loc[df['Age'] < 18, ['Name', 'Sex', 'Age']])

Unnamed: 0,Name,Sex,Age
7,Master. Gosta Leonard Palsson,male,2.0
9,Mrs. Nicholas (Adele Achem) Nasser,female,14.0
10,Miss. Marguerite Rut Sandstrom,female,4.0
14,Miss. Hulda Amanda Adolfina Vestrom,female,14.0
16,Master. Eugene Rice,male,2.0
...,...,...,...
849,Miss. Mary Conover Lines,female,16.0
859,Miss. Dorothy Edith Sage,female,14.0
865,Master. Harold Theodor Johnson,male,4.0
871,Miss. Adele Kiamie Najib,female,15.0


#### - Criação de Subconjuntos de Dados

In [88]:
# Criar um novo DataFrame apenas com passageiros adultos
adults = df[df['Age'] >= 18]
display(adults.head())

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3,Mr. Owen Harris Braund,male,22.0,1,0,7.25
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
2,1,3,Miss. Laina Heikkinen,female,26.0,0,0,7.925
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.05


In [89]:
# Criar um DataFrame de crianças e adolescentes
children_and_teenagers = df[df['Age'] < 18]
display(children_and_teenagers.head())

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
7,0,3,Master. Gosta Leonard Palsson,male,2.0,3,1,21.075
9,1,2,Mrs. Nicholas (Adele Achem) Nasser,female,14.0,1,0,30.0708
10,1,3,Miss. Marguerite Rut Sandstrom,female,4.0,1,1,16.7
14,0,3,Miss. Hulda Amanda Adolfina Vestrom,female,14.0,0,0,7.8542
16,0,3,Master. Eugene Rice,male,2.0,4,1,29.125


## Tópico 1.3: Limpeza e Preparação de Dado

### 1.3.1 Verificação de dados faltantes

A limpeza e preparação de dados são etapas cruciais em qualquer projeto de análise de dados. Dados faltantes podem distorcer as análises e afetar os resultados, por isso é importante aprender a tratá-los adequadamente.



#### - Leitura do dado

Para este tópico, vamos usar o dataset "Pima Indians Diabetes Database" disponível no UCI Machine Learning Repository. Este dataset é conhecido por ter várias entradas com valores faltantes.
O dataset Pima Indians Diabetes é frequentemente usado em problemas de classificação para prever se uma paciente tem diabetes com base em várias medições diagnósticas. Aqui estão as descrições das colunas:

- **Pregnancies**: Número de vezes grávida.
- **Glucose**: Concentração de glicose plasmática a 2 horas em um teste oral de tolerância à glicose.
- **BloodPressure**: Pressão arterial diastólica (mm Hg).
- **SkinThickness**: Espessura da dobra cutânea do tríceps (mm).
- **Insulin**: Insulina sérica de 2 horas (mu U/ml).
- **BMI**: Índice de massa corporal (peso em kg/(altura em m)^2).
- **DiabetesPedigreeFunction**: Uma função que representa o quão forte o diabetes é hereditário.
- **Age**: Idade (anos).
- **Outcome**: Variável de classe (0 ou 1) 1 indica que a paciente tem diabetes.

In [198]:
import pandas as pd

# URL do dataset
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv'

# Nomes das colunas conforme a descrição do dataset
column_names = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']

# Carregar o dataset
df = pd.read_csv(url, names=column_names)

# Mostrar as primeiras linhas do DataFrame
display(df.head())

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


#### - Identificar Dados Faltantes

No dataset Pima, os valores faltantes são codificados como zeros em algumas colunas onde zero não faz sentido como um valor válido (por exemplo, Glucose, Blood Pressure).

In [199]:
# Carregamento dos dados, assumindo que a substituição de zeros por NaNs já foi feita
# Seu código de carregamento aqui...

# Calculando o número total de entradas nulas em cada coluna
null_counts = df.isna().sum()

# Imprimir a contagem de não-nulos por coluna
print("Non-null counts in each column:\n", null_counts)

Non-null counts in each column:
 Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64


In [200]:
# Importando a biblioteca pandas para manipulação de dados
import pandas as pd

# Selecionando colunas específicas do DataFrame
colunas_selecionadas = df[['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']]

# Aplicando a função eq(0) para encontrar onde os valores são iguais a zero
valores_zero = colunas_selecionadas.eq(0)

# Somando os valores True retornados por eq(0) para contar quantos zeros cada coluna contém
contagem_zeros = valores_zero.sum()

# Imprimindo o resultado da contagem de zeros
display(contagem_zeros)

Glucose            5
BloodPressure     35
SkinThickness    227
Insulin          374
BMI               11
dtype: int64

### 1.3.2 Imputação/Preenchimento de dados

Existem várias estratégias para tratar dados faltantes. Duas abordagens comuns são a imputação e a exclusão de registros.

##### Imputação

Imputar significa substituir os dados faltantes por um valor estimado. Uma prática comum é substituir os valores faltantes pela média ou mediana da coluna.

In [109]:
# Olhando os valores antes da imputação. Preste atenção na coluna Insulin
display(df.head())

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [170]:
from sklearn.impute import SimpleImputer
import numpy as np

# Copiar dataframe
df_imputed = df.copy()

# Criar um imputer que substitui o valor zero pela média da coluna
imputer = SimpleImputer(missing_values=0, strategy='mean')

# Colunas que precisam de imputação
columns_to_impute = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']

# Aplicar o imputer ao dataset
df_imputed[columns_to_impute] = imputer.fit_transform(df[columns_to_impute])

# Verificar novamente a presença de valores zero
display(df_imputed[columns_to_impute].eq(0).sum())
display(df_imputed.head())

Glucose          0
BloodPressure    0
SkinThickness    0
Insulin          0
BMI              0
dtype: int64

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148.0,72.0,35.0,155.548223,33.6,0.627,50,1
1,1,85.0,66.0,29.0,155.548223,26.6,0.351,31,0
2,8,183.0,64.0,29.15342,155.548223,23.3,0.672,32,1
3,1,89.0,66.0,23.0,94.0,28.1,0.167,21,0
4,0,137.0,40.0,35.0,168.0,43.1,2.288,33,1


###### Imputação por Mediana

A imputação por mediana substitui os valores faltantes pela mediana da coluna, que é menos sensível a outliers em comparação com a média.

In [171]:
df_imputed = df.copy()

In [172]:

imputer_median = SimpleImputer(missing_values=0, strategy='median')
df_imputed['Glucose_median'] = imputer_median.fit_transform(df[['Glucose']])


###### Imputação por Moda

A moda, ou o valor mais frequente, é útil em dados categóricos ou numéricos onde uma categoria ou número ocorre com maior frequência.

In [173]:
imputer_mode = SimpleImputer(missing_values=0, strategy='most_frequent')
df_imputed['Glucose_mode'] = imputer_mode.fit_transform(df[['Glucose']])


###### Imputação KNN

O KNN imputa valores baseando-se nas k observações mais próximas no espaço de recurso, o que pode ser mais representativo em contextos onde as relações de similaridade são importantes.

In [174]:
from sklearn.impute import SimpleImputer, KNNImputer

imputer_knn = KNNImputer(missing_values=0, n_neighbors=10)
df_imputed['Glucose_knn'] = imputer_knn.fit_transform(df[['Glucose']])

###### Imputação por Regressão

A imputação por regressão usa um modelo preditivo para estimar valores faltantes com base em outras variáveis. Aqui, usamos 'Age' como variável preditora para simplificar.

In [175]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# Criar uma nova coluna 'Glucose_Regression' que é uma cópia de 'Glucose'
df_imputed['Glucose_Regression'] = df['Glucose']

# Substituir zeros por NaN para facilitar a imputação
df_imputed['Glucose_Regression'].replace(0, np.nan, inplace=True)

# Selecionar 'Age' como variável preditora para 'Glucose'
X = df_imputed[['Age']]  # Apenas a coluna 'Age' será usada como preditora
y = df_imputed['Glucose_Regression'].dropna()  # Remover NaN para o ajuste do modelo

# Dividir os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X.loc[y.index], y, test_size=0.2, random_state=42)

# Criar e treinar o modelo de regressão linear
model = LinearRegression()
model.fit(X_train, y_train)

# Prever 'Glucose' para os dados onde originalmente era NaN
predicted_glucose = model.predict(X[df_imputed['Glucose_Regression'].isna()])

# Imputar os valores preditos na nova coluna 'Glucose_Regression'
df_imputed.loc[df_imputed['Glucose_Regression'].isna(), 'Glucose_Regression'] = predicted_glucose


In [176]:
import pandas as pd

# Agora vamos filtrar e exibir as linhas onde 'Glucose' é NaN (originalmente zeros)
filtered_df = df_imputed[df_imputed['Glucose'].isna()]

# Para exibir as linhas onde 'Glucose' é zero sem ter substituído por NaN
filtered_df_zero = df_imputed[df_imputed['Glucose'] == 0]

# Usando display para mostrar as primeiras 50 linhas onde 'Glucose' é zero
display(filtered_df_zero.head(50))

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Glucose_median,Glucose_mode,Glucose_knn,Glucose_Regression
75,1,0,48,20,0,24.7,0.14,22,0,117.0,99,121.686763,113.337686
182,1,0,74,20,23,27.7,0.299,21,0,117.0,99,121.686763,112.624715
342,1,0,68,35,0,32.0,0.389,22,0,117.0,99,121.686763,113.337686
349,5,0,80,32,0,41.0,0.346,37,1,117.0,99,121.686763,124.032253
502,6,0,68,41,0,39.0,0.727,41,1,117.0,99,121.686763,126.884138


### 1.3.3 Limpeza de dados por exclusão

Outra abordagem é simplesmente excluir dados com valores faltantes, o que pode ser viável se a quantidade de dados perdidos não for significativa.

In [187]:
import pandas as pd

# URL do dataset
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv'

# Nomes das colunas conforme a descrição do dataset
column_names = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']

# Carregar o dataset
df = pd.read_csv(url, names=column_names)

# Mostrar as primeiras linhas do DataFrame
display(df.head())

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [189]:
# Importando a biblioteca pandas para manipulação de dados
import pandas as pd

# Selecionando colunas específicas do DataFrame
colunas_selecionadas = df[['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction']]

# Aplicando a função eq(0) para encontrar onde os valores são iguais a zero
valores_zero = colunas_selecionadas.eq(0)

# Somando os valores True retornados por eq(0) para contar quantos zeros cada coluna contém
contagem_zeros = valores_zero.sum()

# Imprimindo o resultado da contagem de zeros
display(contagem_zeros)

Glucose                       5
BloodPressure                35
SkinThickness               227
Insulin                     374
BMI                          11
DiabetesPedigreeFunction      0
dtype: int64

In [104]:

# Remover linhas onde qualquer coluna tenha zero (dados faltantes não tratados anteriormente)
df_cleaned = df[(df != 0).all(axis=1)]

# Mostrar as dimensões do DataFrame antes a exclusão
print(f'Dimensões do DataFrame antes da exclusão: {df.shape}')
# Mostrar as dimensões do DataFrame após a exclusão
print(f'Dimensões do DataFrame após a exclusão: {df_cleaned.shape}')
display(df_cleaned.head())

Dimensões do DataFrame antes da exclusão: (768, 9)
Dimensões do DataFrame após a exclusão: (111, 9)


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
6,3,78,50,32,88,31.0,0.248,26,1
8,2,197,70,45,543,30.5,0.158,53,1
13,1,189,60,23,846,30.1,0.398,59,1
14,5,166,72,19,175,25.8,0.587,51,1
19,1,115,70,30,96,34.6,0.529,32,1


1. Excluir Linhas com Qualquer Dado Faltante
    - Exclui qualquer linha que contenha pelo menos um valor faltante.
2. Excluir Linhas Onde Todos os Dados Estão Faltando
    - Embora não comum neste dataset, o método é útil para outros casos.
3. Excluir Colunas com Alta Proporção de Dados Faltantes
    - Suponha que queremos remover qualquer coluna com mais de 50% de valores faltantes.

In [185]:
# Excluir Linhas com Qualquer Dado Faltante
df_drop_any = df.dropna()
# Excluir Linhas Onde Todos os Dados Estão Faltando
df_drop_all = df.dropna(how='all')
# Excluir Colunas com Alta Proporção de Dados Faltantes
threshold = len(df) * 0.0001  # 50% de threshold
df_drop_columns = df.dropna(axis=1, thresh=threshold)
print(threshold)

print("Original DataFrame size:", len(df))
print("Before dropping columns with >50% NaNs:", df.shape[1])
print("After dropping any rows with NaNs:", len(df_drop_any))
print("After dropping rows where all values are NaN:", len(df_drop_all))
print("After dropping columns with >50% NaNs:", df_drop_columns.shape[1])

0.07680000000000001
Original DataFrame size: 768
Before dropping columns with >50% NaNs: 9
After dropping any rows with NaNs: 768
After dropping rows where all values are NaN: 768
After dropping columns with >50% NaNs: 9


In [188]:
import pandas as pd

# Carregamento dos dados, assumindo que a substituição de zeros por NaNs já foi feita
# Seu código de carregamento aqui...

# Calculando o número total de entradas não-nulas em cada coluna
non_null_counts = df.notna().sum()

# Imprimir a contagem de não-nulos por coluna
print("Non-null counts in each column:\n", non_null_counts)



Non-null counts in each column:
 Pregnancies                 768
Glucose                     768
BloodPressure               768
SkinThickness               768
Insulin                     768
BMI                         768
DiabetesPedigreeFunction    768
Age                         768
Outcome                     768
dtype: int64
Number of columns before dropping: 9
Number of columns after dropping with >10% NaNs: 9


In [193]:
# Lista de colunas onde zeros devem ser tratados como valores faltantes
columns_to_convert = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']

# Convertendo zeros para NaN nas colunas especificadas
df[columns_to_convert] = df[columns_to_convert].replace(0, pd.NA)

# Agora vamos contar os valores NaN em cada uma dessas colunas
nan_counts = df[columns_to_convert].isna().sum()

# Imprimindo o resultado da contagem de NaNs
display(nan_counts)

Glucose            5
BloodPressure     35
SkinThickness    227
Insulin          374
BMI               11
dtype: int64

In [194]:
# Excluir Linhas com Qualquer Dado Faltante
df_drop_any = df.dropna()
# Excluir Linhas Onde Todos os Dados Estão Faltando
df_drop_all = df.dropna(how='all')
# Excluir Colunas com Alta Proporção de Dados Faltantes
threshold = len(df) * 0.6  # 50% de threshold
df_drop_columns = df.dropna(axis=1, thresh=threshold)
print(threshold)

print("Original DataFrame size:", len(df))
print("Before dropping columns with >50% NaNs:", df.shape[1])
print("After dropping any rows with NaNs:", len(df_drop_any))
print("After dropping rows where all values are NaN:", len(df_drop_all))
print("After dropping columns with >50% NaNs:", df_drop_columns.shape[1])

460.79999999999995
Original DataFrame size: 768
Before dropping columns with >50% NaNs: 9
After dropping any rows with NaNs: 392
After dropping rows where all values are NaN: 768
After dropping columns with >50% NaNs: 8


## Tópico 1.5: Transformação de Dados