In [1]:
import pandas as pd
from docx import Document

# Passo 1: Definir as colunas
# Colunas numéricas
colunas_numericas = [
    'E01602', 'E017', 'E01802', 'E019', 'E025', 'F001021', 'F007021', 
    'F008021', 'VDF00102', 'J003','C008', 'M01401', 'P00901', 'P01101', 
    'P02001', 'P018', 'P02002', 'P02501', 'P02602', 'P029', 'P035', 
    'P04501', 'P04502', 'P053', 'Q064', 'H001', 'W00103', 'W00203'
]

# Colunas categóricas
colunas_categoricas = [
    'V0001', 'V0026', 'V0031', 'B001', 'C006', 'C009', 'C011', 'D001', 
    'D00301', 'D00901', 'E001', 'E002', 'E003', 'E004', 'E01201', 'F001011', 
    'F007011', 'F008011', 'VDF001', 'G060', 'I00102', 'I00401', 'I00402', 'I00403', 
    'J00101', 'J002', 'J00402', 'J00404', 'J007', 'J00801', 'J009', 'J01502', 
    'J02702', 'L033','M001', 'N004', 'N008', 'N010', 'N011', 'P02601', 
    'P027', 'P050', 'P051', 'P068', 'Q00201', 'Q03001', 'Q060', 'Q06306', 'Q06506', 
    'Q06507', 'Q06508', 'Q06509', 'Q06601', 'Q067', 'Q068', 'Q11006', 'R034', 'T001', 'H004', 'H010'
]

# Passo 2: Carregar apenas as colunas necessárias
colunas_necessarias = colunas_numericas + colunas_categoricas  # Junta as listas
df = pd.read_csv(
    r'C:\Users\llays\OneDrive\Documentos\GitHub\DoencasCardiacas\PNS2019\pns2019.csv',
    usecols=colunas_necessarias  # Carrega apenas as colunas especificadas
)

# Passo 3: Verificar se as colunas foram carregadas
print("Colunas carregadas no DataFrame:", df.columns.tolist())

Colunas carregadas no DataFrame: ['V0001', 'V0026', 'V0031', 'B001', 'C006', 'C008', 'C009', 'C011', 'D001', 'D00301', 'D00901', 'E001', 'E002', 'E003', 'E004', 'E01201', 'E01602', 'E017', 'E01802', 'E019', 'E025', 'F001011', 'F001021', 'F007011', 'F007021', 'F008011', 'F008021', 'VDF001', 'VDF00102', 'G060', 'I00102', 'I00401', 'I00402', 'I00403', 'J00101', 'J002', 'J003', 'J00402', 'J00404', 'J007', 'J00801', 'J009', 'J01502', 'J02702', 'L033', 'M001', 'M01401', 'N004', 'N008', 'N010', 'N011', 'P00901', 'P01101', 'P02001', 'P018', 'P02002', 'P02501', 'P02602', 'P02601', 'P027', 'P029', 'P035', 'P04501', 'P04502', 'P050', 'P051', 'P053', 'P068', 'Q00201', 'Q03001', 'Q060', 'Q06306', 'Q064', 'Q06506', 'Q06507', 'Q06508', 'Q06509', 'Q06601', 'Q067', 'Q068', 'Q11006', 'R034', 'T001', 'H001', 'H004', 'H010', 'W00103', 'W00203']


In [2]:
# Passo 4: Garantir que as colunas numéricas selecionadas sejam numéricas
for coluna in colunas_numericas:
    df[coluna] = pd.to_numeric(df[coluna], errors='coerce')  # Converte para numérico, forçando erros a serem NaN

# Passo 5: Criar a tabela com as estatísticas descritivas e dados faltantes para variáveis numéricas
estatisticas_numericas = {
    'Coluna': [],
    'Estatísticas': []
}

# Preenchendo a tabela de estatísticas numéricas
for coluna in colunas_numericas:
    estatisticas_numericas['Coluna'].append(coluna)
    
    # Calcular as estatísticas numéricas
    minimo = df[coluna].min()
    maximo = df[coluna].max()
    media = round(df[coluna].mean(), 2)
    desvio_padrao = round(df[coluna].std(), 2)
    faltantes = df[coluna].isnull().sum()
    total_linhas = len(df)
    porcentagem_faltantes = round((faltantes / total_linhas) * 100, 2)  # Porcentagem de dados faltantes
    
    # Concatenando as estatísticas em uma string formatada
    estatisticas_numericas['Estatísticas'].append(
        f'Mínimo: {minimo}\nMáximo: {maximo}\nMédia: {media}\nDesvio Padrão: {desvio_padrao}\nDados Faltantes: {faltantes} ({porcentagem_faltantes}%)'
    )

# Criar um DataFrame com as estatísticas numéricas
df_estatisticas_numericas = pd.DataFrame(estatisticas_numericas)

# Passo 6: Criar a tabela com as estatísticas para variáveis categóricas (total e dados faltantes)
estatisticas_categoricas = {
    'Coluna': [],
    'Estatísticas': []
}

# Preenchendo a tabela de estatísticas categóricas
for coluna in colunas_categoricas:
    estatisticas_categoricas['Coluna'].append(coluna)
    
    # Calcular o número total de valores e o número de dados faltantes
    total_valores = df[coluna].count()  # Número total de valores não nulos
    faltantes = df[coluna].isnull().sum()  # Número de dados faltantes
    porcentagem_faltantes = round((faltantes / total_linhas) * 100, 2)  # Porcentagem de dados faltantes

    # Concatenando as estatísticas em uma string formatada
    estatisticas_categoricas['Estatísticas'].append(
        f'Total de Valores: {total_valores}\nDados Faltantes: {faltantes} ({porcentagem_faltantes}%)'
    )

In [3]:
# Criar um DataFrame com as estatísticas categóricas
df_estatisticas_categoricas = pd.DataFrame(estatisticas_categoricas)

# Passo 7: Exibir as tabelas finais com as estatísticas
print("Análise Descritiva do Conjunto de Dados Numéricos")
print(df_estatisticas_numericas)

print("Análise Descritiva do Conjunto de Dados Categóricos")
print(df_estatisticas_categoricas)

# Passo 8: Salvar as tabelas como documentos Word (opcional)
doc = Document()
doc.add_heading('Análise Descritiva do Conjunto de Dados', 0)

# Adicionar as tabelas no documento Word

# Tabela para variáveis numéricas
doc.add_heading('Estatísticas Numéricas', level=1)
tabela_numericas = doc.add_table(rows=1, cols=len(df_estatisticas_numericas.columns))

# Adicionar cabeçalhos
hdr_cells = tabela_numericas.rows[0].cells
for i, col in enumerate(df_estatisticas_numericas.columns):
    hdr_cells[i].text = col

# Adicionar os dados das linhas
for index, row in df_estatisticas_numericas.iterrows():
    row_cells = tabela_numericas.add_row().cells
    for i, value in enumerate(row):
        row_cells[i].text = str(value)

# Tabela para variáveis categóricas
doc.add_heading('Estatísticas Categóricas', level=1)
tabela_categoricas = doc.add_table(rows=1, cols=len(df_estatisticas_categoricas.columns))

# Adicionar cabeçalhos
hdr_cells = tabela_categoricas.rows[0].cells
for i, col in enumerate(df_estatisticas_categoricas.columns):
    hdr_cells[i].text = col

# Adicionar os dados das linhas
for index, row in df_estatisticas_categoricas.iterrows():
    row_cells = tabela_categoricas.add_row().cells
    for i, value in enumerate(row):
        row_cells[i].text = str(value)

# Salvar o documento Word
doc.save('tabela_estatisticas.docx')

Análise Descritiva do Conjunto de Dados Numéricos
      Coluna                                       Estatísticas
0     E01602  Mínimo: 4.0\nMáximo: 300000.0\nMédia: 2045.92\...
1       E017  Mínimo: 1.0\nMáximo: 120.0\nMédia: 37.52\nDesv...
2     E01802  Mínimo: 7.0\nMáximo: 50000.0\nMédia: 1876.06\n...
3       E019  Mínimo: 1.0\nMáximo: 88.0\nMédia: 18.38\nDesvi...
4       E025  Mínimo: 1.0\nMáximo: 4.0\nMédia: 2.84\nDesvio ...
5    F001021  Mínimo: 39.0\nMáximo: 50000.0\nMédia: 1899.0\n...
6    F007021  Mínimo: 10.0\nMáximo: 30000.0\nMédia: 632.27\n...
7    F008021  Mínimo: 1.0\nMáximo: 130000.0\nMédia: 1475.55\...
8   VDF00102  Mínimo: 1.0\nMáximo: 420000.0\nMédia: 583.39\n...
9       J003  Mínimo: 1.0\nMáximo: 14.0\nMédia: 5.92\nDesvio...
10      C008  Mínimo: 0.0\nMáximo: 112.0\nMédia: 35.27\nDesv...
11    M01401  Mínimo: 0.0\nMáximo: 3.0\nMédia: 2.47\nDesvio ...
12    P00901  Mínimo: 0.0\nMáximo: 7.0\nMédia: 4.4\nDesvio P...
13    P01101  Mínimo: 0.0\nMáximo: 7.0\nMédia: 3.31\nD

PermissionError: [Errno 13] Permission denied: 'tabela_estatisticas.docx'