## Importando Bibliotecas

In [1]:
import requests
import zipfile
import os
import pandas as pd

## Baixando o dataset

https://www.pns.icict.fiocruz.br/bases-de-dados/

In [None]:
#URL do arquivo
url = "https://www.pns.icict.fiocruz.br/wp-content/uploads/2023/11/pns2019.zip"

#download do arquivo
response = requests.get(url, verify=False)

#salvando o arquivo ZIP
zip_file_path = "pns2019.zip"
with open(zip_file_path, "wb") as file:
    file.write(response.content)

print("Arquivo ZIP baixado com sucesso!")

with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
    csv_file_name = zip_ref.namelist()[0]
    zip_ref.extract(zip_ref.namelist()[0])
    print(f"Arquivo CSV extraído: {csv_file_name}")



Arquivo ZIP baixado com sucesso!
Arquivo CSV extraído: pns2019.csv


In [None]:
df = pd.read_csv('pns2019.csv')
df = df.reset_index(drop=False)  # drop=False para manter o índice como uma coluna
df.rename(columns={'index': 'id'}, inplace=True) 
df.head()

In [None]:
uf_mapping = {
    11: 'RO',  # Rondônia
    12: 'AC',  # Acre
    13: 'AM',  # Amazonas
    14: 'RR',  # Roraima
    15: 'PA',  # Pará
    16: 'AP',  # Amapá
    17: 'TO',  # Tocantins
    21: 'MA',  # Maranhão
    22: 'PI',  # Piauí
    23: 'CE',  # Ceará
    24: 'RN',  # Rio Grande do Norte
    25: 'PB',  # Paraíba
    26: 'PE',  # Pernambuco
    27: 'AL',  # Alagoas
    28: 'SE',  # Sergipe
    29: 'BA',  # Bahia
    31: 'MG',  # Minas Gerais
    32: 'ES',  # Espírito Santo
    33: 'RJ',  # Rio de Janeiro
    35: 'SP',  # São Paulo
    41: 'PR',  # Paraná
    42: 'SC',  # Santa Catarina
    43: 'RS',  # Rio Grande do Sul
    50: 'MS',  # Mato Grosso do Sul
    51: 'MT',  # Mato Grosso
    52: 'GO',  # Goiás
    53: 'DF',  # Distrito Federal
}
df['V0001'] = df['V0001'].replace(uf_mapping)

## Esperança de Vida ao Nascer por UF - Join 

https://sidra.ibge.gov.br/tabela/7362

In [None]:
df_expectativa_vida = pd.read_excel(r'dicionários\esperanca_vida_ao_nascer.xlsx', sheet_name = 'Sheet1')
df_expectativa_vida

Unnamed: 0,Unidade da Federação,UF,Esperança de vida ao nascer (Anos)
0,Rondônia,RO,71.91
1,Acre,AC,74.83
2,Amazonas,AM,72.59
3,Roraima,RR,72.41
4,Pará,PA,72.66
5,Amapá,AP,74.66
6,Tocantins,TO,74.15
7,Maranhão,MA,71.41
8,Piauí,PI,71.59
9,Ceará,CE,74.48


In [None]:
df_mortalidade = pd.merge(df, df_expectativa_vida, left_on='V0001', right_on='UF', how='left')
df_mortalidade

Unnamed: 0,id,V0001,V0024,UPA_PNS,V0006_PNS,V0015,V0020,V0022,V0026,V0031,...,VDF003,VDF004,VDL001,VDM001,VDP001,VDR001,VDDATA,Unidade da Federação,UF,Esperança de vida ao nascer (Anos)
0,0,RO,1110011,110000016,1,1,2019,6.0,1,1,...,350.0,2.0,,,,,20210825,Rondônia,RO,71.91
1,1,RO,1110011,110000016,1,1,2019,6.0,1,1,...,350.0,2.0,,,,,20210825,Rondônia,RO,71.91
2,2,RO,1110011,110000016,1,1,2019,6.0,1,1,...,350.0,2.0,,,,,20210825,Rondônia,RO,71.91
3,3,RO,1110011,110000016,1,1,2019,6.0,1,1,...,350.0,2.0,,,,,20210825,Rondônia,RO,71.91
4,4,RO,1110011,110000016,1,1,2019,6.0,1,1,...,350.0,2.0,,,,,20210825,Rondônia,RO,71.91
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
293721,293721,DF,5310220,530044434,14,1,2019,4.0,2,1,...,3348.0,6.0,,,,,20210825,Distrito Federal,DF,78.85
293722,293722,DF,5310220,530044434,14,1,2019,4.0,2,1,...,3348.0,6.0,,,,,20210825,Distrito Federal,DF,78.85
293723,293723,DF,5310220,530044434,14,1,2019,4.0,2,1,...,3348.0,6.0,,,,,20210825,Distrito Federal,DF,78.85
293724,293724,DF,5310220,530044434,14,1,2019,4.0,2,1,...,3348.0,6.0,,,,,20210825,Distrito Federal,DF,78.85


In [None]:
df_mortalidade.drop(columns = ['Unidade da Federação', 'UF'], inplace = True)
df_mortalidade

Unnamed: 0,id,V0001,V0024,UPA_PNS,V0006_PNS,V0015,V0020,V0022,V0026,V0031,...,VDE014,VDF002,VDF003,VDF004,VDL001,VDM001,VDP001,VDR001,VDDATA,Esperança de vida ao nascer (Anos)
0,0,RO,1110011,110000016,1,1,2019,6.0,1,1,...,6.0,2098.0,350.0,2.0,,,,,20210825,71.91
1,1,RO,1110011,110000016,1,1,2019,6.0,1,1,...,,2098.0,350.0,2.0,,,,,20210825,71.91
2,2,RO,1110011,110000016,1,1,2019,6.0,1,1,...,4.0,2098.0,350.0,2.0,,,,,20210825,71.91
3,3,RO,1110011,110000016,1,1,2019,6.0,1,1,...,,2098.0,350.0,2.0,,,,,20210825,71.91
4,4,RO,1110011,110000016,1,1,2019,6.0,1,1,...,,2098.0,350.0,2.0,,,,,20210825,71.91
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
293721,293721,DF,5310220,530044434,14,1,2019,4.0,2,1,...,1.0,13390.0,3348.0,6.0,,,,,20210825,78.85
293722,293722,DF,5310220,530044434,14,1,2019,4.0,2,1,...,,13390.0,3348.0,6.0,,,,,20210825,78.85
293723,293723,DF,5310220,530044434,14,1,2019,4.0,2,1,...,7.0,13390.0,3348.0,6.0,,,,,20210825,78.85
293724,293724,DF,5310220,530044434,14,1,2019,4.0,2,1,...,,13390.0,3348.0,6.0,,,,,20210825,78.85


## Lendo o de-para de colunas

In [None]:
de_para_df = pd.read_excel(r'dicionários\Colunas PNS (de-para).xlsx', sheet_name='Planilha_v4')
de_para_df

Unnamed: 0,código,título,categoria,dataset
0,id,id,,todos
1,V0001,UF,,todos
2,Esperança de vida ao nascer (Anos),Esperança de vida ao nascer (Anos),,todos
3,V0026,Situação Censitária,,todos
4,V0031,Área,,todos
...,...,...,...,...
73,P07005,Viu ou ouviu informações na televisão?,,fumo
74,P07006,Viu ou ouviu informações no rádio?,,fumo
75,P07007,"Viu ou ouviu informações na internet, incluind...",,fumo
76,P07101,"Nos últimos trinta dias, viu alguma foto ou ad...",,fumo


## Selecionando as colunas do df que irão continuar na análise

In [None]:
codigo_de_para = de_para_df['código'].tolist()  # Lista de colunas a manter
df_filtrado = df_mortalidade[codigo_de_para]

# Criar o dicionário de mapeamento de código -> título
mapeamento = dict(zip(de_para_df['código'], de_para_df['título']))

# Renomear as colunas do dataset filtrado
df_renomeado = df_filtrado.rename(columns=mapeamento)

In [None]:
df_renomeado.head()

Unnamed: 0,id,UF,Esperança de vida ao nascer (Anos),Situação Censitária,Área,Peso Final,Altura Final,Está grávida?,Em quantos dias da semana costuma comer feijão?,"Em quantos dias da semana, costuma comer pelo menos um tipo de verdura ou legume (sem contar batata, mandioca, cará ou inhame)?",...,Usa aparelhos eletrônicos com nicotina líquida ou folha de tabaco picado?,Com que frequência alguém fuma dentro do seu domicílio?,"Nos últimos trinta dias, viu alguma propaganda ou anúncio de cigarros nos pontos de venda de cigarros?","Nos últimos 30 dias, viu alguma propaganda ou anúncio de cigarros na internet, incluindo redes sociais?",Viu ou ouviu informações nos jornais ou revistas?,Viu ou ouviu informações na televisão?,Viu ou ouviu informações no rádio?,"Viu ou ouviu informações na internet, incluindo redes sociais?","Nos últimos trinta dias, viu alguma foto ou advertência sobre os riscos de fumar nos maços de cigarros?","Nos últimos 30 dias, as advertências nos maços de cigarro que viu o levaram a pensar em parar de fumar?"
0,0,RO,71.91,1,1,60.0,145.0,2.0,7.0,1.0,...,4.0,1.0,2.0,2.0,2.0,2.0,2.0,2.0,1.0,
1,1,RO,71.91,1,1,,,,,,...,,,,,,,,,,
2,2,RO,71.91,1,1,,,,,,...,,,,,,,,,,
3,3,RO,71.91,1,1,,,,,,...,,,,,,,,,,
4,4,RO,71.91,1,1,,,,,,...,,,,,,,,,,


In [None]:
#verificando as linhas que têm todos os valores nulos, sem contas as 3 primeiras
valores_nulos = df_renomeado.iloc[:, 5:].isnull().all(axis=1)

#verificando se as 3 primeiras estão preenchidas
primeiras_colunas = df_renomeado.iloc[:, :5].notnull().all(axis=1)

#filtrando esses dois casos
linhas_nulas = valores_nulos & primeiras_colunas

df_renomeado[linhas_nulas]

Unnamed: 0,id,UF,Esperança de vida ao nascer (Anos),Situação Censitária,Área,Peso Final,Altura Final,Está grávida?,Em quantos dias da semana costuma comer feijão?,"Em quantos dias da semana, costuma comer pelo menos um tipo de verdura ou legume (sem contar batata, mandioca, cará ou inhame)?",...,Usa aparelhos eletrônicos com nicotina líquida ou folha de tabaco picado?,Com que frequência alguém fuma dentro do seu domicílio?,"Nos últimos trinta dias, viu alguma propaganda ou anúncio de cigarros nos pontos de venda de cigarros?","Nos últimos 30 dias, viu alguma propaganda ou anúncio de cigarros na internet, incluindo redes sociais?",Viu ou ouviu informações nos jornais ou revistas?,Viu ou ouviu informações na televisão?,Viu ou ouviu informações no rádio?,"Viu ou ouviu informações na internet, incluindo redes sociais?","Nos últimos trinta dias, viu alguma foto ou advertência sobre os riscos de fumar nos maços de cigarros?","Nos últimos 30 dias, as advertências nos maços de cigarro que viu o levaram a pensar em parar de fumar?"
1,1,RO,71.91,1,1,,,,,,...,,,,,,,,,,
2,2,RO,71.91,1,1,,,,,,...,,,,,,,,,,
3,3,RO,71.91,1,1,,,,,,...,,,,,,,,,,
4,4,RO,71.91,1,1,,,,,,...,,,,,,,,,,
5,5,RO,71.91,1,1,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
293721,293721,DF,78.85,2,1,,,,,,...,,,,,,,,,,
293722,293722,DF,78.85,2,1,,,,,,...,,,,,,,,,,
293723,293723,DF,78.85,2,1,,,,,,...,,,,,,,,,,
293724,293724,DF,78.85,2,1,,,,,,...,,,,,,,,,,


In [None]:
df_tratado = df_renomeado[~linhas_nulas]
df_tratado

Unnamed: 0,id,UF,Esperança de vida ao nascer (Anos),Situação Censitária,Área,Peso Final,Altura Final,Está grávida?,Em quantos dias da semana costuma comer feijão?,"Em quantos dias da semana, costuma comer pelo menos um tipo de verdura ou legume (sem contar batata, mandioca, cará ou inhame)?",...,Usa aparelhos eletrônicos com nicotina líquida ou folha de tabaco picado?,Com que frequência alguém fuma dentro do seu domicílio?,"Nos últimos trinta dias, viu alguma propaganda ou anúncio de cigarros nos pontos de venda de cigarros?","Nos últimos 30 dias, viu alguma propaganda ou anúncio de cigarros na internet, incluindo redes sociais?",Viu ou ouviu informações nos jornais ou revistas?,Viu ou ouviu informações na televisão?,Viu ou ouviu informações no rádio?,"Viu ou ouviu informações na internet, incluindo redes sociais?","Nos últimos trinta dias, viu alguma foto ou advertência sobre os riscos de fumar nos maços de cigarros?","Nos últimos 30 dias, as advertências nos maços de cigarro que viu o levaram a pensar em parar de fumar?"
0,0,RO,71.91,1,1,60.0,145.0,2.0,7.0,1.0,...,4.0,1.0,2.0,2.0,2.0,2.0,2.0,2.0,1.0,
9,9,RO,71.91,1,1,65.0,152.0,2.0,7.0,4.0,...,4.0,1.0,2.0,1.0,2.0,2.0,2.0,1.0,1.0,2.0
10,10,RO,71.91,1,1,77.0,155.0,2.0,7.0,7.0,...,4.0,5.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,
18,18,RO,71.91,1,1,56.0,159.0,2.0,7.0,3.0,...,4.0,5.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,
19,19,RO,71.91,1,1,55.0,176.0,2.0,3.0,3.0,...,4.0,5.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
293709,293709,DF,78.85,2,1,63.0,168.0,2.0,7.0,7.0,...,4.0,1.0,1.0,2.0,2.0,1.0,2.0,2.0,1.0,1.0
293712,293712,DF,78.85,2,1,72.0,168.0,,7.0,7.0,...,4.0,1.0,2.0,2.0,2.0,2.0,2.0,2.0,1.0,1.0
293713,293713,DF,78.85,2,1,87.0,163.0,2.0,7.0,2.0,...,4.0,5.0,1.0,2.0,1.0,2.0,3.0,1.0,1.0,
293718,293718,DF,78.85,2,1,89.0,168.0,,3.0,6.0,...,4.0,5.0,1.0,1.0,1.0,1.0,1.0,2.0,1.0,


## Criando datasets para cada categoria

In [None]:
categorias = de_para_df['dataset'].unique()

for categoria in categorias:
    # Nome da variável para o dataset da categoria
    nome_variavel = f"df_{categoria.replace(' ', '_')}"
    
    # Seleciona as colunas pertencentes à categoria atual e as marcadas como "Todos"
    colunas_da_categoria = de_para_df.loc[
        (de_para_df['dataset'] == categoria) | (de_para_df['dataset'] == 'todos'), 'título'
    ]
    
    # Cria uma variável global com o nome especificado e armazena o dataset filtrado nela
    globals()[nome_variavel] = df_tratado[colunas_da_categoria]

### Agrupando colunas de acordo com as categorias na alimentação

In [None]:
def calcular_media(df_alimentacao, colunas, nova_coluna):
    df_alimentacao[nova_coluna] = df_alimentacao[colunas].mean(axis=1)

# Chamadas da função para cada categoria
calcular_media(df_alimentacao, ['Em quantos dias da semana costuma comer feijão?',
                    'Em quantos dias da semana, costuma comer pelo menos um tipo de verdura ou legume (sem contar batata, mandioca, cará ou inhame)?'],
               'dias_semana_leguminosas e verduras')

calcular_media(df_alimentacao, ['Em quantos dias da semana costuma comer carne vermelha?',
                    'Em quantos dias da semana costuma comer frango/galinha?',
                    'Em quantos dias da semana costuma comer peixe?'],
               'dias_semana_carnes')

calcular_media(df_alimentacao, ['Em quantos dias da semana costuma tomar suco de caixinha/lata ou refresco em pó ?',
                    'Em quantos dias da semana costuma tomar refrigerante?'],
               'dias_semana_bebida artificial')

calcular_media(df_alimentacao, ['Em quantos dias da semana costuma tomar suco de fruta natural (incluída a polpa de fruta congelada)?'],
               'dias_semana_bebida natural')

calcular_media(df_alimentacao, ['Em quantos dias da semana costuma comer frutas?'],
               'dias_semana_frutas')

calcular_media(df_alimentacao, ['Em quantos dias da semana costuma tomar leite? (de origem animal)'],
               'dias_semana_leite')

calcular_media(df_alimentacao, ['Em quantos dias da semana costuma comer alimentos doces como biscoito/bolacha recheado, chocolate, gelatina, balas e outros?'],
               'dias_semana_doces industrializados')

colunas_remover = ['Em quantos dias da semana costuma comer feijão?',
                  'Em quantos dias da semana, costuma comer pelo menos um tipo de verdura ou legume (sem contar batata, mandioca, cará ou inhame)?',
                  'Em quantos dias da semana costuma comer carne vermelha?',
                  'Em quantos dias da semana costuma comer frango/galinha?',
                  'Em quantos dias da semana costuma comer peixe?',
                  'Em quantos dias da semana costuma tomar suco de caixinha/lata ou refresco em pó ?',
                  'Em quantos dias da semana costuma tomar refrigerante?',
                  'Em quantos dias da semana costuma tomar suco de fruta natural (incluída a polpa de fruta congelada)?',
                  'Em quantos dias da semana costuma comer frutas?',
                  'Em quantos dias da semana costuma tomar leite? (de origem animal)',
                  'Em quantos dias da semana costuma comer alimentos doces como biscoito/bolacha recheado, chocolate, gelatina, balas e outros?'
]

df_alimentacao.drop(columns = colunas_remover, inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_alimentacao[nova_coluna] = df_alimentacao[colunas].mean(axis=1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_alimentacao[nova_coluna] = df_alimentacao[colunas].mean(axis=1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_alimentacao[nova_coluna] = df_alimentacao[colunas].mean(axis=1)
A va

### Alterando o nome da coluna de consumo de álcool

In [None]:
calcular_media(df_alcool, ['Quantos dias por semana costuma consumir alguma bebida alcoólica?'], 
               'dias_semana_alcool')
colunas_remover = ['Quantos dias por semana costuma consumir alguma bebida alcoólica?']
df_alcool.drop(columns = colunas_remover, inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_alimentacao[nova_coluna] = df_alimentacao[colunas].mean(axis=1)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_alcool.drop(columns = colunas_remover, inplace = True)


### Agrupando as colunas de horas e minutos em exercícios físicos

In [None]:
import pandas as pd

def calcular_tempo_total(df, colunas_tempo, drop_horas=True):
    for coluna_principal, sub_colunas in colunas_tempo.items():
        horas_col, minutos_col = sub_colunas
        # Cria uma nova coluna com o tempo total em minutos
        df[f'{coluna_principal}'] = (
            df[horas_col].fillna(0) * 60 + df[minutos_col].fillna(0)
        )
    return df

def calcular_media(df_exercicio_fisico, colunas, nova_coluna):
    df_exercicio_fisico[nova_coluna] = df_exercicio_fisico[colunas].mean(axis=1)

calcular_media(df_exercicio_fisico, ['Em média, quantas horas por dia costuma ficar assistindo televisão?',
                    'Em um dia, quantas horas do seu tempo livre, costuma usar computador, tablet ou celular para lazer?'],
               'horas_tempo_livre_eletronicos')

#dicionário com as colunas para processar
colunas_tempo = {
    'Em geral, no dia que pratica exercício ou esporte, quanto tempo em minutos dura essa atividade?': [
        'Em geral, no dia que pratica exercício ou esporte, quanto tempo em horas dura essa atividade?',
        'Em geral, no dia que pratica exercício ou esporte, quanto tempo em minutos dura essa atividade?'
    ],
    'Em um dia normal, quanto tempo, em minutos, passa andando bastante a pé ou realizando essas atividades pesadas ou que requerem esforço físico no seu trabalho?': [
        'Em um dia normal, quanto tempo, em horas, passa andando bastante a pé ou realizando essas atividades pesadas ou que requerem esforço físico no seu trabalho?',
        'Em um dia normal, quanto tempo, em minutos, passa andando bastante a pé ou realizando essas atividades pesadas ou que requerem esforço físico no seu trabalho?'
    ],
    'Quanto tempo, em minutos, gasta, por dia, para percorrer este trajeto a pé ou de bicicleta, considerando a ida e a volta do trabalho?': [
        'Quanto tempo, em horas, gasta, por dia, para percorrer este trajeto a pé ou de bicicleta, considerando a ida e a volta do trabalho?',
        'Quanto tempo, em minutos, gasta, por dia, para percorrer este trajeto a pé ou de bicicleta, considerando a ida e a volta do trabalho?'
    ],
    'No dia em que faz essa(s) atividade(s), quanto tempo, em minutos, gasta no deslocamento a pé ou de bicicleta, considerando Ida e Volta?': [
        'No dia em que faz essa(s) atividade(s), quanto tempo, em horas, gasta no deslocamento a pé ou de bicicleta, considerando Ida e Volta?',
        'No dia em que faz essa(s) atividade(s), quanto tempo, em minutos, gasta no deslocamento a pé ou de bicicleta, considerando Ida e Volta?'
    ],
    'Quanto tempo gasta, em minutos, por dia, realizando essas atividades domésticas pesadas ou que requerem esforço físico intenso? (não remunerada)': [
        'Quanto tempo gasta, em horas, por dia, realizando essas atividades domésticas pesadas ou que requerem esforço físico intenso? (não remunerada)',
        'Quanto tempo gasta, em minutos, por dia, realizando essas atividades domésticas pesadas ou que requerem esforço físico intenso? (não remunerada)'
    ]
}

#aplicando a função para criar novas colunas
df_exercicio_fisico = calcular_tempo_total(df_exercicio_fisico, colunas_tempo)
colunas_remover = ['Em geral, no dia que pratica exercício ou esporte, quanto tempo em horas dura essa atividade?', 'Em um dia normal, quanto tempo, em horas, passa andando bastante a pé ou realizando essas atividades pesadas ou que requerem esforço físico no seu trabalho?', 'Quanto tempo, em horas, gasta, por dia, para percorrer este trajeto a pé ou de bicicleta, considerando a ida e a volta do trabalho?', 'No dia em que faz essa(s) atividade(s), quanto tempo, em horas, gasta no deslocamento a pé ou de bicicleta, considerando Ida e Volta?', 'Quanto tempo gasta, em horas, por dia, realizando essas atividades domésticas pesadas ou que requerem esforço físico intenso? (não remunerada)']
df_exercicio_fisico.drop(columns = colunas_remover, inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[f'{coluna_principal}'] = (
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_exercicio_fisico.drop(columns = colunas_remover, inplace = True)


### Agrupando as colunas de horas e minutos em fumo

In [None]:
def tempo_em_dias(row):
    return (row['Número de anos que parou de fumar'] * 365 +
            row['Número de meses que parou de fumar'] * 30 +
            row['Número de semanas que parou de fumar'] * 7 +
            row['Número de dias que parou de fumar'])

# Aplicar a função e criar uma nova coluna com o total de dias
df_fumo['Total de dias que parou de fumar'] = df_fumo.apply(tempo_em_dias, axis=1)
colunas_remover = ['Número de anos que parou de fumar', 'Número de meses que parou de fumar', 'Número de semanas que parou de fumar', 'Número de dias que parou de fumar']
df_fumo.drop(columns = colunas_remover, inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_fumo['Total de dias que parou de fumar'] = df_fumo.apply(tempo_em_dias, axis=1)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_fumo.drop(columns = colunas_remover, inplace = True)


## Gravação dos Datasets

In [19]:
df_alimentacao.to_csv('dados/alimentacao.csv', index=False)
df_alcool.to_csv('dados/alcool.csv', index=False)
df_exercicio_fisico.to_csv('dados/exercicio_fisico.csv', index=False)
df_fumo.to_csv('dados/fumo.csv', index=False)

## Remoção do dataset original do diretório

In [3]:
# Removendo os arquivos ZIP e CSV
os.remove(zip_file_path)
print("Arquivo ZIP removido com sucesso!")

os.remove(csv_file_name)
print("Arquivo CSV removido com sucesso!")

NameError: name 'zip_file_path' is not defined