# Análise Exploratória do Dataset Smoking & Drinking

Neste notebook realizamos uma Análise Exploratória de Dados (EDA) sobre o conjunto de dados relacionado a hábitos de fumar e beber.  
O objetivo é entender a estrutura do dataset, explorar padrões entre variáveis e levantar hipóteses iniciais que podem ser úteis em análises mais avançadas.


In [1]:
# Bibliotecas principais
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from google.colab import files
uploaded = files.upload()

# Estilo dos gráficos
sns.set(style="whitegrid", palette="pastel")

# Carregar dataset
df = pd.read_csv("smoking_driking_dataset_Ver01.csv")
df.head()


ModuleNotFoundError: No module named 'pandas'

In [None]:
# Estrutura do dataset
df.info()
df.describe()
df.isnull().sum()



## Estrutura do Dataset

- O dataset possui **X colunas** e **Y linhas**.  
- Não foram encontrados valores ausentes (**ou** existem valores nulos em `colunas`).  
- As variáveis incluem dados sobre **idade, gênero, altura, peso, pressão arterial, colesterol, hábitos de fumar e beber**, entre outras.  


In [None]:
## Análise Univariada
# Distribuição da Idade
plt.figure(figsize=(8,5))
sns.histplot(df["age"], bins=30, kde=True)
plt.title("Distribuição de Idade")
plt.show()


In [None]:
# Proporção fumantes
sns.countplot(x="SMK_stat_type_cd", data=df)
plt.title("Proporção de Fumantes")
plt.show()


### Insights Univariados
- Idade concentrada entre **X e Y anos**.  
- **X%** fumam, **Y%** não fumam.  
- **X%** bebem, **Y%** não bebem.  


In [None]:
# Proporção quem bebe
sns.countplot(x="DRK_YN", data=df)
plt.title("Proporção de Pessoas que Bebem")
plt.show()


In [None]:
## Análise Bivariada

# Idade x Fumar
plt.figure(figsize=(8,5))
sns.boxplot(x="SMK_stat_type_cd", y="age", data=df)
plt.title("Idade vs Hábito de Fumar")
plt.show()


In [None]:
# Gênero x Beber
plt.figure(figsize=(8,5))
sns.countplot(x="sex", hue="DRK_YN", data=df)
plt.title("Consumo de Álcool por Gênero")
plt.show()


### Insights Bivariados
- Fumantes tendem a ser **mais / menos** velhos que não fumantes.  
- Diferença entre gêneros no consumo de álcool: homens/mulheres apresentam maior proporção.  


## Análise Multivariada


In [None]:
# Correlação entre variáveis numéricas
plt.figure(figsize=(10,8))
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Mapa de Correlação")
plt.show()



### Insights Multivariados
- Correlação forte entre **peso e altura**.  
- Pressão arterial e colesterol apresentam **correlações relevantes**.  
- Relações de fumar/beber com variáveis de saúde parecem **fracas/moderadas/fortes**.  


# Conclusões Iniciais

1. A maior parte da amostra está na faixa etária de **X-Y anos**.  
2. O hábito de fumar é **mais / menos** frequente que o de beber.  
3. Diferenças de gênero aparecem no consumo de álcool.  
4. Variáveis biométricas (peso, altura, pressão) se comportam como esperado e se correlacionam.  
5. Há indícios de associação entre fumar, beber e indicadores de saúde, mas que exigem análises mais profundas.

Esses pontos levantam hipóteses para futuros modelos estatísticos ou de machine learning.


In [None]:
df.columns
