[Clique aqui para fazer download da base de dados](https://github.com/CostaJoseff/projeto_final_estatistica/raw/refs/heads/main/dados_projeto.xlsx)

Dependencias necessárias para executar o script:

> *pip install pandas openpyxl*

> *pip install matplotlib*



# Carregando a base de dados:

In [None]:
import pandas as pd

url = "https://github.com/CostaJoseff/projeto_final_estatistica/raw/refs/heads/main/dados_projeto.xlsx"

df = pd.read_excel(url)
# Exibe as 5 primeiras linhas
print(df.head())


   Investimento_marketing  alcance_midias  cliques  taxa_conversao  \
0                  319.24           27.89    23.19            8.04   
1                  274.77           21.66    16.70            7.80   
2                  195.16           19.56     9.79            8.35   
3                  310.48           31.94    26.59            6.54   
4                  241.81           28.98    22.75            8.30   

   taxa_ocupacao_hoteleira estacao tipo_destino  orcamento_publico  \
0                     64.7   Media        Praia               85.8   
1                     70.5    Alta          NaN               42.1   
2                     69.9   Media       Urbano               52.6   
3                     57.3    Alta        Campo               53.1   
4                     61.4    Alta       Urbano               43.6   

   preco_medio_pacote  reputacao_online  eventos_anuais  
0                3.84              3.58             2.0  
1                2.50              5.00   

# Limpeza de Dados
### Remoção de valores ausentes

Durante a etapa de inspeção inicial, identificamos que algumas colunas apresentavam valores ausentes (`NaN`).

Não faria sentido manter observações incompletas, pois isso poderia distorcer os resultados ou reduzir a confiabilidade das interpretações.  

Dessa forma, optamos por **remover todas as linhas que apresentavam pelo menos um valor ausente**.  
Após essa filtragem, a base passou a ter **761 observações**, ainda preservando um **tamanho amostral satisfatório** para o desenvolvimento das análises estatísticas e modelagens propostas.


In [None]:
# Remover linhas que possuem qualquer valor vazio (NaN)
df_clean = df.dropna()
print(df_clean.head())
print("Dimensão final da base:", df_clean.shape)


   Investimento_marketing  alcance_midias  cliques  taxa_conversao  \
0                  319.24           27.89    23.19            8.04   
2                  195.16           19.56     9.79            8.35   
3                  310.48           31.94    26.59            6.54   
4                  241.81           28.98    22.75            8.30   
5                  403.37           63.38    50.15            8.00   

   taxa_ocupacao_hoteleira estacao tipo_destino  orcamento_publico  \
0                     64.7   Media        Praia               85.8   
2                     69.9   Media       Urbano               52.6   
3                     57.3    Alta        Campo               53.1   
4                     61.4    Alta       Urbano               43.6   
5                     81.7   Media        Praia               73.3   

   preco_medio_pacote  reputacao_online  eventos_anuais  
0                3.84              3.58             2.0  
2                1.92              1.84   


### Remoção de valores negativos

No contexto desta base de dados, as variáveis numéricas representam as medidas:

 *investimento em marketing, alcance de mídias, cliques, taxas de conversao e de ocupação, orçamento público, preços médios de pacotes, reputação online e número de eventos anuais.*


Por sua natureza, esses indicadores **não podem assumir valores negativos**:  
- Não existe "investimento negativo" ou "alcance negativo";  
- Taxas e reputação online devem ser iguais ou maiores que zero;  
- Quantidades discretas, como número de cliques ou eventos, também não fazem sentido abaixo de zero.  

Dessa forma, podemos assumir que valores negativos nessas colunas indicam **erros de registro, inconsistências ou ruídos nos dados**.  
Para garantir a coerência das análises estatísticas e evitar interpretações equivocadas, optamos por **remover todas as observações que contenham qualquer valor negativo em colunas numéricas**.


In [None]:
# Apenas colunas numéricas
num_cols = df_clean.select_dtypes(include=["float64", "int64"]).columns

# Remover linhas que tenham valores negativos em qualquer coluna numérica
df_clean = df_clean[(df_clean[num_cols] >= 0).all(axis=1)]

print("Dimensão final da base:", df_clean.shape)


Dimensão final da base: (758, 11)


### Identificação de outliers

Após a remoção de valores ausentes e negativos, é possível que a base contenha outliers, que podem impactar os resultados.

Para uma primeira inspeção, utilizamos **boxplots** das variáveis numéricas. Esse tipo de gráfico destaca valores que estão fora do intervalo interquartil (IQR), facilitando a visualização de possíveis pontos discrepantes.


In [None]:
import matplotlib.pyplot as plt

df_clean[num_cols].boxplot(figsize=(12,6))
plt.xticks(rotation=45)
plt.title("Boxplots")
plt.show()