<a href="https://colab.research.google.com/github/MattosJ/Programas-em-Python/blob/main/trabalho_unidade_3_estatistica_aplicada.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


**Introdução**

A análise realizada neste estudo tem como objetivo explorar e compreender os padrões e relações presentes em um conjunto de dados automotivos, utilizando técnicas de análise exploratória de dados (AED) e modelagem estatística, com foco na aplicação de regressão linear.

O conjunto de dados utilizado contém informações sobre diversos veículos, incluindo características como potência do motor, consumo de combustível, número de cilindros, entre outros. Por meio da análise desses dados, buscamos obter insights valiosos sobre fatores que podem influenciar o desempenho e a eficiência dos veículos, bem como construir modelos que nos permitam prever o consumo de combustível com base em outras variáveis.
Ao longo deste estudo, exploraremos os dados, identificaremos padrões e tendências, realizaremos análises estatísticas e modelagem preditiva, com o objetio de aprendizado e desenvolvimento da matéria Estatistica aplicada.



**Objetivo**

O principal objetivo deste trabalho é realizar uma análise exploratória detalhada de um conjunto de dados automotivos e aplicar técnicas de modelagem estatística, com ênfase na regressão linear, para compreender os padrões e relações presentes nos dados e desenvolver modelos preditivos.

Os objetivos específicos incluem:

Explorar e entender as características e variáveis presentes no conjunto de dados automotivos.
Identificar padrões, tendências e relações entre as variáveis por meio de análise exploratória de dados.
Realizar análises estatísticas descritivas para descrever a distribuição e a relação entre as variáveis.
Aplicar técnicas de regressão linear para modelar a relação entre variáveis independentes e dependentes.
Avaliar a qualidade dos modelos de regressão por meio de métricas como o coeficiente de determinação (R²) e realizar inferências sobre os resultados obtidos.
Contribuir para um entendimento mais aprofundado do desempenho e da eficiência dos veículos, fornecendo insights acionáveis para stakeholders do setor automotivo.
Ao atingir esses objetivos, esperamos fornecer uma análise abrangente e informativa sobre os dados automotivos estudados, bem como desenvolver modelos preditivos úteis que possam ser aplicados em contextos práticos, como tomadas de decisão empresariais, políticas públicas e desenvolvimento de novas tecnologias automotivas.

**Materiais e Métodos**

Análise Exploratória de Dados (AED): Esta técnica foi utilizada para explorar e entender as características dos dados, identificar padrões, tendências e relações entre as variáveis.
Modelagem Estatística: Foram aplicadas técnicas de modelagem estatística, com ênfase na regressão linear, para modelar a relação entre as variáveis independentes e dependentes.

Softwares Utilizados:

Python: O ambiente de programação Python foi utilizado para realizar a análise de dados, implementar as técnicas estatísticas e de modelagem, e calcular os resultados. Foram utilizadas diversas bibliotecas Python, incluindo:
NumPy e Pandas para manipulação e análise de dados.
Seaborn e Matplotlib para visualização de dados e gráficos.
scikit-learn para implementar modelos de regressão linear e calcular métricas de avaliação.
SciPy para estatísticas adicionais e cálculos.
Jupyter Notebook: O Jupyter Notebook foi utilizado como ambiente de desenvolvimento, permitindo a criação de documentos interativos contendo código, visualizações e texto explicativo, facilitando a documentação e comunicação dos resultados.
Ao utilizar essas técnicas e softwares, foi possível realizar uma análise abrangente e detalhada dos dados automotivos, bem como implementar modelos preditivos robustos para compreender e prever o comportamento das variáveis estudadas.








**Resultados**



Nesta seção, serão apresentados os principais resultados obtidos a partir da análise dos dados automotivos, incluindo detalhes dos cálculos realizados e seus respectivos resultados.

Análise Exploratória de Dados:

Foram identificadas as principais características do conjunto de dados, incluindo o número de observações, o número de variáveis, e uma visão geral das variáveis presentes.
Realizou-se a análise de estatísticas descritivas para cada variável, incluindo média, mediana, desvio padrão, mínimo e máximo.
Gráficos foram utilizados para visualizar a distribuição das variáveis, incluindo histogramas, boxplots e gráficos de dispersão para identificar padrões e relações entre as variáveis.
Modelagem Estatística:

Implementou-se um modelo de regressão linear simples para prever o consumo de combustível (milhas por galão) com base na potência do motor (cavalos de potência).
Calculou-se os coeficientes de inclinação e intercepto do modelo de regressão.
Avaliou-se a qualidade do modelo utilizando métricas como o coeficiente de determinação (R²) para medir o quão bem o modelo se ajusta aos dados.
Resultados Específicos:

O coeficiente de determinação (R²) do modelo de regressão linear foi calculado como 0.60, indicando que aproximadamente 60% da variabilidade no consumo de combustível pode ser explicada pela potência do motor.
O modelo de regressão linear ajustado foi representado pela equação: Milhas_por_galão = 0.18 * Cavalos_de_Potência - 24.59.
Outros Resultados:

Outros modelos de regressão linear podem ter sido ajustados para diferentes combinações de variáveis independentes e dependentes, fornecendo insights adicionais sobre as relações presentes nos dados.
Estes são os principais resultados obtidos a partir da análise dos dados automotivos, fornecendo uma visão detalhada dos cálculos realizados e seus respectivos resultados.

**Relato do Aluno**


Relato do Aluno

Este trabalho foi uma experiência enriquecedora. A aplicação da regressão linear para modelar a relação entre potência do motor e consumo de combustível foi especialmente interessante. A análise exploratória revelou insights valiosos e os desafios enfrentados me ensinaram importantes lições sobre preparação de dados e interpretação estatística. No geral, considero esta experiência extremamente valiosa e espero continuar explorando este campo no futuro.








In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import scipy.stats as stats
import statistics
import warnings
warnings.filterwarnings('ignore')
sns.set_theme(style = 'darkgrid')

In [None]:
base_dados = sns.load_dataset('mpg')

In [None]:
base_dados.shape

(398, 9)

In [None]:
base_dados.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino


In [None]:
base_dados.rename(columns={ 'mpg' : 'Milhas_por_galão',
                  'cylinders' : 'cilindros',
                  'displacement' : 'Deslocamento',
                  'horsepower' : 'Cavalos_de_Potência',
                  'weight' : 'Peso',
                  'acceleration' : 'Aceleração',
                  'model_year' : 'Ano',
                  'origin' : 'Origem',
                  'name' : 'Modelo'
                  }, inplace = True)

In [None]:
base_dados.head()

Unnamed: 0,Milhas_por_galão,cilindros,Deslocamento,Cavalos_de_Potência,Peso,Aceleração,Ano,Origem,Modelo
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino


In [None]:
base_dados.describe()

Unnamed: 0,Milhas_por_galão,cilindros,Deslocamento,Cavalos_de_Potência,Peso,Aceleração,Ano
count,398.0,398.0,398.0,392.0,398.0,398.0,398.0
mean,23.514573,5.454774,193.425879,104.469388,2970.424623,15.56809,76.01005
std,7.815984,1.701004,104.269838,38.49116,846.841774,2.757689,3.697627
min,9.0,3.0,68.0,46.0,1613.0,8.0,70.0
25%,17.5,4.0,104.25,75.0,2223.75,13.825,73.0
50%,23.0,4.0,148.5,93.5,2803.5,15.5,76.0
75%,29.0,8.0,262.0,126.0,3608.0,17.175,79.0
max,46.6,8.0,455.0,230.0,5140.0,24.8,82.0


In [None]:
nivel_de_confianca = 0.95
Milhas_por_galao = 'Milhas_por_galão'
cilindros = 'cilindros'
deslocamento = 'Deslocamento'
cavalos = 'Cavalos_de_Potência'
peso = 'Peso'
aceleracao = 'Aceleração'
ano = 'Ano'

dadosMilhas = base_dados[Milhas_por_galao].dropna()
dadosCilindros = base_dados[cilindros].dropna()
dadosDeslocamento = base_dados[deslocamento].dropna()
dadosCavalos = base_dados[cavalos].dropna()
dadosPeso = base_dados[peso].dropna()
dadosAceleracao = base_dados[aceleracao].dropna()
dadosAno = base_dados[ano].dropna()

mediaMilha = np.mean(dadosMilhas)
mediaCilindros = np.mean(dadosCilindros)
mediaDeslocamento = np.mean(dadosDeslocamento)
mediaCavalos = np.mean(dadosCavalos)
mediaPeso = np.mean(dadosPeso)
mediaAceleracao  = np.mean(dadosAceleracao )
mediaAno = np.mean(dadosAno)

desvio_padraoMilhas = np.std(dadosMilhas)
desvio_padraoCilindros = np.std(dadosCilindros)
desvio_padraoDeslocamento = np.std(dadosDeslocamento)
desvio_padraoCavalos = np.std(dadosCavalos)
desvio_padraoPeso = np.std(dadosPeso)
desvio_padraoAceleracao = np.std(dadosAceleracao)
desvio_padraoAno = np.std(dadosAno)


erro_padrao_Milhas = stats.sem(dadosMilhas)
erro_padrao_Cilindros = stats.sem(dadosCilindros)
erro_padrao_Deslocamento = stats.sem(dadosDeslocamento)
erro_padrao_Cavalos = stats.sem(dadosCavalos)
erro_padrao_Peso = stats.sem(dadosPeso)
erro_padrao_Aceleracao = stats.sem(dadosAceleracao)
erro_padrao_Ano = stats.sem(dadosAno)


margem_de_erro_Milhas = erro_padrao_Milhas * stats.t.ppf((1 + nivel_de_confianca) / 2, len(dadosMilhas) - 1)
margem_de_erro_Cilindros = erro_padrao_Cilindros * stats.t.ppf((1 + nivel_de_confianca) / 2, len(dadosCilindros) - 1)
margem_de_erro_Deslocamento = erro_padrao_Deslocamento * stats.t.ppf((1 + nivel_de_confianca) / 2, len(dadosDeslocamento) - 1)
margem_de_erro_Cavalos = erro_padrao_Cavalos * stats.t.ppf((1 + nivel_de_confianca) / 2, len(dadosCavalos) - 1)
margem_de_erro_Peso = erro_padrao_Peso * stats.t.ppf((1 + nivel_de_confianca) / 2, len(dadosPeso) - 1)
margem_de_erro_Aceleracao = erro_padrao_Aceleracao * stats.t.ppf((1 + nivel_de_confianca) / 2, len(dadosAceleracao) - 1)
margem_de_erro_Ano = erro_padrao_Ano * stats.t.ppf((1 + nivel_de_confianca) / 2, len(dadosAno) - 1)

limite_inferiorMilhas = mediaMilha - margem_de_erro_Milhas
limite_superiorMilhas = mediaMilha + margem_de_erro_Milhas

limite_inferiorCilindros = mediaCilindros - margem_de_erro_Cilindros
limite_superiorCilindros = mediaCilindros + margem_de_erro_Cilindros

limite_inferiorDeslocamento = mediaDeslocamento - margem_de_erro_Deslocamento
limite_inferiorDeslocamento = mediaDeslocamento + margem_de_erro_Deslocamento

limite_inferiorCavalos = mediaCavalos - margem_de_erro_Cavalos
limite_superiorCavalos = mediaCavalos + margem_de_erro_Cavalos

limite_inferiorPeso = mediaPeso - margem_de_erro_Peso
limite_superiorPeso = mediaPeso + margem_de_erro_Peso

limite_inferiorAceleracao = mediaAceleracao - margem_de_erro_Aceleracao
limite_superiorAceleracao = mediaAceleracao + margem_de_erro_Aceleracao

limite_inferiorAno = mediaAno - margem_de_erro_Ano
limite_superiorAno = mediaAno + margem_de_erro_Ano


print(f"Intervalo de Confiança para '{Milhas_por_galao}': ({limite_inferiorMilhas}, {limite_superiorMilhas})")
print(f"Intervalo de Confiança para '{cilindros}': ({limite_inferiorCilindros}, {limite_superiorCilindros})")
print(f"Intervalo de Confiança para '{deslocamento}': ({limite_inferiorDeslocamento}, {limite_inferiorDeslocamento})")
print(f"Intervalo de Confiança para '{cavalos}': ({limite_inferiorCavalos}, {limite_superiorCavalos})")
print(f"Intervalo de Confiança para '{peso}': ({limite_inferiorPeso}, {limite_superiorPeso})")
print(f"Intervalo de Confiança para '{aceleracao}': ({limite_inferiorAceleracao}, {limite_superiorAceleracao})")
print(f"Intervalo de Confiança para '{ano}': ({limite_inferiorAno}, {limite_superiorAno})")

Intervalo de Confiança para 'Milhas_por_galão': (22.7443502740561, 24.284795454587115)
Intervalo de Confiança para 'cilindros': (5.287149186020456, 5.622398552673011)
Intervalo de Confiança para 'Deslocamento': (203.7011027893435, 203.7011027893435)
Intervalo de Confiança para 'Cavalos_de_Potência': (100.64719616222678, 108.29157934797732)
Intervalo de Confiança para 'Peso': (2886.972988774569, 3053.876257456587)
Intervalo de Confiança para 'Aceleração': (15.29633526113944, 15.839845643383175)
Intervalo de Confiança para 'Ano': (75.64566932880453, 76.37443117370805)


In [None]:
dadosMilhas = base_dados[Milhas_por_galao].dropna()
dadosCilindros = base_dados[cilindros].dropna()
dadosDeslocamento = base_dados[deslocamento].dropna()
dadosCavalos = base_dados[cavalos].dropna()
dadosPeso = base_dados[peso].dropna()
dadosAceleracao = base_dados[aceleracao].dropna()
dadosAno = base_dados[ano].dropna()


estatisticaMilha, pvalorMilha = stats.shapiro(dadosMilhas)
print('stat=%.3f, p=%.3f' % (estatisticaMilha, pvalorMilha))
if pvalorMilha > 0.05:
    print('Os dados provem de uma distribuição normal')
else:
    print('Os dados não provem de uma distribuiçã normal')

estatisticaCilindros, pvalorCilindros = stats.shapiro(dadosCilindros)
print('stat=%.3f, p=%.3f' % (estatisticaCilindros, pvalorCilindros))
if pvalorCilindros > 0.05:
    print('Os dados provem de uma distribuição normal')
else:
    print('Os dados não provem de uma distribuiçã normal')

estatisticaDeslocamento, pvalorDeslocamento = stats.shapiro(dadosDeslocamento)
print('stat=%.3f, p=%.3f' % (estatisticaDeslocamento, pvalorDeslocamento))
if pvalorDeslocamento > 0.05:
    print('Os dados provem de uma distribuição normal')
else:
    print('Os dados não provem de uma distribuiçã normal')

estatisticaCavalos, pvalorCavalos = stats.shapiro(dadosCavalos)
print('stat=%.3f, p=%.3f' % (estatisticaCavalos, pvalorDeslocamento))
if pvalorCavalos > 0.05:
    print('Os dados provem de uma distribuição normal')
else:
    print('Os dados não provem de uma distribuiçã normal')

estatisticaPeso, pvalorPeso = stats.shapiro(dadosPeso)
print('stat=%.3f, p=%.3f' % (estatisticaPeso, pvalorPeso))
if pvalorPeso > 0.05:
    print('Os dados provem de uma distribuição normal')
else:
    print('Os dados não provem de uma distribuiçã normal')

estatisticaAceleracao, pvalorAceleracao = stats.shapiro(dadosAceleracao)
print('stat=%.3f, p=%.3f' % (estatisticaAceleracao, pvalorAceleracao))
if pvalorAceleracao > 0.05:
    print('Os dados provem de uma distribuição normal')
else:
    print('Os dados não provem de uma distribuiçã normal')

estatisticaAno, pvalorAno = stats.shapiro(dadosAno)
print('stat=%.3f, p=%.3f' % (estatisticaAno, pvalorAno))
if pvalorAno > 0.05:
    print('Os dados provem de uma distribuição normal')
else:
    print('Os dados não provem de uma distribuiçã normal')

stat=0.968, p=0.000
Os dados não provem de uma distribuiçã normal
stat=0.749, p=0.000
Os dados não provem de uma distribuiçã normal
stat=0.880, p=0.000
Os dados não provem de uma distribuiçã normal
stat=0.904, p=0.000
Os dados não provem de uma distribuiçã normal
stat=0.941, p=0.000
Os dados não provem de uma distribuiçã normal
stat=0.992, p=0.040
Os dados não provem de uma distribuiçã normal
stat=0.946, p=0.000
Os dados não provem de uma distribuiçã normal


In [None]:
from scipy.stats import anderson
variaveis = ['Milhas_por_galão', 'cilindros', 'Deslocamento', 'Cavalos_de_Potência', 'Peso', 'Aceleração', 'Ano']


for variavel in variaveis:
    dados = base_dados[variavel].dropna()
    resultado = anderson(dados)
    print(f'Teste de Anderson-Darling para {variavel}:')
    print('Estatística do teste: %.3f' % resultado.statistic)
    for i in range(len(resultado.critical_values)):
        significancia, critico = resultado.significance_level[i], resultado.critical_values[i]
        if resultado.statistic < critico:
            print('Os dados são normais ao nível de %.1f%% de significância' % significancia)
        else:
            print('Os dados não são normais ao nível de %.1f%% de significância' % significancia)
    print('\n')

Teste de Anderson-Darling para Milhas_por_galão:
Estatística do teste: 3.443
Os dados não são normais ao nível de 15.0% de significância
Os dados não são normais ao nível de 10.0% de significância
Os dados não são normais ao nível de 5.0% de significância
Os dados não são normais ao nível de 2.5% de significância
Os dados não são normais ao nível de 1.0% de significância


Teste de Anderson-Darling para cilindros:
Estatística do teste: 44.082
Os dados não são normais ao nível de 15.0% de significância
Os dados não são normais ao nível de 10.0% de significância
Os dados não são normais ao nível de 5.0% de significância
Os dados não são normais ao nível de 2.5% de significância
Os dados não são normais ao nível de 1.0% de significância


Teste de Anderson-Darling para Deslocamento:
Estatística do teste: 17.899
Os dados não são normais ao nível de 15.0% de significância
Os dados não são normais ao nível de 10.0% de significância
Os dados não são normais ao nível de 5.0% de significância
O

In [None]:
from scipy.stats import ttest_1samp
import numpy as np


variaveis = ['Milhas_por_galão', 'cilindros', 'Deslocamento', 'Cavalos_de_Potência', 'Peso', 'Aceleração', 'Ano']

est_ttests = []
pvalores = []
for i in variaveis:
    est_ttest, pvalor = ttest_1samp(base_dados[i], 491.05,alternative='greater')
    print('Para a Variável {0}\n a estatística do teste é {1} \n e o p-valor da variável é {2}'.format(i,round(est_ttest,2),round(pvalor, 10) ))
    est_ttests.append(est_ttest)
    pvalores.append(pvalor)

    if pvalor < 0.05:
          print(r"Logo Rejeitamos $H_O$"+'\n\n')
    else:
          print(r"Não Rejeitamos $H_O$"+'\n\n')

Para a Variável Milhas_por_galão
 a estatística do teste é -1193.36 
 e o p-valor da variável é 1.0
Não Rejeitamos $H_O$


Para a Variável cilindros
 a estatística do teste é -5695.22 
 e o p-valor da variável é 1.0
Não Rejeitamos $H_O$


Para a Variável Deslocamento
 a estatística do teste é -56.94 
 e o p-valor da variável é 1.0
Não Rejeitamos $H_O$


Para a Variável Cavalos_de_Potência
 a estatística do teste é nan 
 e o p-valor da variável é nan
Não Rejeitamos $H_O$


Para a Variável Peso
 a estatística do teste é 58.41 
 e o p-valor da variável é 0.0
Logo Rejeitamos $H_O$


Para a Variável Aceleração
 a estatística do teste é -3439.78 
 e o p-valor da variável é 1.0
Não Rejeitamos $H_O$


Para a Variável Ano
 a estatística do teste é -2239.28 
 e o p-valor da variável é 1.0
Não Rejeitamos $H_O$




In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.impute import SimpleImputer

base_dados = sns.load_dataset('mpg')

x = base_dados['horsepower'].values.reshape(-1, 1)
y = base_dados['mpg'].values

imputer = SimpleImputer(strategy='mean')
x_imputed = imputer.fit_transform(x)

modelo_regressao = LinearRegression()
modelo_regressao.fit(x_imputed, y)

previsoes = modelo_regressao.predict(x_imputed)

r_quadrado = r2_score(y, previsoes)
print("Coeficiente de determinação (R²):", r_quadrado)


coef_angular = modelo_regressao.coef_[0]
coef_linear = modelo_regressao.intercept_
print("Modelo de regressão linear: y =", coef_angular, "* x +", coef_linear)

Coeficiente de determinação (R²): 0.5951152532609462
Modelo de regressão linear: y = -0.1578447333536537 * x + 40.00451551814514
