In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
!pip install seaborn matplotlib



In [None]:
# Carregar a planilha Excel
df = pd.read_excel("/home/fause/ML-Transportes/Dados/analiseestatistica_indicadores2.xlsx", sheet_name="Planilha1") #nome da aba


In [None]:
# Exibir as primeiras linhas do DataFrame
print(df.head())


In [None]:
# Exibir informações sobre o DataFrame
print(df.info())


In [None]:
# Exibir estatísticas descritivas
print(df.describe())


In [None]:
# Exibir os tipos de dados das colunas
print(df.dtypes)


In [None]:
# Exibir os valores únicos de uma coluna específica
print(df['UF'].unique())


In [None]:
# Exibir a contagem de valores únicos de uma coluna específica
print(df['UF'].value_counts())


In [None]:
# Exibir os nomes das colunas
print(df.columns)
# Integrado ao SNT

            # area km2
            # km rodovias
            # total acumulado de sinistros


# PIB per capita
# Tx de Alfabetização +15 anos
# Taxa de Admissão em Empregos
# IDHM
# Taxa de Óbitos/100 mil habitantes
# % de Óbitos/Sinistros

In [None]:
# Exibir os valores nulos
print(df.isnull().sum())


In [None]:
# Exibir os valores duplicados
print(df.duplicated().sum())

# Sem Tratamento

In [4]:
# Escolher as 5 colunas de entrada (features) e a coluna alvo (target)
X = df[['PIB per capita', 'Tx de Alfabetização +15 anos', 'Taxa de Admissão em Empregos', 'IDHM', 'Taxa de Óbitos/100 mil habitantes', '% de Óbitos/Sinistros',]]
y = df['Integrado ao SNT']  # A coluna que queremos prever
# Converter a variável alvo para 0 e 1 (caso seja 'Sim'/'Não')
y = y.map({'Sim': 1, 'Não': 0}) 
print(y)

0       0
1       1
2       0
3       1
4       0
       ..
5565    1
5566    0
5567    0
5568    0
5569    1
Name: Integrado ao SNT, Length: 5570, dtype: int64


In [5]:
# Dividir os dados em treino (80%) e teste (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criar e treinar um modelo RandomForest
modelo = RandomForestClassifier(n_estimators=100, random_state=42)
modelo.fit(X_train, y_train)
# Fazer previsões nos dados de teste   
y_pred = modelo.predict(X_test)
# Avaliar o modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo: {accuracy:.2f}")

# Relatório detalhado
print(classification_report(y_test, y_pred))

Acurácia do modelo: 0.78
              precision    recall  f1-score   support

           0       0.80      0.90      0.85       744
           1       0.73      0.55      0.62       370

    accuracy                           0.78      1114
   macro avg       0.76      0.72      0.73      1114
weighted avg       0.77      0.78      0.77      1114



In [6]:
# Escolher as 5 colunas de entrada (features) e a coluna alvo (target)
X = df[['Z-score PIB per capita', 'Z-score Tx Afabetização', 'Taxa de Admissão em Empregos', 'Z-score IDHM', 'Z-score Tx óbito/100 mil hab', 'Z-score Óbitos/Sinistros']]
y = df['Integrado ao SNT']  # A coluna que queremos prever
# Converter a variável alvo para 0 e 1 (caso seja 'Sim'/'Não')
y = y.map({'Sim': 1, 'Não': 0}) 
print(y)

0       0
1       1
2       0
3       1
4       0
       ..
5565    1
5566    0
5567    0
5568    0
5569    1
Name: Integrado ao SNT, Length: 5570, dtype: int64


In [7]:
# Dividir os dados em treino (80%) e teste (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criar e treinar um modelo RandomForest
modelo = RandomForestClassifier(n_estimators=100, random_state=42)
modelo.fit(X_train, y_train)
# Fazer previsões nos dados de teste   
y_pred = modelo.predict(X_test)
# Avaliar o modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo: {accuracy:.2f}")

# Relatório detalhado
print(classification_report(y_test, y_pred))

Acurácia do modelo: 0.78
              precision    recall  f1-score   support

           0       0.80      0.90      0.85       744
           1       0.73      0.55      0.62       370

    accuracy                           0.78      1114
   macro avg       0.76      0.72      0.74      1114
weighted avg       0.78      0.78      0.77      1114



Analises

Z-score Tx Afabetização (0.343795): Essa variável é a mais importante para o modelo, ou seja, ela tem a maior influência na decisão do modelo sobre se alguém estará ou não integrado ao SNT. O "Z-score" aqui indica que essa variável foi padronizada (removendo médias e escalas, para que tenha uma distribuição com média 0 e desvio padrão 1).

Z-score Óbitos/Sinistros (0.197635): Esta é a segunda variável mais importante, o que significa que o modelo leva em consideração essa informação para classificar a integração ao SNT. O valor 0.197635 indica que tem uma influência significativa, mas menor do que a taxa de alfabetização.

Z-score IDHM (0.142250): O Índice de Desenvolvimento Humano Municipal (IDHM) tem uma importância moderada, com valor 0.142250, ou seja, é um fator relevante, mas com menos peso do que os anteriores.

Z-score PIB per capita (0.117158): A variável relacionada ao PIB per capita tem um peso considerável, mas é menor do que as três anteriores. Isso sugere que o modelo a usa para distinguir os casos, mas ela não é tão determinante quanto as demais.

Z-score Tx óbito/100 mil hab (0.112263): Essa característica também é importante, mas tem um peso menor, o que indica que, para o modelo, ela tem um efeito mais modesto na classificação.

Taxa de Admissão em Empregos (0.086900): Essa variável tem a menor importância entre as listadas. Isso indica que, embora o modelo a utilize, ela tem um impacto menor na determinação do destino (se a pessoa está ou não integrada ao SNT).



In [8]:
X = df[['Z-score PIB per capita', 'Z-score Tx Afabetização', 'Taxa de Admissão em Empregos', 
        'Z-score IDHM', 'Z-score Tx óbito/100 mil hab', 'Z-score Óbitos/Sinistros']]
y = df['Integrado ao SNT'].map({'Sim': 1, 'Não': 0})  # Convertendo para 0 e 1

model = DecisionTreeClassifier()
model.fit(X, y)

# Criando um DataFrame para visualizar as importâncias
importances = pd.DataFrame({'Feature': X.columns, 'Importance': model.feature_importances_})
importances = importances.sort_values(by='Importance', ascending=False)
print(importances)


NameError: name 'DecisionTreeClassifier' is not defined

In [9]:
import statsmodels.api as sm

X_const = sm.add_constant(X)  # Adiciona um intercepto
model = sm.Logit(y, X_const).fit()
print(model.summary())


Optimization terminated successfully.
         Current function value: 0.485462
         Iterations 6
                           Logit Regression Results                           
Dep. Variable:       Integrado ao SNT   No. Observations:                 5570
Model:                          Logit   Df Residuals:                     5563
Method:                           MLE   Df Model:                            6
Date:                Tue, 08 Apr 2025   Pseudo R-squ.:                  0.2483
Time:                        15:10:20   Log-Likelihood:                -2704.0
converged:                       True   LL-Null:                       -3597.2
Covariance Type:            nonrobust   LLR p-value:                     0.000
                                   coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------------------------
const                           -1.7723      0.327     -5.426      0.000

2. Interpretação dos Coeficientes
Cada coeficiente (coef) representa o efeito da variável na probabilidade log-odds de estar integrado ao SNT.

Variável	Coeficiente	Interpretação
Intercepto (const)	-1.7723	Quando todas as variáveis são zero, a chance de integração ao SNT é baixa.
Z-score PIB per capita	+0.1708	Regiões com maior PIB per capita têm maior chance de integração ao SNT.
Z-score Taxa de Alfabetização	+0.9632	Locais com maior taxa de alfabetização têm forte impacto positivo na integração.
Taxa de Admissão em Empregos	+1.8141	Mercados de trabalho mais ativos aumentam a integração ao SNT.
Z-score IDHM	+0.4651	Regiões com maior IDHM têm maior probabilidade de integração.
Z-score Taxa de Óbitos/100 mil	-0.3837	Regiões com mais óbitos por 100 mil habitantes têm menor chance de integração.
Z-score Óbitos/Sinistros	+0.9087	Locais com mais óbitos em acidentes tendem a ter maior integração ao SNT.

In [66]:
!pip install statsmodels

Collecting statsmodels
  Downloading statsmodels-0.14.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (9.2 kB)
Collecting patsy>=0.5.6 (from statsmodels)
  Downloading patsy-1.0.1-py2.py3-none-any.whl.metadata (3.3 kB)
Downloading statsmodels-0.14.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (10.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.8/10.8 MB[0m [31m1.3 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hDownloading patsy-1.0.1-py2.py3-none-any.whl (232 kB)
Installing collected packages: patsy, statsmodels
Successfully installed patsy-1.0.1 statsmodels-0.14.4
