In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Carregar o dataset
df = pd.read_csv("InfectiousDisease20012014.csv")

In [None]:
# Inspeção inicial dos dados
print(df.info())
print(df.describe())
print(df.isnull().sum())

In [None]:
# Visualização da distribuição das variáveis numéricas
plt.figure(figsize=(10, 6))
df.hist(bins=30, figsize=(12, 8), edgecolor='black')
plt.tight_layout()
plt.show()

In [None]:
# Boxplot para identificar outliers
plt.figure(figsize=(10, 6))
sns.boxplot(data=df)
plt.xticks(rotation=90)
plt.show()

In [None]:
# Matriz de correlação
plt.figure(figsize=(10, 6))
numeric_df = df.select_dtypes(include=['number'])  # Filtrar apenas colunas numéricas
sns.heatmap(numeric_df.corr(), annot=True, cmap="coolwarm", fmt=".2f")
plt.show()

In [None]:
# Scatter plot entre duas variáveis numéricas reais
plt.figure(figsize=(8, 6))
numeric_cols = df.select_dtypes(include=['number']).columns.tolist()
if len(numeric_cols) >= 2:
    sns.scatterplot(x=df[numeric_cols[0]], y=df[numeric_cols[1]])
    plt.xlabel(numeric_cols[0])
    plt.ylabel(numeric_cols[1])
    plt.title(f'Relação entre {numeric_cols[0]} e {numeric_cols[1]}')
    plt.show()
else:
    print("Não há colunas numéricas suficientes para um scatter plot.")

In [None]:
# Gráfico de barras para variáveis categóricas
plt.figure(figsize=(8, 6))
categorical_cols = df.select_dtypes(include=['object']).columns.tolist()
if categorical_cols:
    cat_col = categorical_cols[0]  # Escolher a primeira coluna categórica disponível
    df[cat_col].value_counts().plot(kind='bar', color='skyblue', edgecolor='black')
    plt.xlabel(cat_col)
    plt.ylabel('Frequência')
    plt.title(f'Distribuição da variável {cat_col}')
    plt.show()
else:
    print("Nenhuma variável categórica disponível para o gráfico de barras.")

In [None]:
# Evolução da taxa de incidência ao longo dos anos
plt.figure(figsize=(10, 6))
sns.lineplot(x=df['Year'], y=df['Rate'], estimator='mean', ci=None)
plt.xlabel('Ano')
plt.ylabel('Taxa de Incidência')
plt.title('Evolução da Taxa de Incidência ao Longo dos Anos')
plt.show()

In [None]:
# Comparação de taxas entre diferentes condados
plt.figure(figsize=(12, 6))
top_counties = df.groupby('County')['Rate'].mean().nlargest(10).index
sns.boxplot(x=df[df['County'].isin(top_counties)]['County'], y=df['Rate'])
plt.xticks(rotation=90)
plt.xlabel('Condado')
plt.ylabel('Taxa de Incidência')
plt.title('Comparação de Taxas entre os Principais Condados')
plt.show()

In [None]:
# Análise da diferença de taxa de incidência por sexo
plt.figure(figsize=(8, 6))
sns.boxplot(x=df['Sex'], y=df['Rate'])
plt.xlabel('Sexo')
plt.ylabel('Taxa de Incidência')
plt.title('Diferença na Taxa de Incidência por Sexo')
plt.show()

In [None]:
# Comparação entre as doenças mais comuns
plt.figure(figsize=(12, 6))
top_diseases = df['Disease'].value_counts().nlargest(10).index
disease_data = df[df['Disease'].isin(top_diseases)]
sns.boxplot(x=disease_data['Disease'], y=disease_data['Rate'])
plt.xticks(rotation=90)
plt.xlabel('Doença')
plt.ylabel('Taxa de Incidência')
plt.title('Comparação entre as Principais Doenças')
plt.show()