In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler, KBinsDiscretizer
from matplotlib.backends.backend_pdf import PdfPages
from google.colab import files

In [None]:
#conecta com o drive

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


##Gera o pdf com os graficos antes e depois do preprocessamento

In [None]:
# Carregar o conjunto de dados, tem que colocar o caminho ate o csv no teu drive
df = pd.read_csv('/content/drive/Meu Drive/Topicos em Computação/atv_pratica2/Housing.csv')

FileNotFoundError: [Errno 2] No such file or directory: '/content/drive/Meu Drive/Topicos em Computação/atv_pratica2/Housing.csv'

In [None]:
# Converter colunas categóricas em numéricas
df.replace({'yes': 1, 'no': 0, 'furnished': 2, 'semi-furnished': 1, 'unfurnished': 0}, inplace=True)

# Tratar valores nulos, se houver
df.fillna(df.median(), inplace=True)

# Selecionar apenas as colunas desejadas
df_selected = df[['price', 'area', 'stories', 'airconditioning']]

# Normalizar as características numéricas
scaler = MinMaxScaler()
df_normalized = pd.DataFrame(scaler.fit_transform(df_selected), columns=df_selected.columns)

# Aplicar a discretização nas variáveis que necessitam
discretizer = KBinsDiscretizer(n_bins=5, encode='ordinal', strategy='uniform')
df_discretized = pd.DataFrame(discretizer.fit_transform(df[['area', 'stories']]), columns=['area', 'stories'])

# Gerar os histogramas antes e depois das operações
with PdfPages('/content/preprocessing_visualizations.pdf') as pdf_pages:
    # Histogramas antes das operações
    df_selected.hist(bins=50, figsize=(20,15))
    plt.suptitle('Histograms Before Preprocessing')
    pdf_pages.savefig()
    plt.close()

    # Histogramas depois da normalização
    df_normalized.hist(bins=50, figsize=(20,15))
    plt.suptitle('Histograms After Normalization')
    pdf_pages.savefig()
    plt.close()

    # Boxplots antes das operações
    df_selected.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False, figsize=(20,15))
    plt.suptitle('Boxplots Before Preprocessing')
    pdf_pages.savefig()
    plt.close()

    # Boxplots depois da discretização
    df_discretized.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False, figsize=(20,15))
    plt.suptitle('Boxplots After Discretization')
    pdf_pages.savefig()
    plt.close()

    # Matriz de dispersão antes das operações
    pd.plotting.scatter_matrix(df_selected, figsize=(20, 15))
    plt.suptitle('Scatter Matrix Before Preprocessing')
    pdf_pages.savefig()
    plt.close()

    # Matriz de dispersão depois da normalização
    pd.plotting.scatter_matrix(df_normalized, figsize=(20, 15))
    plt.suptitle('Scatter Matrix After Normalization')
    pdf_pages.savefig()
    plt.close()

    # Matriz de correlação antes das operações (com as 4 variáveis selecionadas)
    correlation_matrix_selected = df_selected.corr()
    plt.figure(figsize=(12, 10))
    sns.heatmap(correlation_matrix_selected, annot=True, cmap='coolwarm', fmt=".2f")
    plt.title('Correlation Matrix Before Preprocessing (Selected Variables)')
    pdf_pages.savefig()
    plt.close()

    # Matriz de correlação entre todas as variáveis
    correlation_matrix_all = df.corr()
    plt.figure(figsize=(12, 10))
    sns.heatmap(correlation_matrix_all, annot=True, cmap='coolwarm', fmt=".2f")
    plt.title('Correlation Matrix Between All Variables')
    pdf_pages.savefig()
    plt.close()

    # Matriz de correlação depois da discretização
    correlation_matrix_discretized = df_discretized.corr()
    plt.figure(figsize=(12, 10))
    sns.heatmap(correlation_matrix_discretized, annot=True, cmap='coolwarm', fmt=".2f")
    plt.title('Correlation Matrix After Discretization')
    pdf_pages.savefig()
    plt.close()

# Salva o PDF com os gráficos gerados no ambiente do Colab
files.download('/content/preprocessing_visualizations.pdf')


NameError: name 'df' is not defined

##Tabela com medidas de tendência central (média, mediana) e dispersão (desvio padrão, variação).


In [None]:
import pandas as pd
from google.colab import files  # Importa a biblioteca para salvar arquivos no Colab

# Carregar o conjunto de dados
df = pd.read_csv('/content/drive/MyDrive/si/topicos_comp/atv_02/Housing.csv')
df.replace({'yes': 1, 'no': 0, 'furnished': 2, 'semi-furnished': 1, 'unfurnished': 0}, inplace=True)

# Calcular medidas de tendência central
central_tendency = df.describe().loc[['mean', '50%']].transpose()
central_tendency.columns = ['Mean', 'Median']

# Calcular medidas de dispersão
dispersion = pd.DataFrame()
dispersion['Std Deviation'] = df.std()
dispersion['Variance'] = df.var()

# Combinar as medidas de tendência central e dispersão
statistics = pd.concat([central_tendency, dispersion], axis=1)

# Salvar em um arquivo CSV com apenas 3 casas decimais
statistics.to_csv('/content/drive/MyDrive/si/topicos_comp/atv_02/Housing_Statistics.csv', float_format='%.3f')

# Exibir as estatísticas calculadas
print(statistics)

# Baixar o arquivo CSV
files.download('/content/drive/MyDrive/si/topicos_comp/atv_02/Housing_Statistics.csv')


                          Mean     Median  Std Deviation      Variance
price             4.766729e+06  4340000.0   1.870440e+06  3.498544e+12
area              5.150541e+03     4600.0   2.170141e+03  4.709512e+06
bedrooms          2.965138e+00        3.0   7.380639e-01  5.447383e-01
bathrooms         1.286239e+00        1.0   5.024696e-01  2.524757e-01
stories           1.805505e+00        2.0   8.674925e-01  7.525432e-01
mainroad          8.587156e-01        1.0   3.486347e-01  1.215461e-01
guestroom         1.779817e-01        0.0   3.828487e-01  1.465731e-01
basement          3.504587e-01        0.0   4.775519e-01  2.280559e-01
hotwaterheating   4.587156e-02        0.0   2.093987e-01  4.384781e-02
airconditioning   3.155963e-01        0.0   4.651799e-01  2.163923e-01
parking           6.935780e-01        0.0   8.615858e-01  7.423300e-01
prefarea          2.348624e-01        0.0   4.243022e-01  1.800324e-01
furnishingstatus  9.302752e-01        1.0   7.613727e-01  5.796883e-01


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>