In [None]:
# Eliminar duplicados
df_analysis = df_analysis.drop_duplicates()

# Seleccionar las columnas de interés
columns_of_interest = ['municipality', 'population', 'new_deaths_x', 'new_deaths_y', 'cumulative_deaths']
df_analysis = df_analysis[columns_of_interest]

# Imputar valores faltantes (en este caso, usando el valor medio)
imputer = SimpleImputer(strategy='mean')
df_analysis_imputed = pd.DataFrame(imputer.fit_transform(df_analysis.drop('municipality', axis=1)), columns=df_analysis.columns[1:])

# Estandarizar los datos para PCA
scaler = StandardScaler()
df_standardized = scaler.fit_transform(df_analysis_imputed)

# Aplicar PCA
pca = PCA(n_components=2)
df_pca = pca.fit_transform(df_standardized)

# Añadir las columnas de municipio y componentes principales al DataFrame
df_pca = pd.DataFrame(df_pca, columns=['PC1', 'PC2'])
df_pca['municipality'] = df_analysis['municipality']

# Mostrar estadísticos descriptivos para componentes principales
statistics_pca = df_pca.describe()

# Mostrar histogramas con kde y distribución normal para componentes principales
g = df_pca.groupby('municipality')
n = g.ngroups
fig, axes = plt.subplots(n // 2 + n % 2, 5, figsize=(15, 10), sharex=True, sharey=True)

for i, (name, group) in enumerate(g):
    r, c = i // 2, i % 2
    a1 = axes[r, c]
    a2 = a1.twinx()

    # Histograma
    group['PC1'].plot.hist(ax=a2, alpha=0.3, bins=20, color='blue')

    # KDE
    group['PC1'].plot.kde(title=name, ax=a1, c='r')

    # Ajustar una distribución normal
    mu, std = group['PC1'].mean(), group['PC1'].std()
    x = np.linspace(group['PC1'].min(), group['PC1'].max(), 100)
    p = norm.pdf(x, mu, std)
    a1.plot(x, p, 'k', linewidth=2)

fig.tight_layout()
plt.show()

# Mostrar estadísticos descriptivos para componentes principales
print(statistics_pca)

In [None]:
# Seleccionar las columnas de interés
columns_of_interest = ['population', 'new_deaths_x', 'new_deaths_y', 'cumulative_deaths', 'new_cases', 'cumulative_cases']
df_analysis = df_merged[columns_of_interest]

# Eliminar duplicados
df_merged = df_merged.drop_duplicates()

# Imputar valores faltantes (en este caso, usando el valor medio)
imputer = SimpleImputer(strategy='mean')
df_analysis_imputed = pd.DataFrame(imputer.fit_transform(df_analysis), columns=df_analysis.columns)

# Estandarizar los datos para PCA
scaler = StandardScaler()
df_standardized = scaler.fit_transform(df_analysis_imputed)

# Aplicar PCA
pca = PCA(n_components=2)
df_pca = pca.fit_transform(df_standardized)

# Añadir las columnas de población y componentes principales al DataFrame
df_pca = pd.DataFrame(df_pca, columns=['PC1', 'PC2'])
df_pca['population'] = df_analysis['population']

# Mostrar estadísticos descriptivos para componentes principales
statistics_pca = df_pca.describe()

# Mostrar histogramas con kde y distribución normal para componentes principales
fig, axes = plt.subplots(2, 3, figsize=(15, 10), sharex=True, sharey=True)

for i, col in enumerate(df_analysis.columns[1:]):
    r, c = i // 3, i % 3
    a1 = axes[r, c]
    a2 = a1.twinx()

    # Histograma
    df_analysis[col].plot.hist(ax=a2, alpha=0.3, bins=20, color='blue')

    # KDE
    df_analysis[col].plot.kde(title=col, ax=a1, c='r')

    # Ajustar una distribución normal
    mu, std = df_analysis[col].mean(), df_analysis[col].std()
    x = np.linspace(df_analysis[col].min(), df_analysis[col].max(), 100)
    p = norm.pdf(x, mu, std)
    a1.plot(x, p, 'k', linewidth=2)

fig.tight_layout()
plt.show()

# Mostrar estadísticos descriptivos para componentes principales
print(statistics_pca)