In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

pd.set_option("display.max_columns", None)
plt.style.use("default")

In [None]:
GCS_PATH = "gs://examen-final-julio-cesar-bucket-2/bronce/raw/archivo1.csv"

### Lectura genérica del CSV
df = pd.read_csv(GCS_PATH)

### Vista inicial
df.head()

In [None]:
print("Filas, Columnas:", df.shape)

# Tipos de datos
df.dtypes

In [None]:
# Conteo de nulos por columna

nulls = df.isnull().sum()

### Porcentaje de nulos
nulls_pct = (nulls / len(df)) * 100

nulls_df = pd.DataFrame({
    "nulos": nulls,
    "porcentaje (%)": nulls_pct
}).sort_values(by="porcentaje (%)", ascending=False)

nulls_df

# Visualización de nulos:

plt.figure(figsize=(10, 4))
sns.heatmap(df.isnull(), cbar=False)
plt.title("Mapa de valores nulos")
plt.show()


In [None]:
# Estadísticas para variables numéricas
df.describe()

#Para variables categóricas:

df.describe(include=["object"])

In [None]:
numeric_cols = df.select_dtypes(include=np.number).columns

df[numeric_cols].hist(
    figsize=(14, 8),
    bins=20,
    edgecolor="black"
)

plt.suptitle("Distribución de variables numéricas")
plt.show()

In [None]:
for col in numeric_cols:
    plt.figure(figsize=(5, 3))
    sns.boxplot(x=df[col])
    plt.title(f"Boxplot - {col}")
    plt.show()

In [None]:
if len(numeric_cols) >= 2:
    corr = df[numeric_cols].corr()

    plt.figure(figsize=(10, 6))
    sns.heatmap(corr, annot=True, cmap="coolwarm", fmt=".2f")
    plt.title("Matriz de correlación")
    plt.show()
else:
    print("No hay suficientes variables numéricas para correlación.")


In [None]:
# Conteo de filas duplicadas
duplicados = df.duplicated().sum()
print("Filas duplicadas:", duplicados)