In [54]:
# ─────────────────────────────────────────────────────────────────────────────
# Instalación del paquete necesario para diagramas de Venn
# ─────────────────────────────────────────────────────────────────────────────

# Instala la biblioteca 'matplotlib-venn' desde el repositorio PyPI.
# Esta librería extiende matplotlib y permite crear diagramas de Venn para 2 o 3 conjuntos.
# Los diagramas de Venn son útiles para visualizar intersecciones, uniones y diferencias entre conjuntos.
# El prefijo "!" permite ejecutar comandos del sistema operativo desde un notebook (como Google Colab).
!pip install matplotlib-venn


# ─────────────────────────────────────────────────────────────────────────────
# Instalación de pyFluidSynth desde PyPI
# ─────────────────────────────────────────────────────────────────────────────

# Instala la biblioteca 'pyfluidsynth', una interfaz Python para la librería FluidSynth.
# Permite generar sonidos sintetizados, útil en procesamiento de MIDI o creación de música programática.
# Esta versión no requiere instalar 'libfluidsynth1' vía APT, lo que facilita su uso en entornos como Colab.
!pip install pyfluidsynth


# ─────────────────────────────────────────────────────────────────────────────
# (Línea repetida por error) Reinstalación de 'matplotlib-venn'
# ─────────────────────────────────────────────────────────────────────────────

# Vuelve a instalar 'matplotlib-venn'. Esta línea parece redundante.
# Si ya fue instalada arriba, no es necesario ejecutarla de nuevo.
# Puede eliminarse o comentarse sin afectar el funcionamiento del código.
!pip install matplotlib-venn




In [55]:
# ─────────────────────────────────────────────────────────────────────────────
# Paso 1: Definición de la URL del archivo CSV en formato "raw" de GitHub
# ─────────────────────────────────────────────────────────────────────────────

# Esta es la dirección directa al archivo CSV alojado en GitHub, en modo "raw"
# Es decir, permite descargar el archivo de forma directa sin interfaz web
csv_raw_url = "https://raw.githubusercontent.com/GuidoRiosCiaffaroni/ProcesamientoDeDatos/main/csv/kc_house_data.csv"

# Imprime la URL del archivo que se descargará
print(f"Descargando el archivo desde: {csv_raw_url}")

# ─────────────────────────────────────────────────────────────────────────────
# Paso 2: Descarga del archivo CSV desde la URL usando wget
# ─────────────────────────────────────────────────────────────────────────────

# Ejecuta el comando wget desde la línea de comandos para descargar el archivo CSV
# El signo "!" permite ejecutar comandos de shell dentro del notebook de Colab
!wget {csv_raw_url}

# ─────────────────────────────────────────────────────────────────────────────
# Paso 3: Verificación del archivo descargado
# ─────────────────────────────────────────────────────────────────────────────

# Muestra un mensaje indicando que se listará el contenido del directorio actual
print("\nContenido del directorio actual:")

# Lista los archivos del directorio actual con formato legible por humanos (-lh)
# Verifica que el archivo 'kc_house_data.csv' se haya descargado correctamente
!ls -lh kc_house_data.csv


Descargando el archivo desde: https://raw.githubusercontent.com/GuidoRiosCiaffaroni/ProcesamientoDeDatos/main/csv/kc_house_data.csv
--2025-07-30 01:34:15--  https://raw.githubusercontent.com/GuidoRiosCiaffaroni/ProcesamientoDeDatos/main/csv/kc_house_data.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.108.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2515206 (2.4M) [text/plain]
Saving to: ‘kc_house_data.csv’


2025-07-30 01:34:15 (22.7 MB/s) - ‘kc_house_data.csv’ saved [2515206/2515206]


Contenido del directorio actual:
-rw-r--r-- 1 root root 2.4M Jul 30 01:34 kc_house_data.csv


In [56]:
# ────────────────────────────────────────────────────────────────
# Importación de librerías esenciales para análisis de datos y visualización
# ────────────────────────────────────────────────────────────────

# Importa la librería 'pandas' y la asigna como 'pd'
# 'pandas' es utilizada para manipulación, limpieza y análisis de datos estructurados (tablas, CSV, Excel, etc.)
import pandas as pd

# Importa la librería de visualización 'matplotlib.pyplot' y la asigna como 'plt'
# Permite crear gráficos básicos como líneas, barras, histogramas y diagramas personalizados
import matplotlib.pyplot as plt

# Importa la librería 'seaborn' como 'sns'
# 'seaborn' es una extensión de matplotlib que facilita la creación de gráficos estadísticos con mejor estética
import seaborn as sns


# ────────────────────────────────────────────────────────────────
# Configuración de estilo gráfico opcional
# ────────────────────────────────────────────────────────────────

# Establece el estilo gráfico de seaborn para que los gráficos tengan mejor presentación visual
sns.set(style="whitegrid")

# Configura matplotlib para que los gráficos se muestren directamente en el notebook
%matplotlib inline




In [57]:
# ─────────────────────────────────────────────────────────────────────
# Paso 1: Cargar el archivo CSV en un DataFrame de pandas
# ─────────────────────────────────────────────────────────────────────

# Define la ruta local del archivo CSV previamente descargado
# En Google Colab, '/content/' es la carpeta raíz por defecto del entorno de ejecución
file_path = "/content/kc_house_data.csv"

# Usa la función read_csv() de pandas para leer el archivo y cargarlo en un DataFrame llamado 'df'
df = pd.read_csv(file_path)

# ─────────────────────────────────────────────────────────────────────
# Paso 2: Inspección inicial del DataFrame
# ─────────────────────────────────────────────────────────────────────

# Muestra las primeras 5 filas del DataFrame
# Esto permite revisar rápidamente la estructura de los datos: columnas, tipos de variables y ejemplos de valores
df.head()

# ─────────────────────────────────────────────────────────────────────
# Paso 3: Resumen general del dataset (complementario)
# ─────────────────────────────────────────────────────────────────────

# Muestra información resumida del DataFrame, incluyendo número de filas, columnas, tipos de datos y memoria usada
df.info()

# Muestra estadísticas descriptivas básicas para columnas numéricas (conteo, media, desviación estándar, etc.)
df.describe()

# Lista los nombres de todas las columnas disponibles
print("Columnas disponibles en el DataFrame:")
print(df.columns.tolist())

# Revisa si existen valores nulos en alguna columna
print("\nValores nulos por columna:")
print(df.isnull().sum())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21613 entries, 0 to 21612
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             21613 non-null  int64  
 1   date           21613 non-null  object 
 2   price          21613 non-null  float64
 3   bedrooms       21613 non-null  int64  
 4   bathrooms      21613 non-null  float64
 5   sqft_living    21613 non-null  int64  
 6   sqft_lot       21613 non-null  int64  
 7   floors         21613 non-null  float64
 8   waterfront     21613 non-null  int64  
 9   view           21613 non-null  int64  
 10  condition      21613 non-null  int64  
 11  grade          21613 non-null  int64  
 12  sqft_above     21613 non-null  int64  
 13  sqft_basement  21613 non-null  int64  
 14  yr_built       21613 non-null  int64  
 15  yr_renovated   21613 non-null  int64  
 16  zipcode        21613 non-null  int64  
 17  lat            21613 non-null  float64
 18  long  

In [58]:
# ─────────────────────────────────────────────────────────────────────────────
# FUNCIÓN: analisis_inicial()
# Descripción: Realiza un análisis exploratorio básico sobre un DataFrame.
# Incluye estructura, valores nulos, estadísticas descriptivas,
# histograma de precios y matriz de correlación. Guarda gráficos como PNG.
# ─────────────────────────────────────────────────────────────────────────────

def analisis_inicial(df):
    # Diccionario para almacenar los resultados del análisis
    resultados = {}

    # ───────────── 1. Dimensiones y tipos de columnas ─────────────
    resultados['shape'] = df.shape
    resultados['column_types'] = df.dtypes

    # ───────────── 2. Conteo de valores nulos ─────────────
    resultados['missing_values'] = df.isnull().sum()

    # ───────────── 3. Estadísticas descriptivas ─────────────
    resultados['describe'] = df.describe()

    # ───────────── 4. Histograma de precios ─────────────
    if 'price' in df.columns:
        plt.figure(figsize=(10, 5))
        sns.histplot(df['price'], bins=50, kde=True, color="skyblue")
        plt.title('Distribución de Precios de Viviendas')
        plt.xlabel('Precio')
        plt.ylabel('Frecuencia')
        plt.tight_layout()
        plt.savefig("/content/histograma_precios.png")
        plt.close()
    else:
        print("⚠️ Advertencia: La columna 'price' no existe en el DataFrame.")

    # ───────────── 5. Matriz de correlación ─────────────
    corr = df.corr(numeric_only=True)
    if not corr.empty:
        plt.figure(figsize=(12, 10))
        sns.heatmap(corr, annot=True, fmt=".2f", cmap="coolwarm", square=True)
        plt.title('Matriz de Correlación entre Variables Numéricas')
        plt.tight_layout()
        plt.savefig("/content/matriz_correlacion.png")
        plt.close()
    else:
        print("⚠️ Advertencia: No hay columnas numéricas para calcular la correlación.")

    return resultados

# ─────────────────────────────────────────────────────────────────────────────
# EJECUCIÓN DEL ANÁLISIS EXPLORATORIO SOBRE EL DATAFRAME 'df'
# ─────────────────────────────────────────────────────────────────────────────

# Ejecuta la función de análisis y guarda los resultados en un diccionario
resultados_eda = analisis_inicial(df)

# ─────────────────────────────────────────────────────────────────────────────
# VISUALIZACIÓN DE RESULTADOS EN CONSOLA (sin ace_tools)
# ─────────────────────────────────────────────────────────────────────────────

# Imprime estadísticas descriptivas de columnas numéricas
print("📊 Estadísticas descriptivas:")
print(resultados_eda["describe"])

# Imprime cantidad de valores nulos por columna
print("\n🧯 Valores nulos por columna:")
print(resultados_eda["missing_values"])



📊 Estadísticas descriptivas:
                 id         price      bedrooms     bathrooms   sqft_living  \
count  2.161300e+04  2.161300e+04  21613.000000  21613.000000  21613.000000   
mean   4.580302e+09  5.400881e+05      3.370842      2.114757   2079.899736   
std    2.876566e+09  3.671272e+05      0.930062      0.770163    918.440897   
min    1.000102e+06  7.500000e+04      0.000000      0.000000    290.000000   
25%    2.123049e+09  3.219500e+05      3.000000      1.750000   1427.000000   
50%    3.904930e+09  4.500000e+05      3.000000      2.250000   1910.000000   
75%    7.308900e+09  6.450000e+05      4.000000      2.500000   2550.000000   
max    9.900000e+09  7.700000e+06     33.000000      8.000000  13540.000000   

           sqft_lot        floors    waterfront          view     condition  \
count  2.161300e+04  21613.000000  21613.000000  21613.000000  21613.000000   
mean   1.510697e+04      1.494309      0.007542      0.234303      3.409430   
std    4.142051e+04   

In [59]:
# ───────────────────────────────────────────────────────────────
# Librerías necesarias
# ───────────────────────────────────────────────────────────────
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Estilo visual de seaborn
sns.set(style="whitegrid")
%matplotlib inline

# ───────────────────────────────────────────────────────────────
# FUNCIÓN: listar_columnas()
# Lista e imprime todas las columnas de un DataFrame.
# ───────────────────────────────────────────────────────────────

def listar_columnas(df):
    """
    Lista y muestra todas las columnas del DataFrame.

    Parámetro:
    - df : pandas.DataFrame

    Retorna:
    - list : Lista con los nombres de las columnas
    """
    columnas = df.columns.tolist()
    print(" Columnas disponibles en el DataFrame:")
    for i, col in enumerate(columnas, start=1):
        print(f"{i}. {col}")
    return columnas

# ───────────────────────────────────────────────────────────────
# Cargar archivo CSV (asegúrate de haberlo descargado antes)
# ───────────────────────────────────────────────────────────────
#file_path = "/content/kc_house_data.csv"
#df = pd.read_csv(file_path)


# ───────────────────────────────────────────────────────────────
# Listar columnas del DataFrame
# ───────────────────────────────────────────────────────────────
_ = listar_columnas(df)


 Columnas disponibles en el DataFrame:
1. id
2. date
3. price
4. bedrooms
5. bathrooms
6. sqft_living
7. sqft_lot
8. floors
9. waterfront
10. view
11. condition
12. grade
13. sqft_above
14. sqft_basement
15. yr_built
16. yr_renovated
17. zipcode
18. lat
19. long
20. sqft_living15
21. sqft_lot15


In [60]:
# ───────────────────────────────────────────────────────────────
# Paso 1: Subir el archivo desde tu equipo
# ───────────────────────────────────────────────────────────────
from google.colab import files
uploaded = files.upload()  # Selecciona el archivo kc_house_data.csv cuando se abra el diálogo

# ───────────────────────────────────────────────────────────────
# Paso 2: Verificar el nombre del archivo subido
# ───────────────────────────────────────────────────────────────
import os
file_path = list(uploaded.keys())[0]  # toma automáticamente el nombre del archivo subido

# ───────────────────────────────────────────────────────────────
# Paso 3: Importar librerías necesarias
# ───────────────────────────────────────────────────────────────
import pandas as pd
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.formula.api as smf

# ───────────────────────────────────────────────────────────────
# Paso 4: Función para análisis estadístico completo sobre 'price'
# ───────────────────────────────────────────────────────────────
def analizar_columna_price(file_path):
    df = pd.read_csv(file_path)

    if 'price' not in df.columns:
        print("❌ Error: La columna 'price' no se encuentra en el archivo.")
        return

    price = df['price'].dropna()
    print("📊 Análisis Estadístico de la Columna 'price'\n")

    print(f"1. Media: {price.mean():,.2f}")
    print(f"2. Mediana: {price.median():,.2f}")
    moda = price.mode()
    print(f"3. Moda: {moda.iloc[0]:,.2f}" if not moda.empty else "3. Moda: No disponible")
    print(f"4. Varianza: {price.var():,.2f}")
    print(f"5. Desviación estándar: {price.std():,.2f}")
    print(f"6. Rango: {price.max() - price.min():,.2f}")
    print(f"7. Coeficiente de variación: {price.std() / price.mean():.4f}")

    print("\n8. Correlación de Pearson con otras variables numéricas:")
    print(df.corr(numeric_only=True)['price'].drop('price').round(4))

    print("\n9. Covarianza con otras variables numéricas:")
    print(df.cov(numeric_only=True)['price'].drop('price').round(2))

    print("\n10. Distribución normal: gráfico guardado como 'distribucion_normal_price.png'")
    plt.figure(figsize=(10,6))
    sns.histplot(price, kde=True, stat="density", bins=50, color='skyblue')
    xmin, xmax = plt.xlim()
    x = np.linspace(xmin, xmax, 100)
    p = stats.norm.pdf(x, price.mean(), price.std())
    plt.plot(x, p, 'r', linewidth=2)
    plt.title("Distribución de precios con curva normal")
    plt.xlabel("Precio")
    plt.ylabel("Densidad")
    plt.tight_layout()
    plt.savefig("distribucion_normal_price.png")
    plt.close()

    print("\n11. Percentiles:")
    print(f"   25%: {np.percentile(price, 25):,.2f}")
    print(f"   50%: {np.percentile(price, 50):,.2f}")
    print(f"   75%: {np.percentile(price, 75):,.2f}")

    ci_low, ci_high = stats.norm.interval(0.95, loc=price.mean(), scale=price.sem())
    print(f"\n12. Intervalo de confianza al 95%: ({ci_low:,.2f}, {ci_high:,.2f})")

    t_stat, p_val = stats.ttest_1samp(price, 500000)
    print(f"\n13. Prueba de hipótesis (media = 500,000):")
    print(f"   Estadístico t: {t_stat:.4f}")
    print(f"   Valor p: {p_val:.4e}")

    print(f"\n14. Skewness (asimetría): {stats.skew(price):.4f}")
    print(f"15. Kurtosis: {stats.kurtosis(price):.4f}")

    if 'sqft_living' in df.columns:
        modelo = smf.ols('price ~ sqft_living', data=df).fit()
        print("\n16. Regresión lineal (price ~ sqft_living):")
        print("   Parámetros:")
        print(modelo.params.round(2))
        print(f"   R-cuadrado: {modelo.rsquared:.4f}")
        print("   Valores p:")
        print(modelo.pvalues.round(4))
    else:
        print("\n16. No se puede realizar regresión: columna 'sqft_living' no encontrada.")

# ───────────────────────────────────────────────────────────────
# Paso 5: Ejecutar análisis
# ───────────────────────────────────────────────────────────────
analizar_columna_price(file_path)




Saving kc_house_data.csv to kc_house_data (1).csv
📊 Análisis Estadístico de la Columna 'price'

1. Media: 540,088.14
2. Mediana: 450,000.00
3. Moda: 350,000.00
4. Varianza: 134,782,378,397.25
5. Desviación estándar: 367,127.20
6. Rango: 7,625,000.00
7. Coeficiente de variación: 0.6798

8. Correlación de Pearson con otras variables numéricas:
id              -0.0168
bedrooms         0.3083
bathrooms        0.5251
sqft_living      0.7020
sqft_lot         0.0897
floors           0.2568
waterfront       0.2664
view             0.3973
condition        0.0364
grade            0.6674
sqft_above       0.6056
sqft_basement    0.3238
yr_built         0.0540
yr_renovated     0.1264
zipcode         -0.0532
lat              0.3070
long             0.0216
sqft_living15    0.5854
sqft_lot15       0.0824
Name: price, dtype: float64

9. Covarianza con otras variables numéricas:
id              -1.770198e+13
bedrooms         1.052863e+05
bathrooms        1.484815e+05
sqft_living      2.367154e+08
sqft_l