<a href="https://colab.research.google.com/github/hectorpilo/bootcamp-ds-sonda/blob/main/snippets_analisis_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📊 Snippets útiles para Análisis de Datos en Colab
Este notebook contiene una colección de fragmentos de código (snippets) útiles para análisis de datos usando pandas en Google Colab.

In [None]:
# ✅ Cargar librerías principales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## 📁 Cargar datos desde un CSV

In [None]:
# Reemplaza esta ruta por la ruta de tu archivo
df_1 = pd.read_csv('/content/drive/MyDrive/archivo.csv')
df_1.info()

## 📊 Estadísticas básicas y estructura del DataFrame

In [None]:
# Ver primeras filas
df_1.head()

# Ver información general del DataFrame
df_1.info()

# Describir estadísticamente las columnas numéricas
df_1.describe()

## ❓ Revisión de valores nulos

In [None]:
# Recuento de valores nulos por columna
df_1.isnull().sum()

# Porcentaje de valores nulos
(df_1.isnull().sum() / len(df_1)) * 100

## 🧹 Eliminación de valores nulos

In [None]:
# Eliminar filas con al menos un valor nulo
df_clean = df_1.dropna()

# Eliminar columnas con muchos nulos (por ejemplo, más del 50%)
threshold = len(df_1) * 0.5
df_clean_cols = df_1.dropna(thresh=threshold, axis=1)

## 🔍 Filtrado de datos por condiciones

In [None]:
# Ejemplo: filtrar por edad mayor a 30
df_filtrado = df_1[df_1['Age'] > 30]

# Ejemplo: filtrar productos con ventas mayores a 50 unidades
df_ventas_altas = df_1[df_1['Quantity'] > 50]

## 🚨 Detección de outliers (valores atípicos)

In [None]:
# Usando IQR (Interquartile Range)
Q1 = df_1['Quantity'].quantile(0.25)
Q3 = df_1['Quantity'].quantile(0.75)
IQR = Q3 - Q1
outliers = df_1[(df_1['Quantity'] < Q1 - 1.5 * IQR) | (df_1['Quantity'] > Q3 + 1.5 * IQR)]

print("Cantidad de outliers detectados:", len(outliers))

## 📈 Visualización básica

In [None]:
# Histograma
df_1['Quantity'].hist(bins=30)
plt.title("Distribución de la cantidad vendida")
plt.xlabel("Cantidad")
plt.ylabel("Frecuencia")
plt.show()

# Boxplot
sns.boxplot(x=df_1['Quantity'])
plt.title("Boxplot de Cantidad")
plt.show()