In [None]:
# ============================================
# 1. IMPORTAR LIBRERÍAS Y CARGAR DATOS
# ============================================

import pandas as pd        # Manejo de tablas (dataframes)
import numpy as np         # Operaciones matemáticas y arreglos
import matplotlib.pyplot as plt  # Gráficos básicos

# Cargar un archivo CSV
# Cambiar "archivo.csv" por el nombre o ruta de tu dataset
df = pd.read_csv("archivo.csv")

# Opciones adicionales:
# df = pd.read_excel("archivo.xlsx")   # Para Excel
# df = pd.read_json("archivo.json")    # Para JSON

# Ver las primeras 5 filas para confirmar que cargó bien
df.head()


In [None]:
# ============================================
# 2. EXPLORACIÓN INICIAL DEL DATASET
# ============================================

# Muestra cantidad de filas, columnas y tipos de datos
df.info()

# Estadísticas básicas (solo para columnas numéricas)
df.describe()

# Lista con los nombres de las columnas
df.columns

# Revisa cuántos valores nulos hay en cada columna
df.isna().sum()

# Número de filas y columnas en el dataset
df.shape


In [None]:
# ============================================
# 3. LIMPIEZA DE DATOS
# ============================================

# Eliminar filas con al menos un valor nulo
df = df.dropna()

# Rellenar valores nulos con la media de la columna
# Cambia "columna" por el nombre de la variable numérica
df["columna"] = df["columna"].fillna(df["columna"].mean())

# Rellenar valores nulos con un texto
df["categoria"] = df["categoria"].fillna("Desconocido")

# Eliminar filas duplicadas
df = df.drop_duplicates()

# Renombrar columnas: {"nombre_antiguo": "nombre_nuevo"}
df = df.rename(columns={"old_name": "new_name"})

# Cambiar tipo de dato (ejemplo: de string a número entero)
df["columna"] = df["columna"].astype(int)


In [None]:
# ============================================
# 4. TRANSFORMACIONES Y FILTRADO
# ============================================

# Crear una columna nueva como suma de otras dos
df["total"] = df["ventas"] + df["gastos"]

# Aplicar función a una columna (ejemplo: logaritmo natural)
df["log_ventas"] = df["ventas"].apply(np.log)

# Filtrar filas según condición
# Mantiene solo las filas donde "ventas" > 100
df_filtrado = df[df["ventas"] > 100]

# Agrupar por categoría y calcular promedio
# "categoria" debe ser una columna categórica
df_group = df.groupby("categoria")["ventas"].mean().reset_index()

# Ordenar por una columna
# ascending=False → de mayor a menor
df = df.sort_values("ventas", ascending=False)


In [None]:
# ============================================
# 5. ESTADÍSTICAS DESCRIPTIVAS Y UTILIDADES
# ============================================

# Promedio de una columna
df["ventas"].mean()

# Mediana
df["ventas"].median()

# Suma total
df["ventas"].sum()

# Conteo de valores únicos en una columna categórica
df["categoria"].value_counts()

# Correlación entre todas las columnas numéricas
df.corr()

# Ver máximos y mínimos
df["ventas"].max(), df["ventas"].min()

# Tabla dinámica (pivot_table) para análisis rápido
# index → filas, columns → columnas, values → métrica
tabla = pd.pivot_table(df, index="categoria", columns="año", values="ventas", aggfunc="sum")
tabla


In [None]:
# ============================================
# 6. VISUALIZACIÓN DE DATOS
# ============================================

# Histograma de una variable numérica
df["ventas"].hist(bins=20)   # bins = número de barras
plt.xlabel("Ventas")
plt.ylabel("Frecuencia")
plt.title("Distribución de Ventas")
plt.show()

# Gráfico de barras de una variable categórica
df["categoria"].value_counts().plot(kind="bar")
plt.xlabel("Categoría")
plt.ylabel("Frecuencia")
plt.title("Conteo por Categoría")
plt.show()

# Gráfico de dispersión entre dos variables numéricas
plt.scatter(df["ventas"], df["gastos"])
plt.xlabel("Ventas")
plt.ylabel("Gastos")
plt.title("Relación Ventas vs Gastos")
plt.show()

# Boxplot para detectar outliers
df.boxplot(column="ventas", by="categoria")
plt.title("Boxplot de Ventas por Categoría")
plt.suptitle("")  # Elimina subtítulo automático
plt.xlabel("Categoría")
plt.ylabel("Ventas")
plt.show()


In [None]:
# ============================================
# 7. UTILIDADES EXTRA (MUY ÚTILES)
# ============================================

# Seleccionar solo ciertas columnas
df_subset = df[["ventas", "gastos", "categoria"]]

# Seleccionar filas por índice
df.iloc[0:5]   # primeras 5 filas

# Seleccionar filas por condición compuesta
df[(df["ventas"] > 100) & (df["categoria"] == "A")]

# Crear variables dummy (para columnas categóricas → 0/1)
df_dummies = pd.get_dummies(df, columns=["categoria"])

# Normalizar una columna (0 a 1)
df["ventas_norm"] = (df["ventas"] - df["ventas"].min()) / (df["ventas"].max() - df["ventas"].min())

# Guardar el dataframe limpio en nuevo archivo
df.to_csv("datos_limpios.csv", index=False)


In [None]:
# ============================================
# 8. TRABAJAR CON JSON
# ============================================

import json

# --- Leer JSON desde archivo local ---
# "archivo.json" debe estar en tu carpeta de trabajo
with open("archivo.json", "r", encoding="utf-8") as f:
    data = json.load(f)   # Carga como diccionario de Python

# Ver las claves principales
print(data.keys())

# Convertir JSON a DataFrame (si la estructura es tipo lista de diccionarios)
df_json = pd.DataFrame(data)

# --- Leer JSON directamente con pandas ---
# Útil cuando el archivo tiene estructura tabular
df_json = pd.read_json("archivo.json")

# --- Leer JSON desde una API ---
import requests

# URL de ejemplo (puedes cambiar por otra API pública)
url = "https://jsonplaceholder.typicode.com/posts"
response = requests.get(url)        # Llamada HTTP GET
data_api = response.json()          # Convierte el JSON de la API en lista/diccionario
df_api = pd.DataFrame(data_api)     # Pasa la data a DataFrame para analizar
df_api.head()


In [None]:
# ============================================
# 9. WEB-SCRAPING BÁSICO
# ============================================

import requests
from bs4 import BeautifulSoup

# --- Descargar página web ---
url = "https://quotes.toscrape.com/"   # Página de ejemplo con citas
response = requests.get(url)           # Hace la petición GET
html = response.text                   # Contenido HTML de la página

# --- Procesar HTML con BeautifulSoup ---
soup = BeautifulSoup(html, "html.parser")

# --- Extraer todas las citas de la página ---
citas = soup.find_all("span", class_="text")   # Busca todos los <span> con clase="text"
for c in citas:
    print(c.get_text())

# --- Extraer autores ---
autores = soup.find_all("small", class_="author")
for a in autores:
    print(a.get_text())

# --- Extraer links de la página ---
links = soup.find_all("a")
for l in links:
    print(l.get("href"))


In [None]:
# ============================================
# 10. WEB-SCRAPING + TABLA
# ============================================

# Supongamos que queremos armar un dataframe con las citas y autores
citas = soup.find_all("span", class_="text")
autores = soup.find_all("small", class_="author")

# Crear listas con el contenido extraído
lista_citas = [c.get_text() for c in citas]
lista_autores = [a.get_text() for a in autores]

# Armar DataFrame con pandas
df_citas = pd.DataFrame({"cita": lista_citas, "autor": lista_autores})
df_citas.head()
