In [4]:
import pandas as pd
import numpy as np

# Crear un DataFrame con valores aleatorios
df = pd.DataFrame({
    "id": range(1, 11),
    "ventas": np.random.randint(100, 1000, size=10)  # Números aleatorios entre 100 y 1000
})

# Agregar una columna con la media de 'ventas'
df["media_ventas"] = df["ventas"].mean()

print(df)

# CALCULAR LA MEDIANA

df["mediana_ventas"] = df["ventas"].median() # .median() devuelve el valor central de la distribución.
print(df)


# CALCULAR LA DESVIACIÓN ESTÁNDAR

df["desviacion_ventas"] = df["ventas"].std() #.std() calcula la dispersión de los datos respecto a la media.
print(df)

# NORMALIZAR VALORES CON MEDIA Y DESVIACIÓN ESTÁNDAR 

df["ventas_normalizadas"] = (df["ventas"] - df["ventas"].mean()) / df["ventas"].std() # Se aplica la fórmula de normalización Z-score: (X - media) / desviación estándar
print(df)

# OBTENER EL MÁXIMO Y MÍNIMO DE UNA SERIE

df["min_ventas"] = df["ventas"].min() # Obtiene el valor más bajo.
df["max_ventas"] = df["ventas"].max() # Obtiene el valor más alto.
print(df)

# CALCULAR PERCENTILES

df["percentil_25"] = df["ventas"].quantile(0.25) #.quantile(0.25) devuelve el percentil 25 y .quantile(0.75) el percentil 75.
df["percentil_75"] = df["ventas"].quantile(0.75)
print(df)

# CONTAR LA CANTIDAD DE VALORES ÚNICOS

df["categoria"] = np.random.choice(["A", "B", "C"], size=len(df))
df["conteo_categorias"] = df.groupby("categoria")["categoria"].transform("count") #.transform("count") cuenta la cantidad de valores únicos en la columna.

print(df)

# APLICAR UNA FUNCIÓN A UNA COLUMNA

def clasificar_ventas(valor):
    if valor < 400:
        return "Bajo"
    elif valor < 700:
        return "Medio"
    else:
        return "Alto"

df["categoria_ventas"] = df["ventas"].apply(clasificar_ventas) #.apply() aplica una función personalizada a cada valor de la columna.

print(df)

# CALCULAR EL RANGO INTERCUARTÍLICO

df["iqr"] = df["percentil_75"] - df["percentil_25"] #IQR es la diferencia entre el percentil 75 y el 25.
print(df)


# CONTAR VALORES NULOS EN CADA COLUMNA

df["nulos_por_fila"] = df.isnull().sum(axis=1) #.isnull().sum(axis=1) cuenta los valores nulos en cada fila.
df







   id  ventas  media_ventas
0   1     485         572.5
1   2     899         572.5
2   3     860         572.5
3   4     199         572.5
4   5     255         572.5
5   6     923         572.5
6   7     829         572.5
7   8     795         572.5
8   9     189         572.5
9  10     291         572.5
   id  ventas  media_ventas  mediana_ventas
0   1     485         572.5           640.0
1   2     899         572.5           640.0
2   3     860         572.5           640.0
3   4     199         572.5           640.0
4   5     255         572.5           640.0
5   6     923         572.5           640.0
6   7     829         572.5           640.0
7   8     795         572.5           640.0
8   9     189         572.5           640.0
9  10     291         572.5           640.0
   id  ventas  media_ventas  mediana_ventas  desviacion_ventas
0   1     485         572.5           640.0         316.523915
1   2     899         572.5           640.0         316.523915
2   3     860      

Unnamed: 0,id,ventas,media_ventas,mediana_ventas,desviacion_ventas,ventas_normalizadas,min_ventas,max_ventas,percentil_25,percentil_75,categoria,conteo_categorias,categoria_ventas,iqr,nulos_por_fila
0,1,485,572.5,640.0,316.523915,-0.27644,189,923,264.0,852.25,B,4,Medio,588.25,0
1,2,899,572.5,640.0,316.523915,1.031518,189,923,264.0,852.25,A,4,Alto,588.25,0
2,3,860,572.5,640.0,316.523915,0.908304,189,923,264.0,852.25,B,4,Alto,588.25,0
3,4,199,572.5,640.0,316.523915,-1.180006,189,923,264.0,852.25,C,2,Bajo,588.25,0
4,5,255,572.5,640.0,316.523915,-1.003084,189,923,264.0,852.25,A,4,Bajo,588.25,0
5,6,923,572.5,640.0,316.523915,1.107341,189,923,264.0,852.25,B,4,Alto,588.25,0
6,7,829,572.5,640.0,316.523915,0.810365,189,923,264.0,852.25,A,4,Alto,588.25,0
7,8,795,572.5,640.0,316.523915,0.702948,189,923,264.0,852.25,A,4,Alto,588.25,0
8,9,189,572.5,640.0,316.523915,-1.211599,189,923,264.0,852.25,B,4,Bajo,588.25,0
9,10,291,572.5,640.0,316.523915,-0.889348,189,923,264.0,852.25,C,2,Bajo,588.25,0


| Operación Estadística  | Definición | Uso en IA y Ciencia de Datos | Ejemplo de Código |
|------------------------|------------|------------------------------|-------------------|
| **Media (Promedio)**   | Valor promedio de una columna. | Reemplazar valores faltantes, análisis de rendimiento. | `df["media_ventas"] = df["ventas"].mean()` |
| **Mediana**            | Valor central cuando los datos están ordenados. | Útil cuando hay valores extremos, análisis financiero. | `df["mediana_ventas"] = df["ventas"].median()` |
| **Desviación estándar** | Mide cuánto varían los valores respecto a la media. | Identificar dispersión, riesgo financiero, estabilidad de modelos. | `df["desviacion_ventas"] = df["ventas"].std()` |
| **Normalización (Z-score)** | Convierte los valores a una escala donde la media es 0. | Escalar datos en machine learning, análisis de imágenes. | `df["ventas_normalizadas"] = (df["ventas"] - df["ventas"].mean()) / df["ventas"].std()` |
| **Valor mínimo y máximo** | Encuentra el menor y mayor valor de la columna. | Detección de anomalías, análisis de clientes. | `df["min_ventas"] = df["ventas"].min(); df["max_ventas"] = df["ventas"].max()` |
| **Percentiles**        | Divide los datos en segmentos según su distribución. | Comparar rendimiento, detectar valores extremos. | `df["percentil_25"] = df["ventas"].quantile(0.25)` |
| **Conteo de valores únicos** | Cuenta cuántas veces aparece cada categoría. | Análisis de distribución, segmentación de clientes. | `df["conteo_categorias"] = df.groupby("categoria")["categoria"].transform("count")` |
| **Funciones personalizadas** | Aplica reglas específicas para transformar datos. | Clasificación de clientes, detección de fraude. | `df["categoria_ventas"] = df["ventas"].apply(lambda x: "Alto" if x > 700 else "Bajo")` |
| **Rango intercuartílico (IQR)** | Diferencia entre percentil 75 y 25 para detectar atípicos. | Identificación de valores anómalos en datasets. | `df["iqr"] = df["percentil_75"] - df["percentil_25"]` |
| **Conteo de valores nulos** | Cuenta los valores faltantes en una fila o columna. | Limpieza de datos, análisis de calidad del dataset. | `df["nulos_por_fila"] = df.isnull().sum(axis=1)` |
