In [None]:
import pandas as pd
import numpy as np

# Crear un DataFrame con valores aleatorios
df = pd.DataFrame({
    "id": range(1, 11),
    "ventas": np.random.randint(100, 40000, size=10)  # Números aleatorios entre 100 y 1000
})

# MEDIA: Valor promedio de una serie de datos

# Agregar una columna con la media de 'ventas'
df["media_ventas"] = df["ventas"].mean()
print(df)

# CALCULAR LA MEDIANA: Valor central de una serie de datos ordenados de menor a mayor

df["mediana_ventas"] = df["ventas"].median() # .median() devuelve el valor central de la distribución.
print(df)


# CALCULAR LA DESVIACIÓN ESTÁNDAR

df["desviacion_ventas"] = df["ventas"].std() #.std() calcula la dispersión de los datos respecto a la media.
print(df)

# NORMALIZAR VALORES CON MEDIA Y DESVIACIÓN ESTÁNDAR 

df["ventas_normalizadas"] = (df["ventas"] - df["ventas"].mean()) / df["ventas"].std() # Se aplica la fórmula de normalización Z-score: (X - media) / desviación estándar
print(df)

# --> QUE LA MEDIA SEA IGUAL A CERO
# --> QUE LA DESVIACIÓN ESTÁNDAR SEA IGUAL A UNO

# Otras formas de aplicar el Z-Score

from sklearn.preprocessing import StandardScaler

#Datos de ejemplo
df = pd.DataFrame({"valores": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]})

# Crear un objeto StandardScaler (escalador)
scaler = StandardScaler()

#Aplicar esta normalización Z-Score
df["valores_normalizados"] = scaler.fit_transform(df[["valores"]])

print("valores normalizados con StandScaler de scikit:", df)

from scipy.stats import zscore
import pandas as pd

# Datos de ejemplo
df = pd.DataFrame({"valor": [10, 20, 30, 40, 50]})

# Calcular el z-score
df["z_score"] = zscore(df["valor"])

print(df)


# Miniejercicio: Crea una nueva columna, que contenga la media de la columna ventas_normalizadas, y otra columna con la desviación estándar de la columna ventas_normalizadas.

# OBTENER EL MÁXIMO Y MÍNIMO DE UNA SERIE

# Crear un DataFrame con valores aleatorios
df = pd.DataFrame({
    "id": range(1, 11),
    "ventas": np.random.randint(100, 40000, size=10)  # Números aleatorios entre 100 y 1000
})

df["min_ventas"] = df["ventas"].min() # Obtiene el valor más bajo.
df["max_ventas"] = df["ventas"].max() # Obtiene el valor más alto.
print(df)

# CALCULAR PERCENTILES: Obtener el percentil 25 y 75 de la columna "ventas". Los percentiles son valores que dividen un conjunto de datos en 100 partes iguales. Cada percentil representa el valor debajo del cual cae un cierto porcentaje de los datos.

df["percentil_25"] = df["ventas"].quantile(0.25) #.quantile(0.25) devuelve el percentil 25 y .quantile(0.75) el percentil 75.
df["percentil_75"] = df["ventas"].quantile(0.75)
print(df)

# Eliminar outliers con percentiles
datos = np.array([10, 20, 30, 40, 50, 1000])  # El 1000 es un valor atípico
P1, P99 = np.percentile(datos, [1, 99])  # Calculamos el percentil 1 y 99
print(P1, P99)

#Normalizar datos con RobustScaler
from sklearn.preprocessing import RobustScaler
from numpy import array

datos = array([[10], [20], [30], [40], [50], [1000]])  # El 1000 es un valor atípico
scaler = RobustScaler()  # Usa la mediana y percentiles
datos_escalados = scaler.fit_transform(datos)
print(datos_escalados)




# CONTAR LA CANTIDAD DE VALORES ÚNICOS: Crear una columna con el conteo de valores únicos en una columna categórica.

df["categoria"] = np.random.choice(["A", "B", "C"], size=len(df)) #.choice() elige valores aleatorios de una lista.
df["conteo_categorias"] = df.groupby("categoria")["categoria"].transform("count") #.transform("count") cuenta la cantidad de valores únicos en la columna.
print(df)

# OTROS USOS DE TRANSFORM

df["promedio_ventas"] = df.groupby("categoria")["ventas"].transform("mean")
print(df) #Asigna a cada fila el promedio de ventas por categoría

df["ventas_normalizadas"] = df.groupby("categoria")["ventas"].transform(lambda x: (x - x.min()) / (x.max() - x.min()))
print(df) #Normaliza las ventas por categoría



# APLICAR UNA FUNCIÓN A UNA COLUMNA: Crear una columna con valores categorizados según las ventas.

def clasificar_ventas(valor):
    if valor < 400:
        return "Bajo"
    elif valor < 700:
        return "Medio"
    else:
        return "Alto"

df["categoria_ventas"] = df["ventas"].apply(clasificar_ventas) #.apply() aplica una función personalizada a cada valor de la columna.

print(df)

# CALCULAR EL RANGO INTERCUARTÍLICO: Crear una columna con el rango intercuartílico de la columna "ventas". El rango intercuartílico es la diferencia entre el percentil 75 y el 25. Sirve para detectar outliers. Se detectan como outliers los valores que están por debajo del percentil 25 menos 1.5 veces el IQR o por encima del percentil 75 más 1.5 veces el IQR.

df["iqr"] = df["percentil_75"] - df["percentil_25"] #IQR es la diferencia entre el percentil 75 y el 25.
print(df)

# Clasificar los datos en categorías según los percentiles
df = pd.DataFrame({"ingresos": [1000, 2000, 5000, 10000, 50000, 100000]})
df["grupo"] = pd.qcut(df["ingresos"], q=4, labels=["bajo", "medio-bajo", "medio-alto", "alto"]) #.qcut() clasifica los datos en cuartiles y asigna etiquetas a cada rango.
print(df)

# Clasificamos los ingresos en 4 grupos usando percentiles
df["grupo"] = pd.qcut(df["ingresos"], q=4, labels=["bajo", "medio-bajo", "medio-alto", "alto"])

print(df)

pd.cut(df["ingresos"], bins=[0, 10000, 50000, 100000], labels=["bajo", "medio", "alto"])



# CONTAR VALORES NULOS EN CADA COLUMNA

df["nulos_por_fila"] = df.isnull().sum(axis=1) #.isnull().sum(axis=1) cuenta los valores nulos en cada fila.
df




   id  ventas  media_ventas
0   1   10465       14860.8
1   2   28815       14860.8
2   3   30009       14860.8
3   4   28909       14860.8
4   5   28545       14860.8
5   6    4643       14860.8
6   7    6200       14860.8
7   8    1840       14860.8
8   9    3964       14860.8
9  10    5218       14860.8
   id  ventas  media_ventas  mediana_ventas
0   1   10465       14860.8          8332.5
1   2   28815       14860.8          8332.5
2   3   30009       14860.8          8332.5
3   4   28909       14860.8          8332.5
4   5   28545       14860.8          8332.5
5   6    4643       14860.8          8332.5
6   7    6200       14860.8          8332.5
7   8    1840       14860.8          8332.5
8   9    3964       14860.8          8332.5
9  10    5218       14860.8          8332.5
   id  ventas  media_ventas  mediana_ventas  desviacion_ventas
0   1   10465       14860.8          8332.5       12422.193131
1   2   28815       14860.8          8332.5       12422.193131
2   3   30009      

Unnamed: 0,id,ventas,min_ventas,max_ventas,percentil_25,percentil_75,categoria,conteo_categorias,promedio_ventas,ventas_normalizadas,categoria_ventas,iqr,nulos_por_fila
0,1,31228,4499,37205,13296.75,31091.25,C,7,17893.714286,1.0,Alto,17794.5,0
1,2,21745,4499,37205,13296.75,31091.25,C,7,17893.714286,0.645217,Alto,17794.5,0
2,3,13136,4499,37205,13296.75,31091.25,A,2,24147.5,0.0,Alto,17794.5,0
3,4,6544,4499,37205,13296.75,31091.25,C,7,17893.714286,0.076509,Alto,17794.5,0
4,5,35159,4499,37205,13296.75,31091.25,A,2,24147.5,1.0,Alto,17794.5,0
5,6,13779,4499,37205,13296.75,31091.25,C,7,17893.714286,0.347188,Alto,17794.5,0
6,7,4499,4499,37205,13296.75,31091.25,C,7,17893.714286,0.0,Alto,17794.5,0
7,8,37205,4499,37205,13296.75,31091.25,B,1,37205.0,,Alto,17794.5,1
8,9,16780,4499,37205,13296.75,31091.25,C,7,17893.714286,0.459464,Alto,17794.5,0
9,10,30681,4499,37205,13296.75,31091.25,C,7,17893.714286,0.979535,Alto,17794.5,0


| Operación Estadística  | Definición | Uso en IA y Ciencia de Datos | Ejemplo de Código |
|------------------------|------------|------------------------------|-------------------|
| **Media (Promedio)**   | Valor promedio de una columna. | Reemplazar valores faltantes, análisis de rendimiento. | `df["media_ventas"] = df["ventas"].mean()` |
| **Mediana**            | Valor central cuando los datos están ordenados. | Útil cuando hay valores extremos, análisis financiero. | `df["mediana_ventas"] = df["ventas"].median()` |
| **Desviación estándar** | Mide cuánto varían los valores respecto a la media. | Identificar dispersión, riesgo financiero, estabilidad de modelos. | `df["desviacion_ventas"] = df["ventas"].std()` |
| **Normalización (Z-score)** | Convierte los valores a una escala donde la media es 0. | Escalar datos en machine learning, análisis de imágenes. | `df["ventas_normalizadas"] = (df["ventas"] - df["ventas"].mean()) / df["ventas"].std()` |
| **Valor mínimo y máximo** | Encuentra el menor y mayor valor de la columna. | Detección de anomalías, análisis de clientes. | `df["min_ventas"] = df["ventas"].min(); df["max_ventas"] = df["ventas"].max()` |
| **Percentiles**        | Divide los datos en segmentos según su distribución. | Comparar rendimiento, detectar valores extremos. | `df["percentil_25"] = df["ventas"].quantile(0.25)` |
| **Conteo de valores únicos** | Cuenta cuántas veces aparece cada categoría. | Análisis de distribución, segmentación de clientes. | `df["conteo_categorias"] = df.groupby("categoria")["categoria"].transform("count")` |
| **Funciones personalizadas** | Aplica reglas específicas para transformar datos. | Clasificación de clientes, detección de fraude. | `df["categoria_ventas"] = df["ventas"].apply(lambda x: "Alto" if x > 700 else "Bajo")` |
| **Rango intercuartílico (IQR)** | Diferencia entre percentil 75 y 25 para detectar atípicos. | Identificación de valores anómalos en datasets. | `df["iqr"] = df["percentil_75"] - df["percentil_25"]` |
| **Conteo de valores nulos** | Cuenta los valores faltantes en una fila o columna. | Limpieza de datos, análisis de calidad del dataset. | `df["nulos_por_fila"] = df.isnull().sum(axis=1)` |
