<a href="https://colab.research.google.com/github/EderLara/Fundamentos-Big-Data/blob/main/Identificaci%C3%B3n_de_Patrones%2C_Correlaciones_y_Outliers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Patrones




### `Patrones en Python`

In [None]:
import pandas as pd
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# Datos de ejemplo (comportamiento de compra de clientes)
data = {
    'cliente_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'compras_totales': [10, 5, 20, 15, 30, 8, 25, 12, 18, 35],
    'gasto_total': [100, 50, 200, 150, 300, 80, 250, 120, 180, 350]
}
df = pd.DataFrame(data)

# Agrupamiento K-means
kmeans = KMeans(n_clusters=3)
df['cluster'] = kmeans.fit_predict(df[['compras_totales', 'gasto_total']])

# Visualización
plt.scatter(df['compras_totales'], df['gasto_total'], c=df['cluster'])
plt.xlabel('Compras Totales')
plt.ylabel('Gasto Total')
plt.title('Agrupación de Clientes')
plt.show()
print(df)

### Patrones en SQL



```
   # Agrupar clientes por región y contar el número de clientes en cada grupo
    SELECT region, COUNT(*) AS num_clientes
    FROM clientes
    GROUP BY region;  
```



### Patrones en R



```
  # Datos de ejemplo (comportamiento de compra de clientes)
    data <- data.frame(
        cliente_id = 1:10,
        compras_totales = c(10, 5, 20, 15, 30, 8, 25, 12, 18, 35),
        gasto_total = c(100, 50, 200, 150, 300, 80, 250, 120, 180, 350)
    )

    # Agrupamiento K-means
    kmeans <- kmeans(data[, c("compras_totales", "gasto_total")], centers = 3)
    data$cluster <- kmeans$cluster

    # Visualización
    plot(data$compras_totales, data$gasto_total, col = data$cluster, main = "Agrupación de Clientes", xlab = "Compras Totales", ylab = "Gasto Total")
    print(data)
```



# Correlaciones

### Correlaciones en Python:

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Datos de ejemplo (gasto en publicidad y ventas)
data = {
    'publicidad': [100, 150, 200, 250, 300],
    'ventas': [150, 180, 220, 280, 350]
}
df = pd.DataFrame(data)

# Matriz de correlación
correlation_matrix = df.corr()

# Visualización
sns.heatmap(correlation_matrix, annot=True)
plt.title('Matriz de Correlación')
plt.show()

### Correlaciones en R:


```
    # Datos de ejemplo (gasto en publicidad y ventas)
    data <- data.frame(
        publicidad = c(100, 150, 200, 250, 300),
        ventas = c(150, 180, 220, 280, 350)
    )

    # Calcular la correlación
    correlation <- cor(data$publicidad, data$ventas)
    print(correlation)

    # Visualización
    plot(data$publicidad, data$ventas, main = "Correlación entre Publicidad y Ventas", xlab = "Publicidad", ylab = "Ventas")
```



# Outliers:


### Outliers en python

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Datos de ejemplo (transacciones financieras)
data = {'transaccion': [100, 120, 150, 180, 200, 500]}
df = pd.DataFrame(data)

# Calcular IQR
Q1 = df['transaccion'].quantile(0.25)
Q3 = df['transaccion'].quantile(0.75)
# rango intercuartílico (IQR):
IQR = Q3 - Q1

# Identificar outliers
outliers = df[(df['transaccion'] < Q1 - 1.5 * IQR) | (df['transaccion'] > Q3 + 1.5 * IQR)]

# Visualización
sns.boxplot(x=df['transaccion'])
plt.title('Boxplot de Transacciones')
plt.show()

print(outliers)

### Outliers en R:



```
    # Datos de ejemplo (transacciones financieras)
    data <- data.frame(transaccion = c(100, 120, 150, 180, 200, 500))

    # Calcular IQR
    Q1 <- quantile(data$transaccion, 0.25)
    Q3 <- quantile(data$transaccion, 0.75)
    IQR <- Q3 - Q1

    # Identificar outliers
    outliers <- data[data$transaccion < Q1 - 1.5 * IQR | data$transaccion > Q3 + 1.5 * IQR, ]

    # Visualización
    boxplot(data$transaccion, main = "Boxplot de Transacciones")

    print(outliers)
```

