## <font color='yellow'>CLASE N 3: Análisis Univariado y Multivariado.

### <font color= 'white'> Analisis Univariado en Mineria de Datos </font>
Es una técnica estadística que se centra en analizar una única variable a la vez. Su funcion principal es describir, resumir y encontrar patrones en los datos de una sola variable.
1. <b>Distribución:</b> La distribución de una variable describe cómo se reparten 
sus diferentes valores.
2. <b>Tendencia central:</b> Las medidas de tendencia central nos ayudan a identificar el "centro" de una distribucion de datos. <pre>Media: Es el promedio. <pre>Mediana: Es el valor medio. <pre>Moda: es el valor que aparece con mayor frecuencia.
3. <b> Dispersión: </b> Nos indica cuanto varian los datos. <pre>Varianza: Es el promedio de las diferencias al cuadrado entre cada valor y la media. </pre><pre>Desvianción estándar: Indica la cantidad promedio que cada valor se desvía de la media.</pre>

El análisis univariado es esencial para comprender las 
características de cada atributo y para tomar decisiones informadas sobre qué 
variables incluir en modelos más complejos, cómo tratar los valores atípicos 
o cómo transformar los datos para mejorar la calidad del análisis.


### <font color = 'yellow'> 1. <b>Correlación:</b> 
Mide la relación lineal entre dos variables. Si el valor es cercano a 1, indica una fuerte correlación positiva. Si es cercano a -1, indica una fuerte correlación negativa. Si es cercano a 0, indica que no hay correlación.
Ejemplo:

In [32]:
import numpy as np

x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 3, 4, 5, 6])
correlation = np.corrcoef(x, y)[0, 1]
print(correlation)

"""Interpretación: Si el resultado es, por ejemplo, 0.99, significa que hay una fuerte correlación positiva entre las variables x e y."""

0.9999999999999999


'Interpretación: Si el resultado es, por ejemplo, 0.99, significa que hay una fuerte correlación positiva entre las variables x e y.'

### <font color = 'yellow'>2. <b>Regresión:</b>
La regresión busca modelar la relación entre una variable dependiente 
y una o más variables independientes. Ejemplo:

In [33]:
!pip install scikit-learn




In [34]:
import numpy as np 
from sklearn.linear_model import LinearRegression 

X = np.array([1,2,3,4,5]).reshape((-1, 1)) 
y = np.array([2,3,4,5,6]) 
model = LinearRegression().fit(X, y) 
y_pred = model.predict(X)
print(y_pred)

'''Interpretación: La salida muestra los valores predichos de y basados en X. Si los valores predichos se acercan a los valores reales de y, el modelo de regresión es bueno.'''

[2. 3. 4. 5. 6.]


'Interpretación: La salida muestra los valores predichos de y basados en X. Si los valores predichos se acercan a los valores reales de y, el modelo de regresión es bueno.'


### <font color = 'yellow'> 3. <b>Análisis de Componentes Principales (PCA):</b> 
PCA reduce la dimensionalidad de los datos, transformando las 
variables originales en un nuevo conjunto de variables, los componentes 
principales.
Ejemplo:

In [36]:
from sklearn.decomposition import PCA 

data = [[1, 2], [3, 4], [5, 6]] 
pca = PCA(n_components=1) 
reduced_data = pca.fit_transform(data) 
print(reduced_data) 

'''Interpretación: La salida muestra los datos transformados en 1 
dimensión. Estos valores son las proyecciones de los datos originales en 
la dirección de máxima varianza.'''

[[-2.82842712]
 [ 0.        ]
 [ 2.82842712]]


'Interpretación: La salida muestra los datos transformados en 1 \ndimensión. Estos valores son las proyecciones de los datos originales en \nla dirección de máxima varianza.'

### <font color = 'yellow'> <b>4. Análisis de Clúster:</b>
El análisis de clúster agrupa objetos basados en la similitud de 
características. Ejemplo:



In [42]:
import os
# Establecer la variable de entorno para evitar la fuga de memoria
os.environ['OMP_NUM_THREADS'] = '1'

from sklearn.cluster import KMeans

# Datos de ejemplo
data = [[1, 2], [3, 4], [5, 6], [7, 8]]

# Crear y ajustar el modelo KMeans
kmeans = KMeans(n_clusters=2, random_state=0).fit(data)

# Obtener las etiquetas de los clústeres
labels = kmeans.labels_

# Imprimir las etiquetas de los clústeres
print(labels)

# Interpretación de la salida
'''
Interpretación: La salida muestra a qué clúster pertenece cada punto de 
datos. Por ejemplo, si la salida es [0, 0, 1, 1], significa que los dos 
primeros puntos pertenecen al clúster 0 y los dos últimos al clúster 1.
'''


[1 1 0 0]




'\nInterpretación: La salida muestra a qué clúster pertenece cada punto de \ndatos. Por ejemplo, si la salida es [0, 0, 1, 1], significa que los dos \nprimeros puntos pertenecen al clúster 0 y los dos últimos al clúster 1.\n'

### <font color='yellow'>5. Análisis Discriminante:</font>
El análisis discriminante busca determinar qué variables discriminan 
entre dos o más grupos previamente definidos. Ejemplo:

In [46]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis 

X = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]] 
y = [1, 1, 2, 2, 2] 
clf = LinearDiscriminantAnalysis().fit(X, y) 
new_data = [[4, 5]] 
prediction = clf.predict(new_data) 
print(prediction) 

'''Interpretación: La salida muestra a qué grupo pertenece el nuevo punto de datos. Si la salida es [1], significa que el punto de datos [4, 5] pertenece al grupo 1.'''

[1]


'Interpretación: La salida muestra a qué grupo pertenece el nuevo punto de datos. Si la salida es [1], significa que el punto de datos [4, 5] pertenece al grupo 1.'

Estas técnicas, cuando se aplican correctamente en la minería de datos, 
pueden revelar patrones y relaciones ocultas en grandes conjuntos de 
datos. Es esencial comprender las bases matemáticas detrás de cada 
técnica para interpretar correctamente sus resultados.

## <font color='orange'>Cierre: Actividad Práctica 
Actividad de Cierre: Implementación de Análisis Univariado
- Objetivo: Aplicar técnicas de análisis univariado para comprender la 
distribución, tendencia central y dispersión de un conjunto de datos.

- Conjunto de Datos: Utilizaremos el conjunto de datos "Iris" de la biblioteca 
sklearn. Este dataset contiene información sobre tres especies de flores iris 
y sus características: longitud y ancho del sépalo, y longitud y ancho del 
pétalo.