# Análisis Exploratorio de Datos (EDA) en Google Colab

Este notebook está diseñado para guiarte a través de un análisis exploratorio de datos completo, desde la comprensión inicial de los datos hasta la extracción de insights y generación de hipótesis. Utilizaremos bibliotecas populares como **Pandas**, **NumPy**, **Matplotlib**, **Seaborn** y **Scikit-learn**.

## **Índice**

1. [Configuración del Entorno](#1)
2. [EDA Level 0 — Comprensión de los Datos Originales](#2)
   - 2.1 [Carga de Datos](#2.1)
   - 2.2 [Inspección Inicial](#2.2)
   - 2.3 [Visualizaciones Básicas](#2.3)
3. [EDA Level 1 — Transformación de los Datos Originales](#3)
   - 3.1 [Limpieza de Datos](#3.1)
   - 3.2 [Manejo de Valores Atípicos (Outliers)](#3.2)
   - 3.3 [Transformaciones y Normalización](#3.3)
   - 3.4 [Ingeniería de Características](#3.4)
4. [EDA Level 2 — Comprensión de los Datos Transformados](#4)
   - 4.1 [Análisis Estadístico Descriptivo](#4.1)
   - 4.2 [Análisis Bivariado y Multivariado](#4.2)
   - 4.3 [Visualizaciones Avanzadas](#4.3)
5. [EDA Level 3 — Selección de Características y Reducción de Dimensionalidad](#5)
   - 5.1 [Selección de Características](#5.1)
   - 5.2 [Análisis de Componentes Principales (PCA)](#5.2)
6. [EDA Level 4 — Insights y Generación de Hipótesis](#6)
   - 6.1 [Identificación de Patrones Clave](#6.1)
   - 6.2 [Generación de Hipótesis](#6.2)
7. [Conclusiones](#7)

<a id="1"></a>
## 1. Configuración del Entorno

Importamos las bibliotecas necesarias y configuramos el entorno para nuestro análisis.

In [None]:
# Importar bibliotecas básicas
import numpy as np
import pandas as pd

# Para visualización
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

# Configuraciones adicionales
plt.style.use('ggplot')
sns.set(style="whitegrid")

<a id="2"></a>
## 2. EDA Level 0 — Comprensión de los Datos Originales

### Objetivos:
- Cargar los datos en bruto.
- Entender el tamaño, tipos de datos, valores nulos y duplicados.
- Visualizaciones básicas de la estructura de los datos.

<a id="2.1"></a>
### 2.1 Carga de Datos

Importamos los datos desde una fuente (por ejemplo, un archivo CSV).

In [None]:
# Cargar datos desde un archivo CSV
df = pd.read_csv('ruta/al/archivo.csv')

# Verificar si los datos se cargaron correctamente
df.head()

<a id="2.2"></a>
### 2.2 Inspección Inicial

Analizamos la estructura básica del dataset.

In [None]:
# Dimensiones del dataset
print("Dimensiones del dataset:", df.shape)

# Información sobre los tipos de datos
df.info()

# Estadísticas descriptivas básicas
df.describe()

- **Valores nulos**

In [None]:
# Comprobar valores nulos
df.isnull().sum()

- **Duplicados**

In [None]:
# Contar duplicados
print("Número de filas duplicadas:", df.duplicated().sum())

<a id="2.3"></a>
### 2.3 Visualizaciones Básicas

- **Distribución de variables numéricas**

In [None]:
# Histograma de una variable numérica
plt.figure(figsize=(10,6))
sns.histplot(df['variable_numerica'], kde=True)
plt.title('Distribución de Variable Numérica')
plt.show()

- **Conteo de variables categóricas**

In [None]:
# Gráfico de barras para una variable categórica
plt.figure(figsize=(10,6))
sns.countplot(x='variable_categorica', data=df)
plt.title('Distribución de Variable Categórica')
plt.show()

<a id="3"></a>
## 3. EDA Level 1 — Transformación de los Datos Originales

### Objetivos:
- Limpieza de datos y manejo de outliers.
- Transformaciones necesarias (escalado, normalización, imputación de valores faltantes).
- Aplicación de ingeniería de características.

<a id="3.1"></a>
### 3.1 Limpieza de Datos

- **Manejo de valores nulos**

In [None]:
# Imputación de valores nulos con la media
df['variable_numerica'].fillna(df['variable_numerica'].mean(), inplace=True)

# Eliminación de filas con valores nulos
df.dropna(subset=['otra_variable'], inplace=True)

- **Eliminación de duplicados**

In [None]:
# Eliminar filas duplicadas
df.drop_duplicates(inplace=True)

<a id="3.2"></a>
### 3.2 Manejo de Valores Atípicos (Outliers)

- **Detección de outliers usando boxplots**

In [None]:
plt.figure(figsize=(10,6))
sns.boxplot(x=df['variable_numerica'])
plt.title('Boxplot de Variable Numérica')
plt.show()

- **Eliminación de outliers**

In [None]:
# Definir límites usando el rango intercuartílico (IQR)
Q1 = df['variable_numerica'].quantile(0.25)
Q3 = df['variable_numerica'].quantile(0.75)
IQR = Q3 - Q1

# Filtrar outliers
df = df[~((df['variable_numerica'] < (Q1 - 1.5 * IQR)) | (df['variable_numerica'] > (Q3 + 1.5 * IQR)))]

<a id="3.3"></a>
### 3.3 Transformaciones y Normalización

- **Escalado**

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df['variable_escalada'] = scaler.fit_transform(df[['variable_numerica']])

- **Normalización**

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df['variable_normalizada'] = scaler.fit_transform(df[['variable_numerica']])

<a id="3.4"></a>
### 3.4 Ingeniería de Características

- **Codificación categórica (One-Hot Encoding)**

In [None]:
df = pd.get_dummies(df, columns=['variable_categorica'])

- **Creación de nuevas características**

In [None]:
# Interacción de variables
df['nueva_variable'] = df['variable1'] * df['variable2']

# Transformación logarítmica
df['variable_log'] = np.log(df['variable_numerica'] + 1)

<a id="4"></a>
## 4. EDA Level 2 — Comprensión de los Datos Transformados

### Objetivos:
- Análisis descriptivo y estadístico post-transformación.
- Correlaciones y análisis multivariante.
- Visualizaciones avanzadas.

<a id="4.1"></a>
### 4.1 Análisis Estadístico Descriptivo

In [None]:
# Estadísticas descriptivas
df.describe()

- **Distribución de variables transformadas**

In [None]:
plt.figure(figsize=(10,6))
sns.histplot(df['variable_normalizada'], kde=True)
plt.title('Distribución de Variable Normalizada')
plt.show()

<a id="4.2"></a>
### 4.2 Análisis Bivariado y Multivariado

- **Matriz de correlación**

In [None]:
plt.figure(figsize=(12,10))
correlacion = df.corr()
sns.heatmap(correlacion, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlación')
plt.show()

- **Gráfico de dispersión**

In [None]:
plt.figure(figsize=(10,6))
sns.scatterplot(x='variable1', y='variable2', data=df)
plt.title('Relación entre Variable1 y Variable2')
plt.show()

<a id="4.3"></a>
### 4.3 Visualizaciones Avanzadas

- **Pairplot de Seaborn**

In [None]:
sns.pairplot(df[['variable1', 'variable2', 'variable3']])
plt.show()

- **Gráficos de distribución conjunta**

In [None]:
sns.jointplot(x='variable1', y='variable2', data=df, kind='hex')
plt.show()

<a id="5"></a>
## 5. EDA Level 3 — Selección de Características y Reducción de Dimensionalidad

### Objetivos:
- Seleccionar características clave.
- Aplicar técnicas de reducción de dimensionalidad como PCA.

<a id="5.1"></a>
### 5.1 Selección de Características

- **Importancia de características usando Random Forest**

In [None]:
from sklearn.ensemble import RandomForestRegressor

# Suponiendo que 'target' es la variable objetivo
X = df.drop('target', axis=1)
y = df['target']

model = RandomForestRegressor()
model.fit(X, y)

importancias = pd.Series(model.feature_importances_, index=X.columns)
importancias.nlargest(10).plot(kind='barh')
plt.title('Importancia de Características')
plt.show()

<a id="5.2"></a>
### 5.2 Análisis de Componentes Principales (PCA)

In [None]:
from sklearn.decomposition import PCA

# Estandarizar los datos
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Aplicar PCA
pca = PCA(n_components=2)
principal_components = pca.fit_transform(X_scaled)

# Crear un dataframe con los componentes principales
df_pca = pd.DataFrame(data=principal_components, columns=['PC1', 'PC2'])

# Visualizar los componentes principales
plt.figure(figsize=(10,6))
sns.scatterplot(x='PC1', y='PC2', data=df_pca)
plt.title('PCA de las Variables')
plt.show()

<a id="6"></a>
## 6. EDA Level 4 — Insights y Generación de Hipótesis

### Objetivos:
- Identificar patrones clave en los datos.
- Generar hipótesis y extraer conclusiones accionables.

<a id="6.1"></a>
### 6.1 Identificación de Patrones Clave

- **Análisis de segmentación**

In [None]:
# Segmentación usando KMeans
from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=3)
kmeans.fit(X_scaled)
df['cluster'] = kmeans.labels_

# Visualizar los clusters
plt.figure(figsize=(10,6))
sns.scatterplot(x='PC1', y='PC2', hue='cluster', data=df_pca.join(df['cluster']))
plt.title('Clusters Identificados')
plt.show()

<a id="6.2"></a>
### 6.2 Generación de Hipótesis

- Basado en los análisis anteriores, podemos formular hipótesis como:
  - **Hipótesis 1:** La variable 'X' tiene una influencia significativa en el target debido a su alta correlación.
  - **Hipótesis 2:** Los clientes en el cluster 0 tienen un mayor valor promedio de compra.

<a id="7"></a>
## 7. Conclusiones

- **Resumen de hallazgos:**
  - Se identificaron variables con alta correlación con la variable objetivo.
  - La aplicación de PCA redujo la dimensionalidad manteniendo la mayoría de la varianza.
  - Se descubrieron clusters significativos que podrían usarse para segmentación de mercado.

- **Próximos pasos:**
  - Validar las hipótesis mediante modelado predictivo.
  - Implementar estrategias basadas en los insights obtenidos.

---

**Nota:** Este análisis sirve como guía general. Dependiendo del dataset específico, se deben ajustar las variables y los métodos utilizados. Siempre es importante comprender el contexto de los datos para interpretar correctamente los resultados.