<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%202/Modulo_2_Formulario.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Guía General de Técnicas de Preparación y Análisis de Datos

Esta guía te ayudará a entender y aplicar las técnicas y comandos esenciales en Python para trabajar con datos. Te insto a tener abierto este formulario mientras trabajas los ejercicios, ya que aquí encontrarás explicado el código que tendrás que utilizar en ellos.

Trataremos los siguientes temas de la teoría, desde un enfoque práctico:

1. **Importación y Exploración Inicial de Datos**
2. **Limpieza de Datos: Duplicados y Valores Faltantes**
3. **Detección y Tratamiento de Outliers**
4. **Integración y Consolidación de Datos (ETL)**
5. **Análisis Exploratorio de Datos (EDA) y Visualización**
6. **Transformación y Feature Engineering**

Cada sección incluye los comandos y técnicas clave necesarios para abordar el respectivo paso. ¡Vamos a verlo!

## 1. Importación y Exploración Inicial de Datos

**Objetivo:** Cargar datos en un DataFrame y explorar su estructura básica.

**Técnicas clave:**
- **Importar Pandas:**
  ```python
  import pandas as pd
  ```
- **Cargar un dataset desde CSV o JSON:**
  ```python
  df = pd.read_csv("ruta/del/archivo.csv")  # O pd.read_json("ruta/del/archivo.json")
  ```
- **Explorar el DataFrame:**
  - `df.head()`: Muestra las primeras filas.
  - `df.info()`: Información general (tipos de datos, cantidad de registros).
  - `df.describe()`: Estadísticas descriptivas de columnas numéricas.


In [None]:
# Ejemplo de código para importar y explorar datos
import pandas as pd

# Cargar datos (reemplaza la ruta por la de tu archivo)
df = pd.read_csv("ruta/del/archivo.csv")

# Mostrar las primeras filas
print(df.head())

# Información general del DataFrame
print(df.info())

# Estadísticas descriptivas
print(df.describe())

## 2. Limpieza de Datos: Duplicados y Valores Faltantes

**Objetivo:** Asegurarse de que los datos sean consistentes y libres de errores.

**Técnicas clave:**
- **Detectar duplicados:**
  ```python
  df.duplicated().sum()
  ```
- **Eliminar duplicados:**
  ```python
  df_clean = df.drop_duplicates()
  ```
- **Detectar valores faltantes:**
  ```python
  df.isnull().sum()
  ```
- **Imputar o eliminar valores faltantes:**
  ```python
  df['columna'] = df['columna'].fillna(df['columna'].median())  # Ejemplo de imputación
  df_clean = df.dropna()  # Ejemplo de eliminación
  ```

In [None]:
# Ejemplo de código para limpieza de datos

# Detectar duplicados
num_duplicates = df.duplicated().sum()
print("Número de duplicados:", num_duplicates)

# Eliminar duplicados
df_clean = df.drop_duplicates()

# Detectar valores nulos
print(df_clean.isnull().sum())

# Imputar valores nulos con la mediana (ejemplo para una columna genérica)
df_clean['columna'] = df_clean['columna'].fillna(df_clean['columna'].median())

## 3. Detección y Tratamiento de Outliers

**Objetivo:** Identificar y tratar valores atípicos que puedan distorsionar el análisis.

**Técnicas clave:**
- **Visualización con Boxplot:**
  ```python
  import seaborn as sns
  sns.boxplot(x=df['columna'])
  ```
- **Método del IQR (Rango Intercuartílico):**
  ```python
  Q1 = df['columna'].quantile(0.25)
  Q3 = df['columna'].quantile(0.75)
  IQR = Q3 - Q1
  df_filtrado = df[(df['columna'] >= Q1 - 1.5 * IQR) & (df['columna'] <= Q3 + 1.5 * IQR)]
  ```

In [None]:
# Ejemplo de código para detectar y tratar outliers
import seaborn as sns
import matplotlib.pyplot as plt

# Visualizar outliers con un boxplot
sns.boxplot(x=df_clean['columna'])
plt.show()

# Aplicar el método del IQR
Q1 = df_clean['columna'].quantile(0.25)
Q3 = df_clean['columna'].quantile(0.75)
IQR = Q3 - Q1
df_filtrado = df_clean[(df_clean['columna'] >= Q1 - 1.5 * IQR) & (df_clean['columna'] <= Q3 + 1.5 * IQR)]

## 4. Integración y Consolidación de Datos (ETL)

**Objetivo:** Unificar datos provenientes de diferentes fuentes utilizando una clave común.

**Técnicas clave:**
- **Fusión de DataFrames con `pd.merge()`:**
  ```python
  df_integrado = pd.merge(df1, df2, on="clave_comun", how="inner")
  ```
  - `on`: Especifica la columna clave en ambos DataFrames.
  - `how`: Define el tipo de unión (inner, left, right, outer).

- **Verificación de la clave:**
  ```python
  if "clave_comun" in df1.columns and "clave_comun" in df2.columns:
      print("La clave existe en ambos DataFrames.")
  ```

In [None]:
# Ejemplo de código para la integración de datos

# Supongamos que tenemos dos DataFrames: df1 y df2
df_integrado = pd.merge(df1, df2, on="clave_comun", how="inner")
print(df_integrado.head())

## 5. Análisis Exploratorio de Datos (EDA) y Visualización

**Objetivo:** Obtener insights mediante el análisis descriptivo y la visualización de los datos.

**Técnicas clave:**
- **Estadísticas Descriptivas:**
  ```python
  df.describe()
  df.groupby("columna").describe()
  ```
- **Visualizaciones:**
  - Histograma:
    ```python
    sns.histplot(df['columna'], kde=True, bins=30)
    ```
  - Boxplot:
    ```python
    sns.boxplot(x=df['columna'])
    ```
  - Scatter Plot:
    ```python
    sns.scatterplot(x="columna1", y="columna2", data=df, hue="columna_categórica")
    ```
  - Pairplot:
    ```python
    sns.pairplot(df, hue="columna_categórica", diag_kind="kde")
    ```
  - Heatmap (Matriz de Correlación):
    ```python
    corr = df.corr()
    sns.heatmap(corr, annot=True, cmap="coolwarm")
    ```

In [None]:
# Ejemplo de código para análisis exploratorio y visualización

print(df.describe())

import seaborn as sns
import matplotlib.pyplot as plt

# Histograma
sns.histplot(df['columna'], kde=True, bins=30)
plt.show()

# Boxplot
sns.boxplot(x=df['columna'])
plt.show()

# Scatter Plot
sns.scatterplot(x="columna1", y="columna2", data=df)
plt.show()

# Pairplot
sns.pairplot(df)
plt.show()

# Heatmap
corr = df.corr()
sns.heatmap(corr, annot=True, cmap="coolwarm")
plt.show()

## 6. Transformación y Feature Engineering

**Objetivo:** Modificar y crear nuevas variables para enriquecer el análisis y mejorar el desempeño en modelos predictivos.

**Técnicas clave:**
- **Escalado de Variables Numéricas:**
  ```python
  from sklearn.preprocessing import StandardScaler
  scaler = StandardScaler()
  df_scaled = pd.DataFrame(scaler.fit_transform(df[numeric_features]), columns=numeric_features)
  ```
- **Codificación de Variables Categóricas:**
  ```python
  df_dummies = pd.get_dummies(df[categorical_features], drop_first=True)
  ```
- **Creación de Nuevas Características:**
  ```python
  df["nueva_feature"] = df["columna1"] + df["columna2"]  # Ejemplo
  ```
- **Integración de Variables:**
  ```python
  df_final = pd.concat([df_scaled, df_dummies, df[["nueva_feature"]]], axis=1)
  ```
- **(Opcional) Reducción de Dimensionalidad con PCA:**
  ```python
  from sklearn.decomposition import PCA
  pca = PCA(n_components=2)
  df_pca = pd.DataFrame(pca.fit_transform(df_final), columns=['PC1', 'PC2'])
  ```

In [None]:
# Ejemplo de código para transformación y feature engineering

from sklearn.preprocessing import StandardScaler

# Supongamos que numeric_features y categorical_features son listas definidas
numeric_features = ['columna1', 'columna2']  # Ejemplo
categorical_features = ['columna_cat']

# Escalado de variables numéricas
scaler = StandardScaler()
df_scaled = pd.DataFrame(scaler.fit_transform(df[numeric_features]), columns=numeric_features)

# Codificación de variables categóricas
df_dummies = pd.get_dummies(df[categorical_features], drop_first=True)

# Creación de una nueva característica
df['nueva_feature'] = df['columna1'] + df['columna2']

# Integrar variables
df_final = pd.concat([df_scaled, df_dummies, df[['nueva_feature']]], axis=1)
print(df_final.head())

# (Opcional) Reducción de dimensionalidad con PCA
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
df_pca = pd.DataFrame(pca.fit_transform(df_final), columns=['PC1', 'PC2'])
print(pca.explained_variance_ratio_)
import matplotlib.pyplot as plt
sns.scatterplot(x='PC1', y='PC2', data=df_pca)
plt.title('Visualización PCA')
plt.show()

## Conclusión

Hemos tratado los conceptos y comandos esenciales para preparar y analizar datos en Python:

1. **Importación y Exploración Inicial:** Cómo cargar datos y obtener una visión general.
2. **Limpieza de Datos:** Cómo identificar duplicados, manejar valores faltantes y asegurar la calidad de los datos.
3. **Detección de Outliers:** Uso de boxplots e IQR para identificar y tratar valores atípicos.
4. **Integración de Datos (ETL):** Técnicas para fusionar DataFrames usando una clave común.
5. **Análisis Exploratorio (EDA) y Visualización:** Cálculo de estadísticas descriptivas y generación de visualizaciones para identificar patrones y relaciones.
6. **Transformación y Feature Engineering:** Escalado, codificación y creación de nuevas variables para enriquecer el análisis y modelado.

Utiliza esta guía como referencia para resolver los ejercicios del Módulo 2 y guárdala para tu propia referencia en proyectos futuros de preparación de datos. ¡Buena suerte!