# **Exploratory Data Analysis (EDA) for data science and ML**


Imagina que estás viajando por una zona desconocida que no tiene señales de tráfico ni cobertura de GPS. Al acercarte a una bifurcación en el camino, te enfrentas a una decisión: ¿izquierda o derecha? ¿Qué camino tomarás? ¿Qué giro te llevará a tu destino?

Tus posibilidades de éxito dependen únicamente del azar. Optar por girar a la izquierda podría ser correcto, pero hay la misma probabilidad de que sea incorrecto. Lo mismo ocurre al elegir girar a la derecha.

Viajar sin señales de tráfico es como hacer ciencia de datos sin un análisis exploratorio de datos (EDA, por sus siglas en inglés). Sin EDA, un científico de datos podría encontrar un modelo de predicción excelente, pero sería puramente por casualidad: similar a tomar el giro correcto sin ninguna información en absoluto.

A pesar de los riesgos evidentes de embarcarse en un proyecto de ciencia de datos sin EDA, esto es lamentablemente común, especialmente entre los principiantes. Por lo tanto, es crucial que los novatos comprendan las técnicas fundamentales de EDA desde el principio y las apliquen consistentemente en cada proyecto, por pequeño que sea.

Facilita tu viaje en la ciencia de datos colocando señales de tráfico figurativas a través de un EDA efectivo. En este proyecto guiado y práctico, aprenderás cómo realizar un EDA simple y fácil de recordar utilizando Python. También aprenderás cómo aplicar los conocimientos obtenidos mediante EDA para mejorar un modelo de predicción.

<center>
<img src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMSkillsNetwork-GPXX0HE1EN/antonio_33943_A_fork_in_a_road_with_a_left_and_right_turn._A_ro_7a9c2af5-0772-49da-941a-4d2dbf54d10f.png" width="80%" alt="LDA illustration">
</center>
<p style="text-align: center;">Generated using AI with Midjourney</p>

## __Tabla de Contenidos__

<ol>
    <li><a href="#Objectives">Objetivos</a></li>
    <li>
        <a href="#Setup">Configuración</a>
        <ol>
            <li><a href="#Install-required-libraries">Instalar las bibliotecas necesarias</a></li>
            <li><a href="#Import-required-libraries">Importar las bibliotecas necesarias</a></li>
        </ol>
    </li>
    <li>
        <a href="#Regression">Regresión</a>
        <ol>
            <li><a href="#Load-the-diabetes-data-set">Cargar el conjunto de datos de diabetes</a></li>
            <li><a href="#Add-some-missing-values">Añadir algunos valores faltantes</a></li>
            <li>
                <a href="#Initial-data-preprocessing">Preprocesamiento inicial de datos</a>
                <ol>
                    <li><a href="#One-hot-encoding">Codificación one-hot</a></li>
                    <li><a href="#Make-a-train-test-split">Hacer una división de entrenamiento y prueba</a></li>
                </ol>
            </li>
            <li>
                <a href="#Perform-EDA">Realizar EDA</a>
                <ol>
                    <li>
                        <a href="#A-look-at-the-beginning-and-end-of-the-data-set">Una mirada al principio y al final del conjunto de datos</a>
                        <ol>
                            <li><a href="#Exercise-1">Ejercicio 1</a></li>
                        </ol>
                    </li>
                    <li>
                        <a href="#Describe-the-DataFrame">Describir el DataFrame</a>
                        <ol>
                            <li><a href="#Exercise-2">Ejercicio 2</a></li>
                        </ol>
                    </li>
                    <li>
                        <a href="#Missing-values">Valores faltantes</a>
                        <ol>
                            <li><a href="#Exercise-3">Ejercicio 3</a></li>
                            <li><a href="#Exercise-4">Ejercicio 4</a></li>
                        </ol>
                    </li>
                    <li><a href="#Drop-missing-observations">Eliminar observaciones faltantes</a></li>
                    <li><a href="#Fill-in-missing-values-with-the-mean">Rellenar valores faltantes con la media</a></li>
                    <li>
                        <a href="#Fill-in-missing-values-with-the-median">Rellenar valores faltantes con la mediana</a>
                        <ol>
                            <li><a href="#Exercise-5">Ejercicio 5</a></li>
                        </ol>
                    </li>
                    <li>
                        <a href="#Histograms-and-boxplots">Histogramas y diagramas de caja</a>
                        <ol>
                            <li><a href="#Exercise-6">Ejercicio 6</a></li>
                        </ol>
                    </li>
                    <li><a href="#Correlation-matrix">Matriz de correlación</a></li>
                    <li><a href="#Pair-plots">Gráficos de pares</a></li>
                    <li><a href="#A-simple-function-to-perform-EDA">Una función simple para realizar EDA</a></li>
                </ol>
            </li>
        </ol>
    </li>
    <li>
        <a href="#Classification">Clasificación</a>
        <ol>
            <li><a href="#Import-the-iris-data-set">Importar el conjunto de datos de iris</a></li>
            <li>
                <a href="#Perform-EDA-on-the-iris-data-set">Realizar EDA en el conjunto de datos de iris</a>
                <ol>
                    <li><a href="#Exercise-7">Ejercicio 7</a></li>
                    <li><a href="#Exercise-8">Ejercicio 8</a></li>
                </ol>
            </li>
        </ol>
    </li>
</ol>

## Objetivos

Después de completar este laboratorio, serás capaz de:

- Realizar EDA utilizando un conjunto de comandos de Python muy simples y fáciles de memorizar.
- Interpretar gráficos y estadísticas clave de EDA.
- Mejorar un modelo de predicción utilizando la información obtenida a través de EDA.
- Realizar ingeniería de características básica.
- Detectar y manejar valores atípicos.
- Lidiar con datos faltantes.

## Setup


Para este laboratorio, utilizamos las siguientes bibliotecas:

*   [`pandas`](https://pandas.pydata.org/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMML0187ENSkillsNetwork31430127-2021-01-01) para gestionar los datos
*   [`NumPy`](https://numpy.org/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMML0187ENSkillsNetwork31430127-2021-01-01) para operaciones matemáticas
*   [`SciPy`](https://scipy.org/) para operaciones matemáticas adicionales más allá de las proporcionadas por `numpy`
*   [`sklearn`](https://scikit-learn.org/stable/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMML0187ENSkillsNetwork31430127-2021-01-01) para funciones de aprendizaje automático y relacionadas con pipelines de aprendizaje automático
*   [`seaborn`](https://seaborn.pydata.org/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMML0187ENSkillsNetwork31430127-2021-01-01) para visualizar los datos
*   [`Matplotlib`](https://matplotlib.org/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMML0187ENSkillsNetwork31430127-2021-01-01) para herramientas adicionales de gráficos
*   [`MissingNo`](https://github.com/ResidentMario/missingno) para análisis y visualizaciones de datos faltantes
*   [`fasteda`](https://github.com/Matt-OP/fasteda) para EDA rápida y fácil

### Instalar las bibliotecas requeridas

Aunque muchas de las bibliotecas de Python que utilizamos en este proyecto están preinstaladas, algunas no lo están. Ejecuta el siguiente bloque de código para instalar las bibliotecas faltantes. Ten en cuenta que este código tarda aproximadamente 60 segundos en ejecutarse.

In [None]:
%pip install scikit-learn seaborn fasteda


Collecting seaborn
  Using cached seaborn-0.13.2-py3-none-any.whl.metadata (5.4 kB)
Collecting fasteda
  Using cached fasteda-1.0.1-py3-none-any.whl
Collecting matplotlib!=3.6.1,>=3.4 (from seaborn)
  Using cached matplotlib-3.9.1-cp312-cp312-win_amd64.whl.metadata (11 kB)
Collecting missingno (from fasteda)
  Using cached missingno-0.5.2-py3-none-any.whl.metadata (639 bytes)
Using cached seaborn-0.13.2-py3-none-any.whl (294 kB)
Using cached matplotlib-3.9.1-cp312-cp312-win_amd64.whl (8.0 MB)
Using cached missingno-0.5.2-py3-none-any.whl (8.7 kB)
Installing collected packages: matplotlib, seaborn, missingno, fasteda
Successfully installed fasteda-1.0.1 matplotlib-3.9.1 missingno-0.5.2 seaborn-0.13.2


### Importar las bibliotecas requeridas

Ejecuta el siguiente código para importar las bibliotecas requeridas y realizar algunos pasos iniciales para configurar el entorno de Python.

In [7]:
import random
random.seed(2024)

import missingno as msno
import numpy as np
from scipy.stats import shapiro
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.datasets import load_diabetes, load_iris
from sklearn.linear_model import LinearRegression
from sklearn.metrics import root_mean_squared_error

from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer

from fasteda import fast_eda

# You can also use this section to suppress warnings generated by your code:
def warn(*args, **kwargs):
    pass
import warnings
warnings.warn = warn
warnings.filterwarnings('ignore')

sns.set_context('notebook')
sns.set_style('white')

# Regresión

En esta sección, aprenderás cómo realizar el análisis exploratorio de datos (EDA) en un conjunto de datos con el objetivo de construir un modelo predictivo enfocado en la [regresión](https://es.wikipedia.org/wiki/An%C3%A1lisis_de_regresi%C3%B3n). En términos simples, un objetivo de **regresión** implica predecir un valor particular para una variable de resultado numérica, como la puntuación en un examen de un estudiante o el ingreso de un trabajador, basado en varios factores observables, llamados **características**.

En esta sección, trabajarás con un conjunto de datos que tiene como objetivo predecir una estimación numérica de la progresión de la diabetes un año después de una evaluación inicial. En otras palabras, para cada paciente (observación), el objetivo es predecir una puntuación numérica que indique la progresión de la diabetes un año después de haber registrado su presión arterial, índice de masa corporal y nivel de azúcar en la sangre.

## Cargar el conjunto de datos de diabetes

El siguiente código carga el conjunto de datos de diabetes de `sklearn` e imprime una descripción de los datos.

In [9]:
# Cargar los datos de 'sklearn' como dos pandas.DataFrame
diabetes_X, diabetes_y = load_diabetes(return_X_y=True, as_frame=True,scaled=False)

# Concatenar los dos pandas.DataFrames en uno solo
diabetes = pd.concat([diabetes_X, pd.Series(diabetes_y)], axis=1).rename({0: 'target'}, axis=1)

# Cargar el conjunto de datos de `sklearn` usando otro método para imprimir
# la descripción del conjunto de datos

diabetes_default = load_diabetes()

# Imprimir la descripción del conjunto de datos:
print(diabetes_default['DESCR'])

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

:Number of Instances: 442

:Number of Attributes: First 10 columns are numeric predictive values

:Target: Column 11 is a quantitative measure of disease progression one year after baseline

:Attribute Information:
    - age     age in years
    - sex
    - bmi     body mass index
    - bp      average blood pressure
    - s1      tc, total serum cholesterol
    - s2      ldl, low-density lipoproteins
    - s3      hdl, high-density lipoproteins
    - s4      tch, total cholesterol / HDL
    - s5      ltg, possibly log of serum triglycerides level
    - s6      glu, blood sugar level

Note: Each of these 10 feature variables have bee

In [10]:
diabetes.sample(5)

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
166,33.0,2.0,20.8,84.0,125.0,70.2,46.0,3.0,3.7842,66.0,70.0
279,59.0,2.0,24.1,96.0,170.0,98.6,54.0,3.0,4.4659,85.0,200.0
106,22.0,1.0,19.3,82.0,156.0,93.2,52.0,3.0,3.989,71.0,134.0
188,50.0,1.0,26.1,109.0,243.0,160.6,62.0,4.0,4.625,89.0,141.0
164,61.0,1.0,24.6,101.0,209.0,106.8,77.0,3.0,4.8363,88.0,214.0


---

Claramente, tienes 10 características y una columna de objetivo. Como se mencionó anteriormente, el objetivo es una medida cuantitativa de la progresión de la diabetes un año después de establecer un nivel base de diabetes. Tu tarea es predecir esta medida de progresión de la enfermedad en base a las características observadas.

La mayoría de las características son numéricas, excepto `sex`, que es una característica categórica con `1.0` representando ya sea femenina o masculina (no está claro a partir de la descripción de los datos) y `2.0` representando el sexo opuesto. Las variables `s1` a `s6` están definidas como se indica en la descripción de los datos.

# Añadir algunos valores faltantes

El conjunto de datos original no contiene valores faltantes. Para verificar esto, ejecuta el siguiente código, que imprimirá `True` si hay valores faltantes y `False` en caso contrario.

In [12]:
diabetes.isna().max(axis=0).max()

np.False_

Para obtener el mayor beneficio de este ejercicio de EDA, se introducirán algunos valores faltantes. Específicamente, seleccionas 3 columnas de características al azar y las estableces como faltantes para el 10% de las filas seleccionadas al azar.

In [13]:
# Establecer la semilla aleatoria para la reproducibilidad
random.seed(2024)

# Seleccionar 3 columnas al azar
missing_cols= random.sample(range(len(diabetes.columns)-1),3)

# Seleccionar el 10% de las filas al azar
missing_rows = random.sample(diabetes.index.tolist(), int(np.round(len(diabetes.index.tolist())/10)))

# Establecer 3 columnas seleccionadas como valores faltantes par el 10% de las filas seleccionadas
diabetes.iloc[missing_rows, missing_cols] = np.nan

Para saber cuales columnas fueron seleccionadas al azar, correremos el siguiente código

In [14]:
print(sorted(diabetes.columns[missing_cols]))

['bmi', 's1', 's4']


## Preprocesamiento inicial de datos

En este paso, realizas un preprocesamiento inicial de datos necesario para usar los datos en un modelo de predicción.

En un flujo de trabajo típico, el preprocesamiento de datos generalmente se realiza *después* del EDA (análisis exploratorio de datos). Después de todo, ¿cómo se pueden determinar los pasos de preprocesamiento necesarios sin examinar primero los datos a fondo? Sin embargo, en este caso, estás adelantando estos pasos de preprocesamiento iniciales para permitir la construcción de múltiples modelos de predicción basados en los conocimientos obtenidos del EDA, con el objetivo de mejorar el rendimiento predictivo de cada modelo sucesivo. Ten en cuenta que algún nivel de preprocesamiento es esencial para construir cualquier modelo útil. Por lo tanto, llevarás a cabo este preprocesamiento inicial aquí, con la comprensión de que en un flujo de trabajo estándar, estos pasos generalmente ocurrirían *después* del EDA.

### Codificación One-hot

Recuerda que la columna `sex` codifica el género femenino y masculino con `1.0` y `2.0`, donde no está claro en la documentación del conjunto de datos qué código corresponde a qué sexo. Si mantuvieras esta columna codificada tal como está, los modelos de predicción interpretarían esta columna como si tuviera un orden particular, lo cual no es lo que deseas porque los géneros no tienen un orden inherente. Más bien, sería mejor realizar una [codificación one-hot](https://en.wikipedia.org/wiki/One-hot), en la que divides la columna `sex` en dos columnas: una para cada categoría. La transformación de datos que ofrece la codificación one-hot se ilustra mejor con un ejemplo:

In [15]:
# Inicializar el codificador one-hot
enc1 = OneHotEncoder(handle_unknown='ignore', drop=None)

# Codificar one-hot 'sex'; la salida es un array de numpy
encoded_sex = enc1.fit_transform(diabetes[['sex']]).toarray()

# Convertir el array de numpy a un DataFrame de pandas con nombres de columnas basados en las etiquetas originales de las categorías
encoded_sex = pd.DataFrame(encoded_sex, columns=['sex'+ str(int(x)) for x in enc1.categories_[0]])

# Concatenar horizontalmente el conjunto de datos original 'diabetes' con las dos columnas one-hot
diabetes = pd.concat([diabetes, encoded_sex], axis=1)

# muestra 10 filas. Imprime solo las columnas 'sex', 'sex1' y 'sex2' por simplicidad
diabetes[['sex', 'sex1', 'sex2']].sample(10)

Unnamed: 0,sex,sex1,sex2
395,1.0,1.0,0.0
367,2.0,0.0,1.0
337,2.0,0.0,1.0
189,1.0,1.0,0.0
254,2.0,0.0,1.0
300,1.0,1.0,0.0
379,1.0,1.0,0.0
345,2.0,0.0,1.0
44,2.0,0.0,1.0
149,2.0,0.0,1.0


---

La tabla anterior muestra la columna original `sex`, y las dos columnas en las que la columna `sex` se dividió utilizando la codificación one-hot: `sex1` y `sex2`. Ten en cuenta que cuando `sex` toma el valor de `1.0`, la columna `sex1` toma el valor de `1.0` y la columna `sex2` toma el valor de `0.0`. De manera similar, cuando `sex` toma el valor de `2.0`, la columna `sex1` toma el valor de `0.0` y la columna `sex2` toma el valor de `1.0`. Así que la codificación one-hot esencialmente divide una variable categórica en una serie de columnas indicadoras, donde el indicador es igual a `1.0` si la categoría está presente y `0.0` en caso contrario.

Ahora, en lugar de mantener ambas columnas `sex1` y `sex2` en tu nuevo conjunto de datos, solo mantén una columna, por ejemplo, `sex1`, porque después de tener una de estas columnas, la otra columna no agrega información útil al modelo. En otras palabras, cuando `sex1` es igual a `1.0`, entonces `sex2` debe ser igual a `0.0`, y viceversa. Esencialmente, esto equivale a decir que, si supieras que un individuo es femenino, entonces sabes que no es masculino, y viceversa. Por lo tanto, solo necesitarías mantener una de las columnas, ya sea la de femenino o la de masculino, porque la otra columna no te da ninguna información útil después de tener la primera columna. En este caso, mantén la primera columna, `sex1`, y elimina `sex` y `sex2` del conjunto de datos.

In [16]:
# Eliminar 'sex' y 'sex2'
diabetes = diabetes.drop(['sex','sex2'],axis=1)

# Reordenar las columnas para que 'sex1' esté donde solía estar 'sex'
diabetes = diabetes.loc[:, ['age', 'sex1', 'bmi', 'bp', 's1','s2', 's3', 's4', 's5','s6', 'target']]

# imprimir una muestra de 5 filas
diabetes.sample(5)

Unnamed: 0,age,sex1,bmi,bp,s1,s2,s3,s4,s5,s6,target
123,50.0,0.0,29.6,94.33,300.0,242.4,33.0,9.09,4.8122,109.0,84.0
306,51.0,0.0,26.2,101.0,161.0,99.6,48.0,3.0,4.2047,88.0,44.0
301,48.0,0.0,24.1,110.0,209.0,134.6,58.0,4.0,4.4067,100.0,65.0
25,30.0,0.0,25.2,83.0,178.0,118.4,34.0,5.0,4.852,83.0,202.0
348,57.0,1.0,24.5,93.0,186.0,96.6,71.0,3.0,4.5218,91.0,148.0


Ves que la columna original `sex` ahora está codificada con una variable indicadora: donde sea que `sex` fuera igual a `1.0`, `sex1` es `1.0`, y siempre que `sex` fuera igual a `2.0`, `sex1` es igual a `0.0`. Esto ya no implica datos ordenados, sino la presencia de una categoría particular: cuando `sex` era `1.0`, `sex1` es `1.0` (en otras palabras, la categoría `sex == 1` está presente), y cuando `sex` era `2.0`, `sex1` es `0.0` (en otras palabras, la categoría `sex == 1` está ausente).

### Realizar una división en conjunto de entrenamiento y conjunto de prueba

Antes de realizar el análisis exploratorio de datos (EDA), divide el conjunto de datos en un conjunto de entrenamiento y un conjunto de prueba. El conjunto de entrenamiento es el que usas para entrenar tus modelos de predicción, y el conjunto de prueba es el conjunto de datos no visto sobre el que haces predicciones. Evalúas el rendimiento de tus modelos usando su capacidad para predecir el conjunto de prueba no visto. Ejecuta el siguiente código para asignar aleatoriamente el 33% de las filas al conjunto de prueba y el 67% restante al conjunto de entrenamiento.


In [17]:
# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(diabetes.iloc[:, :-1], diabetes.iloc[:,[-1]], test_size = 0.33, random_state=2024)

Los objetos resultantes contienen los siguientes datos:
- `X_train` son las columnas de características en el conjunto de entrenamiento.
- `X_test` son las columnas de características en el conjunto de prueba.
- `y_train` es la columna objetivo para el conjunto de entrenamiento.
- `y_test` es la columna objetivo para el conjunto de prueba.


## Realizar EDA

¡Finalmente, estás listo para realizar EDA en el conjunto de datos `diabetes`!

### Una mirada al principio y al final del conjunto de datos

El EDA típicamente comienza con una revisión del principio (usando `head`) y el final (usando `tail`) del conjunto de datos. Ejecuta el siguiente código para observar el principio del conjunto de datos.