**DATA EXPLORATION**

Para comenzar con las **Análisis Eploratorio de los Datos**, comenzaremos por seleccionar nuestra fuente de datos y el Data Set correspondiente.  
**Scikit-learn** viene con algunos conjuntos de datos de aprendizaje automático estándar, lo que significa que no es necesario descargarlos de un sitio web o base de datos externos.

Para nuestro ejemplo utilizaremos el Data Set sobre Vinos.

In [1]:
from sklearn.datasets import load_wine
wine_data = load_wine()
wine_data

{'data': array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,
         1.065e+03],
        [1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
         1.050e+03],
        [1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00,
         1.185e+03],
        ...,
        [1.327e+01, 4.280e+00, 2.260e+00, ..., 5.900e-01, 1.560e+00,
         8.350e+02],
        [1.317e+01, 2.590e+00, 2.370e+00, ..., 6.000e-01, 1.620e+00,
         8.400e+02],
        [1.413e+01, 4.100e+00, 2.740e+00, ..., 6.100e-01, 1.600e+00,
         5.600e+02]]),
 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1

La ejecución del código anterior devuelve un objeto similar a un diccionario que contiene los datos junto con los metadatos sobre los datos que contiene.

Los datos que necesitamos están en la clave `.data` del objeto similar a un diccionario, pero como no es un diccionario real, podemos acceder a ellos como un atributo de la instancia wine_data de la siguiente manera:

In [2]:
wine_data.data

array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,
        1.065e+03],
       [1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
        1.050e+03],
       [1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00,
        1.185e+03],
       ...,
       [1.327e+01, 4.280e+00, 2.260e+00, ..., 5.900e-01, 1.560e+00,
        8.350e+02],
       [1.317e+01, 2.590e+00, 2.370e+00, ..., 6.000e-01, 1.620e+00,
        8.400e+02],
       [1.413e+01, 4.100e+00, 2.740e+00, ..., 6.100e-01, 1.600e+00,
        5.600e+02]])

Esto devuelve una matriz N x M donde N es el número de muestras y M es el número de características (features).

Usemos este conocimiento para cargar nuestros datos en un **DataFrame** de **pandas**, que es mucho más fácil de manipular y analizar.

In [3]:
import pandas as pd
from sklearn.datasets import load_wine

# Convierto los datos a un dataframe de pandas
wine_df = pd.DataFrame(wine_data.data, columns=wine_data.feature_names)

# Agrego el target a mi dataFrame
wine_df["target"] = wine_data.target

Ahora estamos listos para comenzar el Análisis Exploratorio ✅

Lo primero que vamos a hacer es llamar al método `info()` en nuestro DataFrame de pandas; esto imprimirá un resumen conciso de los datos del vino contenidos en el DataFrame.

Los Pandas DataFrames se definen como estructuras de datos bidimensionales etiquetadas que constan de columnas, que pueden contener diferentes pasos de datos. La forma más sencilla de conceptualizar un DataFrame es pensar en él como tres componentes fusionados; esos componentes son
1) datos, 2) un índice y 3) columnas.

In [4]:
wine_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 14 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   alcohol                       178 non-null    float64
 1   malic_acid                    178 non-null    float64
 2   ash                           178 non-null    float64
 3   alcalinity_of_ash             178 non-null    float64
 4   magnesium                     178 non-null    float64
 5   total_phenols                 178 non-null    float64
 6   flavanoids                    178 non-null    float64
 7   nonflavanoid_phenols          178 non-null    float64
 8   proanthocyanins               178 non-null    float64
 9   color_intensity               178 non-null    float64
 10  hue                           178 non-null    float64
 11  od280/od315_of_diluted_wines  178 non-null    float64
 12  proline                       178 non-null    float64
 13  targe

Después de ejecutar esta celda, aprenderá:

*   Los datos contienen 178 muestras de datos.
*   Hay 14 columnas en total, incluida la columna de destino
*   Hay 0 columnas con valores faltantes; puede inferir esto de la columna "Recuento no nulo".
*   Todas las funciones son del tipo de datos float64, mientras que la etiqueta de destino es int64.
*   Los datos utilizan 19,6 KB de memoria.

También podemos llamar al método `describe()` en nuestro DataFrame para obtener estadísticas descriptivas sobre cada característica del conjunto de datos.

In [5]:
wine_df.describe()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258,0.938202
std,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474,0.775035
min,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0,0.0
25%,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5,0.0
50%,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5,1.0
75%,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0,2.0
max,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0,2.0


También desea tener una idea del tipo de valores que se mantienen en cada característica. La forma más rápida de aprender esto es usar el método `head()` para mostrar las primeras cinco filas de datos o el método `tail()` para ver las últimas cinco filas de datos.

In [6]:
# Ejecuto una vista previa de los datos, los primeros 5 registros
wine_df.head(9)

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0
5,14.2,1.76,2.45,15.2,112.0,3.27,3.39,0.34,1.97,6.75,1.05,2.85,1450.0,0
6,14.39,1.87,2.45,14.6,96.0,2.5,2.52,0.3,1.98,5.25,1.02,3.58,1290.0,0
7,14.06,2.15,2.61,17.6,121.0,2.6,2.51,0.31,1.25,5.05,1.06,3.58,1295.0,0
8,14.83,1.64,2.17,14.0,97.0,2.8,2.98,0.29,1.98,5.2,1.08,2.85,1045.0,0


In [7]:
# Ejecuto una vista previa de los últimos registros
wine_df.tail()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.7,0.64,1.74,740.0,2
174,13.4,3.91,2.48,23.0,102.0,1.8,0.75,0.43,1.41,7.3,0.7,1.56,750.0,2
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.2,0.59,1.56,835.0,2
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.3,0.6,1.62,840.0,2
177,14.13,4.1,2.74,24.5,96.0,2.05,0.76,0.56,1.35,9.2,0.61,1.6,560.0,2


In [8]:
# Puedo realizar una rápida visualización de los datos a través del método .sample() indicando como parámetro la cantidad de ejemplos que quiero visualizlar.
wine_df.sample()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
131,12.88,2.99,2.4,20.0,104.0,1.3,1.22,0.24,0.83,5.4,0.74,1.42,530.0,2


Analizamos distintos métodos de analizar los datos.  En este caso:

*   El método `.max()`
*   El método `.query()`


In [9]:
max_alcohol = wine_df['alcohol'].max()


In [None]:
max_alcohol_via_query = wine_df.query('alcohol == alcohol.max()')['alcohol']
max_alcohol_via_query

**LA CALIDAD DE LOS DATOS**

Ahora que hemos recopilado información básica sobre nuestros datos, es una buena idea profundizar un poco más en los desafíos que los datos podrían plantear, por ejemplo:

*   Valores faltantes (*missing values*)
*   Valores atípicos (*outliers*)





**VALORES FALTANTES**

Examinar esto es importante porque cuando faltan algunos de los datos, el conjunto de datos puede perder expresividad, lo que puede conducir a análisis débiles o sesgados. En la práctica, esto significa que cuando faltan valores para ciertas características, las posibilidades de que su clasificación o predicciones de los datos sean incorrectas solo aumentan.

Por supuesto, la causa de la falta de datos en su conjunto de datos puede ser el resultado de una extracción o importación defectuosa de los datos, o puede ser el resultado del proceso de recopilación. Los sistemas que brindan los datos pueden funcionar mal o la encuesta que se envió puede tener algunos espacios en blanco para los encuestados.

Es muy importante considerar también si existe un patrón en los datos faltantes, y aquí es algo en lo que el paso de **elaboración de perfiles** de datos puede resultar útil. Recuerdemos que puedemos utilizar la creación de perfiles de datos para tener una mejor idea de la calidad de sus datos.

Para identificar las filas que contienen valores faltantes, puede utilizar `isnull()` de pandas.  Esta función toma un objeto escalar o similar a una matriz e indica si faltan valores (`NaN` en matrices numéricas, `None` o `NaN` en matrices de objetos, `NaT` en tipo fecha y hora).

In [None]:
pd.isnull('alcohol')

¿qué hacemos con los datos faltantes?

*   **Se pueden eliminar los datos que faltan**: puede eliminar todo el registro o simplemente conservar los registros en los que las características de interés todavía están presentes.
*   **Imputar los datos**: La imputación es el proceso de reemplazar datos faltantes con valores sustituidos. Se puede completar la **media**, la **moda** o la **mediana**.
*   **Calcule el valor** con la ayuda de regresión, ANOVA, regresión logística u otra técnica de modelado. Esta es, con diferencia, la forma más compleja de completar los valores.
*   **Complete las celdas** con valores de **registros** que sean más **similares** al que tiene valores faltantes. Puede utilizar KNN o K-Nearest Neighbors en casos como estos.






In [None]:
#Importamos NumPy
import numpy as np

# Calculo la media de los valores de la columna 'alcohol'
media_alcohol = np.mean(wine_df.alcohol)
media_alcohol

In [None]:
# Reemplazo el Valor Faltante con la media.  'Fillna' = completar datos no disponibles
wine_df.alcohol = wine_df.alcohol.fillna(media_alcohol)

Eliminar etiquetas con valores faltantes
Para excluir columnas o filas que contienen valores faltantes, se puede utilizar la función `dropna()` de Pandas:

In [None]:
# Eliminamos filas con valores faltantes
wine_df.dropna(axis=0)

# Eliminamos columnas con valores faltantes
wine_df.dropna(axis=1)

**Interpolación**
Alternativamente, también se puede optar por interpolar los valores faltantes: la función `interpolate()` realizará una interpolación lineal en los puntos de datos faltantes para "adivinar" el valor que es más probable que se complete.

In [None]:
wine_df.interpolate()

**VALORES ATÍPICOS**

Al igual que los valores faltantes, los datos también pueden contener valores que difieren mucho de la gran mayoría de sus otros datos. Estos puntos de datos se denominan "valores atípicos" u "*outliers*". Para encontrarlos, se puede verificar la distribución de sus variables individuales mediante un diagrama de caja o puede hacer un diagrama de dispersión de sus datos para identificar puntos de datos que no se encuentran en el área "esperada" del diagrama.