<a href="https://colab.research.google.com/github/IsaacMartindeDiego/IA/blob/master/Exploratory_data_Analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Análisis Exploratorio de Datos**

## **Introducción**

**¿Qué es EDA?**

El Análisis Exploratorio de Datos o (EDA, del inglés "Exploratory Data Analysis") consiste en comprender los conjuntos de datos resumiendo sus características principales, a menudo representándolas visualmente. Este paso es muy importante, especialmente para el siguiente paso, que será modelar los datos para aplicar técnicas de Aprendizaje Máquina. Los gráficos en EDA consisten en histogramas, gráficos de caja, gráficos de dispersión y muchos más. A menudo se necesita mucho tiempo para explorar los datos. Se dice que el *80%* del tiempo del proyecto se gasta en EDA. A través del proceso de EDA, podemos pedir que se defina el enunciado del problema o la definición de nuestro conjunto de datos, lo cual es muy importante.

**¿Cómo se lleva a cabo un EDA?**

La pregunta del millón de dólares. La respuesta es que depende del conjunto de datos con el que se trabaje. No hay un método o métodos comunes para realizar EDA. En este cuaderno presentamos *algunos* métodos comunes que se utilizarían en el proceso de EDA.

**Datos**

Conjunto de datos sobre coches obtenido de la plataforma Kaggle: [DATOS](https://www.kaggle.com/CooperUnion/cardataset). el conjunto de datos contiene más de 10000 filas y más de 10 columnas que contiene las características del coche como el tipo de combustible del motor, motor de HP, Tipo de Transmisión, carretera MPG, ciudad MPG y muchos más. En este CUADERNO, exploraremos los datos y los prepararemos para el modelado.



---



## **Importamos las librerías necesarias para EDA**

A continuación se muestran las librerías que se utilizan para realizar EDA en este cuaderno.

In [29]:
import pandas as pd
import numpy as np
# visualización
import seaborn as sns                       
import matplotlib.pyplot as plt             
%matplotlib inline     
sns.set(color_codes=True)



---



# **Cargamos los datos en un data frame**

Cargar los datos en el data frame para su uso posterior es uno de los pasos más importantes en EDA, ya que podemos ver que el valor del conjunto de datos. Así que todo lo que tenemos que hacer es simplemente leer el CSV en un data frame.

In [None]:
from google.colab import files
uploaded = files.upload()

In [None]:
df = pd.read_csv("car_data.csv")
df.head(5)               

In [None]:
df.tail(5)                        # Mostramos las últimas 5 filas del data frame



---



# **Tipos de variables**

Aquí comprobamos los tipos de variables. En ocasiones hay variables numéricas que se almacenan como una cadena de caracteres (y cosas aún más extrañas!!!). En esos casos, tenemos que convertir esa cadena a los datos enteros para poder obtener medidas numéricas y gráficos resumen.

In [None]:
df.dtypes



---



# **Eliminar variables irrelevantes**

Es muy común que existan muchas variables que nunca usamos durante el análisis. Las columnas correspondientes a esas variables han de ser eliminadas. En el problema que nos ocupa, las columnas como el tipo de combustible del motor, la categoría del mercado, el estilo del vehículo, la popularidad, el número de puertas y el tamaño del vehículo no tienen interés según el experto del dominio al que hemos consultado.

In [None]:
df = df.drop(['Engine Fuel Type', 'Market Category', 'Vehicle Style', 'Popularity', 'Number of Doors', 'Vehicle Size'], axis=1)
df.head(5)



---



# **Renombrar variables**

Una situación muy común durante EDA es encontrar nombres de columnas confusos de leer o sin significado aparente. Es altamente recomendable modificar sus nombres. Este es un buen enfoque que mejora la legibilidad del conjunto de datos.

In [None]:
df = df.rename(columns={"Engine HP": "HP", "Engine Cylinders": "Cylinders", "Transmission Type": "Transmission", "Driven_Wheels": "Drive Mode","highway MPG": "MPG-H", "city mpg": "MPG-C", "MSRP": "Price" })
df.head(5)



---



# **Eliminar filas duplicadas**





Esta tarea depende del conjunto de datos que manejemos. ¿Es posible tener dos filas con, exactamente, los mismos valores? Si la respuesta es no, entonces hemos de eliminar las observaciones repetidas. En este caso se dispone de 11914 observaciones, pero después de eliminar los duplicados se quedan en 10925 datos, lo que significa que tenía 989 datos duplicados.

In [None]:
df.shape

In [None]:
duplicate_rows_df = df[df.duplicated()]
print("Número de filas duplicadas: ", duplicate_rows_df.shape)

Borramos las filas duplicadas.

In [None]:
df.count()      # Used to count the number of rows

In [None]:
df = df.drop_duplicates()
df.head(5)

In [None]:
df.count()



---



# **Tratamiento de valores faltantes**

Este paso es muy similar al anterior, pero aquí se detectan todos los valores perdidos y se eliminan posteriormente. Es decir, vamos a eliminar del análisis aquellas observaciones con valores faltantes en una o varias de las variables. Este no es la única solución. En ocasiones, se reemplazan los valores faltantes con la media o el promedio de esa variable. Hay que hacer notar que, en este caso, hay cerca de 100 valores perdidos en comparación con 10.000 valores, es un número pequeño y poco relevante, por lo que sólo se eliminan esas observaciones.

In [None]:
print(df.isnull().sum())

In [None]:
df = df.dropna()    # Eliminando los valores faltantes
df.count()

Comprobamos que hemos borrado todos los valores falantes. Es decir, las filas que contenían valores Null o N/A en las variables Cylinders and Horsepower (HP)).

In [None]:
print(df.isnull().sum())   # Después de eliminar los valores faltantes



---



## Detección de valores atípicos

Un valor atípico es una observación o conjunto de observaciones que son muy diferentes del resto de las observaciones de un conjunto de datos. Cuando nos centramos en los valores atípicos de una variable numérica, pueden ser mvalores extremadamente altos o extremadamente bajos. Suele ser una buena idea detectar y tratar los valores atípicos. Los valores atípicos son una de las principales razones por las que se obtiene un modelo menos preciso. En ocasiones se transforma la variable original mediante una transformación adecuada para reducir la influencia (negativa) de los valores atípicos en el rendimiento del modelo final. En otras ocasiones, simplemente, las observaciones con valores atípicos se eliminan de la base de datos. A menudo los valores atípicos se pueden ver con visualizaciones utilizando un gráfico de caja. A continuación se muestran los gráficos de caja de las variables *MSRP*, *Cylinders*, *Horsepower* and *EngineSize*. En todos los gráficos, se encuentran algunos puntos fuera de la caja. Esos son los valores atípicos. La técnica de búsqueda y eliminación de valores atípicos que se realiza aquí se base en un tutorial sobre Ciencia de datos:[ towards data science](https://towardsdatascience.com/ways-to-detect-and-remove-the-outliers-404d16608dba).

In [None]:
sns.boxplot(x=df['Price'])

In [None]:
sns.boxplot(x=df['HP'])

In [None]:
sns.boxplot(x=df['Cylinders'])

In [None]:
Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1
print(IQR)

En este caso eliminamos aquellos valores fuera del rango adecuado para cada variable.

In [None]:
df = df[~((df < (Q1 - 1.5 * IQR)) |(df > (Q3 + 1.5 * IQR))).any(axis=1)]
df.shape

As seen above there were around 1600 rows were outliers. But you cannot completely remove the outliers because even after you use the above technique there maybe 1–2 outlier unremoved but that ok because there were more than 100 outliers. Something is better than nothing.



---



## 9. Plot different features against one another (scatter), against frequency (histogram)

### Histogram

Histogram refers to the frequency of occurrence of variables in an interval. In this case, there are mainly 10 different types of car manufacturing companies, but it is often important to know who has the most number of cars. To do this histogram is one of the trivial solutions which lets us know the total number of car manufactured by a different company.

In [None]:
df.Make.value_counts().nlargest(40).plot(kind='bar', figsize=(10,5))
plt.title("Number of cars by make")
plt.ylabel('Number of cars')
plt.xlabel('Make');

### Heat Maps

Heat Maps is a type of plot which is necessary when we need to find the dependent variables. One of the best way to find the relationship between the features can be done using heat maps. In the below heat map we know that the price feature depends mainly on the Engine Size, Horsepower, and Cylinders.

In [None]:
plt.figure(figsize=(10,5))
c= df.corr()
sns.heatmap(c,cmap="BrBG",annot=True)
c

### Scatterplot

We generally use scatter plots to find the correlation between two variables. Here the scatter plots are plotted between Horsepower and Price and we can see the plot below. With the plot given below, we can easily draw a trend line. These features provide a good scattering of points.

In [None]:
fig, ax = plt.subplots(figsize=(10,6))
ax.scatter(df['HP'], df['Price'])
ax.set_xlabel('HP')
ax.set_ylabel('Price')
plt.show()

**Hence the above are some of the steps involved in Exploratory data analysis, these are some general steps that you must follow in order to perform EDA. There are many more yet to come but for now, this is more than enough idea as to how to perform a good EDA given any data sets. Stay tuned for more updates.**

## Thank you.