# Análisis exploratorio de datos en Python.

## Entendamos cómo explorar los datos en Python.



![alt text](https://moriohcdn.b-cdn.net/ff3cc511fb.png)


Image Credits: Morioh

## Introducción

**¿Qué es el análisis de datos exploratorios?**

El análisis de datos exploratorios o (EDA) consiste en comprender los conjuntos de datos resumiendo sus características principales y, a menudo, representándolos visualmente. Este paso es muy importante especialmente cuando llegamos a modelar los datos para aplicar el aprendizaje automático. El trazado en EDA consta de histogramas, diagramas de caja, diagramas de dispersión y muchos más. A menudo lleva mucho tiempo explorar los datos. A través del proceso de EDA, podemos pedir definir el planteamiento o definición del problema en nuestro conjunto de datos, lo cual es muy importante.

**¿Cómo realizar un análisis de datos exploratorios?**

Esta es una de esas preguntas cuya respuesta todo el mundo está interesado. Bueno, la respuesta es que depende del conjunto de datos con el que estés trabajando. No existe un método único o métodos comunes para realizar EDA, mientras que en este tutorial puede comprender algunos métodos y gráficos comunes que se usarían en el proceso EDA.

**¿Qué datos estamos explorando hoy?**

 El conjunto de datos se puede descargar desde [aquí](https://www.kaggle.com/CooperUnion/cardataset). Para brindar una breve información sobre el conjunto de datos, estos datos contienen más de 10, 000 filas y más de 10 columnas que contienen características del automóvil, como tipo de combustible del motor, HP del motor, tipo de transmisión, MPG en carretera, MPG en ciudad y muchos más. más. Entonces, en este tutorial, exploraremos los datos y los prepararemos para el modelado.



---



## 1. Importación de las bibliotecas necesarias para EDA

A continuación se muestran las bibliotecas que se utilizan para realizar EDA (análisis de datos exploratorios) en este tutorial.

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns                       #visualisation
import matplotlib.pyplot as plt             #visualisation
%matplotlib inline
sns.set(color_codes=True)



---



## 2. Cargando los datos en el marco de datos.

Cargar los datos en el marco de datos de pandas es sin duda uno de los pasos más importantes en EDA, ya que podemos ver que el valor del conjunto de datos está separado por comas. Entonces, todo lo que tenemos que hacer es leer el CSV en un marco de datos y el marco de datos de pandas hará el trabajo por nosotros.

Para obtener o cargar el conjunto de datos en el cuaderno, todo lo que hice fue un paso trivial. En **Google Colab**, en el lado izquierdo del cuaderno, encontrará un > (símbolo mayor que). Al hacer clic en eso encontrarás una pestaña con tres opciones, solo debes seleccionar Archivos. Luego podrá cargar fácilmente su archivo con la ayuda de la opción Cargar. No es necesario montarlo en Google Drive ni utilizar bibliotecas específicas, simplemente cargue el conjunto de datos y su trabajo estará listo. Una cosa para recordar en este paso es que los archivos cargados se eliminarán cuando se recicle este tiempo de ejecución. Así es como introduje el conjunto de datos en el cuaderno.



---



## 3. Comprobando los tipos de datos

Aquí verificamos los tipos de datos porque a veces el MSRP o el precio del automóvil se almacenan como una cadena, si en ese caso tenemos que convertir esa cadena a datos enteros, solo entonces podemos trazar los datos a través de un gráfico. Aquí, en este caso, los datos ya están en formato entero, así que no hay de qué preocuparse.



---



## 4. Eliminando columnas irrelevantes

Este paso ciertamente es necesario en cada EDA porque a veces habrá muchas columnas que nunca usaremos, en tales casos eliminarlas es la única solución. En este caso, las columnas como Tipo de combustible del motor, Categoría de mercado, Estilo de vehículo, Popularidad, Número de puertas y Tamaño del vehículo no tienen ningún sentido para mí, así que las eliminé para este caso.



---



## 5. Cambiar el nombre de las columnas

En este caso, la mayoría de los nombres de las columnas son muy confusos de leer, así que simplemente modifiqué los nombres de las columnas. Este es un buen enfoque, mejora la legibilidad del conjunto de datos.



---



## 6. Eliminando las filas duplicadas

Esto suele ser algo útil porque un conjunto de datos enorme, como en este caso, contiene más de 10.000 filas, a menudo tiene algunos datos duplicados que pueden resultar perturbadores, por lo que aquí elimino todos los valores duplicados del conjunto de datos. Por ejemplo, antes de eliminarlo, tenía 11914 filas de datos, pero después de eliminar los duplicados, 10925 datos, lo que significa que tenía 989 datos duplicados.



---



## 7. Eliminando los valores faltantes o nulos.

Esto es muy similar al paso anterior, pero aquí todos los valores faltantes se detectan y se eliminan más adelante. Ahora bien, este no es un buen enfoque para hacerlo, porque muchas personas simplemente reemplazan los valores faltantes con la media o el promedio de esa columna, pero en este caso, simplemente eliminé esos valores faltantes. Esto se debe a que faltan casi 100 valores en comparación con 10.000 valores. Este es un número pequeño y es insignificante, por lo que simplemente eliminé esos valores.

Esta es la razón por la que en el paso anterior, al contar tanto los cilindros como los caballos de fuerza (HP), se obtuvieron 10856 y 10895 en 10925 filas.

Now we have removed all the rows which contain the Null or N/A values (Cylinders and Horsepower (HP)).



---



## 8. Detectar valores atípicos (outliers)

Un valor atípico es un punto o conjunto de puntos que son diferentes de otros puntos. A veces pueden ser muy altos o muy bajos. A menudo es una buena idea detectar y eliminar los valores atípicos. Porque los valores atípicos son una de las principales razones por las que el resultado es un modelo menos preciso. Por eso es una buena idea eliminarlos. La detección y eliminación de valores atípicos que voy a realizar se llama técnica de puntuación IQR. A menudo, los valores atípicos se pueden ver con visualizaciones que utilizan un diagrama de caja. A continuación se muestra el diagrama de caja de MSRP, cilindros, caballos de fuerza y ​​tamaño del motor. Aquí en todas las tramas, puede encontrar que algunos puntos están fuera del cuadro y no son más que valores atípicos. (https://towardsdatascience.com/ways-to-detect-and-remove-the-outliers-404d16608dba ).



---



## 9. Trazar diferentes características entre sí (dispersión) y frecuencia (histograma)

### Histograma

El histograma se refiere a la frecuencia de aparición de variables en un intervalo. En este caso, existen principalmente 10 tipos diferentes de empresas fabricantes de automóviles, pero a menudo es importante saber quién tiene la mayor cantidad de automóviles. Hacer este histograma es una de las soluciones triviales que nos permite saber el número total de automóviles fabricados por una empresa diferente.

### Mapas de calor

Heat Maps es un tipo de gráfico necesario cuando necesitamos encontrar las variables dependientes. Una de las mejores formas de encontrar la relación entre las características es mediante mapas de calor. En el siguiente mapa de calor sabemos que la característica del precio depende principalmente del tamaño del motor, los caballos de fuerza y ​​los cilindros.

### Gráfico de dispersión

Generalmente utilizamos diagramas de dispersión para encontrar la correlación entre dos variables. Aquí los diagramas de dispersión se trazan entre caballos de fuerza y ​​precio y podemos ver el diagrama a continuación. Con el gráfico que se muestra a continuación, podemos dibujar fácilmente una línea de tendencia. Estas características proporcionan una buena dispersión de puntos.