# **Análisis Exploratorio Inicial (EDA): Preparación de Datos de Automóviles con Pandas**
**Introducción**

Esta notebook documenta los pasos iniciales en el análisis exploratorio de un conjunto de datos sobre automóviles.

**Objetivo del análisis**

Preparar y limpiar los datos de autos para un análisis posterior. Este conjunto de datos incluye una variedad de atributos técnicos y de rendimiento de diferentes vehículos, como:

* Características de seguridad (symboling)

* Tipo de motor y cilindros

* Dimensiones (wheel-base, length, width, height)

* Consumo de combustible (city-mpg, highway-mpg)

* Precio (price)

**La utilidad de este proceso (de datos crudos a estructurados)**

El archivo original está en un formato CSV que, como veremos, presenta desafíos comunes en el mundo real como ausencia de encabezados y valores faltantes codificados de forma atípica (?).

Los pasos de esta notebook demuestran cómo utilizamos las librerías pandas y NumPy para:

1. Extraer el conjunto de datos directamente desde una URL.
2. Estructurar los datos asignando nombres significativos a las columnas.
3. Limpiar el conjunto de datos identificando y reemplazando los valores faltantes (? por NaN).
4. Explorar la calidad de los datos, verificando tipos y estadísticas básicas.

Una vez completado, el DataFrame va a estar listo para realizar análisis más avanzados, como por ejemplo, modelos de regresión para predecir el precio.

**1. Carga de los datos**

El primer paso en cualquier proyecto de análisis de datos es cargar la información. Para esto, utilicé la función [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) de pandas, que es clave para leer archivos CSV y cargarlos en un DataFrame. Un DataFrame es una estructura de datos bidimensional con etiquetas para filas y columnas, muy similar a una hoja de cálculo.


Mi archivo CSV no tenía un encabezado, así que tuve que indicarlo con el parámetro **header=None** para evitar que la primera fila fuera leída como los nombres de las columnas.

In [3]:
import pandas as pd
# Define la ruta a la carpeta donde se encuentran los archivos CSV
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data"
df = pd.read_csv(url, header = None)


**2. Organización del DataFrame**

Para darle un sentido a los datos, lo siguiente que hice fue asignar nombres descriptivos a las columnas. Esto es necesario, ya que los nombres genéricos que asigna pandas por defecto (como 0, 1, 2, etc.) no nos dicen nada. Definí una lista de encabezados y luego la asigné a las columnas del DataFrame.

In [4]:
# Definimos los nombres correctos para las columnas
headers = ["symboling","normalized-losses","make","fuel-type","aspiration","num-of-doors","body-style", "drive-wheels",
           "engine-location","wheel-base", "length","width","height","curb- weight","engine-type","num-of-cylinders",
           "engine-size","fuel- system","bore","stroke","compression-ratio","horsepower", "peak-rpm","city-mpg","highway-mpg","price"]

# Asignamos los nuevos nombres al DataFrame
df.columns = headers

# Mostramos las primeras 5 filas para verificar
df.head(5)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel- system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


**3. Limpieza de datos**

Un paso importante en el análisis de datos es la limpieza. En este conjunto de datos, los valores faltantes estaban representados con un signo de interrogación (?). Los datos faltantes pueden causar errores o sesgos en el análisis, por lo que los reemplacé con el valor **NaN** (Not a Number) de la biblioteca NumPy. Esto se logra fácilmente con el método replace().


In [5]:
import numpy as np

df.replace('?',np.nan, inplace = True)
df.head(5)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel- system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


**4. Resumen y exploración**

Antes de empezar con el análisis avanzado, es buena idea obtener un resumen rápido de los datos. Para esto utilicé los siguientes métodos que son muy útiles de pandas:

El método *.dtypes* en **pandas** recupera los **tipos de datos** de las **columnas** del **DataFrame**.

In [6]:
print(df.dtypes)

symboling              int64
normalized-losses     object
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb- weight           int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel- system          object
bore                  object
stroke                object
compression-ratio    float64
horsepower            object
peak-rpm              object
city-mpg               int64
highway-mpg            int64
price                 object
dtype: object


El método *.describe()* genera un resumen de estadísticas descriptivas, como la media, la desviación estándar, los cuartiles, el valor máximo y mínimo, para las columnas numéricas.

In [7]:
# Devuelve un resumen estadístico de las columnas numéricas
df.describe()

Unnamed: 0,symboling,wheel-base,length,width,height,curb- weight,engine-size,compression-ratio,city-mpg,highway-mpg
count,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0
mean,0.834146,98.756585,174.049268,65.907805,53.724878,2555.565854,126.907317,10.142537,25.219512,30.75122
std,1.245307,6.021776,12.337289,2.145204,2.443522,520.680204,41.642693,3.97204,6.542142,6.886443
min,-2.0,86.6,141.1,60.3,47.8,1488.0,61.0,7.0,13.0,16.0
25%,0.0,94.5,166.3,64.1,52.0,2145.0,97.0,8.6,19.0,25.0
50%,1.0,97.0,173.2,65.5,54.1,2414.0,120.0,9.0,24.0,30.0
75%,2.0,102.4,183.1,66.9,55.5,2935.0,141.0,9.4,30.0,34.0
max,3.0,120.9,208.1,72.3,59.8,4066.0,326.0,23.0,49.0,54.0


Es posible hacer que el método *.describe()* funcione también para columnas de tipos de objetos. Para habilitar un resumen de todas las columnas, podríamos añadir un argumento *(include =”all”)*, todo dentro del corchete de la función *describe* como se muestra a continuación.

In [8]:
df.describe(include = "all")

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel- system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
count,205.0,164.0,205,205,205,203,205,205,205,205.0,...,205.0,205,201.0,201.0,205.0,203.0,203.0,205.0,205.0,201.0
unique,,51.0,22,2,2,2,5,3,2,,...,,8,38.0,36.0,,59.0,23.0,,,186.0
top,,161.0,toyota,gas,std,four,sedan,fwd,front,,...,,mpfi,3.62,3.4,,68.0,5500.0,,,16500.0
freq,,11.0,32,185,168,114,96,120,202,,...,,94,23.0,20.0,,19.0,37.0,,,2.0
mean,0.834146,,,,,,,,,98.756585,...,126.907317,,,,10.142537,,,25.219512,30.75122,
std,1.245307,,,,,,,,,6.021776,...,41.642693,,,,3.97204,,,6.542142,6.886443,
min,-2.0,,,,,,,,,86.6,...,61.0,,,,7.0,,,13.0,16.0,
25%,0.0,,,,,,,,,94.5,...,97.0,,,,8.6,,,19.0,25.0,
50%,1.0,,,,,,,,,97.0,...,120.0,,,,9.0,,,24.0,30.0,
75%,2.0,,,,,,,,,102.4,...,141.0,,,,9.4,,,30.0,34.0,


El método *.info()* muestra un resumen general del DataFrame, incluyendo el número total de filas y columnas, la cantidad de valores no nulos, el tipo de dato de cada columna y la cantidad total de memoria usada por el DataFrame. Es perfecto para detectar rápidamente valores faltantes y verificar los tipos de datos.

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  164 non-null    object 
 2   make               205 non-null    object 
 3   fuel-type          205 non-null    object 
 4   aspiration         205 non-null    object 
 5   num-of-doors       203 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheel-base         205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb- weight       205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    object 
 16  engine-size        205 non

Para **exportar** el dataframe a un nuevo archivo CSV se utiliza **to_csv**

In [None]:
df.to_csv('autos.csv', index=False)