# 1. Exploración

El objeto de este punto es recopilar la información suficiente como para lo siguiente:
  - ¿Qué tipos de datos tengo? (numéricos, categóricos, fechas, texto libre...)
      - ***Numéricos, categóricos y años*** 
  - ¿Cuál es el dominio del dataset? ¿Conozco el contexto de las variables?
      - ***Este dataset se ha extraído de la página Kaggle***
      - *Sí, se presentan los datos de los anuncios, con la marca y modelo del coche y el precio de venta*
  - ¿La fuente de datos es fiable y completa?
      - ***No sé si es fiable, ya que se ha extraído de Kaggle, pero está bastante completa para el ejercicio a realizar***
  - ¿Los datos están agregados o son individuales (nivel de granularidad)?
      - ***Son individuales. Fila por usuario/anuncio***
  - ¿Hay valores perdidos? ¿Cuál es su proporción? 
      - ***Hay 2 valores nulos en "Engine" y "Power", el resto están completos*. *(Ver en apartado 1.3)***
  - ¿Existen duplicados o registros anómalos?
      - ***No***
  - ¿Las variables tienen una distribución razonable? ¿Existen outliers?
      - ***A simple vista sí (kilómetros conducidos y asientos). Pero se podrá visualizar mejor en el apartado 1.3***
  - ¿Los formatos (fechas, categorías) están normalizados?
      - ***Sí, pero en la columna "Name" se puede separar la marca del modelo, incluso segmentar en grandes, medianos y pequeños para facilitar la comprensión***
  - ¿Existen incoherencias entre columnas?
      - ***No a simple vista***

In [3]:
import pandas as pd

In [4]:
# Lectura del dataset
df_cars = pd.read_csv("../data/carlistings.csv")

## 1.1 Identificación de la dimensión

La tabla tiene 296 filas y 13 columnas. Razonable para este "Mini" proyecto

In [5]:
df_cars.shape

(296, 13)

## 1.2 Visualización del DataFrame

Visualizamos parte de la tabla y nos planteamos si es posible realizar un análisis:
- ¿Variables como el año, kilometraje, marca o tipo de combustible influyen en el precio?
- ¿Cuáles son las marcas más anunciadas?

In [6]:
df_cars

Unnamed: 0,ListingID,Name,Location,Year,Kilometers_Driven,Fuel_Type,Transmission,Owner_Type,Mileage,Engine,Power,Seats,Price
0,1,Hyundai Creta 1.6 CRDi SX Option,Karachi,2015,41000,Diesel,Manual,First,19.67 kmpl,1582 CC,126.2 bhp,5,16666
1,2,Honda Jazz V,Islamabad,2011,46000,Petrol,Manual,First,13 km/kg,1199 CC,88.7 bhp,5,6000
2,3,Subaru Forester,Islamabad,2012,87000,Diesel,Manual,First,20.77 kmpl,1248 CC,88.76 bhp,7,8000
3,4,Audi A4 New 2.0 TDI Multitronic,Lahore,2013,40670,Diesel,Automatic,Second,15.2 kmpl,1968 CC,140.8 bhp,5,23653
4,6,Nissan Micra Diesel XV,Rawalpindi,2013,86999,Diesel,Manual,First,23.08 kmpl,1461 CC,63.1 bhp,5,4666
...,...,...,...,...,...,...,...,...,...,...,...,...,...
291,302,Honda Civic,Abbottabad,2011,70000,Petrol,Manual,First,20.92 kmpl,998 CC,67.1 bhp,5,2800
292,303,Honda City i-VTEC CVT ZX,Quetta,2017,15000,Petrol,Automatic,First,18.0 kmpl,1497 CC,117.3 bhp,5,16920
293,304,Honda Civic,Lahore,2013,59138,Diesel,Manual,First,17.0 kmpl,1405 CC,70 bhp,5,3440
294,305,Audi A6 2011-2015 2.0 TDI Premium Plus,Multan,2014,61726,Diesel,Automatic,First,17.68 kmpl,1968 CC,174.33 bhp,5,27693


## 1.3 Revisión de los tipos de datos

Tras la obtención de un dataset útil, aplicaremos distintas funciones que nos ayudarán a comprender mejor los tipos de datos con los que estamos trabajando y permite dar una idea preliminar de los datos a tratar:
- Revisión de los nombres de las columnas. Ver si son razonables o deberemos procesarlos para mayor coherencia y facilidad durante el código
- Tipo de datos (int, float, str, boolean)
- Cantidad de nulos
- Cantidad de duplicados
- Revisión de la distribución de los datos que permite observar datos incoherentes

In [7]:
df_cars.columns 

    # Las columnas son razonables a simple vista, sin símbolos, espacios u otros caracteres especiales

Index(['ListingID', 'Name', 'Location', 'Year', 'Kilometers_Driven',
       'Fuel_Type', 'Transmission', 'Owner_Type', 'Mileage', 'Engine', 'Power',
       'Seats', 'Price'],
      dtype='object')

In [8]:
df_cars.info() 

    # Revisamos tipos de datos (strings, floats, ints, etc)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 296 entries, 0 to 295
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   ListingID          296 non-null    int64 
 1   Name               296 non-null    object
 2   Location           296 non-null    object
 3   Year               296 non-null    int64 
 4   Kilometers_Driven  296 non-null    int64 
 5   Fuel_Type          296 non-null    object
 6   Transmission       296 non-null    object
 7   Owner_Type         296 non-null    object
 8   Mileage            296 non-null    object
 9   Engine             294 non-null    object
 10  Power              294 non-null    object
 11  Seats              296 non-null    int64 
 12  Price              296 non-null    int64 
dtypes: int64(5), object(8)
memory usage: 30.2+ KB


In [9]:
df_cars.duplicated().sum() 

    # Vemos que no hay duplicados. Por lo tanto, no tendremos que eliminar ninguna fila por duplicados

np.int64(0)

In [10]:
df_cars.describe() 

    # Para conocer la distribución de los datos. 
    # Se observa que el valor 0 en "Seats" no es coherente --> como mínimo, 2 (porque tampoco son uniplazas)

Unnamed: 0,ListingID,Year,Kilometers_Driven,Seats,Price
count,296.0,296.0,296.0,296.0,296.0
mean,154.047297,2013.540541,57791.131757,5.206081,13137.266892
std,88.726457,2.97191,35160.124277,0.93958,14238.860963
min,1.0,2002.0,1000.0,0.0,733.0
25%,76.5,2012.0,34153.0,5.0,4666.0
50%,155.5,2014.0,53000.0,5.0,7939.5
75%,230.25,2016.0,70000.5,5.0,14859.75
max,306.0,2019.0,262000.0,8.0,93813.0
