# Actividad de aprendizaje 6

In [None]:
#   __  __                   _                   _           
#  |  \/  |                 | |                 (_)          
#  | \  / | __ _  __ _  ___ | |_ _ __ ___  _ __  _  ___ ___  
#  | |\/| |/ _` |/ _` |/ _ \| __| '__/ _ \| '_ \| |/ __/ _ \ 
#  | |  | | (_| | (_| | (_) | |_| | | (_) | | | | | (_| (_) |
#  |_|  |_|\__,_|\__, |\___/ \__|_|  \___/|_| |_|_|\___\___/ 
#                 __/ |                                      
#                |___/                                       
# ─────────────────────────────────────────────────────────────────────────────
#                                                                           
# Script Name : Análisis numérico con NumPy
# Author      : Dilan Castañeda                                             
# Created On  : September 03, 2024                                           
# Last Update : September 03, 2024                                         
# Version     : 1.0.0                                          
# Description : Used car company analyzing historical data to optimize buying decisions based on car performance metrics.             
# ─────────────────────────────────────────────────────────────────────────────

## Overview

Una compañía de autos usados está realizando un análisis para ver en qué año se han construido los mejores automóviles para centrar sus compras-ventas en dichos automóviles. Para esta tarea necesita obtener algunos datos de un histórico de información al que ha tenido acceso.

La estructura de la información es la siguiente:

- year: año de construcción

- price: precio en dolares

- transmission: Tipo de transmisión del automóvil

    1. Automático
    2. Manual
    3. Semi-automático

- mileage: millaje

- fuelType: Tipo de combustible

    1. Disel
    2. Eléctrico
    3. Híbrido
    4. Otro
    5. Gasolina

- tax: Impuesto en dólares

- mpg: Millaje por galón

- engineSize: Tamaño motor

El archivo que contiene toda la información se denomina "DatosAutos.cvs" Download "DatosAutos.cvs". Realiza la lectura de la información a través de las funciones básicas de Python y carga la información en una matriz de NumPy.

Al tener la información en memoria deberás obtener la información que necesita la compañía en dos fases. La primera fase requiere que extraigas los siguientes datos:

- El impuesto máximo pagado por un automóvil

- La suma de impuestos pagados por ese lote de automóviles

- La cantidad de autos de cada año

- La promedio de millas de cada tipo de combustible

- El millaje por galón promedio del lote de autos

La segunda fase es una comparativa. Para ello debes crear dos matrices de datos, una para los datos del año 2016 y otra para el año 2018. Cada matriz debe contener la siguiente estructura:

- Las filas representan el tipo de transmisión

- Las columnas representan: precio promedio, suma de los millajes y el máximo impuesto

> [
> 
>     [Precio promedio	Suma de los millajes	Impuesto máximo],
> 
>     [Automático	dato	dato	dato],
> 
>     [Manual	dato	dato	dato],
> 
>     [Semi-automático	dato	dato	dato]
> ]

Recuerda que en NumPy solamente usas los valores numéricos, la representación anterior es para que tengas una idea de cómo quedarán los datos en memoria, en realidad sólo utilizarás las celdas de datos, sin incluir nombres de filas ni de columnas.

Por último, hay que encontrar las diferencias entre los datos del año 2018 y 2016.

## Load data

In [18]:
# Libraries
import numpy as np
from pandas import read_csv
from math import inf

In [16]:
raw_data = read_csv('DatosAutos.csv')
datos_autos = np.array(raw_data) # 0: year, 1: price, 2: transmission, 3: mileage, 4: fuelType, 5: tax, 6: mpg, 7: engineSize

print(datos_autos)

[[2.017e+03 1.200e+04 1.000e+00 ... 1.500e+02 5.770e+01 1.000e+00]
 [2.018e+03 1.400e+04 2.000e+00 ... 1.500e+02 5.770e+01 1.000e+00]
 [2.017e+03 1.300e+04 2.000e+00 ... 1.500e+02 5.770e+01 1.000e+00]
 ...
 [2.015e+03 9.999e+03 2.000e+00 ... 2.000e+01 6.730e+01 1.600e+00]
 [2.018e+03 8.299e+03 2.000e+00 ... 1.450e+02 5.770e+01 1.200e+00]
 [2.015e+03 8.299e+03 2.000e+00 ... 2.200e+01 5.770e+01 1.000e+00]]


## Phase 1

### El impuesto máximo pagado por un automóvil

In [39]:
def max_tax(df):
    max = -inf

    for i in df:
        if i[5] > max:
            max = i[5]

    return max
 
print('Maximum amount of tax:', max_tax(datos_autos))

Maximum amount of tax: 580.0


### La suma de impuestos pagados por ese lote de automóviles

In [40]:
def tot_tax(df):
    total = 0

    for i in df:
        total += i[5]

    return total

print('Total amount of tax:', tot_tax(datos_autos))

Total amount of tax: 2035287.0


### La cantidad de autos de cada año

In [32]:
def autos_per_year(df, year):
    count = 0

    for i in df:
        if i[0] == year:
            count += 1

    return count

def min_year(df):
    min = inf

    for i in df:
        if i[0] < min:
            min = i[0]

    return min

def max_year(df):
    max = -inf

    for i in df:
        if i[0] > max:
            max = i[0]

    return max

# Find the first and last year with a record
first_year = int(min_year(datos_autos))
last_year = int(max_year(datos_autos))
print('First year with a record:', min_year(datos_autos))
print('Last year with a record:', max_year(datos_autos),'\n')

# Create an array of years and an array of the number of cars sold each year
years_array = np.array([i for i in range(first_year, last_year+1)])
print('Years of records:\n', years_array,'\n')

yearly_autos = np.array([autos_per_year(datos_autos, i) for i in range(first_year, last_year+1)])
print('Amount of cars per year:\n',yearly_autos,'\n')


First year with a record: 2002.0
Last year with a record: 2020.0 

Years of records:
 [2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
 2016 2017 2018 2019 2020] 

Amount of cars per year:
 [   3    3    4   16   13   32   57   91   67   94  115  609  805 1368
 2331 4888 4014 3194  258] 



### La promedio de millas de cada tipo de combustible

In [37]:
def avg_mileage_per_fullType(df, fuelType):
    total = 0
    counter = 0

    for i in df:
        if i[4] == fuelType:
            total += i[3]
            counter += 1

    return round(total/counter,2)

print('Average mileage per fuel type:')
print('Diesel:', avg_mileage_per_fullType(datos_autos, 1))
print('Electric:', avg_mileage_per_fullType(datos_autos, 2))
print('Hybrid:', avg_mileage_per_fullType(datos_autos, 3))
print('Other:', avg_mileage_per_fullType(datos_autos, 4))
print('Gas:', avg_mileage_per_fullType(datos_autos, 5))

Average mileage per fuel type:
Diesel: 30663.06
Electric: 16963.5
Hybrid: 22602.0
Other: 19470.0
Gas: 19902.8


### El millaje por galón promedio del lote de autos

In [38]:
def avg_mpg(df):
    total = 0

    for i in df:
        total += i[6]

    return round(total/len(df),2)

print('\nAverage miles per gallon:', avg_mpg(datos_autos))


Average miles per gallon: 57.91


## Phase 2


In [56]:
# Generate array of a year with price_avg, total_mileage, max_tax per transmission type
# Generate one array for 2016 and one for 2018

def year_data(df, year):
    # Define arrays to store the data
    price_avg = [0, 0, 0] # 1: automatic, 2: manual, 3: semi-automatic
    total_mileage = [0, 0, 0]
    max_tax = [-inf, -inf, -inf]

    # Iterate through the data and store the values in the arrays
    for i in df:
        # Check if the year matches the input year
        if i[0] == year:
            # Check the transmission type and store the values in the corresponding array
            if i[2] == 1:
                price_avg[0] += i[1]
                total_mileage[0] += i[3]
                if i[5] > max_tax[0]:
                    max_tax[0] = i[5]
            elif i[2] == 2:
                price_avg[1] += i[1]
                total_mileage[1] += i[3]
                if i[5] > max_tax[1]:
                    max_tax[1] = i[5]
            elif i[2] == 3:
                price_avg[2] += i[1]
                total_mileage[2] += i[3]
                if i[5] > max_tax[2]:
                    max_tax[2] = i[5]
    
    # Calculate the average price per transmission type
    price_avg = [round(price_avg[0]/autos_per_year(df, year),2), round(price_avg[1]/autos_per_year(df, year),2), round(price_avg[2]/autos_per_year(df, year),2)]

    # Create columns with arrays
    res = np.column_stack((price_avg, total_mileage, max_tax))

    return res

# Test the function with the data
year2016 = year_data(datos_autos, 2016)
year2018 = year_data(datos_autos, 2018)

# Print the results
print('\nYear 2016 data:')
print('Average price per transmission type, total mileage, and max tax:')
print(year2016)

print('\nYear 2018 data:')
print('Average price per transmission type, total mileage, and max tax:')
print(year2018)




Year 2016 data:
Average price per transmission type, total mileage, and max tax:
[[1.2402500e+03 5.9432770e+06 5.7000000e+02]
 [8.5522300e+03 5.9611316e+07 5.8000000e+02]
 [8.7319000e+02 4.1076380e+06 5.7000000e+02]]

Year 2018 data:
Average price per transmission type, total mileage, and max tax:
[[9.0409000e+02 3.5842030e+06 1.5000000e+02]
 [1.1512330e+04 5.6462493e+07 1.5000000e+02]
 [7.4147000e+02 3.0043890e+06 1.5000000e+02]]


## Differences

- El precio promedio del 2016 es mayor que en el 2018.
- La suma de los millages en el 2018 es menor que en el 2016.
- Los taxes son considerablemente 3.8 veces mas en el 2016 referente a los del 2018.

En resumen, se observan reducciones en el precio promedio (para algunas categorías), el millaje total y una reducción significativa en el impuesto máximo entre los años 2016 y 2018.