# Lendo Arquivo

&emsp;&emsp;Vamos começar percorrendo alguns conceitos básicos das biblitecas apresentadas (pandas, numpy, matplotlib).

&emsp;&emsp;Primeiro, vamos importar essas bibliotecas para nossa aplicação.

In [None]:
import pandas as pd
import numpy as np 
from matplotlib import pyplot as plt 

&emsp;&emsp;Com as bibliotecas já importadas, podemos começar a mexer com as funções armazenadas nelas. Como por exemplo, a read_csv() do pandas, que vamos utilizar para abrir o arquivo carros.csv. E o head(), que vamos utilizar para dar uma olhada na estrutura dos dados que estamos lendo. 

In [None]:
data = pd.read_csv('/content/carros.csv')
print(type(data))
print(data.head(5))

## O que é DataFrame ?

&emsp;&emsp;Os DataFrames são objetos bidimensionais, de tamanho variável. O seu formato é de uma tabela, onde os dados são organizados em linhas e colunas, é possível ver no primeiro print da célula acima que a variável 'data' é um DataFrame. Além disso, enquanto podemos pensar a Series como uma única coluna, o DataFrame seria uma união de várias Series sob um mesmo index. A estrutura do DataFrame é apresentada quando executamos o segundo print da célula anterior.

In [None]:
data_np = data.values

print(type(data_np))
print(data_np)

## O que é ndArray ?

&emsp;&emsp;Um array é uma estrutura multidimensional que nos permite armazenar dados na memória do nosso computador, de modo que cada item localizado nessa estrutura pode ser encontrado por meio de um esquema de indexação. O NumPy denomina essa estrutura como ndarray, como forma de abreviação a array N-dimensional.

## Manipulando dados

&emsp;&emsp;Ao utilizar a bilbioteca numpy, ela permite algumas manipulações de dados, o que é muito importante para uma análise mais detalhada, mas mais importante que manipular os dados e entender o que eles significam. Algumas das manipulações possíveis serão exemplificadas a seguir.

&emsp;&emsp;Para mais funções para manipular os dados de seu array, acesse [aqui](https://numpy.org/doc/stable/reference/routines.array-manipulation.html).

In [None]:
ano = data['YEAR'].values
marca = data['Make'].values

print(ano)
print(marca)

# 1 - Definir a quantidade de dados
print(len(ano))

# 2 - Definir o modelo mais novo
print(max(ano))

# 3 - Definir o modelo mais antigo
print(min(ano))

# 4 - Definir a média de idade dos modelos
print(2023 - round(ano.mean()))

# 5 - Definir quantos carros de determinada marca estam em estoque
tesla = np.sum(marca == 'TESLA')
print("Tesla aparece " + str(tesla) + " vezes, o que corresponde a " + str((tesla/len(marca))*100) + "% dos carros")
bmw = np.sum(marca == 'BMW')
print("BMW aparece " + str(bmw) + " vezes, o que corresponde a " + str((bmw/len(marca))*100) + "% dos carros")


## Vizualisando dados

&emsp;&emsp;Com a biblioteca matplotlib é possível plotar gráficos que nos permitem analisar as informações de forma mais visual. Como por exemplo na célula seguinte, onde plotamos um gráfico de dispersão comparando a capacidade de armazenamento. 

In [None]:
potencia = data['(kW)']
consumo_combinado = data['COMB (kWh/100 km)']

# Criar o gráfico de dispersão
plt.scatter(potencia, consumo_combinado)

# Personalizar o gráfico
plt.title('Relação entre Potência e Consumo Combinado')
plt.xlabel('Potência (kW)')
plt.ylabel('Consumo Combinado (kWh/100 km)')

# Exibir o gráfico
plt.show()