# Pandas
Pandas é uma biblioteca Python de código aberto para análise de dados, que oferece alto desempenho, estruturas de dados de fácil utilização e ferramentas de análise de dados. Para usar a biblioteca, basta utilizar o seguinte comando de importação abaixo:

```python
import numpy as np
import pandas as pd
```

## Obtendo os Dados

| Formato | Descrição                        |  Função de Leitura | Função de Escrita |
|:--------|:---------------------------------|:-------------------|:------------------|
| Texto   | CSV                              | read_csv( )        | to_csv( )         |
| Texto   | JSON                             | read_json( )       | to_json( )        |
| Texto   | HTML                             | read_html( )       | to_html( )        | 
| Texto   | Área de Transferência de Memória | read_clipboard( )  | to_clipboard( )   |
| Binário | MS Excel                         | read_excel( )      | to_excel( )       |
| Binário | HDF5 Format                      | read_hdf( )        | to_hdf( )         |
| Binário | Feather Format                   | read_feather( )    | to_feather( )     |
| Binário | Parquet Format                   | read_parquet( )    | to_parquet( )     |
| Binário | Msgpack                          | read_msgpack( )    | to_msgpack( )     |
| Binário | Stata                            | read_stata( )      | to_stata( )       |
| Binário | SAS                              | read_sas( )        | -                 | 
| Binário | Python Pickle Format             | read_pickle( )     | to_pickle( )      |
| SQL     | SQL                              | read_sql( )        | to_sql( )         |
| SQL     | Google Big Query                 | read_gbq( )        | to_gbq( )         |

### Exemplos

```python
# Exemplo 1: Leitura e Escrita para CSV

# Lê 5 linhas de um arquivo CSV sem cabeçalho.
pd.read_csv("arquivo.csv", header=None, nrows=5) 

# Exporta os dados de uma estrutura de dados 
# Data Frame do Pandas para um arquivo csv.
dados_data_frame.to_csv("dados_data_frame.csv")


# Exemplo 2: Leitura e Escrita para EXCEL
pd.read_excel("planilha.xlsx")

dados_data_frame.to_excel("dados_data_frame.xlsx", sheet_name="Planilha 1")

# Carrega múltiplas planilhas do mesmo arquivo
planilha = pd.ExcelFile("arquivo.xls")
dados_data_frame = pd.read_excel(xlsx, "Planilha 1")
```


## Estruturas de Dados

### Series
Vetor unidimensional rotulado capaz de armazenar qualquer tipo de dado

In [None]:
import numpy as np
import pandas as pd

s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s

### Data Frame
Matriz rotulada contendo colunas com diferentes tipos de dados

In [None]:
data = {
    'Country': ['Belgium',  'India',  'Brazil'],
    'Capital': ['Brussels',  'New Delhi',  'Brasilia'],
    'Population': [11190846, 1303171035, 207847528]
}

df = pd.DataFrame(data, columns=['Country',  'Capital',  'Population'])

df

### Indexação / Seleção

| Operação                                    | Sintaxe            | Resultado |
|:--------------------------------------------|:-------------------|:----------|
| Seleciona Coluna                            | df[col]            | Series    |
| Seleciona Linha por nome do rótulo          | df.loc[rotulo]     | Series    |
| Seleciona linhas por posição (inteiro)      | df.iloc[posicao]   | Series    |
| Divide Linhas                               | df[5:10]           | DataFrame |
| Seleciona linhas por vetor booleano         | df[vetor_booleano] | DataFrame |


In [None]:
import numpy as np
import pandas as pd

data = {
    'Country': ['Belgium',  'India',  'Brazil'],
    'Capital': ['Brussels',  'New Delhi',  'Brasilia'],
    'Population': [11190846, 1303171035, 207847528]
}

df = pd.DataFrame(data, columns=['Country',  'Capital',  'Population'])

# Seleção por posição
df.iloc[[0],[0]]

# Seleção por rótulo
df.loc[[0], ['Country']]

# Rótulo/Posição
df.loc[2]
df.loc[:, 'Capital']
df.loc[2, 'Capital']

### Missing Data (Dados Ausentes)

O pandas utiliza o valor np.nan para representar todos os dados auentes que possam aparecer no conjunto de dados. Para detectar dados ausentes facilmente, o Pandas fornece as funções: isna() e notna(), que são também métodos dos objetos do tipo Series e DataFrame.

In [None]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randn(5, 3), index=['A', 'C', 'E', 'F', 'H'], 
                  columns=['one', 'two', 'three'])

df['four'] = 'bar' # Cria uma nova coluna (four) e adiciona valores constantes (bar)
df['five'] = df['one'] > 0 # Cria uma nova coluna (five) e adiciona true se a coluna 1 for maior que zero
df

# Reindexa o data frame para simularmos os missing datas
# Ele adicionou as linhas ausentes: B, D e G; e preencheu
# com dados auentes (NaN)
df2 = df.reindex(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'])

# Avalia o data frame e coloca True no local dos dados ausentes
df2
pd.isna(df2)
df2.isna()

# É possível fazer o teste especificando colunas
df2['one']
pd.isna(df2['one']) 
df2['four'].notna()

### Ordenação e Ranking

| Função                          | Descrição                        | 
|:--------------------------------|:---------------------------------|
| df.sort_index()                 | Ordena por índices               |
| df.sort_values(by='NomeColuna') | Ordena por valores               |
| df.rank()                       | Gera um ranking para as entradas |


### Informações Básicas

| Função         | Descrição                                | 
|:---------------|:-----------------------------------------|
| df.shape()     | Retorna (linhas, colunas)                |
| df.index()     | Descreve os índices                      |
| df.columns()   | Descreve as colunas do Data Frame        |
| df.info()      | Informações do Data Frame                |
| df.count()     | Retorna a contagem dos valores não nulos |


### Sumário Quantitativo

| Função         | Descrição                      | 
|:---------------|:-------------------------------|
| df.sum()       | Soma dos valores               |
| df.cumsum()    | Soma cumulativa dos valores    |
| df.min()       | Obtém o valor mínimo           |
| df.max()       | Obtém o valor máximo           |
| df.idxmin()    | Obtém o valor mínimo do índice |
| df.idxmax()    | Obtém o valor máximo do índice |
| df.describe()  | Gera estatísticas descritivas que resumem a tendência central, a dispersão e a forma da distribuição de um conjunto de dados, excluindo os valores NaN. |
| df.mean()      | Calcula a Média                |
| df.median()    | Calcula a Mediana              |



## Aprendendo Pandas na Prática

Considerando o famoso conjunto de dados: [**Dados de 93 carros à venda nos EUA em 1993**](https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/Cars93.html) disponível na pasta [`data/carros_93.csv`](data/carros_93.csv), faremos algumas tarefas rotineiras de um cientista de dados utilizando a biblioteca Pandas.

### Dicionário de Dados

| Nº | Coluna                      | Descrição                                                 |
|:--:|:----------------------------|:----------------------------------------------------------|
|  1 | fabricante                  | Fabricante do carro.                                      |
|  2 | modelo                      | Modelo do carro.                                          |
|  3 | tipo                        | Pequeno, Esportivo, Compacto, Médio, Grande ou Van.       |
|  4 | preco_min                   | Preço mínimo em dólares para uma versão básica.           |
|  5 | preco                       | Preço médio em dólares para uma versão básica.            |
|  6 | preco_max                   | Preço máximo em dólares para uma versão básica.           |
|  7 | mpg_cidade                  | Consumo em Milhas por Galão (MPG) na cidade.              |
|  8 | mpg_rodovia                 | Consumo em Milhas por Galão (MPG) na estrada.             |
|  9 | airbags                     | Nenhum, Somente Motorista ou Motorista e Passageiro.      |
| 10 | tracao                      | Traseira, Dianteira ou 4x4                                |
| 11 | cilindros                   | Número de cilindros                                       |
| 12 | tamanho_motor               | Tamanho do motor em litros                                |
| 13 | horsepower                  | Cavalos-força (máximo).                                   |
| 14 | rpm                         | RPM (rotações por minuto na potência máxima).             |
| 15 | revolucoes_milha            | Rotações do motor por milha (na marcha mais alta).        |
| 16 | transmissao_manual          | Possui transmissão manual?                                |
| 17 | capacidade_tanque           | Capacidade do tanque de combustível em galões americanos. |
| 18 | passageiros                 | Capacidade de passageiros (pessoas)                       |
| 19 | comprimento_in              | Comprimento (polegadas).                                  |
| 20 | distancia_eixo              | Distância entre eixos (polegadas).                        |
| 21 | largura_in                  | Largura (polegadas).                                      |
| 22 | espaco_inversao_marcha_ft   | Espaço em inversão de marcha (pés).                       |
| 23 | tamanho_assento_traseiro_in | Tamanho do banco traseiro (polegadas).                    |
| 24 | porta_mala_ft3              | Capacidade de bagagem (pés cúbicos)                       |
| 25 | peso_lb                     | Peso (libras).                                            |
| 26 | origem                      | Origem de empresas americanas ou fora dos EUA.            |
| 27 | fabricante_modelo           | Combinação de fabricante e modelo.                        |

Os carros foram selecionados aleatoriamente entre os modelos de automóveis de passageiros de 1993 listados na edição do Consumer Reports e no PACE Buying Guide. As caminhonetes e os veículos esportivos/utilitários foram eliminados devido a informações incompletas na fonte do Consumer Reports. Os modelos duplicados (por exemplo, Dodge Shadow e Plymouth Sundance) foram listados no máximo uma vez. Uma descrição mais detalhada pode ser encontrada em Lock (1993).

#### Referências

- Lock, R. H. (1993) 1993 New Car Data. Journal of Statistics Education 1(1). https://doi.org/10.1080/10691898.1993.11910459
- Venables, W. N. and Ripley, B. D. (1999) Modern Applied Statistics with S-PLUS. Third Edition. Springer.


1. Importe o pacote Pandas com o nome pd.

In [1]:
import numpy as np
import pandas as pd

2. Carregue em memória o conjunto de dados disponível na pasta [`data/carros_93.csv`](data/carros_93.csv) para uma variável chamada **df**.

In [100]:
df = pd.read_csv('data/carros93.csv')
df

Unnamed: 0,fabricante,modelo,tipo,preco_min,preco,preco_max,mpg_cidade,mpg_rodovia,airbags,trem_forca,...,passageiros,comprimento_in,distancia_eixo,largura_in,espaco_inversao_marcha_ft,tamanho_assento_traseiro_in,porta_mala_ft3,peso_lb,origem,fabricante_modelo
0,Acura,Integra,Pequeno,12.9,15.9,18.8,25.0,31.0,Nenhum,Dianteiro,...,5.0,177.0,102.0,68.0,37.0,26.5,,2705.0,Fora dos EUA,Acura Integra
1,,Legend,Médio,29.2,33.9,38.7,18.0,25.0,Motorista e Passageiro,Dianteiro,...,5.0,195.0,115.0,71.0,38.0,30.0,15.0,3560.0,Fora dos EUA,Acura Legend
2,Audi,90,Compacto,25.9,29.1,32.3,20.0,26.0,Somente Motorista,Dianteiro,...,5.0,180.0,102.0,67.0,37.0,28.0,14.0,3375.0,Fora dos EUA,Audi 90
3,Audi,100,Médio,,37.7,44.6,19.0,26.0,Motorista e Passageiro,,...,6.0,193.0,106.0,,37.0,31.0,17.0,3405.0,Fora dos EUA,Audi 100
4,BMW,535i,Médio,,30.0,,22.0,30.0,,Traseiro,...,4.0,186.0,109.0,69.0,39.0,27.0,13.0,3640.0,Fora dos EUA,BMW 535i
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
88,Volkswagen,Eurovan,Van,16.6,19.7,22.7,17.0,21.0,Nenhum,Dianteiro,...,7.0,187.0,115.0,72.0,38.0,34.0,,3960.0,,Volkswagen Eurovan
89,Volkswagen,Passat,Compacto,17.6,20.0,22.4,21.0,30.0,Nenhum,Dianteiro,...,5.0,180.0,103.0,67.0,35.0,31.5,14.0,2985.0,Fora dos EUA,Volkswagen Passat
90,Volkswagen,Corrado,Esportivo,22.9,23.3,23.7,18.0,25.0,Nenhum,Dianteiro,...,4.0,159.0,97.0,66.0,36.0,26.0,15.0,2810.0,Fora dos EUA,Volkswagen Corrado
91,Volvo,240,Compacto,21.8,22.7,23.5,21.0,28.0,Somente Motorista,Traseiro,...,5.0,190.0,104.0,67.0,37.0,29.5,14.0,2985.0,Fora dos EUA,Volvo 240


3. Qual é o número de linhas e colunas?

In [19]:
print(f'Número de linhas: {df.shape[0]}')
print(f'Número de colunas: {df.shape[1]}')

Número de linhas: 93
Número de colunas: 27


4. Quais são os tipos de dados de cada uma das colunas?

In [28]:
df.dtypes

fabricante                      object
modelo                          object
tipo                            object
preco_min                      float64
preco                          float64
preco_max                      float64
mpg_cidade                     float64
mpg_rodovia                    float64
airbags                         object
trem_forca                      object
cilindros                      float64
tamanho_motor                  float64
horsepower                     float64
rpm                            float64
revolucoes_milha               float64
transmissao_manual              object
capacidade_tanque              float64
passageiros                    float64
comprimento_in                 float64
distancia_eixo                 float64
largura_in                     float64
espaco_inversao_marcha_ft      float64
tamanho_assento_traseiro_in    float64
porta_mala_ft3                 float64
peso_lb                        float64
origem                   

5. Mostre a quantidade de colunas para cada um dos tipos de dados.

In [38]:
df.dtypes.value_counts()

float64    19
object      8
dtype: int64

6. Exiba um sumário estatístico do conjunto de dados.

In [54]:
df.describe()

Unnamed: 0,preco_min,preco,preco_max,mpg_cidade,mpg_rodovia,cilindros,tamanho_motor,horsepower,rpm,revolucoes_milha,capacidade_tanque,passageiros,comprimento_in,distancia_eixo,largura_in,espaco_inversao_marcha_ft,tamanho_assento_traseiro_in,porta_mala_ft3,peso_lb
count,86.0,91.0,88.0,84.0,91.0,87.0,91.0,86.0,90.0,87.0,85.0,91.0,89.0,92.0,87.0,88.0,89.0,74.0,86.0
mean,17.118605,19.616484,21.459091,22.404762,29.065934,5.0,2.658242,144.0,5276.666667,2355.0,16.683529,5.076923,182.865169,103.956522,69.448276,38.954545,27.853933,13.986486,3104.593023
std,8.82829,9.72428,10.696563,5.84152,5.370293,1.320676,1.045845,53.455204,605.554811,486.916616,3.375748,1.045953,14.792651,6.856317,3.778023,3.304157,3.018129,3.120824,600.129993
min,6.7,7.4,7.9,15.0,20.0,3.0,1.0,55.0,3800.0,1320.0,9.2,2.0,141.0,90.0,60.0,32.0,19.0,6.0,1695.0
25%,10.825,12.35,14.575,18.0,26.0,4.0,1.8,100.75,4800.0,2017.5,14.5,4.0,174.0,98.0,67.0,36.0,26.0,12.0,2647.5
50%,14.6,17.7,19.15,21.0,28.0,4.0,2.3,140.0,5200.0,2360.0,16.5,5.0,181.0,103.0,69.0,39.0,27.5,14.0,3085.0
75%,20.25,23.5,24.825,25.0,31.0,6.0,3.25,170.0,5787.5,2565.0,19.0,6.0,192.0,110.0,72.0,42.0,30.0,16.0,3567.5
max,45.4,61.9,80.0,46.0,50.0,8.0,5.7,300.0,6500.0,3755.0,27.0,8.0,219.0,119.0,78.0,45.0,36.0,22.0,4105.0


7. Converta o dataframe de carros para um vetor NumPy chamado **carros**

In [40]:
carros = df.to_numpy()
carros

array([['Acura', 'Integra', 'Pequeno', ..., 2705.0, 'Fora dos EUA',
        'Acura Integra'],
       [nan, 'Legend', 'Médio', ..., 3560.0, 'Fora dos EUA',
        'Acura Legend'],
       ['Audi', '90', 'Compacto', ..., 3375.0, 'Fora dos EUA', 'Audi 90'],
       ...,
       ['Volkswagen', 'Corrado', 'Esportivo', ..., 2810.0,
        'Fora dos EUA', 'Volkswagen Corrado'],
       ['Volvo', '240', 'Compacto', ..., 2985.0, 'Fora dos EUA',
        'Volvo 240'],
       [nan, '850', 'Médio', ..., 3245.0, 'Fora dos EUA', 'Volvo 850']],
      dtype=object)

8. Converta o data Frame de carros para uma lista chamada **lista_carros**.

In [44]:
lista_carros = df.values.tolist()

9. Imprima as informações básicas do Data Frame.

In [55]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 27 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   fabricante                   89 non-null     object 
 1   modelo                       92 non-null     object 
 2   tipo                         90 non-null     object 
 3   preco_min                    86 non-null     float64
 4   preco                        91 non-null     float64
 5   preco_max                    88 non-null     float64
 6   mpg_cidade                   84 non-null     float64
 7   mpg_rodovia                  91 non-null     float64
 8   airbags                      87 non-null     object 
 9   trem_forca                   86 non-null     object 
 10  cilindros                    87 non-null     float64
 11  tamanho_motor                91 non-null     float64
 12  horsepower                   86 non-null     float64
 13  rpm                   

10. Analise as informações trazidas pela função `df.info()`, comparando a informação **Range Index** com todos os valores numéricos da segunda coluna que aparece nos resultados, sem seguida, responda:

> O que esses resultados podem evidenciar?

**RESPOSTA**: Os resultados evidenciam que o dataframe possui 93 linhas com 27 colunas cada, porém nem sempre todas as 27 colunas estão devidamente preenchidas. Na coluna "porta_mala_ft3" por exemplo, das 93 linhas, apenas 74 possuem valores não nulos.

11. Verifique se Data Frame (df) tem algum valor ausente.

In [64]:
print('Existem valores ausentes!') if df.isnull().values.any() else print('Não existem valores ausentes no dataframe.')

Existem valores ausentes!


12. Qual é o número total de dados ausentes por coluna?

In [67]:
df.isnull().sum()

fabricante                      4
modelo                          1
tipo                            3
preco_min                       7
preco                           2
preco_max                       5
mpg_cidade                      9
mpg_rodovia                     2
airbags                         6
trem_forca                      7
cilindros                       6
tamanho_motor                   2
horsepower                      7
rpm                             3
revolucoes_milha                6
transmissao_manual              5
capacidade_tanque               8
passageiros                     2
comprimento_in                  4
distancia_eixo                  1
largura_in                      6
espaco_inversao_marcha_ft       5
tamanho_assento_traseiro_in     4
porta_mala_ft3                 19
peso_lb                         7
origem                          5
fabricante_modelo               3
dtype: int64

13. Qual é o número total de dados ausentes no Data Frame?

In [68]:
df.isnull().sum().sum()

139

14. Imprima o número total de dados ausentes em cada uma das linhas?

In [121]:
values = df.isnull().values
emptylines = {}

i=0
for line in values:
    emptylines[i] = line.sum()
    i += 1

for line in emptylines:
    print(f'Quantidade de dados ausentes na linha {line}: {emptylines[line]}')

Quantidade de dados ausentes na linha 0: 1
Quantidade de dados ausentes na linha 1: 1
Quantidade de dados ausentes na linha 2: 0
Quantidade de dados ausentes na linha 3: 5
Quantidade de dados ausentes na linha 4: 3
Quantidade de dados ausentes na linha 5: 2
Quantidade de dados ausentes na linha 6: 3
Quantidade de dados ausentes na linha 7: 0
Quantidade de dados ausentes na linha 8: 1
Quantidade de dados ausentes na linha 9: 1
Quantidade de dados ausentes na linha 10: 1
Quantidade de dados ausentes na linha 11: 3
Quantidade de dados ausentes na linha 12: 2
Quantidade de dados ausentes na linha 13: 2
Quantidade de dados ausentes na linha 14: 4
Quantidade de dados ausentes na linha 15: 1
Quantidade de dados ausentes na linha 16: 2
Quantidade de dados ausentes na linha 17: 0
Quantidade de dados ausentes na linha 18: 3
Quantidade de dados ausentes na linha 19: 2
Quantidade de dados ausentes na linha 20: 0
Quantidade de dados ausentes na linha 21: 0
Quantidade de dados ausentes na linha 22: 

15. Mostre as linhas que possuem dados ausentes na coluna `fabricante`.

In [126]:
df[df.loc[:,'fabricante'].isna()]

Unnamed: 0,fabricante,modelo,tipo,preco_min,preco,preco_max,mpg_cidade,mpg_rodovia,airbags,trem_forca,...,passageiros,comprimento_in,distancia_eixo,largura_in,espaco_inversao_marcha_ft,tamanho_assento_traseiro_in,porta_mala_ft3,peso_lb,origem,fabricante_modelo
1,,Legend,Médio,29.2,33.9,38.7,18.0,25.0,Motorista e Passageiro,Dianteiro,...,5.0,195.0,115.0,71.0,38.0,30.0,15.0,3560.0,Fora dos EUA,Acura Legend
19,,Concorde,Grande,18.4,18.4,18.4,20.0,28.0,Motorista e Passageiro,Dianteiro,...,6.0,203.0,113.0,74.0,,31.0,15.0,3515.0,EUA,Chrylser Concorde
49,,SC300,Médio,34.7,35.2,35.6,18.0,23.0,Motorista e Passageiro,Traseiro,...,4.0,191.0,106.0,71.0,39.0,25.0,9.0,3515.0,Fora dos EUA,Lexus SC300
92,,850,Médio,24.8,26.7,28.5,20.0,28.0,Motorista e Passageiro,Dianteiro,...,5.0,184.0,105.0,69.0,38.0,30.0,15.0,3245.0,Fora dos EUA,Volvo 850


16. Substitua os valores ausentes da coluna preço por zero.

In [147]:
df['preco'] = df.loc[:,'preco'].fillna(0)
df[df.loc[:,'preco'].isnull()]

Unnamed: 0,fabricante,modelo,tipo,preco_min,preco,preco_max,mpg_cidade,mpg_rodovia,airbags,trem_forca,...,passageiros,comprimento_in,distancia_eixo,largura_in,espaco_inversao_marcha_ft,tamanho_assento_traseiro_in,porta_mala_ft3,peso_lb,origem,fabricante_modelo


16. Remova do Data Frame todas as linhas que possuem pelo menos um dado ausente.

In [159]:
df = df.dropna().reset_index(drop=True)
df.isnull().sum()

fabricante                     0
modelo                         0
tipo                           0
preco_min                      0
preco                          0
preco_max                      0
mpg_cidade                     0
mpg_rodovia                    0
airbags                        0
trem_forca                     0
cilindros                      0
tamanho_motor                  0
horsepower                     0
rpm                            0
revolucoes_milha               0
transmissao_manual             0
capacidade_tanque              0
passageiros                    0
comprimento_in                 0
distancia_eixo                 0
largura_in                     0
espaco_inversao_marcha_ft      0
tamanho_assento_traseiro_in    0
porta_mala_ft3                 0
peso_lb                        0
origem                         0
fabricante_modelo              0
dtype: int64

17. Renomeie a coluna `trem_forca` para `tracao`.

In [160]:
df.rename(columns = {'trem_forca':'tracao'}, inplace = True)
df

Unnamed: 0,fabricante,modelo,tipo,preco_min,preco,preco_max,mpg_cidade,mpg_rodovia,airbags,tracao,...,passageiros,comprimento_in,distancia_eixo,largura_in,espaco_inversao_marcha_ft,tamanho_assento_traseiro_in,porta_mala_ft3,peso_lb,origem,fabricante_modelo
0,Audi,90,Compacto,25.9,29.1,32.3,20.0,26.0,Somente Motorista,Dianteiro,...,5.0,180.0,102.0,67.0,37.0,28.0,14.0,3375.0,Fora dos EUA,Audi 90
1,Buick,Roadmaster,Grande,22.6,23.7,24.9,16.0,25.0,Somente Motorista,Traseiro,...,6.0,216.0,116.0,78.0,45.0,30.5,21.0,4105.0,EUA,Buick Roadmaster
2,Chevrolet,Caprice,Grande,18.0,18.8,19.6,17.0,26.0,Somente Motorista,Traseiro,...,6.0,214.0,116.0,77.0,42.0,29.5,20.0,3910.0,EUA,Chevrolet Caprice
3,Chrysler,LeBaron,Compacto,14.5,15.8,17.1,23.0,28.0,Motorista e Passageiro,Dianteiro,...,6.0,183.0,104.0,68.0,41.0,30.5,14.0,3085.0,EUA,Chrysler LeBaron
4,Chrysler,Imperial,Grande,29.5,29.5,29.5,20.0,26.0,Somente Motorista,Dianteiro,...,6.0,203.0,110.0,69.0,44.0,36.0,17.0,3570.0,EUA,Chrysler Imperial
5,Eagle,Summit,Pequeno,7.9,12.2,16.5,29.0,33.0,Nenhum,Dianteiro,...,5.0,174.0,98.0,66.0,36.0,26.5,11.0,2295.0,EUA,Eagle Summit
6,Hyundai,Excel,Pequeno,6.8,8.0,9.2,29.0,33.0,Nenhum,Dianteiro,...,5.0,168.0,94.0,63.0,35.0,26.0,11.0,2345.0,Fora dos EUA,Hyundai Excel
7,Mazda,323,Pequeno,7.4,8.3,9.1,29.0,37.0,Nenhum,Dianteiro,...,4.0,164.0,97.0,66.0,34.0,27.0,16.0,2325.0,Fora dos EUA,Mazda 323
8,Mazda,Protege,Pequeno,10.9,11.6,12.3,28.0,36.0,Nenhum,Dianteiro,...,5.0,172.0,98.0,66.0,36.0,26.5,13.0,2440.0,Fora dos EUA,Mazda Protege
9,Mazda,626,Compacto,14.3,16.5,18.7,26.0,34.0,Somente Motorista,Dianteiro,...,5.0,184.0,103.0,69.0,40.0,29.5,14.0,2970.0,Fora dos EUA,Mazda 626


18. Selecione todos os dados da coluna tração.

In [162]:
df.loc[:,'tracao']

0     Dianteiro
1      Traseiro
2      Traseiro
3     Dianteiro
4     Dianteiro
5     Dianteiro
6     Dianteiro
7     Dianteiro
8     Dianteiro
9     Dianteiro
10     Traseiro
11    Dianteiro
12    Dianteiro
13    Dianteiro
14    Dianteiro
15          4WD
16          4WD
17    Dianteiro
18    Dianteiro
19    Dianteiro
Name: tracao, dtype: object

19. Selecione as colunas: `fabricante`,`modelo` e `tipo`.

In [164]:
df.loc[:,['tracao', 'modelo', 'tipo']]

Unnamed: 0,tracao,modelo,tipo
0,Dianteiro,90,Compacto
1,Traseiro,Roadmaster,Grande
2,Traseiro,Caprice,Grande
3,Dianteiro,LeBaron,Compacto
4,Dianteiro,Imperial,Grande
5,Dianteiro,Summit,Pequeno
6,Dianteiro,Excel,Pequeno
7,Dianteiro,323,Pequeno
8,Dianteiro,Protege,Pequeno
9,Dianteiro,626,Compacto


20. Selecione o fabricante com maior preço.

In [183]:
df[df.loc[:,'preco'] == df['preco'].max()].loc[:,['fabricante']]

Unnamed: 0,fabricante
4,Chrysler


22. Selecione as colunas `fabricante`, `modelo` e `preco`; dos carros que cabem menos passageiros.

In [184]:
df[df.loc[:,'passageiros'] == df['passageiros'].min()].loc[:,['fabricante', 'modelo', 'preco']]

Unnamed: 0,fabricante,modelo,preco
7,Mazda,323,8.3
15,Subaru,Justy,8.4
17,Volkswagen,Fox,9.1
19,Volkswagen,Corrado,23.3


23. Mostre o total de carros que existem por `tipo`.

In [191]:
df.loc[:,['tipo']].value_counts()

tipo     
Pequeno      7
Compacto     6
Grande       4
Médio        2
Esportivo    1
dtype: int64

24. Na coluna `tracao`, substitua *4WD* por *4X4*.

In [193]:
df['tracao'] = df.loc[:,['tracao']].replace('4WD', '4X4')
df.loc[:,['tracao']].value_counts()

tracao   
Dianteiro    15
Traseiro      3
4X4           2
dtype: int64

25. Converta a coluna `cilintros` para `int`.

In [196]:
df['cilindros'] = df['cilindros'].astype('int8')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 27 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   fabricante                   20 non-null     object 
 1   modelo                       20 non-null     object 
 2   tipo                         20 non-null     object 
 3   preco_min                    20 non-null     float64
 4   preco                        20 non-null     float64
 5   preco_max                    20 non-null     float64
 6   mpg_cidade                   20 non-null     float64
 7   mpg_rodovia                  20 non-null     float64
 8   airbags                      20 non-null     object 
 9   tracao                       20 non-null     object 
 10  cilindros                    20 non-null     int8   
 11  tamanho_motor                20 non-null     float64
 12  horsepower                   20 non-null     float64
 13  rpm                   

26. Crie um ranking com os top 10 carros mais caros

In [207]:
ranking = df.sort_values(['preco'], ascending = False).head(10)
ranking

Unnamed: 0,fabricante,modelo,tipo,preco_min,preco,preco_max,mpg_cidade,mpg_rodovia,airbags,tracao,...,passageiros,comprimento_in,distancia_eixo,largura_in,espaco_inversao_marcha_ft,tamanho_assento_traseiro_in,porta_mala_ft3,peso_lb,origem,fabricante_modelo
4,Chrysler,Imperial,Grande,29.5,29.5,29.5,20.0,26.0,Somente Motorista,Dianteiro,...,6.0,203.0,110.0,69.0,44.0,36.0,17.0,3570.0,EUA,Chrysler Imperial
0,Audi,90,Compacto,25.9,29.1,32.3,20.0,26.0,Somente Motorista,Dianteiro,...,5.0,180.0,102.0,67.0,37.0,28.0,14.0,3375.0,Fora dos EUA,Audi 90
14,Pontiac,Bonneville,Grande,19.4,24.4,29.4,19.0,28.0,Motorista e Passageiro,Dianteiro,...,6.0,177.0,111.0,74.0,43.0,30.5,18.0,3495.0,EUA,Pontiac Bonneville
1,Buick,Roadmaster,Grande,22.6,23.7,24.9,16.0,25.0,Somente Motorista,Traseiro,...,6.0,216.0,116.0,78.0,45.0,30.5,21.0,4105.0,EUA,Buick Roadmaster
19,Volkswagen,Corrado,Esportivo,22.9,23.3,23.7,18.0,25.0,Nenhum,Dianteiro,...,4.0,159.0,97.0,66.0,36.0,26.0,15.0,2810.0,Fora dos EUA,Volkswagen Corrado
18,Volkswagen,Passat,Compacto,17.6,20.0,22.4,21.0,30.0,Nenhum,Dianteiro,...,5.0,180.0,103.0,67.0,35.0,31.5,14.0,2985.0,Fora dos EUA,Volkswagen Passat
2,Chevrolet,Caprice,Grande,18.0,18.8,19.6,17.0,26.0,Somente Motorista,Traseiro,...,6.0,214.0,116.0,77.0,42.0,29.5,20.0,3910.0,EUA,Chevrolet Caprice
13,Pontiac,Grand_Prix,Médio,15.4,18.5,21.6,19.0,27.0,Nenhum,Dianteiro,...,5.0,195.0,108.0,72.0,41.0,28.5,16.0,3450.0,EUA,Pontiac Grand_Prix
9,Mazda,626,Compacto,14.3,16.5,18.7,26.0,34.0,Somente Motorista,Dianteiro,...,5.0,184.0,103.0,69.0,40.0,29.5,14.0,2970.0,Fora dos EUA,Mazda 626
3,Chrysler,LeBaron,Compacto,14.5,15.8,17.1,23.0,28.0,Motorista e Passageiro,Dianteiro,...,6.0,183.0,104.0,68.0,41.0,30.5,14.0,3085.0,EUA,Chrysler LeBaron


27. Exiba uma contagem de valores por tipo de câmbio e tipo de veículo.

In [216]:
print('- Contagem por tipo de veículo:')
print(df.loc[:,['tipo']].value_counts())
print('\n- Contagem por tipo de câmbio (manual = "sim" ou automático = "não"):')
print(df.loc[:,['transmissao_manual']].value_counts())
print('\n-  Relação entre câmbio e tipo de veículo: ')
print(df.loc[:,['tipo', 'transmissao_manual']].value_counts())

- Contagem por tipo de veículo:
tipo     
Pequeno      7
Compacto     6
Grande       4
Médio        2
Esportivo    1
dtype: int64

- Contagem por tipo de câmbio (manual = "sim" ou automático = "não"):
transmissao_manual
Sim                   13
Não                    7
dtype: int64

-  Relação entre câmbio e tipo de veículo: 
tipo       transmissao_manual
Pequeno    Sim                   7
Compacto   Sim                   4
Grande     Não                   4
Compacto   Não                   2
Esportivo  Sim                   1
Médio      Não                   1
           Sim                   1
dtype: int64
