# Pandas
Pandas é uma biblioteca Python de código aberto para análise de dados, que oferece alto desempenho, estruturas de dados de fácil utilização e ferramentas de análise de dados. Para usar a biblioteca, basta utilizar o seguinte comando de importação abaixo:

```python
import numpy as np
import pandas as pd
```

## Obtendo os Dados

| Formato | Descrição                        |  Função de Leitura | Função de Escrita |
|:--------|:---------------------------------|:-------------------|:------------------|
| Texto   | CSV                              | read_csv( )        | to_csv( )         |
| Texto   | JSON                             | read_json( )       | to_json( )        |
| Texto   | HTML                             | read_html( )       | to_html( )        | 
| Texto   | Área de Transferência de Memória | read_clipboard( )  | to_clipboard( )   |
| Binário | MS Excel                         | read_excel( )      | to_excel( )       |
| Binário | HDF5 Format                      | read_hdf( )        | to_hdf( )         |
| Binário | Feather Format                   | read_feather( )    | to_feather( )     |
| Binário | Parquet Format                   | read_parquet( )    | to_parquet( )     |
| Binário | Msgpack                          | read_msgpack( )    | to_msgpack( )     |
| Binário | Stata                            | read_stata( )      | to_stata( )       |
| Binário | SAS                              | read_sas( )        | -                 | 
| Binário | Python Pickle Format             | read_pickle( )     | to_pickle( )      |
| SQL     | SQL                              | read_sql( )        | to_sql( )         |
| SQL     | Google Big Query                 | read_gbq( )        | to_gbq( )         |

### Exemplos

```python
# Exemplo 1: Leitura e Escrita para CSV

# Lê 5 linhas de um arquivo CSV sem cabeçalho.
pd.read_csv("arquivo.csv", header=None, nrows=5) 

# Exporta os dados de uma estrutura de dados 
# Data Frame do Pandas para um arquivo csv.
dados_data_frame.to_csv("dados_data_frame.csv")


# Exemplo 2: Leitura e Escrita para EXCEL
pd.read_excel("planilha.xlsx")

dados_data_frame.to_excel("dados_data_frame.xlsx", sheet_name="Planilha 1")

# Carrega múltiplas planilhas do mesmo arquivo
planilha = pd.ExcelFile("arquivo.xls")
dados_data_frame = pd.read_excel(xlsx, "Planilha 1")
```


## Estruturas de Dados

### Series
Vetor unidimensional rotulado capaz de armazenar qualquer tipo de dado

In [None]:
import numpy as np
import pandas as pd

s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s

### Data Frame
Matriz rotulada contendo colunas com diferentes tipos de dados

In [None]:
data = {
    'Country': ['Belgium',  'India',  'Brazil'],
    'Capital': ['Brussels',  'New Delhi',  'Brasilia'],
    'Population': [11190846, 1303171035, 207847528]
}

df = pd.DataFrame(data, columns=['Country',  'Capital',  'Population'])

df

### Indexação / Seleção

| Operação                                    | Sintaxe            | Resultado |
|:--------------------------------------------|:-------------------|:----------|
| Seleciona Coluna                            | df[col]            | Series    |
| Seleciona Linha por nome do rótulo          | df.loc[rotulo]     | Series    |
| Seleciona linhas por posição (inteiro)      | df.iloc[posicao]   | Series    |
| Divide Linhas                               | df[5:10]           | DataFrame |
| Seleciona linhas por vetor booleano         | df[vetor_booleano] | DataFrame |


In [None]:
import numpy as np
import pandas as pd

data = {
    'Country': ['Belgium',  'India',  'Brazil'],
    'Capital': ['Brussels',  'New Delhi',  'Brasilia'],
    'Population': [11190846, 1303171035, 207847528]
}

df = pd.DataFrame(data, columns=['Country',  'Capital',  'Population'])

# Seleção por posição
df.iloc[[0],[0]]

# Seleção por rótulo
df.loc[[0], ['Country']]

# Rótulo/Posição
df.loc[2]
df.loc[:, 'Capital']
df.loc[2, 'Capital']

### Missing Data (Dados Ausentes)

O pandas utiliza o valor np.nan para representar todos os dados auentes que possam aparecer no conjunto de dados. Para detectar dados ausentes facilmente, o Pandas fornece as funções: isna() e notna(), que são também métodos dos objetos do tipo Series e DataFrame.

In [None]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randn(5, 3), index=['A', 'C', 'E', 'F', 'H'], 
                  columns=['one', 'two', 'three'])

df['four'] = 'bar' # Cria uma nova coluna (four) e adiciona valores constantes (bar)
df['five'] = df['one'] > 0 # Cria uma nova coluna (five) e adiciona true se a coluna 1 for maior que zero
df

# Reindexa o data frame para simularmos os missing datas
# Ele adicionou as linhas ausentes: B, D e G; e preencheu
# com dados auentes (NaN)
df2 = df.reindex(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'])

# Avalia o data frame e coloca True no local dos dados ausentes
df2
pd.isna(df2)
df2.isna()

# É possível fazer o teste especificando colunas
df2['one']
pd.isna(df2['one']) 
df2['four'].notna()

### Ordenação e Ranking

| Função                          | Descrição                        | 
|:--------------------------------|:---------------------------------|
| df.sort_index()                 | Ordena por índices               |
| df.sort_values(by='NomeColuna') | Ordena por valores               |
| df.rank()                       | Gera um ranking para as entradas |


### Informações Básicas

| Função         | Descrição                                | 
|:---------------|:-----------------------------------------|
| df.shape()     | Retorna (linhas, colunas)                |
| df.index()     | Descreve os índices                      |
| df.columns()   | Descreve as colunas do Data Frame        |
| df.info()      | Informações do Data Frame                |
| df.count()     | Retorna a contagem dos valores não nulos |


### Sumário Quantitativo

| Função         | Descrição                      | 
|:---------------|:-------------------------------|
| df.sum()       | Soma dos valores               |
| df.cumsum()    | Soma cumulativa dos valores    |
| df.min()       | Obtém o valor mínimo           |
| df.max()       | Obtém o valor máximo           |
| df.idxmin()    | Obtém o valor mínimo do índice |
| df.idxmax()    | Obtém o valor máximo do índice |
| df.describe()  | Gera estatísticas descritivas que resumem a tendência central, a dispersão e a forma da distribuição de um conjunto de dados, excluindo os valores NaN. |
| df.mean()      | Calcula a Média                |
| df.median()    | Calcula a Mediana              |



## Aprendendo Pandas na Prática

Considerando o famoso conjunto de dados: [**Dados de 93 carros à venda nos EUA em 1993**](https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/Cars93.html) disponível na pasta [`data/carros_93.csv`](data/carros_93.csv), faremos algumas tarefas rotineiras de um cientista de dados utilizando a biblioteca Pandas.

### Dicionário de Dados

| Nº | Coluna                      | Descrição                                                 |
|:--:|:----------------------------|:----------------------------------------------------------|
|  1 | fabricante                  | Fabricante do carro.                                      |
|  2 | modelo                      | Modelo do carro.                                          |
|  3 | tipo                        | Pequeno, Esportivo, Compacto, Médio, Grande ou Van.       |
|  4 | preco_min                   | Preço mínimo em dólares para uma versão básica.           |
|  5 | preco                       | Preço médio em dólares para uma versão básica.            |
|  6 | preco_max                   | Preço máximo em dólares para uma versão básica.           |
|  7 | mpg_cidade                  | Consumo em Milhas por Galão (MPG) na cidade.              |
|  8 | mpg_rodovia                 | Consumo em Milhas por Galão (MPG) na estrada.             |
|  9 | airbags                     | Nenhum, Somente Motorista ou Motorista e Passageiro.      |
| 10 | tracao                      | Traseira, Dianteira ou 4x4                                |
| 11 | cilindros                   | Número de cilindros                                       |
| 12 | tamanho_motor               | Tamanho do motor em litros                                |
| 13 | horsepower                  | Cavalos-força (máximo).                                   |
| 14 | rpm                         | RPM (rotações por minuto na potência máxima).             |
| 15 | revolucoes_milha            | Rotações do motor por milha (na marcha mais alta).        |
| 16 | transmissao_manual          | Possui transmissão manual?                                |
| 17 | capacidade_tanque           | Capacidade do tanque de combustível em galões americanos. |
| 18 | passageiros                 | Capacidade de passageiros (pessoas)                       |
| 19 | comprimento_in              | Comprimento (polegadas).                                  |
| 20 | distancia_eixo              | Distância entre eixos (polegadas).                        |
| 21 | largura_in                  | Largura (polegadas).                                      |
| 22 | espaco_inversao_marcha_ft   | Espaço em inversão de marcha (pés).                       |
| 23 | tamanho_assento_traseiro_in | Tamanho do banco traseiro (polegadas).                    |
| 24 | porta_mala_ft3              | Capacidade de bagagem (pés cúbicos)                       |
| 25 | peso_lb                     | Peso (libras).                                            |
| 26 | origem                      | Origem de empresas americanas ou fora dos EUA.            |
| 27 | fabricante_modelo           | Combinação de fabricante e modelo.                        |

Os carros foram selecionados aleatoriamente entre os modelos de automóveis de passageiros de 1993 listados na edição do Consumer Reports e no PACE Buying Guide. As caminhonetes e os veículos esportivos/utilitários foram eliminados devido a informações incompletas na fonte do Consumer Reports. Os modelos duplicados (por exemplo, Dodge Shadow e Plymouth Sundance) foram listados no máximo uma vez. Uma descrição mais detalhada pode ser encontrada em Lock (1993).

#### Referências

- Lock, R. H. (1993) 1993 New Car Data. Journal of Statistics Education 1(1). https://doi.org/10.1080/10691898.1993.11910459
- Venables, W. N. and Ripley, B. D. (1999) Modern Applied Statistics with S-PLUS. Third Edition. Springer.


1. Importe o pacote Pandas com o nome pd.

2. Carregue em memória o conjunto de dados disponível na pasta [`data/carros_93.csv`](data/carros_93.csv) para uma variável chamada **df**.

3. Qual é o número de linhas e colunas?

4. Quais são os tipos de dados de cada uma das colunas?

5. Mostre a quantidade de colunas para cada um dos tipos de dados.

6. Exiba um sumário estatístico do conjunto de dados.

7. Converta o dataframe de carros para um vetor NumPy chamado **carros**

8. Converta o data Frame de carros para uma lista chamada **lista_carros**.

9. Imprima as informações básicas do Data Frame.

10. Analise as informações trazidas pela função `df.info()`, comparando a informação **Range Index** com todos os valores numéricos da segunda coluna que aparece nos resultados, sem seguida, responda:

> O que esses resultados podem evidenciar?

**RESPOSTA**:

11. Verifique se Data Frame (df) tem algum valor ausente.

12. Qual é o número total de dados ausentes por coluna?

13. Qual é o número total de dados ausentes no Data Frame?

14. Imprima o número total de dados ausentes em cada uma das linhas?

15. Mostre as linhas que possuem dados ausentes na coluna `fabricante`.

16. Substitua os valores ausentes da coluna preço por zero.

17. Substitua os valores ausentes nas colunas `preco_min` e `preco_max` pelas respectivas médias dessas colunas.

16. Remova do Data Frame todas as linhas que possuem pelo menos um dado ausente.

17. Renomeie a coluna `trem_forca` para `tracao`.

18. Selecione todos os dados da coluna tração.

19. Selecione as colunas: `fabricante`,`modelo` e `tipo`.

20. Selecione o fabricante com maior preço.

22. Selecione as colunas `fabricante`, `modelo` e `preco`; dos carros que cabem menos passageiros.

23. Mostre o total de carros que existem por `tipo`.

24. Na coluna `tracao`, substitua *4WD* por *4X4*.

25. Converta a coluna `cilintros` para `int`.

26. Crie um ranking com os top 10 carros mais caros

27. Exiba uma contagem de valores por tipo de câmbio e tipo de veículo.