# Introdução ao Pandas

O conteúdo original deste tutorial está disponível em [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html#min).


Esta introdução ao **Pandas** mostra as principais funcionalidades da biblioteca. Para uma introdução mais aprofundada sugere-se consultar o [Cookbook](https://pandas.pydata.org/docs/user_guide/cookbook.html#cookbook).

## Importando a biblioteca

O **Pandas** funciona em conjunto com o **NumPy**. Assim, para utilizar a biblioteca, em geral, se importa:

In [None]:
import numpy as np
import pandas as pd

## Estrutura de dados no Pandas

A biblioteca **Pandas** define 2 tipos de estrutura de dados:

- **Series:** um vetor unidimensional nomeado que armazena dados de qualquer tipo tais como inteiros, *strings*, objetos do Python, etc.

- **DataFrame:** uma estrutura de dados bidimensional que armazena dados como uma planilha, em que cada coluna é uma série (Series). É o equivalente ao `data.frame` na linguagem [R](https://www.r-project.org/).


Uma **série** pode ser criada passando uma lista de valores:

## Criação de objetos

Uma **série** no Pandas pode ser criada com o método `pandas.Series()`.

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

Um **DataFrame** pode ser criado com um índice no formato de data e os dados passados como uma matriz **NumPy**:

In [None]:
# Cria um 'Series' com uma sequência de datas
datas = pd.date_range("20190101", periods=6)
datas

In [None]:
# Cria um 'DataFrame' indexado pelas datas acima, com valores aleatórios...
df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=list("ABCD"))
df

É possível criar um **DataFrame** passando um dicionário de objetos em que as *chaves* são os nomes das colunas e os *valores* os dados.

In [None]:
df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20190102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([3] * 4, dtype="int32"),
        "E": pd.Categorical(["teste", "treino", "teste", "treino"]),
        "F": "foo",
    }
)

df2

As colunas do **DataFrame** resultante podem possuir diferentes tipos:

In [None]:
df2.dtypes

## Visualizando os dados

Use `DataFrame.head()` e `DataFrame.tail()` para visualizar as linhas iniciais e finais do *data frame*:

In [None]:
df.head()

In [None]:
df.tail(3)

Use `DataFrame.index` e `DataFrame.columns` para exibir, respectivamente, os índices e as colunas:

In [None]:
df.index

In [None]:
df.columns

Retorne uma representação *NumPy* dos dados com `DataFrame.to_numpy()`:

In [None]:
df.to_numpy()

**Nota**: matrizes *NumPy* possuem um único `dtype` enquanto os *data frames* do *Pandas* possuem um `dtype` por coluna. Ao chamar `DataFrame.to_numpy()`, o *Pandas* converterá os tipos de dados para um tipo que comporte todos os tipos de dados.

In [None]:
df2.dtypes

In [None]:
df2.to_numpy()

`describe()` mostra um breve resumo do conjunto de dados:

In [None]:
df.describe()

Transpondo os dados:

In [None]:
df.T

`DataFrame.sort_index()` ordena os dados com relação a um determinado eixo:

In [None]:
df.sort_index(axis=1, ascending=False)

`DataFrame.sort_values()` ordena os valores:

In [None]:
df.sort_values(by="B")

## Seleção de valores

**Nota:** Enquanto as expressões para seleção e atribuição no NumPy/Python padrão sejam intuitivos, em códigos de produção, é recomendado utilizar os métodos otimizados do *Pandas* para acessar dados `DataFrame.at()`, `DataFrame.iat()`, `DataFrame.loc()` e `DataFrame.iloc()`.

### GetItem ([])

Para um `DataFrame`, ao receber um nome entre colchetes, a coluna correspondente é selecionada.

In [None]:
df["A"]

Uma forma alternativa de referenciar uma coluna é usando `.`:

In [None]:
df.A

Em um `DataFrame`, o operador `:` seleciona as linhas correspondentes:

In [None]:
df[0:3]

A seleção também funciona para valores dos índices:

In [None]:
df["20190102":"20190104"]

### Seleção por nome

Selecionando uma linha relativa ao nome:

In [None]:
df.loc[datas[0]]

Selecionandos todas as linhas (`:`) com a seleção da coluna por nomes:

In [None]:
df.loc[:, ["A", "B"]]

Ao selecionar linhas, ambos os limites são incluídos:

In [None]:
df.loc["20190102":"20190104", ["A", "B"]]

Ao selecionar uma única linha e coluna, o resultado é um escalar:

In [None]:
df.loc[datas[0], "A"]

Um método de acesso mais rápido é:

In [None]:
df.at[datas[0], "A"]

### Seleção por posição

A seleção por posição é feita passando valores inteiros:

In [None]:
df.iloc[3]

Seleção por inteiros age de forma similar no *NumPy* e no *Python*:

In [None]:
df.iloc[3:5, 0:2]

Selecionando por listas de inteiros:

In [None]:
df.iloc[[1, 2, 4], [0, 2]]

Selecionando linhas explicitamente:

In [None]:
df.iloc[1:3, :]

Selecionando colunas explicitamente:

In [None]:
df.iloc[:, 1:3]

Selecionando os valores explicitamente:

In [None]:
df.iloc[1, 1]

Para fazer um acesso rápido usando o escalar:

In [None]:
df.iat[1, 1]

### Seleção por valores lógicos

Seleção de valores com base em uma coluna:

In [None]:
df[df["A"] > 0]

Selecionando valores de um `DataFrame` que atendem uma determinada condição lógica:

In [None]:
df[df > 0]

Usando `isin()` para seleção:

In [None]:
df2 = df.copy()
df2["E"] = ["um", "um", "dois", "três", "quatro", "três"]
df2

In [None]:
df2[df2["E"].isin(["dois", "quatro"])]

## Atualização de valores

Ao atualizando uma nova coluna os índices são ajustados automaticamente:

In [None]:
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range("20190102", periods=6))
s1

In [None]:
df["F"] = s1
df

Atualizando valores por nome:

In [None]:
df.at[datas[0], "A"] = 0
df

Atualizando valores por posição:

In [None]:
df.iat[0, 1] = 0
df

Atualização de valores com uma matriz *NumPy*:

In [None]:
df.loc[:, "D"] = np.array([5] * len(df))
df

Uma operação `where` como atualização de valores:

In [None]:
df2 = df.copy()
df2[df2 > 0] = -df2
df2

## Dados faltantes (*missing data*)

Para o *NumPy*, `np.nan` representa um dado faltante. Ele é, por padrão, excluído dos cálculos.

Reindexação permite mudar/adicionar/excluir o índice de um eixo especifico e retorna uma cópia dos dados:

In [None]:
df1 = df.reindex(index=datas[0:4], columns=list(df.columns) + ["E"])
df1.loc[datas[0] : datas[1], "E"] = 1
df1

`DataFrame.dropna()` ignora as linhas que possuem dados faltantes:

In [None]:
df1.dropna(how="any")

`DataFrame.fillna()` preenche os dados faltantes com o valor fornecido:

In [None]:
df1.fillna(value=5)

`isna()` retorna uma matriz lógica indicando as posições faltantes:

In [None]:
pd.isna(df1)

## Operações com dados faltantes

As operações, em geral, excluem os dados faltantes.

Exemplo, calculando a média para cada coluna:

In [None]:
df.mean()

Calculando a média para cada linha:

In [None]:
df.mean(axis=1)

As operações que envolvam outras `Series` ou `DataFrame` com índices ou colunas diferentes irão alinhar os resultados com a união dos índices e nomes de colunas. Além disso, o *Pandas* automaticamente propaga os valores ao longo das dimensões especificadas e preenche os pares não alinhados com `np.nan`.

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=datas).shift(2)
s

O método `pandas.sub()` subtrai os elementos do *dataframe* os elementos de outro *dataframe* fornecido por parâmetro:

In [None]:
df.sub(s, axis="index")

### Usando funções definidas pelo usuário.

`DataFrame.agg()` e `DataFrame.transform()` aplicam, respectivamente, uma função definida pelo usuário para reduzir ou propagar os resultados.


Uma função `lambda` é uma função não nomeada.

In [None]:
df.agg(lambda x: np.mean(x) * 5.6)

Transforma os valores de um *dataframe* por uma transformação passada por um função.

In [None]:
df.transform(lambda x: x * 101.2)

## Contagem de valores

In [None]:
# Cria uma série com 10 valores aleatórios entre 0 e 9.
s = pd.Series(np.random.randint(0, 9, size=10))
s

Para contar os valores que aparecem na *série* pode ser usado o método `value_counts()`:

In [None]:
s.value_counts()

## Métodos para *strings*

`Series` possui um conjunto de métodos para processar atributos do tipo `str`.

In [None]:
s = pd.Series(["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"])
s.str.lower()

## Concatenação

*Pandas* provê várias facilidades para combinar `Series` e `DataFrame` com vários tipos de lógica de conjuntos para os índices e álgebra relacional algebra para operações de concatenação e junção.

A concatenação de objetos do *Pandas* linha-a-linha é feito com `concat()`:

In [None]:
df = pd.DataFrame(np.random.randn(10, 4))
df

In [None]:
# break it into pieces
pieces = [df[:3], df[3:7], df[7:]]

pd.concat(pieces)

**Nota:** Adicionar uma coluna à um `DataFrame` é relativamente rápido. No entanto, adicionar uma linha requer uma cópia e isto pode ser custoso. É recomendado passar uma lista pré-construída de registros para o construtor do `DataFrame` ao invés de construir o `DataFrame` adicionando registros iterativamente.

## Junção de *dataframe*s

`merge()` habilita junções estilo SQL entre colunas.

In [None]:
left = pd.DataFrame({"key": ["foo", "foo"], "lval": [1, 2]})
right = pd.DataFrame({"key": ["foo", "foo"], "rval": [4, 5]})

left

In [None]:
right

In [None]:
pd.merge(left, right, on="key")

In [None]:
 # merge() com chaves únicas:

left = pd.DataFrame({"key": ["foo", "bar"], "lval": [1, 2]})
right = pd.DataFrame({"key": ["foo", "bar"], "rval": [4, 5]})
left

In [None]:
right

In [None]:
pd.merge(left, right, on="key")

## Agrupamento

Por “agrupamento” se refere a um processo que envolve um ou mais dos seguintes passos:

- **particionar** os dados em grupos basedos em algum critério;

- **aplicar** uma função em cada grupo independentemente;

- **combinar** os resultados em uma estrutura de dados.

In [None]:
df = pd.DataFrame(
    {
        "A": ["foo", "bar", "foo", "bar", "foo", "bar", "foo", "foo"],
        "B": ["um", "um", "dois", "três", "dois", "dois", "um", "três"],
        "C": np.random.randn(8),
        "D": np.random.randn(8),
    }
)

df

Exemplo, agrupando por uma coluna, selecionando outras colunas e aplicando a função `sum()` aos dados resultantes:

In [None]:
df.groupby("A")[["C", "D"]].sum()

Agrupar por múltiplas colunas forma um `MultiIndex`.

In [None]:
df.groupby(["A", "B"]).sum()

## Reorganização

### Empilhamento

In [None]:
arrays = [
   ["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"],
   ["um", "dois", "um", "dois", "um", "dois", "um", "dois"],
]


index = pd.MultiIndex.from_arrays(arrays, names=["first", "second"])

df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=["A", "B"])
df2 = df[:4]
df2

O método `stack()` "comprime" um nível das colunas do `DataFrame`:

In [None]:
stacked = df2.stack()
stacked

A operação contrária do empilhamento é realizado por `unstack()` que, por padrão, desempilha pelo último nível do `MultiIndex`:

In [None]:
stacked.unstack()

In [None]:
stacked.unstack(1)

In [None]:
stacked.unstack(0)

### Pivot tables

Uma *pivot table* é uma tabela de resumo de uma tabela original.

In [None]:
df = pd.DataFrame(
    {
        "A": ["um", "um", "dois", "três"] * 3,
        "B": ["A", "B", "C"] * 4,
        "C": ["foo", "foo", "foo", "bar", "bar", "bar"] * 2,
        "D": np.random.randn(12),
        "E": np.random.randn(12),
    }
)

df

`pivot_table()` pivoteia um `DataFrame` especificando *valores* (`values`), *índices* (`index`) e *colunas* (`columns`).

In [None]:
pd.pivot_table(df, values="D", index=["A", "B"], columns=["C"])

## Séries temporais

*Pandas* possue funcionalidades simples, poderosas e eficientes para fazer operações de reamostragem para conversão de frequências (ex: converter segundos para um escala de 5 minutos). Isto é bastante comum em, mas não limitado a, aplicações financeiras.

In [None]:
rng = pd.date_range("1/1/2022", periods= 100, freq= "S")
ts  = pd.Series(np.random.randint(0, 500, len(rng)), index= rng)
ts.resample("5Min").sum()

`Series.tz_localize()` localiza uma série temporal em um fuso horário:

In [None]:
rng = pd.date_range("3/6/2022 00:00", periods=5, freq="D")
ts = pd.Series(np.random.randn(len(rng)), rng)
ts

In [None]:
ts_utc = ts.tz_localize("UTC")
ts_utc

In [None]:
ts_utc.tz_convert("America/Sao_Paulo")

A tabela abaixo mostra os fusos horários disponíveis. Os fusos horários do Brasil estão assinalados.


| 1 | 2 | 3 | 4 |
|---|---|---|---|
| Africa/Abidjan | Africa/Accra | Africa/Addis_Ababa | Africa/Algiers |
| Africa/Asmara | Africa/Asmera | Africa/Bamako | Africa/Bangui |
| Africa/Banjul | Africa/Bissau | Africa/Blantyre | Africa/Brazzaville |
| Africa/Bujumbura | Africa/Cairo | Africa/Casablanca |Africa/Ceuta |
| Africa/Conakry | Africa/Dakar | Africa/Dar_es_Salaam | Africa/Djibouti |
|Africa/Douala | Africa/El_Aaiun | Africa/Freetown | Africa/Gaborone |
| Africa/Harare |Africa/Johannesburg | Africa/Juba | Africa/Kampala |
| Africa/Khartoum | Africa/Kigali |Africa/Kinshasa | Africa/Lagos |
| Africa/Libreville | Africa/Lome | Africa/Luanda |Africa/Lubumbashi |
| Africa/Lusaka | Africa/Malabo | Africa/Maputo | Africa/Maseru |
|Africa/Mbabane | Africa/Mogadishu | Africa/Monrovia | Africa/Nairobi |
| Africa/Ndjamena |Africa/Niamey | Africa/Nouakchott | Africa/Ouagadougou |
| Africa/Porto-Novo | Africa/Sao_Tome |Africa/Timbuktu | Africa/Tripoli |
| Africa/Tunis | Africa/Windhoek | America/Adak | America/Anchorage |
| America/Anguilla | America/Antigua | **America/Araguaina** | America/Argentina/Buenos_Aires |
| America/Argentina/Catamarca | America/Argentina/ComodRivadavia | America/Argentina/Cordoba | America/Argentina/Jujuy |
| America/Argentina/La_Rioja | America/Argentina/Mendoza | America/Argentina/Rio_Gallegos | America/Argentina/Salta |
| America/Argentina/San_Juan | America/Argentina/San_Luis | America/Argentina/Tucuman | America/Argentina/Ushuaia |
| America/Aruba | America/Asuncion | America/Atikokan | America/Atka |
| **America/Bahia** | **America/Bahia_Banderas** | America/Barbados | **America/Belem** |
| America/Belize | America/Blanc-Sablon | **America/Boa_Vista** | America/Bogota |
| America/Boise | America/Buenos_Aires | America/Cambridge_Bay | **America/Campo_Grande** |
| America/Cancun | America/Caracas | America/Catamarca | America/Cayenne |
| America/Cayman | America/Chicago | America/Chihuahua | America/Ciudad_Juarez |
| America/Coral_Harbour | America/Cordoba | America/Costa_Rica | America/Creston |
| **America/Cuiaba** | America/Curacao | America/Danmarkshavn | America/Dawson |
| America/Dawson_Creek | America/Denver | America/Detroit | America/Dominica |
| America/Edmonton | America/Eirunepe | America/El_Salvador | America/Ensenada |
| America/Fort_Nelson | America/Fort_Wayne | **America/Fortaleza** | America/Glace_Bay |
| America/Godthab | America/Goose_Bay | America/Grand_Turk | America/Grenada |
| America/Guadeloupe | America/Guatemala | America/Guayaquil | America/Guyana |
| America/Halifax | America/Havana | America/Hermosillo | America/Indiana/Indianapolis |
| America/Indiana/Knox | America/Indiana/Marengo | America/Indiana/Petersburg | America/Indiana/Tell_City |
| America/Indiana/Vevay | America/Indiana/Vincennes | America/Indiana/Winamac | America/Indianapolis |
| America/Inuvik | America/Iqaluit | America/Jamaica | America/Jujuy |
| America/Juneau | America/Kentucky/Louisville | America/Kentucky/Monticello | America/Knox_IN |
| America/Kralendijk | America/La_Paz | America/Lima | America/Los_Angeles |
| America/Louisville | America/Lower_Princes | **America/Maceio** | America/Managua |
| **America/Manaus** | America/Marigot | America/Martinique | America/Matamoros |
| America/Mazatlan | America/Mendoza | America/Menominee | America/Merida |
| America/Metlakatla | America/Mexico_City | America/Miquelon | America/Moncton |
| America/Monterrey | America/Montevideo | America/Montreal | America/Montserrat |
| America/Nassau | America/New_York | America/Nipigon | America/Nome |
| **America/Noronha** | America/North_Dakota/Beulah | America/North_Dakota/Center | America/North_Dakota/New_Salem |
| America/Nuuk | America/Ojinaga | America/Panama | America/Pangnirtung |
| **America/Paramaribo** | America/Phoenix | America/Port-au-Prince | America/Port_of_Spain |
| **America/Porto_Acre** | **America/Porto_Velho** | America/Puerto_Rico | America/Punta_Arenas |
| America/Rainy_River | America/Rankin_Inlet | **America/Recife** | America/Regina |
| America/Resolute | **America/Rio_Branco** | America/Rosario | America/Santa_Isabel |
| **America/Santarem** | America/Santiago | America/Santo_Domingo | **America/Sao_Paulo** |
| America/Scoresbysund | America/Shiprock | America/Sitka | America/St_Barthelemy |
| America/St_Johns | America/St_Kitts | America/St_Lucia | America/St_Thomas |
| America/St_Vincent | America/Swift_Current | America/Tegucigalpa | America/Thule |
| America/Thunder_Bay | America/Tijuana | America/Toronto | America/Tortola |
| America/Vancouver | America/Virgin | America/Whitehorse | America/Winnipeg |
| America/Yakutat | America/Yellowknife | Antarctica/Casey | Antarctica/Davis |
| Antarctica/DumontDUrville | Antarctica/Macquarie | Antarctica/Mawson | Antarctica/McMurdo |
| Antarctica/Palmer | Antarctica/Rothera | Antarctica/South_Pole | Antarctica/Syowa |
| Antarctica/Troll | Antarctica/Vostok | Arctic/Longyearbyen | Asia/Aden |
| Asia/Almaty | Asia/Amman | Asia/Anadyr | Asia/Aqtau |
| Asia/Aqtobe | Asia/Ashgabat | Asia/Ashkhabad | Asia/Atyrau |
| Asia/Baghdad | Asia/Bahrain | Asia/Baku | Asia/Bangkok |
| Asia/Barnaul | Asia/Beirut | Asia/Bishkek | Asia/Brunei |
| Asia/Calcutta | Asia/Chita | Asia/Choibalsan | Asia/Chongqing |
| Asia/Chungking | Asia/Colombo | Asia/Dacca | Asia/Damascus |
| Asia/Dhaka | Asia/Dili | Asia/Dubai | Asia/Dushanbe |
| Asia/Famagusta | Asia/Gaza | Asia/Harbin | Asia/Hebron |
| Asia/Ho_Chi_Minh | Asia/Hong_Kong | Asia/Hovd | Asia/Irkutsk |
| Asia/Istanbul | Asia/Jakarta | Asia/Jayapura | Asia/Jerusalem |
| Asia/Kabul | Asia/Kamchatka | Asia/Karachi | Asia/Kashgar |
| Asia/Kathmandu | Asia/Katmandu | Asia/Khandyga | Asia/Kolkata |
| Asia/Krasnoyarsk | Asia/Kuala_Lumpur | Asia/Kuching | Asia/Kuwait |
| Asia/Macao | Asia/Macau | Asia/Magadan | Asia/Makassar |
| Asia/Manila | Asia/Muscat | Asia/Nicosia | Asia/Novokuznetsk |
| Asia/Novosibirsk | Asia/Omsk | Asia/Oral | Asia/Phnom_Penh |
| Asia/Pontianak | Asia/Pyongyang | Asia/Qatar | Asia/Qostanay |
| Asia/Qyzylorda | Asia/Rangoon | Asia/Riyadh | Asia/Saigon |
| Asia/Sakhalin | Asia/Samarkand | Asia/Seoul | Asia/Shanghai |
| Asia/Singapore | Asia/Srednekolymsk | Asia/Taipei | Asia/Tashkent |
| Asia/Tbilisi | Asia/Tehran | Asia/Tel_Aviv | Asia/Thimbu |
| Asia/Thimphu | Asia/Tokyo | Asia/Tomsk | Asia/Ujung_Pandang |
| Asia/Ulaanbaatar | Asia/Ulan_Bator | Asia/Urumqi | Asia/Ust-Nera |
| Asia/Vientiane | Asia/Vladivostok | Asia/Yakutsk | Asia/Yangon |
| Asia/Yekaterinburg | Asia/Yerevan | Atlantic/Azores | Atlantic/Bermuda |
| Atlantic/Canary | Atlantic/Cape_Verde | Atlantic/Faeroe | Atlantic/Faroe |
| Atlantic/Jan_Mayen | Atlantic/Madeira | Atlantic/Reykjavik | Atlantic/South_Georgia |
| Atlantic/St_Helena | Atlantic/Stanley | Australia/ACT | Australia/Adelaide |
| Australia/Brisbane | Australia/Broken_Hill | Australia/Canberra | Australia/Currie |
| Australia/Darwin | Australia/Eucla | Australia/Hobart | Australia/LHI |
| Australia/Lindeman | Australia/Lord_Howe | Australia/Melbourne | Australia/NSW |
| Australia/North | Australia/Perth | Australia/Queensland | Australia/South |
| Australia/Sydney | Australia/Tasmania | Australia/Victoria | Australia/West |
| Australia/Yancowinna | **Brazil/Acre** | **Brazil/DeNoronha** | **Brazil/East** |
| **Brazil/West** | CET | CST6CDT | Canada/Atlantic |
| Canada/Central | Canada/Eastern | Canada/Mountain | Canada/Newfoundland |
| Canada/Pacific | Canada/Saskatchewan | Canada/Yukon | Chile/Continental |
| Chile/EasterIsland | Cuba | EET | EST |
| EST5EDT | Egypt | Eire | Etc/GMT |
| Etc/GMT+0  | Etc/GMT+1     | Etc/GMT+10 | Etc/GMT+11 |
| Etc/GMT+12 | Etc/GMT+2     | Etc/GMT+3  | Etc/GMT+4  |
| Etc/GMT+5  | Etc/GMT+6     | Etc/GMT+7  | Etc/GMT+8  |
| Etc/GMT+9  | Etc/GMT-0     | Etc/GMT-1  | Etc/GMT-10 |
| Etc/GMT-11 | Etc/GMT-12    | Etc/GMT-13 | Etc/GMT-14 |
| Etc/GMT-2  | Etc/GMT-3     | Etc/GMT-4  | Etc/GMT-5  |
| Etc/GMT-6  | Etc/GMT-7     | Etc/GMT-8  | Etc/GMT-9  |
| Etc/GMT0   | Etc/Greenwich | Etc/UCT    | Etc/UTC    |
| Etc/Universal | Etc/Zulu | Europe/Amsterdam | Europe/Andorra |
| Europe/Astrakhan | Europe/Athens | Europe/Belfast | Europe/Belgrade |
| Europe/Berlin | Europe/Bratislava | Europe/Brussels | Europe/Bucharest |
| Europe/Budapest | Europe/Busingen | Europe/Chisinau | Europe/Copenhagen |
| Europe/Dublin | Europe/Gibraltar | Europe/Guernsey | Europe/Helsinki |
| Europe/Isle_of_Man | Europe/Istanbul | Europe/Jersey | Europe/Kaliningrad |
| Europe/Kiev | Europe/Kirov | Europe/Kyiv | Europe/Lisbon |
| Europe/Ljubljana | Europe/London | Europe/Luxembourg | Europe/Madrid |
| Europe/Malta | Europe/Mariehamn | Europe/Minsk | Europe/Monaco |
| Europe/Moscow | Europe/Nicosia | Europe/Oslo | Europe/Paris |
| Europe/Podgorica | Europe/Prague | Europe/Riga | Europe/Rome |
| Europe/Samara | Europe/San_Marino | Europe/Sarajevo | Europe/Saratov |
| Europe/Simferopol | Europe/Skopje | Europe/Sofia | Europe/Stockholm |
| Europe/Tallinn | Europe/Tirane | Europe/Tiraspol | Europe/Ulyanovsk |
| Europe/Uzhgorod | Europe/Vaduz | Europe/Vatican | Europe/Vienna |
| Europe/Vilnius | Europe/Volgograd | Europe/Warsaw | Europe/Zagreb |
| Europe/Zaporozhye | Europe/Zurich | GB | GB-Eire |
| GMT | GMT+0 | GMT-0 | GMT0 |
| Greenwich | HST | Hongkong | Iceland |
| Indian/Antananarivo | Indian/Chagos | Indian/Christmas | Indian/Cocos |
| Indian/Comoro | Indian/Kerguelen | Indian/Mahe | Indian/Maldives |
| Indian/Mauritius | Indian/Mayotte | Indian/Reunion | Iran |
| Israel | Jamaica | Japan | Kwajalein |
| Libya | MET | MST | MST7MDT |
| Mexico/BajaNorte | Mexico/BajaSur | Mexico/General | NZ |
| NZ-CHAT | Navajo | PRC | PST8PDT |
| Pacific/Apia | Pacific/Auckland | Pacific/Bougainville | Pacific/Chatham |
| Pacific/Chuuk | Pacific/Easter | Pacific/Efate | Pacific/Enderbury |
| Pacific/Fakaofo | Pacific/Fiji | Pacific/Funafuti | Pacific/Galapagos |
| Pacific/Gambier | Pacific/Guadalcanal | Pacific/Guam | Pacific/Honolulu |
| Pacific/Johnston | Pacific/Kanton | Pacific/Kiritimati | Pacific/Kosrae |
| Pacific/Kwajalein | Pacific/Majuro | Pacific/Marquesas | Pacific/Midway |
| Pacific/Nauru | Pacific/Niue | Pacific/Norfolk | Pacific/Noumea |
| Pacific/Pago_Pago | Pacific/Palau | Pacific/Pitcairn | Pacific/Pohnpei |
| Pacific/Ponape | Pacific/Port_Moresby | Pacific/Rarotonga | Pacific/Saipan |
| Pacific/Samoa | Pacific/Tahiti | Pacific/Tarawa | Pacific/Tongatapu |
| Pacific/Truk | Pacific/Wake | Pacific/Wallis | Pacific/Yap |
| Poland | Portugal | ROC | ROK |
| Singapore | Turkey | UCT | US/Alaska |
| US/Aleutian | US/Arizona | US/Central | US/East-Indiana |
| US/Eastern | US/Hawaii | US/Indiana-Starke | US/Michigan |
| US/Mountain | US/Pacific | US/Samoa | UTC |
| Universal | W-SU | WET | Zulu |

Adicionando uma duração não-fixada (`BusinessDay`) para uma série temporal:

In [None]:
rng

In [None]:
rng + pd.offsets.BusinessDay(5)

## Dados categorizados

*Pandas* permite a definição de dados categorizados. É o equivalente ao `factor` na linguagem [R](https://www.r-project.org).

In [None]:
df = pd.DataFrame(
    {"id": [1, 2, 3, 4, 5, 6], "nota": ["a", "b", "b", "a", "a", "e"]}
)

Convertendo as notas em texto para categorizado:

In [None]:
df["grau"] = df["nota"].astype("category")

df["grau"]

Renomeando as categorias para nomes com mais significado:

In [None]:
new_categories = ["muito bom", "bom", "muito ruim"]

df["grau"] = df["grau"].cat.rename_categories(new_categories)

Reorganizando as categorias e simultaneamente adicionando as categorias faltantes (métodos em `Series.cat()` retornam uma nova `Series` por padrão):

In [None]:

df["grau"] = df["grau"].cat.set_categories(
    ["muito ruim", "ruim", "regular", "bom", "muito bom"]
)

df["grau"]

A  ordenação nas categorias é por classe, não alfabética:

In [None]:
df.sort_values(by="grau")

Agrupamento de variáveis categorizadas com `observed=False` também mostram as categorias vazias:

In [None]:
df.groupby("grau", observed=False).size()

## Gráficos

Utilizando a convenção para referenciar a biblioteca `matplotlib`:

In [None]:
import matplotlib.pyplot as plt

Use `plt.close("all")` para fechar as janelas gráficas abertas.

In [None]:
ts = pd.Series(np.random.randn(1000),
               index=pd.date_range("1/1/2000", periods=1000)
    )
ts = ts.cumsum()
ts.plot();

In [None]:
df = pd.DataFrame(
    np.random.randn(1000, 4), index=ts.index, columns=["A", "B", "C", "D"]
)

df = df.cumsum()
plt.figure();
df.plot();
plt.legend(loc='best');

## Importando e exportando dados

### Valores separados por vírgula (CSV)

Para escrever um arquivo CSV (*valores separados por vírgula*) use `DataFrame.to_csv()`:

In [None]:
df = pd.DataFrame(np.random.randint(0, 5, (10, 5)))
df.to_csv("foo.csv")

Para ler o arquivo CSV use `DataFrame.read_csv()`:

In [None]:
pd.read_csv("foo.csv")

### Parquet

**Parquet** é um formato bastante eficiente para armazenar grandes volumes de dados que serão consultados por colunas. Para escrever um arquivo *Parquet* use `DataFrame.to_parquet()`:

In [None]:
# O Parquet exige que as colunas tenham nomes em string.
df2 = df.set_axis(['A','B','C','D','E'], axis= 1)
df2.to_parquet("foo.parquet")


Para ler um arquivo *Parquet* use `DataFrame.read_parquet()`:

In [None]:
pd.read_parquet("foo.parquet")

### Excel

Para escrever um arquivo Excel use `DataFrame.to_excel()`:

In [None]:
df.to_excel("foo.xlsx", sheet_name="Sheet1")

Para ler um arquivo Excel use `DataFrame.read_excel()`:

In [None]:
pd.read_excel("foo.xlsx", "Sheet1", index_col=None, na_values=["NA"])

## Atenção 💣

Operações lógicas usando uma `Series` ou um `DataFrame` resultam em uma erro. Exemplo:

In [None]:
#if pd.Series([False, True, False]):    # ERROR!
#     print("Sou verdadeiro")