# Introdução ao Pandas (Parte 1)

## Imports

In [None]:
import pandas as pd

## Estruturas Básicas

  * **`DataFrame`**: uma matriz / tabela, com linhas e colunas.
  * **`Series`**: um vetor representando uma coluna. Um DataFrame pode conter uma ou várias Series, com seus respectivos nomes.

#### Criando uma `Series` a partir de uma `list`



In [None]:
s = pd.Series(['Campina Grande', 'Patos', 'Sousa'])
s

#### Criando um `DataFrame` a partir de um `dict` que mapeia `string` (nomes de colunas) às repectivas `Series`.

Se os comprimentos não coincidem, as células são preechidas com [NA/NaN](http://pandas.pydata.org/pandas-docs/stable/missing_data.html)

In [None]:
nome_cidade = pd.Series(['Campina Grande', 'Patos', 'Sousa'])
populacao = pd.Series([399999, 1499999, 99777])

df_city = pd.DataFrame({ 'Nome da Cidade': nome_cidade, 'População': populacao })
df_city

#### Verificando / alterando os tipos de dados

In [None]:
df_city.dtypes

Usamos a função astype para mudar os tipos do `DataFrame`inteiro ou de `Series`específicas. Exemplos [neste link](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html).

#### É possível criar Dataframes de várias outras formas. Também é possível definir outros tipos de índices. Veja exemplos [aqui](https://www.tutorialspoint.com/python_pandas/python_pandas_dataframe.htm).

#### **ATIVIDADE 1:** Crie um pequeno `DataFrame` (e imprima) utilizando outra estratégia (e.g., lista de listas, `dict` de string para lista) e definindo outros índices.

In [None]:
# seu código aqui


#### Criando um `DataFrame` a partir de um arquivo CSV (é o que é mais frequentemente realizado)

A descrição do dataset que vamos baixar pode ser vista [aqui](https://www.kaggle.com/camnugent/california-housing-prices).

In [None]:
df_housing = pd.read_csv("https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv", sep=",")
df_housing

In [None]:
df_housing.shape

In [None]:
df_housing.dtypes

## Funções Úteis

#### Função `head()`

In [None]:
df_housing.head()

#### **ATIVIDADE 2:** Use a função head passando um valor inteiro como parâmetro.

In [None]:
# seu código aqui


#### Função `describe()`

In [None]:
df_housing.describe()

#### Função `value_counts()`

Primeiro, vamos carregar um novo dataset (Toy Dataset).

Baixe o CSV [neste link](https://drive.google.com/file/d/1ArGT0_cisUUh3QXW9tYM39azFQZDUnow/view?usp=sharing) e depois faça upload para o sistema de arquivos aqui do Colab (estes arquivos só ficam disponíveis na sessão atual).

Informações sobre o dataset [neste link](https://www.kaggle.com/carlolepelaars/toy-dataset).

In [None]:
# Se preferir, execute um dos códigos abaixo para fazer o download diretamente aqui (basta remover o comentário e executar)

# Opção 1: caso queira ter o arquivo CSV disponível no sistema de arquivos
# do Colab (que permanecerá disponível para esta sessão)
#
# !wget -O toy_dataset.csv "https://docs.google.com/uc?export=download&id=1ArGT0_cisUUh3QXW9tYM39azFQZDUnow"
# df_toy = pd.read_csv('toy_dataset.csv')
# df_toy

# Opção 2
# df_toy = pd.read_csv('https://docs.google.com/uc?export=download&id=1ArGT0_cisUUh3QXW9tYM39azFQZDUnow')
# df_toy

In [None]:
# este trecho não precisa ser executado caso tenha sido executada a Opção 2 acima
df_toy = pd.read_csv('toy_dataset.csv')
df_toy

Executando a função `value_counts()` para uma coluna

In [None]:
df_toy.value_counts('Age')

#### **ATIVIDADE 3:**

a) Execute a função sem especificar nenhuma coluna e observe que não tem muita utilidade (as contagens são 1). Em seguida, execute a função para algum par de atributos que produzam valores úteis de contagem (valores diferentes de 1).

In [None]:
# seu código aqui


Mais detalhes sobre a função `value_counts()` [aqui](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.value_counts.html).

#### Contando os NaN

In [None]:
df_toy.isna().sum()

## Plotando gráficos

#### Histograma (mais detalhes [aqui](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.hist.html))

In [None]:
df_toy.hist(['Age'])

#### **ATIVIDADE 4:** Execute a função passando uma lista de nomes de colunas e um valor para o parâmetro bins.

In [None]:
# seu código aqui


#### **ATIVIDADE 5:** Plote um histograma para a coluna `Age` do `DataFrame` `df_toy`, onde o número de bins é o total de idades diferentes existentes no dataset.

In [None]:
# seu código aqui

