##**Pandas: Conceitos Fundamentais**
Documentação oficial: https://pandas.pydata.org/pandas-docs/stable/index.html#

***Começando com o Pandas***

Para começar a usar o Pandas, primeiro precisamos importar sua bilioteca no Python.


In [12]:
# Importando a biblioteca Pandas
# o aliás "pd": convencionado pela comunidade Pandas
!pip install pandas
import pandas as pd 



***Sobre DataFrame***

Um DataFrame é uma estrutura de dados bidimensional que pode armazenar dados de diferentes tipos (incluindo caracteres, inteiros, valores de pontos flutuantes, dados categóricos e muito mais) em colunas. É semelhante a uma planilha, uma tabela SQL ou a em R.data.frame.

Podemos armazenar manualmente dados em uma tabela, criando uma. Faremos isso utilizando duas estruturas do Python quê estudamos nas aulas passadas, são elas: dicionário e lista

Ao usar um dicionário Python de listas, as chaves do dicionário serão usadas como cabeçalhos de coluna e os valores em cada lista como valor nas colunas do DataFrame.

In [13]:
# Criando e utilizando um Dataframe
# Armazenando dados dos passageiros do Titanic

df = pd.DataFrame(
    {
        "Name": [
                 "Braund, Mr. Owen Harris",
                 "Allen, Mr. William Henry",
                 "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22,35,58],
        "Sex": ["male", "male", "female"],
    }
)

In [14]:
# Visualizando o DataFrame criado
# Percebam a similaridade com uma planilha, onde os índices do dicionário
# se tornaram um "rótulo" para coluna

df

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


***Trabalhando com subconjuntos***

In [15]:
# Vamos trabalhar apenas com um subconjunto (coluna) do nosso DataFrame.
# Para isso, utilizamos o rótulo dessa coluna entre colchetes.

df["Age"]

# Selecionando uma única coluna de um DataFrame pandas,
# o resultado é uma série pandas.

0    22
1    35
2    58
Name: Age, dtype: int64

# **Pandas: Análise dos Dados**

In [16]:
# Para saber as estatísticas básicas dos dados númericos da minha tabela
# utiliza-se a função "describe()"

df.describe()

Unnamed: 0,Age
count,3.0
mean,38.333333
std,18.230012
min,22.0
25%,28.5
50%,35.0
75%,46.5
max,58.0


In [17]:
# Como saber a idade máxima dos passageiros?
# Podemos fazer isso selecionando a coluna desejada e aplicando a função "max()"

df["Age"].max()

58

***Adicionando novos dados ao DataFrame***

In [18]:
df = df.append(
    pd.DataFrame(
        {
            "Name":[
                    "McCarthy, Mr. Timothy J",
                    "Heikkinem, Miss. Laina"
            ],
            "Age":[54, 26],
            "Sex":["male", "female"]
        }
    )
)

  df = df.append(


***Visualizando os dados novamente: observem como ficou nosso índice***

In [19]:
df

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female
0,"McCarthy, Mr. Timothy J",54,male
1,"Heikkinem, Miss. Laina",26,female


***Ajustando o Índice do DataFrame***

Existem várias formas de organizar os índices, vale procurar um pouco na documentação. 

Usaremos o método "reset_index()".

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.reset_index.html#pandas.DataFrame.reset_index

In [20]:
df = df.reset_index()

# **Filtrando e tratando os dados**

***Retornando nosso DataFrame***

In [21]:
df

Unnamed: 0,index,Name,Age,Sex
0,0,"Braund, Mr. Owen Harris",22,male
1,1,"Allen, Mr. William Henry",35,male
2,2,"Bonnell, Miss. Elizabeth",58,female
3,0,"McCarthy, Mr. Timothy J",54,male
4,1,"Heikkinem, Miss. Laina",26,female


***E se quisermos apenas os passageiros do sexo feminino?***

***Podemos criar um filtro, que tal?***

In [22]:
filtro = df["Sex"] == "female"

***Analisando o resultado***

In [23]:
filtro

0    False
1    False
2     True
3    False
4     True
Name: Sex, dtype: bool

***Bom. E como é que usaremos este filtro? Agora vem a parte fácil***

In [24]:
#execute o Dataframe novo para não alterar o original, com o filtro criado

df_filtrado = df[filtro]
df_filtrado

Unnamed: 0,index,Name,Age,Sex
2,2,"Bonnell, Miss. Elizabeth",58,female
4,1,"Heikkinem, Miss. Laina",26,female


In [25]:
#Quantos registros temos em nosso DataFrame?

df.count()

#Perceba que ele retorna a contagem em cada uma das séries

index    5
Name     5
Age      5
Sex      5
dtype: int64

In [26]:
# Para uma contagem geral podemos aplicar um filtro no "index"

df["index"].count()

5

In [27]:
# Criando DataFrames a partir do Principal
# Primerio filtro do sexo feminino

filtro = df["Sex"] == "female"

In [28]:
#Criando DataFrame e armazenando os dados de sexo feminino

df_feminino = df[filtro]

In [29]:
# Qual a idade máxima do sexo feminino?

df_feminino["Age"].max()

58

In [30]:
# Qual a idade mínima do sexo feminimo?

df_feminino["Age"].min()

26

In [31]:
# Qual a média da idade do sexo feminino?

df_feminino["Age"].mean()

42.0

# ***Repita as análises para o sexo masculino!***
Dica: inicie alterando o filtro

In [32]:
filtro_male = df["Sex"] == "male"

In [33]:
df_filtro_male = df[filtro_male]
df_filtro_male

Unnamed: 0,index,Name,Age,Sex
0,0,"Braund, Mr. Owen Harris",22,male
1,1,"Allen, Mr. William Henry",35,male
3,0,"McCarthy, Mr. Timothy J",54,male


In [34]:
df_filtro_male['Age'].max()

54

In [35]:
df_filtro_male['Age'].min()

22

In [36]:
df_filtro_male['Age'].mean()

37.0

In [37]:
df_filtro_male.count()

index    3
Name     3
Age      3
Sex      3
dtype: int64

In [38]:
df['Age'].count()

5

# **Pandas - Transformação de dados**

Você sabia que o Pandas suporta a integração com muitos formatos de arquivo ou fontes de dados (csv, excel, sql, json, parquet,...). A importação de dados de cada uma dessas fontes de dados é fornecida por função com o prefixo. Da mesma forma, os métodos são usados para armazenar dados.
Para iniciar, vamos usar uma estrutura de JSON.
 Lembre-se de importar a biblioteca Pandas.

In [39]:
import pandas as pd
dados = pd.read_json('https://servicodados.ibge.gov.br/api/v2/censos/nomes/joao?groupBy=UF')

Agora visualize nosso Dataframe! Tá pronto pra gente analisar e manipular!
Vamos aproveitar e criar mais um Dataframe com os estados.

In [40]:
dados.head()

Unnamed: 0,localidade,res
0,24,"[{'populacao': 3168027, 'frequencia': 72363, '..."
1,25,"[{'populacao': 3766528, 'frequencia': 73799, '..."
2,22,"[{'populacao': 3118360, 'frequencia': 58554, '..."
3,41,"[{'populacao': 10444526, 'frequencia': 195430,..."
4,52,"[{'populacao': 6003788, 'frequencia': 111064, ..."


In [41]:
estados = pd.read_json('https://servicodados.ibge.gov.br/api/v1/localidades/estados?orderBy=id')

In [42]:
#vizualização de dados
estados.head()

Unnamed: 0,id,sigla,nome,regiao
0,11,RO,Rondônia,"{'id': 1, 'sigla': 'N', 'nome': 'Norte'}"
1,12,AC,Acre,"{'id': 1, 'sigla': 'N', 'nome': 'Norte'}"
2,13,AM,Amazonas,"{'id': 1, 'sigla': 'N', 'nome': 'Norte'}"
3,14,RR,Roraima,"{'id': 1, 'sigla': 'N', 'nome': 'Norte'}"
4,15,PA,Pará,"{'id': 1, 'sigla': 'N', 'nome': 'Norte'}"


Vamos salvar nosso Dataframe em uma planilha? O Pandas já tem recurso para isso. Só execute o código abaixo:

In [43]:
estados.to_excel("estados.xlsx")

ModuleNotFoundError: No module named 'openpyxl'

O Pandas permite esta interação entre diversos formatos, tanto de leitura quanto a exportação, como fizemos agora, mudando apenas o sufixo.

# *Ler arquivos CSV e Excel*

In [None]:
titanic = pd.read_csv('/content/train.csv')

Selecionando as 10 primeiras linhas

In [None]:
titanic.head(10)

Uma verificação de como os pandas interpretaram cada um dos tipos de dados da coluna pode ser feita solicitando o atributo pandas: dtypes

In [None]:
titanic.dtypes

Para cada uma das colunas, o tipo de dados usado é listado. Os tipos de dados nestes são inteiros, floats e strings.
Interessado em um resumo técnico dos dados?

In [None]:
titanic.info()

As informações do método info() fornecem informações técnicas sobre um Dataframe, então vamos explicar a saída com mais detalhes:
É realmente um DataFrame.
São 891 inscrições, ou seja, 891 linhas.
Cada linha tem um rótulo de linha com valores que variam de 0 a 890 (index)
O Dataframe tem 12 colunas. A maioria das colunas tem um valor para cada uma das linhas (todos os valores de 891 são ). Algumas colunas têm valores perdidos e menos de 891 valo

*Criando Subconjunto*

In [None]:
ages = titanic["Age"]
ages.head()

Para selecionar uma única coluna, usamos os colchetes com o nome da coluna de interesse.
Cada coluna em um Dataframe é uma série. A medida que uma única coluna é selecionada, o objeto retornado é uma série Pandas. Podemos verificar testando o tipo

In [None]:
type((titanic["Age"]))

In [None]:
#Vamos ver o shape deste conjunto de dados
titanic["Age"].shape

O shape é um atributo que retorna o número de linhas e colunas. Nosso conjunto tem apenas 1-dimensão, logo retorna apenas o número de linhas.
Seria interessante analisar a idade e o sexo dos passageiros

In [None]:
age_sex = titanic[["Age", "Sex"]]
age_sex.head()

 Para múltiplas seleções, use uma lista de colunas entre as chaves.
 Os colchetes internos definem uma lista Python com os nomes das colunas, enquantos os colchetes externos são usados para selecionar os dados de um Pandas como visto nos exemplos anteriores.
Vamos verificar o tipo e o shape deste novo subconjunto?

In [None]:
type(titanic[["Age", "Sex"]])

In [None]:
titanic[["Age", "Sex"]].shape

Agora nosso conjunto retorna um Dataframe. Possui 891 linhas e 2 colunas.
É possível filtrar os dados de uma coluna específica
E se quisermos retornar apenas os passageiros com mais de 39 anos 

In [None]:
above_39 = titanic[titanic["Age"] > 39]
above_39.head()

Para selecionar linhas com base em uma condição, use a condição entre os colchetes.
Em nosso exemplo, a condição era titanic["Age"] > 39 . Esta condição checa as colunas que atendem a condição. Vamos ver apenas a condição isoladamente.

In [None]:
#Verificando apenas a condição isoladamente
above_39.shape

In [None]:
#Verificar como ficou apenas nosso novo subconjunto
above_39.max()

In [None]:
titanic['Age'].min()

In [None]:
above_39.min()

In [None]:
#apenas passageiros 2 3 classe
class_23 = titanic[titanic["Pclass"].isin([2,3])]
class_23.head()

Semelhante as condições vistas anteriormente, o isin() retorna True a partir de uma lista informada entre os parênteses. Em nosso exemplo, filtramos Pclass e aplicamos uma lista pelo isin() para as classes 2 e 3.
O código acima é o equivalente a utilizar duas condições entre parênteses com o operador "ou"(or) ( | )

In [None]:
#Ver apenas os passageiros das classes 2 e 3
class_2_3 = titanic[(titanic['Pclass'] == 2) | (titanic['Pclass'] == 3)]
class_2_3.head()

E se quisermos selecionar apenas os dados aonde a idade do passageiro foi informada ❓

Incluindo o notna() retorna True apenas nos valores que não sejam nulos. Aplicamos esta condição dentro dos colchetes no Dataframe principal.
Vamos analisar nosso conjunto com os dados de idade informados.

In [None]:
#apenas passageiros com idade informada. Excluindo os nulos.
age_no_na = titanic[titanic["Age"].notna()]
age_no_na.head()

In [None]:
age_no_na.shape

Dados não informados são conhecidos como "MISSING DATA". Dependendo do projeto, exigirá um tratamento e não poderão simplesmente serem descartados como fizemos aqui.

Como selecionar linhas e colunas específicas ❓

Vamos filtrar um subconjunto apenas com o nome dos passageiros com mais de 30 anos

In [None]:
adult_names = titanic.loc[titanic["Age"] > 30, "Name"]
adult_names.head()

Neste caso, um subconjunto de linhas e colunas feito de uma só vez, usar apenas colchetes de seleção não é mais suficiente. Os operadores ('loc', 'iloc') são necessários em frente aoscolchetes. Ao usa-los, a parte antes da vírgula são as linhas desejadas (neste caso, aquelas aonde a idade está acima de 30) e a parte após a círgula são as colunas que você deseja selecionar.
Vamos filtrar mais especificamente agora. Vamos retornar a linha 10 a 25 e das colunas 3 até a 5.

In [None]:
titanic.iloc[9:25, 2:5]

Novamente, um subconjunto linhas e colunas feito de uma só vez, apenas usar colchetes não é mais suficiente. Quando estiver especificamente interessado em determinadas linhas e/ou colunas com base em sua posição na tabela, use o operador iloc em frente aos colchetes.
A principal diferença entre o loc[] e o iloc[] está na forma de montar a busca.
Ao usar o loc[] espera-se o rótulo do dado(nome). Já no iloc[] é a posição da linha ou coluna (índice).
Ao selecionar linhas e/ou colunas específicas, usando por exemplo o iloc[], novos valores podem ser atribuídos. Olha neste exemplo, aonde iremos selecionar as três primeiras linhas e vamos atribuir um nome a coluna 3('name').

In [None]:
titanic.iloc[0:3, 3] = 'Blue'
titanic.head()

In [None]:
#buscar a idade maxima e o nome.
titanic[titanic['Age'].max() == titanic['Age']]

In [None]:
titanic.loc[631,'PassengerId']

In [None]:
fig, axs = plt.subplots(figsize=(12, 4))        # Metodo que define e salva as medidas
air_quality.plot.area(ax=axs)                   # Plotar o gráfico usando a medida salva anteriormente
axs.set_ylabel("NO$_2$ concentration")          #Customizando o eixo Y 
fig.savefig("no2_concentrations.png")           # Salvando o gráfico

# **Selecionar Valor Unico**

In [None]:
lista1 = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
dfl = pd.DataFrame(lista1,
                  index=['lin1', 'lin2', 'lin3'],
                  columns=['col1', 'col2', 'col3'])
dfl

In [None]:
#primeira forma de buscar o item
dfl['col2']['lin2']

In [None]:
#segunda forma de buscar o item, e pode usar para substituir valores
dfl.at['lin2', 'col2'] = 6
dfl

In [None]:
# i antes das funções indica que esta buscando por um numero.
dfl.iat[1, 1]

# **LOC ILOC**

# **DICIONARIO**



In [None]:
dic = {'primeiro':'Ana', 'segundo':'Marcos', 'terceiro':'Natalia'}

In [None]:
for i in dic:
  print(i, end=' ')
  print(dic[i])
  for j in dic[i]:
    print(j)
  print('-='*30)

In [None]:
dic2 = {'um':1, 'dois':2, 'tres':3}

In [None]:
for chave,valor in dic2.items():
  print(chave)
  print(valor)
  if(chave == 'estoque'):
    for j in valor:
      dic[chave]