# **Aula 4** 

# **Pandas para análise de dados**

Nessa aula nós vamos trabalhar com a biblioteca Pandas.

Essa bilbioteca facilita o trabalho com dados não estruturados.

Além disso, permite a manipulação de dados de texto, com formato númerico, planilhas e arquivos de diversos formatos.

Pandas é a principal biblioteca para análise de dados do Python.

> Nesta aula nós vamos trabalhar com dados estruturados.

> Aprenderemos a criar, manipular, importar e salvar dados nos formatos (csv, xlsx, txt e de internet);

<img src='https://miro.medium.com/v2/resize:fit:720/0*kVETqwtYsQ8BFJDc.gif' alt='how to  a gif to your page' height='350px'>

## **Importando a biblioteca Pandas**

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

### Como transformar objetos de uma lista num DataFrame Pandas?

##### _Exemplo para a transformação de dados num **dataframe**:_

```
dados = {
  "coluna_um" :   ["dado_1", "dado_2", "dado_n"],
  "coluna_dois" : ["valor_1", "valor_2", "valor_n"]
  }

df = pd.DataFrame(dados)

df
```

## **Parte 1)**
## **Criar e Salvar um DataFrame**

##### **Hands on!**

In [None]:
dados = {
  "coluna_um" : ["dado_1", "dado_2", "dado_n"],
  "coluna_dois" : ["valor_1", "valor_2", "valor_n"]
  }

#### **Os Dados**

>No exemplo, os nossos dados serão os votos dos ministros do STF proferidos no julgamento da ADI-4439, de 2010, que analisou a constitucionalidade do ensino religioso confessional em escolas públicas brasileiras.

>A controvérsia, iniciada nos anos 1930, foi reativada em 2010 pela PGR, estimulando o debate jurídico, assim como o público, sobre a laicidade das escolas mantidas pelo Estado. O estopim foi a assinatura de um Acordo entre Brasil e Santa Sé em 2008.

> Na Audiência Pública realizada em 2015, o Tribunal, por meio do ministro Roberto Barroso, ouviu a posição de trinta e dois representantes religiosos e seculares. A maioria dos oradores posiciou-se contra a confessionalidade do ensino religioso.

> A decisão dos ministros do STF, no entanto, legitimou o ensino religioso confessional nas escolas. Detalhes podem ser vistos neste [artigo](https://www.researchgate.net/publication/338844101_Religiao_e_laicidade_no_STF_as_figuracoes_do_secular_no_debate_brasileiro_sobre_o_ensino_religioso_publico).

##### _Importando o Pandas_

In [None]:
import pandas as pd

##### _Criando uma lista_

In [None]:
dados2 = {

    'ministros' : ['Moraes','Tofoli','Mendes','Carmen','Barroso','Levandowsky','Fux','Fachin','Marco Aurélio','Celso de Melo','Weber'],
    'votos_dummie' : [1,1,1,1,0,1,0,1,0,0,0],
    'votos_categorias' : ['sim','sim','sim','sim','não','sim','não','sim','não','não','não'],
    'genero_ministros' : ['M','M','M','F','M','M','M','M','M','M','F']
    
    }

##### _Tipo da base de dados_

In [None]:
print(f"Os dados estão no formato: {type(dados2)}")

##### _Visualização dos dados_

In [None]:
dados2

##### _Transformando o dicionário num DataFrame_

In [None]:
df2 = pd.DataFrame()

##### _Tipo da estrutura de dados_

In [None]:
print(f"Os DataFrame está no formato: {type()}")

##### _Informações sobre a estrutura de dados_

In [None]:
df2.info()

##### _O que é um DataFrame Pandas?_



In [None]:
df2

#### **Agora, vamos salvar o DataFrame no Colab?**

In [None]:
## Montar o Google Drive
from google.colab import drive
drive.mount('/content/gdrive')

In [None]:
## importação do Pandas
import pandas as pd

## criação de uma estrutura de dados com formato de dicionário
dados = {
    'ministros' : ['Moraes','Tofoli','Mendes','Carmen','Barroso','Levandowsky','Fux','Fachin','Marco Aurélio','Celso de Melo','Weber'],
    'votos_num' : [1,1,1,1,0,1,0,1,0,0,0],
    'votos_cat' : ['sim','sim','sim','sim','não','sim','não','sim','não','não','não'],
    'gênero' : ['M','M','M','F','M','M','M','M','M','M','F']
    }

## transformação do dicionário num dataframe pandas
df2 = pd.DataFrame(dados)

## impreção do dataframe
df2

## Na aba esquerda do Colab, encontre a pasta onde salvou o conteúdo da oficina.
### Abra a pasta da Aula 4
### Clique com o botão esquerdo do mouse, e selecione a opção "copiar caminho"

## salvando o dataframe nos formatos xlsx, csv, txt
## xlsx
df2.to_excel('dados_min.xlsx')
## csv
df2.to_csv('dados_min.csv',sep=';', encoding='utf-8-sig')
## txt
df2.to_csv('dados_min.txt',encoding='utf-8-sig')

## **Parte 2**
## **Importação de tabelas**

##### _Importação de arquivos do Colab_

In [None]:
## CSV
dadosMinCSV = pd.read_csv('dados_min.csv',sep=';', encoding='utf-8-sig',)

In [None]:
## XLSX
dadosMinXLSX = pd.read_excel('dados_min.xlsx')

In [None]:
## TXT
dadosMinTXT = pd.read_csv('dados_min.csv',sep=';', encoding='utf-8-sig')

##### _Importação de aquivos da Internet_

Usaremos os Dados Abertos do Instituto Chico Mendes [aqui]('https://www.gov.br/icmbio/pt-br/acesso-a-informacao/dados-abertos')

In [None]:
import pandas as pd
desmatamento = pd.read_csv('')

## **Parte 3** 
## **Conhecendo o DataFrame**

In [None]:
# Metodo head() imprime as 5 linhas iniciais do dataframe.
desmatamento.head()

In [None]:
# O parâmetro index_col informa a coluna qual o dataframe será indexado
desmatamento = pd.read_csv('https://www.gov.br/icmbio/pt-br/acesso-a-informacao/dados-abertos/arquivos/desmatamento-em-unidades-de-conservacao-federais/desmatamento_ucs_atualizado_2021.csv/@@download/file', encoding='windows-1252', sep=';', index_col='uc')

In [None]:
# Metodo head() imprime as 5 linhas iniciais do dataframe.
# Metodo tail() imprime as 5 ultimas linhas.
desmatamento.head()

In [None]:
# O parâmetro usecols informa a(s) coluna(s) que você irá selecionar do dataset
desmatamento = pd.read_csv('https://www.gov.br/icmbio/pt-br/acesso-a-informacao/dados-abertos/arquivos/desmatamento-em-unidades-de-conservacao-federais/desmatamento_ucs_atualizado_2021.csv/@@download/file', usecols=['cnuc', 'biocgfun', 'prodes', '2021', '2020'], encoding='windows-1252', sep=';')

In [None]:
# Atributo columns retorna o nome das colunas do dataframe.
desmatamento.columns

In [None]:
# Método count() retorna a quantidade de linhas de todas as colunas.
desmatamento.count()

In [None]:
# Método describe() exibe informações estatísticas da base de dados. 
# Várias informações como desvio padrão, média, valor mínimo e valor máximo de colunas.
desmatamento.describe()

In [None]:
# Imprime uma amostra aleatória do dataset.
desmatamento.sample(5)

In [None]:
# Retorna em formato de tupla a quantidade de linhas e colunas do dataset.
desmatamento.shape

In [None]:
# Imprime informações sobre colunas e uso de memória.
desmatamento.info()

In [None]:
# Visualizando dados de uma ou mais colunas.
desmatamento['biocgfun']

In [None]:
# Ver a distribuicao da coluna com o método value_counts().
desmatamento['biocgfun'].value_counts()

In [None]:
# Ver a distribuicao da coluna em % com o método value_counts().
desmatamento['biocgfun'].value_counts(normalize=True).mul(100).round(2)

## **Parte 4**
## **Percorrendo linhas de um dataset**

In [None]:
## Importando a base de dados do facebook, contida pasta do curso, dentro da subpasta "Base de Dados"
## A função "nrows" pode ser usada para inspecionar bigdata. Basta indicar o número de linhas que quer importar.
#!pip install openpyxl
fb = pd.read_excel('X:/(fgv 2023) workshop python para classificação de textos/workshop-python-para-classificacao-textual/Bases de dados/banco_facebook_campanha_2022.xlsx',nrows=5)

In [None]:
fb.head(2)

In [None]:
## Percorrendo linha de um dataset
for item in fb['message'][0:10]:
    print(item)

In [None]:
fb.shape

In [None]:
# Consultando linhas com valores faltantes.
fb.isnull().sum()/29221*100

In [None]:
#Com este comando removemos todas as linhas onde tenha pela menos um registro faltante em algum atributo.
newfb = fb.dropna(inplace=True)

In [None]:
#preenche com 9999 os values null da coluna bedrooms
fb['message'].fillna(9999, inplace=True)

## **Parte 5**
## **Visualizando os dados**

In [None]:
# Plota em um gŕafico de barras mostrando que partido mais atuou nas redes sociais
fb['partido'].value_counts().plot(kind='barh')

In [None]:
# Plota em gráfico de dispersão com o numero de shares e o número de likes de deputados do PL
## cria uma base de dados somente de deputados do PL
dataPL = fb[fb['partido']=="PL"]
## plota gráfico de dispersão para a base
dataPL.plot(x='n_likes',y='shares_count',kind='scatter', title='Impacto digital de deputados do PL nas eleições 2022 \n',color='r')

In [None]:
# Plota em gráfico de dispersão com o numero de shares e o número de likes de deputados do PL
dataPL.plot(x='n_likes',y='shares_count',kind='scatter', title='Impacto digital de deputados do PL nas eleições 2022 \n',color='y')