# Conhecendo a base de dados

## Importando os dados


In [None]:
import pandas as pd

In [None]:
url = '../files/aluguel.csv'
#pd.read_csv(url)
#ler csv e armazenar em um df
dados = pd.read_csv(url, sep=';')
dados

In [None]:
#primeiras 10 linhas
dados.head(10)

In [None]:
#ultimas linhas
dados.tail()

In [None]:
#verificando que é uma variavel do type dataframe
type(dados)

## Características gerais da base de dados

In [None]:
#quantidade de linhas e colunas
dados.shape

In [None]:
#verificando quais colunas existem
dados.columns

In [None]:
#verificando qual tipagem dos dados
dados.info()

In [None]:
#trazendo apenas uma coluna do dataframe
dados['Tipo']

In [None]:
#trazedo duas colunas 
dados[['Quartos', 'Valor']]

# Análise exploratória de dados

## Qual o valor médio de aluguel por tipo de imóvel?

In [None]:
dados.head()

In [None]:
#media do campo valor
dados['Valor'].mean()

In [None]:
#agrupando por tipo e sumando apenas valores numericos
dados.groupby('Tipo').mean(numeric_only=True)

In [None]:
#agrupand por tipo e somando apenas valor
dados.groupby('Tipo')['Valor'].mean()

In [None]:
#agrupando tipo, somando valores e ordenando do maior para menor
dados.groupby('Tipo')[['Valor']].mean().sort_values('Valor',ascending=0)

In [None]:
#guardando informações em outra df
df_preco_tipo = dados.groupby('Tipo')[['Valor']].mean().sort_values('Valor')

#plotando grafico de barras
df_preco_tipo.plot(kind='barh', figsize=(14, 10), color ='purple');

## Removendo os imóveis comerciais

In [None]:
#verificamos os tipos de imoveis 
dados.Tipo.unique()

In [None]:
#criando uma lista com os tipos comerciais que não serão usados
imoveis_comerciais = ['Conjunto Comercial/Sala', 
                      'Prédio Inteiro', 'Loja/Salão', 
                      'Galpão/Depósito/Armazém', 
                      'Casa Comercial', 'Terreno Padrão',
                      'Loja Shopping/ Ct Comercial',
                      'Box/Garagem', 'Chácara',
                      'Loteamento/Condomínio', 'Sítio',
                      'Pousada/Chalé', 'Hotel', 'Indústria']


In [None]:
#validando query
dados.query('@imoveis_comerciais in Tipo')

In [None]:
#validando query
dados.query('@imoveis_comerciais not in Tipo')

In [None]:
#criando df com imoveis que serão usados para nnalise
df = dados.query('@imoveis_comerciais not in Tipo')
df.head()

In [None]:
#verificando os tipos de imoveis que ficaram
df.Tipo.unique()

In [None]:
#agrupando tipo dos imoveis residenciais por valor
df_preco_tipo = df.groupby('Tipo')[['Valor']].mean().sort_values('Valor')

#protando grafico
df_preco_tipo.plot(kind='barh', figsize=(14, 10), color ='purple');

## Qual o percentual de cada tipo de imóvel na nossa base de dados?

In [None]:
df.Tipo.unique()

In [None]:
#verificando discrepancia dos valores distribuidos
df.Tipo.value_counts(normalize=True)

In [None]:
#transformando em data frame
df.Tipo.value_counts(normalize=True).to_frame().sort_values('Tipo')

In [None]:
#guardando distribuição dos imoveis por tipo em uma nova df
df_percentual_tipo = df.Tipo.value_counts(normalize=True).to_frame().sort_values('Tipo')

#platando grafico
df_percentual_tipo.plot(kind='bar', figsize=(14, 10), color ='green',
                        xlabel = 'Tipos', ylabel = 'Percentual');

### **Selecionando apenas os imóveis do tipo apartamento**

In [None]:
#selecionando apenas apartamentos
df.query('Tipo == "Apartamento"')

In [None]:
#criando df
df = df.query('Tipo == "Apartamento"')
df.head()

# Tratando e filtrando os dados

## Lidando com dados nulos

In [None]:
#validação de todas  colunas 
df.isnull()

In [None]:
#somando nulos por tipo
df.isnull().sum()

In [None]:
#transformndo nulo em 0
df.fillna(0)

In [None]:
#atribuindo a df
df = df.fillna(0)

In [None]:
#validando tratamento de nulos
df.isnull().sum()

## Removendo registros

In [None]:
#removendo valores zerados
df.query('Valor == 0 | Condominio == 0')

In [None]:
#criando uma serie para pegar os registros que serão excluidos
df.query('Valor == 0 | Condominio == 0').index

In [None]:
#atribuidos a df
registros_a_remover = df.query('Valor == 0 | Condominio == 0').index

In [None]:
#deletando direto na df
df.drop(registros_a_remover, axis=0, inplace=True)

In [None]:
#validando
df.query('Valor == 0 | Condominio == 0')

In [None]:
df.head()

In [None]:
#tipo ficou  com um unico valor
df.Tipo.unique()

In [None]:
#exclui coluna
df.drop('Tipo', axis=1, inplace=True)

In [None]:
df.head()

## Filtros

### **1. Apartamentos que possuem `1 quarto` e `aluguel menor que 1200`**



In [None]:
df['Quartos'] == 1

In [None]:
selecao1 = df['Quartos'] == 1
df[selecao1]

In [None]:
selecao2 = df['Valor'] < 1200
df[selecao2]

In [None]:
selecao_final = (selecao1) & (selecao2)
df[selecao_final]

In [None]:
df_1 = df[selecao_final]

### **2. `Apartamentos` que possuem pelo menos `2 quartos`, `aluguel menor que 3000` e `area maior que 70`**

In [None]:
selecao = (df['Quartos'] >= 2) & (df['Valor'] < 3000) & (df['Area'] > 70)
df[selecao]

In [None]:
df_2 = df[selecao]

## Salvando os dados

In [None]:
df.to_csv('../files/dados_apartamentos.csv')

In [None]:
#salvou com coluna index
pd.read_csv('../files/dados_apartamentos.csv')

In [None]:
#salvou sem coluna index
df.to_csv('../files/dados_apartamentos.csv', index=False)

In [None]:
pd.read_csv('../files/dados_apartamentos.csv')

In [None]:
df.to_csv('../files/dados_apartamentos.csv', index=False, sep=';')

In [None]:
pd.read_csv('../files/dados_apartamentos.csv')

In [None]:
pd.read_csv('../files/dados_apartamentos.csv', sep=';')

# Manipulando os dados

## Criando colunas numéricas

In [None]:
##url = '../files/aluguel.csv'
##dados = pd.read_csv(url, sep=';')
##dados.head()
dados.head()

In [None]:
dados['Valor_por_mes'] = dados['Valor'] + dados['Condominio']
dados.head()

In [None]:
dados['Valor_por_ano'] = dados['Valor_por_mes'] * 12 + dados['IPTU']
dados.head()

## Criando colunas categóricas

In [None]:
dados['Descricao'] = 'Ap em ' + dados['Bairro']
dados.head()

In [None]:
dados['Descricao'] = 'AP em ' + dados['Bairro'] + ' com '  + \
                     dados['Quartos'].astype(str) + ' quarto(s) '  + \
                     ' e '  + dados['Vagas'].astype(str) + ' vaga(s) de garagem.'
dados.head()

In [None]:
dados['Possui_suite'] = dados['Suites'].apply(lambda x: "Sim" if x > 0 else "Não")
dados.head()

In [None]:
dados.to_csv('../files/dados_completos_dev.csv', index=False, sep=';')


# Manipulando dados com CSV, EXCEL, HTML, XML E SQLITE

## **Aula 1 - Fazendo leitura de arquivos CSV**

Dados:
- https://github.com/alura-cursos/Pandas/blob/main/superstore_data.csv
- https://github.com/alura-cursos/Pandas/blob/main/superstore_data_ponto_virgula.csv

### **Lendo arquivos CSV**

In [None]:
import pandas as pd

In [None]:
url = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/superstore_data.csv'

In [None]:
dados = pd.read_csv(url)

In [None]:
dados.head()

In [None]:
url_2 = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/superstore_data_ponto_virgula.csv'

In [None]:
dados_ponto_virgula = pd.read_csv(url_2)

In [None]:
dados_ponto_virgula.head()

### **Parâmetros da função read_csv**
Documentação: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

In [None]:
dados_ponto_virgula = pd.read_csv(url_2, sep = ';')

In [None]:
dados_ponto_virgula

In [None]:
dados_primeiras_linhas = pd.read_csv(url,nrows=5)
dados_primeiras_linhas

In [None]:
dados_selecao = pd.read_csv(url, usecols=['Id', 'Year_Birth', 'Income'])
dados_selecao

In [None]:
dados_selecao = pd.read_csv(url, usecols=[0,1,4])
dados_selecao

### **Escrevendo arquivos CSV**

Documentação: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html

In [None]:
dados_selecao.to_csv('clientes_mercado.csv')

In [None]:
clientes_mercado = pd.read_csv('/content/clientes_mercado.csv')
clientes_mercado

In [None]:
dados_selecao.to_csv('dados_mercado.csv', index=False)

In [None]:
dados_mercado = pd.read_csv('/content/dados_mercado.csv')
dados_mercado

## **Aula 2 - Utilizando planilhas**

Dados: https://github.com/alura-cursos/Pandas/blob/main/emissoes_CO2.xlsx

### **Lendo arquivos Excel**

In [None]:
import pandas as pd

In [None]:
url = 'https://github.com/alura-cursos/Pandas/blob/main/emissoes_CO2.xlsx?raw=True'

In [None]:
dados_co2 = pd.read_excel(url)

In [None]:
dados_co2.head()

In [None]:
pd.ExcelFile(url).sheet_names

### **Parâmetros da função read_excel**

Documentação: https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html

In [None]:
percapita = pd.read_excel(url, sheet_name='emissoes_percapita')

In [None]:
percapita.head()

In [None]:
fontes = pd.read_excel(url, sheet_name='fontes')

In [None]:
fontes.head()

In [None]:
intervalo = pd.read_excel(url, sheet_name='emissoes_C02', usecols= 'A:D')

In [None]:
intervalo

In [None]:
intervalo_2 = pd.read_excel(url, sheet_name='emissoes_C02', usecols= 'A:D', nrows=10)

In [None]:
intervalo_2

### **Escrevendo arquivos Excel**

In [None]:
percapita.to_excel('co2_percapita.xlsx', index=False)

In [None]:
pd.read_excel('/content/co2_percapita.xlsx')

### **Lendo dados do Google Planilhas**

link da planilha: https://docs.google.com/spreadsheets/d/1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog/edit?usp=sharing

In [None]:
sheet_id = '1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog'
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet'

In [None]:
dados_co2_sheets = pd.read_csv(url)

In [None]:
dados_co2_sheets

In [None]:
sheet_id = '1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog'
sheet_name = 'emissoes_percapita'
url_percapita = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [None]:
percapita_sheets = pd.read_csv(url_percapita)

In [None]:
percapita_sheets.head()

In [None]:
sheet_id = '1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog'
sheet_name = 'fontes'
url_fontes = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [None]:
fontes_sheets = pd.read_csv(url_fontes)

In [None]:
fontes_sheets.head()

## **Aula 3 - Manipulando arquivos JSON**

Dados:
- https://github.com/alura-cursos/Pandas/blob/main/pacientes.json
- https://github.com/alura-cursos/Pandas/blob/main/pacientes_2.json

### **Lendo arquivos JSON**

In [None]:
import pandas as pd

In [None]:
dados_pacientes = pd.read_json('/content/pacientes.json')

In [None]:
dados_pacientes

In [None]:
dados_pacientes_2 = pd.read_json('/content/pacientes_2.json')

In [None]:
dados_pacientes_2

### **Normalizando arquivos JSON**

In [None]:
df_normalizado = pd.json_normalize(dados_pacientes_2['Pacientes'])

In [None]:
df_normalizado

### **Escrevendo arquivos JSON**

In [None]:
df_normalizado.to_json('historico_pacientes_norm.json')

In [None]:
pd.read_json('/content/historico_pacientes_norm.json')

## **Aula 4 - Lendo dados em HTML e XML**

Dados: https://github.com/alura-cursos/Pandas/blob/main/filmes_wikipedia.html

### **Lendo páginas web**

In [None]:
import pandas as pd

In [None]:
dados_html = pd.read_html('/content/filmes_wikipedia.html')

In [None]:
dados_html

In [None]:
type(dados_html)

In [None]:
len(dados_html)

In [None]:
top_filmes = dados_html[1]

In [None]:
top_filmes

### **Escrevendo arquivos HTML**

In [None]:
top_filmes.to_html('top_filmes.html')

In [None]:
pd.read_html('/content/top_filmes.html')

In [None]:
top_filmes.to_csv('top_filmes_1998', index=False)

In [None]:
dados = pd.read_csv('/content/top_filmes_1998')
dados.head()

### **Lendo/escrevendo arquivos XML**
Dados: https://github.com/alura-cursos/Pandas/blob/main/imdb_top_1000.xml


In [None]:
import pandas as pd

In [None]:
dados_imdb = pd.read_xml('/content/imdb_top_1000.xml')

In [None]:
dados_imdb.head(3)

In [None]:
dados_imdb.to_xml('filmes_imdb.xml')

## **Aula 5 - Trabalhando com banco de dados**

Dados: https://github.com/vqrca/Pandas/blob/main/clientes_banco.csv

### **Criando um banco de dados local**

In [None]:
import sqlalchemy

In [None]:
from sqlalchemy import create_engine, MetaData, Table, inspect

In [None]:
engine = create_engine('sqlite:///:memory:')

### **Escrevendo em um banco de dados**

In [None]:
import pandas as pd

In [None]:
url = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/clientes_banco.csv'

In [None]:
dados = pd.read_csv(url)

In [None]:
dados.head()

In [None]:
dados.to_sql('clientes', engine, index=False)

In [None]:
inspector = inspect(engine)

In [None]:
print(inspector.get_table_names())

### **Lendo uma consulta SQL**

In [None]:
query = 'SELECT * FROM clientes WHERE Categoria_de_renda = "Empregado"'

In [None]:
empregados = pd.read_sql(query, engine)

In [None]:
empregados

In [None]:
empregados.to_sql('empregados', con=engine, index=False)

In [None]:
pd.read_sql_table('empregados', engine)

In [None]:
pd.read_sql_table('empregados', engine, columns=['ID_Cliente', 'Grau_escolaridade',
                                                 'Rendimento_anual'])

### **Atualizando um banco de dados**

In [None]:
query = 'SELECT * FROM clientes'

In [None]:
pd.read_sql(query, engine)

Para atualizar os dados da tabela, precisamos fazer a seguinte importação:

In [None]:
from sqlalchemy import text

Depois disso, para fazer as atualizações, vamos implementar o seguinte código:




In [None]:
query = 'DELETE FROM clientes WHERE ID_Cliente=5008804'
with engine.connect() as conn:
    result = conn.execute(text(query))
    conn.commit()

> O código estabelece uma conexão com um banco de dados usando SQLAlchemy e executa uma consulta SQL definida na variável query. Dentro do bloco `with`, que garante o fechamento automático da conexão após a execução do bloco, a consulta é enviada ao banco de dados através do método `conn.execute(text(query))`, onde `text` é usado para assegurar que a string da consulta seja tratada como uma instrução SQL. Após a execução da consulta, `conn.commit()` é chamado para confirmar a transação, assegurando que as alterações realizadas pela consulta (como inserções, atualizações ou exclusões) sejam permanentemente aplicadas no banco de dados.

In [None]:
pd.read_sql_table('clientes', engine)

In [None]:
query = 'UPDATE clientes SET Grau_escolaridade="Ensino superior" WHERE ID_Cliente=5008808'
with engine.connect() as conn:
    result = conn.execute(text(query))
    conn.commit()

In [None]:
pd.read_sql_table('clientes', engine)

# *GASES - Seleção e agrupamento de dados com pandas*

## Fazendo a leitura dos dados

Vamos analisar dados de emissões de gases de efeito estufa no território brasileiro e criar tabelas e visualizações para entender os dados e gerar insights a partir deles. Os dados foram extraídos do SEEG.

---
ℹ Fonte: SEEG - Sistema de Estimativa de Emissões e Remoções de Gases de Efeito Estufa, Observatório do Clima, acessado em http://seeg.eco.br:

- [Download da base de dados](https://drive.google.com/file/d/1YdNX3Qf0sXHj8muyKra70evke_zkvO0g/view)
---

Primeiramente, vamos importar a biblioteca [`pandas`](https://pandas.pydata.org/docs/index.html) e os dados que serão utilizados. Como os dados estão em um arquivo excel, vamos usar a função [`read_excel()`](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html).

In [None]:
import pandas as pd

In [None]:
emissoes_gases = pd.read_excel('..\\files\\Dados nacionais v12.0.xlsx', sheet_name = 'Dados')

In [None]:
emissoes_gases

Vamos checar a estrutura do nosso DataFrame com o uso do método [`info()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html?highlight=info#pandas.DataFrame.info), que retorna a quantidade de linhas e colunas, bem como a informação de quantidade de dados nulos e tipos de dados para cada uma das colunas.

In [None]:
emissoes_gases.info()

## Ajustando a base de dados

Estamos interessados somente na emissão de gases gerados pelos estados que estejam no inventário nacional, portanto vamos identificar os tipos de dados únicos da coluna *Emissão / Remoção / Bunker*.

---
ℹ 
- *Remoções são dados referentes à retirada dos gases estufa, que é o contrário da emissão*
- *NCI são dados não contemplados no inventário nacional*
- *Bunkers são emissões de transporte marítimo e aéreo internacional, portanto não são emissões diretas dos estados.*

*Informação disponível no site do SEEG: https://seeg.eco.br/entenda-as-estimativas*

--- 

In [None]:
emissoes_gases['Emissão/Remoção/Bunker'].unique()

Vamos checar primeiro os dados de remoção, para identificar se todos eles são de retirada de gases estufa.

In [None]:
(emissoes_gases['Emissão/Remoção/Bunker'] == 'Remoção NCI') | (emissoes_gases['Emissão/Remoção/Bunker'] == 'Remoção')

In [None]:
emissoes_gases[emissoes_gases['Emissão/Remoção/Bunker'].isin(['Remoção NCI', 'Remoção'])]

In [None]:
emissoes_gases.loc[emissoes_gases['Emissão/Remoção/Bunker'].isin(['Remoção NCI', 'Remoção']), 1970:2023]

Para identificar se todos os valores são negativos, vamos utilizar a função `max()` para checar se tem algum valor maior do que 0.

In [None]:
emissoes_gases.loc[emissoes_gases['Emissão/Remoção/Bunker'].isin(['Remoção NCI', 'Remoção']), 1970:2023].max()

Vamos também identificar se algum valor do tipo *Bunker* corresponde a alguma emissão feita por algum estado.

In [None]:
emissoes_gases.loc[emissoes_gases['Emissão/Remoção/Bunker'] == 'Bunker', 'Estado'].unique()

In [None]:
emissoes_gases = emissoes_gases[emissoes_gases['Emissão/Remoção/Bunker'] == 'Emissão']
emissoes_gases

Como não restou nenhum valor útil para análise na coluna de *Emissão / Remoção / Bunker*, vamos removê-la por completo da base de dados.

In [None]:
emissoes_gases = emissoes_gases.drop(columns = 'Emissão/Remoção/Bunker')
emissoes_gases

## Modificando o formato do DataFrame

Para realizar as agregações nos dados de emissão, é necessário que a base de dados esteja em um formato adequado, com os valores de emissão todos em uma mesma coluna. Para isso, devemos modificar o formato da base de dados de forma que as colunas referentes a cada ano se tornem uma só coluna.

In [None]:
emissoes_gases.loc[:,'Gás':'Bioma'].columns

In [None]:
colunas_info = list(emissoes_gases.loc[:,'Gás':'Bioma'].columns)
colunas_info

In [None]:
emissoes_gases.loc[:,1970:2023].columns

In [None]:
colunas_emissao = list(emissoes_gases.loc[:,1970:2023].columns)
colunas_emissao

Para realizar a transformação do DataFrame, utilizamos o método [`melt()`](https://pandas.pydata.org/docs/reference/api/pandas.melt.html). Esse método tem o intuito de transformar um DataFrame de um formato amplo (*wide*) para o formato longo (*long*).

In [None]:
emissoes_gases.melt(id_vars = colunas_info, value_vars = colunas_emissao, var_name = 'Ano' , value_name = 'Emissão')

In [None]:
emissoes_por_ano = emissoes_gases.melt(id_vars = colunas_info, value_vars = colunas_emissao, var_name = 'Ano' , value_name = 'Emissão')

## Análise dos gases

Vamos fazer uma análise agora da quantidade de emissão **total** por tipo de gás. Para isso, vamos realizar um agrupamento dos dados com a função [`groupby()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html).


In [None]:
emissoes_por_ano.groupby('Gás')

Podemos checar quais dados foram agrupados em cada grupo com uso do atributo [`groups`](https://pandas.pydata.org/docs/reference/api/pandas.core.groupby.GroupBy.groups.html) e realizar seleções de grupos específicos com o método [`get_group()`](https://pandas.pydata.org/docs/reference/api/pandas.core.groupby.GroupBy.get_group.html).

In [None]:
emissoes_por_ano.groupby('Gás').groups

In [None]:
emissoes_por_ano.groupby('Gás').get_group('CO2 (t)')

Os métodos de agregação possíveis com a utilização do `groupby()`são os seguintes:
- `count()` para realizar contagem
- `sum()` para soma
- `mean()` para a média
- `median()` para a mediana
- `min()` para o valor mínimo
- `max()` para o valor máximo
- `std()` para o desvio-padrão
- `var()` para a variância

In [None]:
emissoes_por_ano.groupby('Gás').sum()

In [None]:
emissao_por_gas = emissoes_por_ano.groupby('Gás').sum().sort_values('Emissão', ascending = False)
emissao_por_gas

In [None]:
emissao_por_gas.plot(kind = 'barh', figsize = (10,6));

In [None]:
emissao_por_gas.iloc[0:9]

In [None]:
print(f'A emissão de CO2 corresponde a {float(emissao_por_gas.iloc[0:9].sum()/emissao_por_gas.sum())*100:.2f} % de emissão total de gases estufa no Brasil de 1970 a 2021.')

## Emissão de gases por setor

Agora vamos em busca de duas informações:

- Descobrir quais são os setores mais poluentes para cada gás;
- Descobrir quais são os gases mais poluentes para cada setor.

In [None]:
gas_por_setor = emissoes_por_ano.groupby(['Gás', 'Setor de emissão']).sum()
gas_por_setor

Para descobrir o setor que emite a maior quantidade de CO2, podemos realizar uma seleção específica do gás CO2 com o uso do método *cross-section* [`xs()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.xs.html), extraindo a partir disso o valor máximo e índice máximo com os métodos [`max()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.max.html) e [`idxmax()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.idxmax.html?highlight=idxmax#pandas.DataFrame.idxmax).

In [None]:
gas_por_setor.xs('CO2 (t)', level = 0)

In [None]:
gas_por_setor.xs(('CO2 (t)', 'Mudança de Uso da Terra e Floresta'), level = [0,1])

In [None]:
gas_por_setor.xs('CO2 (t)', level = 0).max()

In [None]:
gas_por_setor.xs('CO2 (t)', level = 0).idxmax()

Para evitar uma forma manual para cada tipo de gás, podemos explorar ainda mais o método `groupby()` em conjunto com o [`idxmax()`](https://pandas.pydata.org/docs/reference/api/pandas.core.groupby.DataFrameGroupBy.idxmax.html?highlight=idxmax#pandas.core.groupby.DataFrameGroupBy.idxmax).

In [None]:
gas_por_setor.groupby(level = 0).idxmax()

Por fim, podemos criar uma tabela sumarizada com as informações dos valores máximos de emissão para cada tipo de gás e com a referência do setor com maior emissão de cada gás.

In [None]:
gas_por_setor.groupby(level = 0).max()

In [None]:
valores_max = gas_por_setor.groupby(level = 0).max().values

In [None]:
tabela_sumarizada = gas_por_setor.groupby(level = 0).idxmax()
tabela_sumarizada.insert(1, 'Quantidade de emissão', valores_max)
tabela_sumarizada

Podemos alterar a ordem dos níveis de índice para encontrar a outra informação, que nos diz qual o gás mais emitido para cada tipo de setor. Para isso, vamos utilizar o método [`swaplevel()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.swaplevel.html).

In [None]:
gas_por_setor.swaplevel(0, 1)

In [None]:
gas_por_setor.swaplevel(0, 1).groupby(level = 0).idxmax()

## Emissão ao longo dos anos

Vamos identificar se as emissões de gases estufas aumentaram ou diminuíram ao longo dos anos e visualizar essa variação para cada tipo de gás emitido separadamente.

In [None]:
emissoes_por_ano

In [None]:
emissoes_por_ano.groupby('Ano').mean().plot(figsize = (10,6));

In [None]:
emissoes_por_ano.groupby('Ano').mean().idxmax()

In [None]:
emissoes_por_ano.groupby(['Ano', 'Gás']).mean()

In [None]:
media_emissao_anual = emissoes_por_ano.groupby(['Ano', 'Gás']).mean().reset_index()
media_emissao_anual

In [None]:
media_emissao_anual = media_emissao_anual.pivot_table(index = 'Ano', columns = 'Gás', values = 'Emissão')
media_emissao_anual

In [None]:
media_emissao_anual.plot(subplots = True, figsize = (10,40));

## População dos estados

Vamos realizar a importação de uma nova base de dados com a informação da população de cada estado do Brasil, para posteriormente encontrarmos a emissão per capita de cada estado.

ℹ
Os dados foram obtidos através do [censo do IBGE](https://www.ibge.gov.br/estatisticas/sociais/saude/22827-censo-demografico-2022.html?=&t=resultados)

In [None]:
populacao_estados = pd.read_excel('/content/drive/MyDrive/Alura/dados/POP2022_Municipios.xls', header = 1, skipfooter = 34)
populacao_estados

Como as informações são referentes aos municípios, vamos realizar uma agregação com base na coluna estado.

In [None]:
populacao_estados.groupby('UF').sum()

Percebemos que a informação da população não foi agregada, portanto será necessário algum tratamento nessa coluna para retornar devidamente os dados.

In [None]:
# populacao_estados['POPULAÇÃO'].astype(int)

In [None]:
populacao_estados[populacao_estados['POPULAÇÃO'].str.contains('\(', na = False)]

In [None]:
populacao_estados = populacao_estados.assign(populacao_sem_parenteses = populacao_estados['POPULAÇÃO'].replace('\(\d{1,2}\)', '', regex = True),
                                             populacao = lambda x: x.loc[:,'populacao_sem_parenteses'].replace('\.', '', regex = True))

In [None]:
populacao_estados[populacao_estados['POPULAÇÃO'].str.contains('\(', na = False)]

In [None]:
populacao_estados.loc[:,'populacao'] = populacao_estados['populacao'].astype(int)

In [None]:
populacao_estados = populacao_estados.groupby('UF').sum()['populacao'].reset_index()
populacao_estados

## Unindo os dados

Com as informações tratadas, podemos realizar a junção dos dados de emissão com a população, com uso do método [`merge()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html).

In [None]:
emissao_estados = emissoes_por_ano[emissoes_por_ano['Ano'] == 2021].groupby('Estado').sum().reset_index()
emissao_estados

In [None]:
dados_agrupados = pd.merge(emissao_estados, populacao_estados, left_on = 'Estado', right_on = 'UF')
dados_agrupados

Vamos verificar se há algum indício de se a emissão aumenta conforme o tamanho da população.

In [None]:
dados_agrupados.plot(x = 'populacao', y= 'Emissão', kind = 'scatter', figsize=(8,6));

Se quisermos saber a informação de cada estado nos pontos do gráfico, podemos utilizar uma outra biblioteca para obter um gráfico mais elaborado.

In [None]:
#importar
import plotly.express as px

In [None]:
px.scatter(data_frame = dados_agrupados, x = 'populacao', y = 'Emissão', text = 'Estado', opacity = 0)

Para obtermos a emissão per capita, criaremos uma nova coluna com a divisão dos valores de emissão pela população de cada estado.

In [None]:
dados_agrupados = dados_agrupados.assign(emissao_per_capita = dados_agrupados['Emissão']/dados_agrupados['populacao']).sort_values('emissao_per_capita', ascending = False)
dados_agrupados

In [None]:
px.bar(data_frame = dados_agrupados, x = 'Estado', y = 'emissao_per_capita')

# Transformação e Manipulação - Hospedagem Imoveis

## Exercicos com pandas para normalização, tratamento de tipos de dados, regex, e lambda

In [None]:
import pandas as pd

In [None]:
dados = pd.read_json('/content/dados_hospedagem.json')
dados.head()

In [None]:
dados = pd.json_normalize(dados['info_moveis'])
dados

In [None]:
colunas = list(dados.columns)
colunas

In [None]:
dados = dados.explode(colunas[3:])
dados

In [None]:
dados.reset_index(inplace = True,drop=True)
dados.head()

In [None]:
dados.info()

In [None]:
import numpy as np

In [None]:
dados['max_hospedes']=dados['max_hospedes'].astype(np.int64)

In [None]:
dados.info()

In [None]:
col_numericas = ['quantidade_banheiros','quantidade_quartos','quantidade_camas'] 

In [None]:
dados[col_numericas] = dados[col_numericas].astype(np.int64)

In [None]:
dados['avaliacao_geral'] = dados['avaliacao_geral'].astype(np.float64)

In [None]:
dados.info()

In [None]:
dados['preco'] = dados['preco'].apply(lambda x: x.replace('$','').replace(',','').strip())

In [None]:
dados['preco'] = dados['preco'].astype(np.float64)

In [None]:
dados.info()

In [None]:
dados[['taxa_deposito','taxa_limpeza']] = dados[['taxa_deposito','taxa_limpeza']].applymap(lambda x: x.replace('$','').replace(',','').strip())

In [None]:
dados[['taxa_deposito','taxa_limpeza']] = dados[['taxa_deposito','taxa_limpeza']].astype(np.float64)

In [None]:
dados.info()

In [None]:
dados['descricao_local'] = dados['descricao_local'].str.lower()

In [None]:
dados.head()

In [None]:
dados['descricao_local'][3169]

In [None]:
dados['descricao_local'] = dados['descricao_local'].str.replace('[^a-zA-Z0-9\-\']',' ',regex=True)

In [None]:
dados['descricao_local'] = dados['descricao_local'].str.replace('(?<!\w)-(?!\w)',' ',regex=True)

In [None]:
dados['descricao_local'] = dados['descricao_local'].str.split()
dados.head()

In [None]:
dados['comodidades'] = dados['comodidades'].str.replace('\{|}|\"','',regex=True)

In [None]:
dados['comodidades'] = dados['comodidades'].str.split(',')
dados.head()

In [None]:
dt_data = pd.read_json('/content/moveis_disponiveis.json')
dt_data.head()

In [None]:
dt_data.info()

In [None]:
dt_data['data'] = pd.to_datetime(dt_data['data'])

In [None]:
dt_data.info()

In [None]:
dt_data.head()

In [None]:
dt_data['data'].dt.strftime('%Y-%m')

In [None]:
subset = dt_data.groupby(dt_data['data'].dt.strftime('%Y-%m'))['vaga_disponivel'].sum()
subset

# Tratamento churn - Telecon

In [None]:
import pandas as pd

dados_churn = pd.read_json("../files/telecon.json")
dados_churn

In [None]:
dados_churn['conta'][0]

In [None]:
pd.json_normalize(dados_churn['conta']).head()

In [9]:
import json
with open ('../files/telecon.json') as f:
    json_bruto = json.load(f)

In [None]:
json_bruto

In [12]:
dados_normalizados = pd.json_normalize(json_bruto,sep="_")
dados_normalizados.head()

Unnamed: 0,id_cliente,Churn,cliente_genero,cliente_idoso,cliente_parceiro,cliente_dependentes,cliente_tempo_servico,telefone_servico_telefone,telefone_varias_linhas,internet_servico_internet,...,internet_backup_online,internet_protecao_dispositivo,internet_suporte_tecnico,internet_tv_streaming,internet_filmes_streaming,conta_contrato,conta_faturamente_eletronico,conta_metodo_pagamento,conta_cobranca_mensal,conta_cobranca_Total
0,0002-ORFBO,nao,feminino,0,sim,sim,9.0,sim,nao,DSL,...,sim,nao,sim,sim,nao,,,,,
1,0003-MKNFE,nao,masculino,0,nao,nao,9.0,sim,sim,DSL,...,nao,nao,nao,nao,sim,mes a mes,nao,cheque pelo correio,59.9,542.4
2,0004-TLHLJ,sim,masculino,0,nao,nao,4.0,sim,nao,fibra otica,...,nao,sim,nao,nao,nao,mes a mes,sim,cheque eletronico,73.9,280.85
3,0011-IGKFF,sim,masculino,1,sim,nao,13.0,sim,nao,fibra otica,...,sim,sim,nao,sim,sim,mes a mes,sim,cheque eletronico,98.0,1237.85
4,0013-EXCHZ,sim,feminino,1,sim,nao,3.0,sim,nao,fibra otica,...,nao,nao,sim,sim,nao,mes a mes,sim,cheque pelo correio,83.9,267.4


In [13]:
dados_normalizados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7344 entries, 0 to 7343
Data columns (total 21 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   id_cliente                     7344 non-null   object 
 1   Churn                          7344 non-null   object 
 2   cliente_genero                 7344 non-null   object 
 3   cliente_idoso                  7344 non-null   int64  
 4   cliente_parceiro               7344 non-null   object 
 5   cliente_dependentes            7344 non-null   object 
 6   cliente_tempo_servico          7336 non-null   float64
 7   telefone_servico_telefone      7344 non-null   object 
 8   telefone_varias_linhas         7344 non-null   object 
 9   internet_servico_internet      7344 non-null   object 
 10  internet_seguranca_online      7344 non-null   object 
 11  internet_backup_online         7344 non-null   object 
 12  internet_protecao_dispositivo  7344 non-null   o

## Dicionário dos dados:

- Cliente
1) genero: gênero (masculino e feminino)
2) idoso: informação sobre um(a) cliente ter ou não idade igual ou maior que 65 anos
3) parceiro: se o(a) cliente possui ou não um(a) parceiro ou parceira
4) dependentes: se o(a) cliente possui ou não dependentes
5) tempo_servico: meses de contrato do(a) cliente

- Serviço de telefonia
1) servico_telefone: assinatura de serviço telefônico
2) varias_linhas: assinatura de mais de uma linha de telefone

- Serviço de internet

1) servico_internet: assinatura de um provedor internet
2) seguranca_online: assinatura adicional de segurança online
3) backup_online: assinatura adicional de backup online
4) protecao_dispositivo: assinatura adicional de proteção no dispositivo
5) suporte_tecnico: assinatura adicional de suporte técnico, menos tempo de espera
6) tv_streaming: assinatura de TV a cabo
7) filmes_streaming: assinatura de streaming de filmes

- Conta
1) contrato: tipo de contrato
2) faturamente_eletronico: se o(a) cliente prefere receber a fatura online
3) metodo_pagamento: forma de pagamento
4) cobranca.mensal: total de todos os serviços do(a) cliente por mês
5) cobranca.Total: total gasto pelo(a) cliente

In [16]:
#dados_normalizados['conta_cobranca_Total'] = dados_normalizados['conta_cobranca_Total'].astype(float)

dados_normalizados[dados_normalizados['conta_cobranca_Total'] == ' '].head()

Unnamed: 0,id_cliente,Churn,cliente_genero,cliente_idoso,cliente_parceiro,cliente_dependentes,cliente_tempo_servico,telefone_servico_telefone,telefone_varias_linhas,internet_servico_internet,...,internet_backup_online,internet_protecao_dispositivo,internet_suporte_tecnico,internet_tv_streaming,internet_filmes_streaming,conta_contrato,conta_faturamente_eletronico,conta_metodo_pagamento,conta_cobranca_mensal,conta_cobranca_Total
975,1371-DWPAZ,nao,feminino,0,sim,sim,0.0,nao,sem servico de telefone,DSL,...,sim,sim,sim,sim,nao,dois anos,nao,cartao de credito (automatico),56.05,
1775,2520-SGTTA,nao,feminino,0,sim,sim,0.0,sim,nao,nao,...,sem servico de internet,sem servico de internet,sem servico de internet,sem servico de internet,sem servico de internet,dois anos,nao,cheque pelo correio,20.0,
1955,2775-SEFEE,nao,masculino,0,nao,sim,0.0,sim,sim,DSL,...,sim,nao,sim,nao,nao,dois anos,sim,transferencia bancaria (automatica),61.9,
2075,2923-ARZLG,nao,masculino,0,sim,sim,0.0,sim,nao,nao,...,sem servico de internet,sem servico de internet,sem servico de internet,sem servico de internet,sem servico de internet,dois anos,sim,cheque pelo correio,19.7,
2232,3115-CZMZD,nao,masculino,0,nao,sim,0.0,sim,nao,nao,...,sem servico de internet,sem servico de internet,sem servico de internet,sem servico de internet,sem servico de internet,dois anos,nao,cheque pelo correio,20.25,


In [23]:
dados_normalizados[dados_normalizados['conta_cobranca_Total'] == ' '][['cliente_tempo_servico','conta_contrato','conta_cobranca_mensal','conta_cobranca_Total'
    ]]

Unnamed: 0,cliente_tempo_servico,conta_contrato,conta_cobranca_mensal,conta_cobranca_Total
975,0.0,dois anos,56.05,
1775,0.0,dois anos,20.0,
1955,0.0,dois anos,61.9,
2075,0.0,dois anos,19.7,
2232,0.0,dois anos,20.25,
2308,0.0,dois anos,25.35,
2930,0.0,dois anos,73.35,
3134,0.0,dois anos,25.75,
3203,0.0,dois anos,52.55,
4169,0.0,dois anos,80.85,


In [25]:
dados_normalizados[dados_normalizados['conta_cobranca_Total'] == ' '].index

Index([975, 1775, 1955, 2075, 2232, 2308, 2930, 3134, 3203, 4169, 5599], dtype='int64')

In [26]:
idx = dados_normalizados[dados_normalizados['conta_cobranca_Total'] == ' '].index

In [27]:
dados_normalizados.loc[idx, "conta_cobranca_Total"] = dados_normalizados.loc[idx, "conta_cobranca_mensal"] * 24

In [46]:
dados_normalizados.loc[idx, "cliente_tempo_servico"] = 24

In [47]:
dados_normalizados.loc[idx][['cliente_tempo_servico','conta_contrato','conta_cobranca_mensal','conta_cobranca_Total']]


Unnamed: 0,cliente_tempo_servico,conta_contrato,conta_cobranca_mensal,conta_cobranca_Total
975,24.0,dois anos,56.05,1345.2
1775,24.0,dois anos,20.0,480.0
1955,24.0,dois anos,61.9,1485.6
2075,24.0,dois anos,19.7,472.8
2232,24.0,dois anos,20.25,486.0
2308,24.0,dois anos,25.35,608.4
2930,24.0,dois anos,73.35,1760.4
3134,24.0,dois anos,25.75,618.0
3203,24.0,dois anos,52.55,1261.2
4169,24.0,dois anos,80.85,1940.4


In [50]:
dados_normalizados['conta_cobranca_Total'] = dados_normalizados['conta_cobranca_Total'].astype(float)

In [54]:
dados_normalizados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7344 entries, 0 to 7343
Data columns (total 22 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   id_cliente                     7344 non-null   object 
 1   Churn                          7344 non-null   object 
 2   cliente_genero                 7344 non-null   object 
 3   cliente_idoso                  7344 non-null   int64  
 4   cliente_parceiro               7344 non-null   object 
 5   cliente_dependentes            7344 non-null   object 
 6   cliente_tempo_servico          7336 non-null   float64
 7   telefone_servico_telefone      7344 non-null   object 
 8   telefone_varias_linhas         7344 non-null   object 
 9   internet_servico_internet      7344 non-null   object 
 10  internet_seguranca_online      7344 non-null   object 
 11  internet_backup_online         7344 non-null   object 
 12  internet_protecao_dispositivo  7344 non-null   o

In [57]:
dados_normalizados.drop(['cliente_tempo_serviço'],axis=1)

Unnamed: 0,id_cliente,Churn,cliente_genero,cliente_idoso,cliente_parceiro,cliente_dependentes,cliente_tempo_servico,telefone_servico_telefone,telefone_varias_linhas,internet_servico_internet,...,internet_backup_online,internet_protecao_dispositivo,internet_suporte_tecnico,internet_tv_streaming,internet_filmes_streaming,conta_contrato,conta_faturamente_eletronico,conta_metodo_pagamento,conta_cobranca_mensal,conta_cobranca_Total
0,0002-ORFBO,nao,feminino,0,sim,sim,9.0,sim,nao,DSL,...,sim,nao,sim,sim,nao,,,,,
1,0003-MKNFE,nao,masculino,0,nao,nao,9.0,sim,sim,DSL,...,nao,nao,nao,nao,sim,mes a mes,nao,cheque pelo correio,59.90,542.40
2,0004-TLHLJ,sim,masculino,0,nao,nao,4.0,sim,nao,fibra otica,...,nao,sim,nao,nao,nao,mes a mes,sim,cheque eletronico,73.90,280.85
3,0011-IGKFF,sim,masculino,1,sim,nao,13.0,sim,nao,fibra otica,...,sim,sim,nao,sim,sim,mes a mes,sim,cheque eletronico,98.00,1237.85
4,0013-EXCHZ,sim,feminino,1,sim,nao,3.0,sim,nao,fibra otica,...,nao,nao,sim,sim,nao,mes a mes,sim,cheque pelo correio,83.90,267.40
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7339,5172-RKOCB,nao,masculino,0,sim,nao,72.0,sim,sim,fibra otica,...,sim,nao,sim,sim,sim,dois anos,sim,cartao de credito (automatico),108.95,7875.00
7340,1934-MKPXS,nao,masculino,0,sim,sim,33.0,sim,nao,nao,...,sem servico de internet,sem servico de internet,sem servico de internet,sem servico de internet,sem servico de internet,um ano,nao,cartao de credito (automatico),20.10,620.55
7341,5959-BELXA,sim,masculino,1,nao,nao,32.0,sim,sim,fibra otica,...,nao,nao,nao,sim,sim,mes a mes,sim,cartao de credito (automatico),96.15,3019.25
7342,3601-UTZXO,,masculino,0,sim,sim,41.0,sim,nao,nao,...,sem servico de internet,sem servico de internet,sem servico de internet,sem servico de internet,sem servico de internet,um ano,nao,transferencia bancaria (automatica),19.50,798.20
