### Pacotes utilizados

In [1]:
import pandas as pd

# Manipulação de Dados

## 1. Manipulação básica
---
**Dataset Utilizado:** Reclamações no site Consumidor.gov, download em https://dados.mj.gov.br/dataset/reclamacoes-do-consumidor-gov-br
O dataset em questão contém as reclamações mensais dos consumidores a alguma empresa que atua no brasil.

A base contém informações como ['Gestor', 'Canal de Origem', 'Região', 'UF', 'Cidade', 'Sexo', 'Faixa Etária', 'Data Abertura', 'Nome Fantasia', 'Assunto', 'Nota do Consumir']

---
### 1.1 Importando a base de dados
Para carregar um arquivo no formato csv, basta utilizar a função ```read_csv()```

In [2]:
df_data = pd.read_csv('./Base de dados/ConsumidorGov.csv',sep = ';')

#### 1.1.1 Exibindo linhas do Data Frame

Para mostrar o dado carregado, basta executar a variavel criada contendo o Data Frame ```df_data```. No meu caso buscarei apenas as 5 primeiras linhas do df da seguinte forma:

In [3]:
df_data.head(5)

Unnamed: 0,Gestor,Canal de Origem,Região,UF,Cidade,Sexo,Faixa Etária,Ano Abertura,Mês Abertura,Data Abertura,...,Assunto,Grupo Problema,Problema,Como Comprou Contratou,Procurou Empresa,Respondida,Situação,Avaliação Reclamação,Nota do Consumidor,Análise da Recusa
0,Secretaria Nacional do Consumidor,Plataforma Web,NE,AL,Maceió,F,entre 61 a 70 anos,2024,10,01/10/2024,...,Atendimento Bancário,Atendimento / SAC,Descumprimento do estatuto do idoso,Telefone,S,S,Finalizada avaliada,Resolvida,5.0,
1,Secretaria Nacional do Consumidor,Plataforma Web,NE,AL,Maceió,F,entre 61 a 70 anos,2024,10,01/10/2024,...,Atendimento Bancário,Atendimento / SAC,Descumprimento do estatuto do idoso,Telefone,S,S,Finalizada avaliada,Resolvida,5.0,
2,Secretaria de Justiça e Direitos Humanos - Sec...,Plataforma Web,NE,PE,Olinda,F,entre 41 a 50 anos,2024,10,01/10/2024,...,Aplicativo de mobilidade urbana,Cobrança / Contestação,Cobrança por serviço não fornecido/ em desacor...,Internet,S,S,Finalizada avaliada,Não Resolvida,1.0,
3,Superintendência de Proteção e Defesa do Consu...,Plataforma Web,NE,BA,Salvador,M,entre 21 a 30 anos,2024,10,01/10/2024,...,Cartão de Crédito / Cartão de Débito / Cartão ...,Informação,Informações incompletas / inadequadas sobre o ...,Internet,S,S,Finalizada avaliada,Resolvida,5.0,
4,Fundação de Proteção e Defesa do Consumidor,Plataforma Web,SE,SP,Guarujá,M,entre 51 a 60 anos,2024,10,01/10/2024,...,Água e Esgoto,Atendimento / SAC,Má qualidade no atendimento (descortesia / des...,Loja física,S,S,Finalizada avaliada,Resolvida,3.0,


#### 1.1.2 Exibindo informações sobre o Data Frame

In [4]:
df_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 105018 entries, 0 to 105017
Data columns (total 30 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   Gestor                  105018 non-null  object 
 1   Canal de Origem         105018 non-null  object 
 2   Região                  105018 non-null  object 
 3   UF                      105018 non-null  object 
 4   Cidade                  105018 non-null  object 
 5   Sexo                    105016 non-null  object 
 6   Faixa Etária            105018 non-null  object 
 7   Ano Abertura            105018 non-null  int64  
 8   Mês Abertura            105018 non-null  int64  
 9   Data Abertura           105018 non-null  object 
 10  Data Resposta           88536 non-null   object 
 11  Data Análise            15265 non-null   object 
 12  Data Recusa             16481 non-null   object 
 13  Data Finalização        105018 non-null  object 
 14  Prazo Resposta      

O Atributo `columns` retorna uma lista com todas as colunas do Data Frame

In [5]:
df_data.columns

Index(['Gestor', 'Canal de Origem', 'Região', 'UF', 'Cidade', 'Sexo',
       'Faixa Etária', 'Ano Abertura', 'Mês Abertura', 'Data Abertura',
       'Data Resposta', 'Data Análise', 'Data Recusa', 'Data Finalização',
       'Prazo Resposta', 'Prazo Analise Gestor', 'Tempo Resposta',
       'Nome Fantasia', 'Segmento de Mercado', 'Área', 'Assunto',
       'Grupo Problema', 'Problema', 'Como Comprou Contratou',
       'Procurou Empresa', 'Respondida', 'Situação', 'Avaliação Reclamação',
       'Nota do Consumidor', 'Análise da Recusa'],
      dtype='object')

---
### 1.2 Criando um Data Frame (df)
O que é um **Data Frame**? Um data frame é uma estrutura de dados utilizada em linguagens de programação como R e Python para armazenar e manipular dados tabulares, bidimensionais, ou seja, organizados em linhas e colunas.

O dataset carregado na variável ```df_data``` é do tipo Data Frame e isso pode ser confirmado pela função `type()`:

In [6]:
type(df_data)

pandas.core.frame.DataFrame

Para acessar as dimensões do Data Frame (Número de linhas x Número de colunas) utilizamos o atributo `shape` do Data Frame.

In [7]:
df_data.shape

(105018, 30)

In [8]:
print(f'O Data Frame possui {df_data.shape[0]} linhas/observações/registros e {df_data.shape[1]} colunas/atributos')

O Data Frame possui 105018 linhas/observações/registros e 30 colunas/atributos


#### 1.2.1 Criando um Data Frame a partir de um dicionário
Podemos criar um Data Frame utilizando um dicionário, dessa forma, cada chave possuirá uma lista de elementos de igual tamanho.

In [9]:
alunos_df = pd.DataFrame({
    'nome' : ['Lucas', 'Andressa', 'Bruno'],
    'idade' : [30,28,35],
    'peso' : [72,58,120]
})

In [10]:
print(f'O Data Frame alunos_df possui {alunos_df.shape[0]} linhas/observações/registros e {alunos_df.shape[1]} colunas/atributos')

O Data Frame alunos_df possui 3 linhas/observações/registros e 3 colunas/atributos


In [11]:
alunos_df

Unnamed: 0,nome,idade,peso
0,Lucas,30,72
1,Andressa,28,58
2,Bruno,35,120


Para renomear colunas do Data Frame, utilize o método `DataFrame.Rename`, que retorna uma cópia do Data Frame com as colunas alteradas

In [12]:
alunos_df_renomeado = alunos_df.rename(columns={
    'nome' : 'primeiro nome', #Renomeando a coluna 'nome' para 'primeiro nome'
    'peso' : 'peso (kg)' #Renomeando a coluna 'peso' para 'peso (kg)'
})

In [13]:
alunos_df_renomeado #Alterado

Unnamed: 0,primeiro nome,idade,peso (kg)
0,Lucas,30,72
1,Andressa,28,58
2,Bruno,35,120


In [14]:
alunos_df #Não alterado

Unnamed: 0,nome,idade,peso
0,Lucas,30,72
1,Andressa,28,58
2,Bruno,35,120


Para renomear o próprio Data Frame já carregado na memória, sem a necessidade da criação de uma cópia, utilize o parâmetro `inplace = True`

In [15]:
alunos_df.rename(columns={
    'nome' : 'primeiro nome', #Renomeando a coluna 'nome' para 'primeiro nome'
    'peso' : 'peso (kg)' #Renomeando a coluna 'peso' para 'peso (kg)'
},inplace=True)

In [16]:
alunos_df

Unnamed: 0,primeiro nome,idade,peso (kg)
0,Lucas,30,72
1,Andressa,28,58
2,Bruno,35,120


Para renomear todas as colunas de uma vez basta passar uma lista com os novos nomes para o atribuo `DataFrame.columns`

In [17]:
alunos_df.columns = ['PRIMEIRO NOME','IDADE','PESO (KG)']

In [18]:
alunos_df

Unnamed: 0,PRIMEIRO NOME,IDADE,PESO (KG)
0,Lucas,30,72
1,Andressa,28,58
2,Bruno,35,120


---
### 1.3 Criando uma Series
O que é uma **Series**? Uma Series é uma estrutura de dados unidimensional com os dados e rótulos em apenas um eixo

Para Recuperar/Selecionar uma **COLUNA** inteiro do DataFrame basta:

In [23]:
alunos_df['IDADE']

0    30
1    28
2    35
Name: IDADE, dtype: int64

ou

In [22]:
alunos_df.IDADE

0    30
1    28
2    35
Name: IDADE, dtype: int64

Qual tipo de dado é este? Podemos ver da seguinte forma:

In [24]:
type(alunos_df['IDADE'])

pandas.core.series.Series

Para Recuperar/Selecionar uma **LINHA** inteiro do DataFrame basta utilizar o atributo `iloc[n]`, da seguinte forma:

In [25]:
alunos_df.iloc[1]

PRIMEIRO NOME    Andressa
IDADE                  28
PESO (KG)              58
Name: 1, dtype: object

Estamos selecionando a linha com o index 1 no DataFrame `alunos_df`

Para criar uma nova Series a partir de uma lista de elementos (Sem a utilização de um DataFrame), basta utilizar o atributo `Series`

In [31]:
pd.Series([1,10,100,1000])

0       1
1      10
2     100
3    1000
dtype: int64

Para alterar o nome dos índices podemos utilizar o atributo `index`

In [28]:
pd.Series([1,10,100,1000], index=['um','dez','cem','mil'])

um        1
dez      10
cem     100
mil    1000
dtype: int64

Para alterar o nome da Series podemos utilizar o atributo `name`

In [30]:
pd.Series([1,10,100,1000], index=['um','dez','cem','mil'], name='Números')

um        1
dez      10
cem     100
mil    1000
Name: Números, dtype: int64