<a href="https://colab.research.google.com/github/dijkstra001/py-for-data/blob/main/py_for_data_case03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Utilização de Python para Análise de Dados: Caso prático - 03**

---

O conteúdo apresentado a seguir tem como objetivo criar cenários práticos e de uso geral onde a linguagem Python pode nos auxiliar de forma rápida e simples na análise de dados.

Esse material tem como objetivo ensinar algumas práticas para facilitar a análise de dados, não focando em técnicas complexas e de uso exclusivo para determinada situação.

O conteúdo tem como base o Livro **Python para Análise de Dados** (Wes McKinney, NOVATEC).

### **Realizando operações com dicionários de dados e arquivos de texto (txt) e utilização de list comprehension:**

Continuando nosso tratamento com dados, nesse tópico vamos avançar na análise de dados utilizando um arquivo txt. Esse arquivo pode ser baixado no seu computador local ou utilizado via Google Drive. A forma de leitura e conexão para ambos os casos serão apresentados nesse notebook.

No arquivo **(case03_dataset.txt)**, temos dados de estados, país, habitantes e pib (fictício), apenas para podermos trabalhar com algumas funcionalidades novas. **Obs:** não foram inseridas informações distorcidas ou fora do padrão.


In [1]:
from statistics import mean
# Para leitura direto no Google Drive, certifique-se de apontar o local do seu arquivo txt
from google.colab import drive
drive.mount('/content/drive')
path = '/content/drive/MyDrive/py-for-data/datasets/case03_dataset.txt'

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [2]:
# Para a leitura direto do seu computador, basta passar o path do arquivo na sua máquina. A função permanecerá a mesma.
def ler_arquivo(path: str):
  arquivo = []

  with open(path, 'r') as documento:
    for linha in documento:
      arquivo.append(linha)
  
  return arquivo

for observacao in ler_arquivo(path):
  print(observacao)

estado;pais;habitantes;pib;

Santa Catarina;Brasil;300000;1.5;

São Paulo;Brasil;160000;1.5;

Bahia;Brasil;890000;1.4;

Rio de Janeiro;Brasil;1250000;1.4;

Mato Grosso;Brasil;620000;1.5;

Alagoas;Brasil;250000;1.1;

Paraná;Brasil;500000;1.5;



### **Realizando o tratamento dos dados:**

Com base nessas informações, podemos identificar que nossos dados não estão em um modelo adequado. Vamos transformar nosso arquivo txt em um dicionário em Python. Em um dicionário Python temos dois itens: Chave e valor. A chave precisa ser um identificador único, com o objetivo de diferenciar os valores correspondentes a ela. Já os valores podem ser de vários tipos, até mesmo outros dicionários.

In [3]:
def ler_arquivo(path: str):
  arquivo = []
  linha = 1

  with open(path, 'r') as documento:
    for linha in documento:
      info = linha.split(';')

      arquivo.append({'estado': info[0], 'pais': info[1], 'habitantes': info[2],
                      'pib': info[3]})
  
  arquivo.pop(0)
  return arquivo

dataset = ler_arquivo(path)

for observacao in dataset:
  print(observacao)

{'estado': 'Santa Catarina', 'pais': 'Brasil', 'habitantes': '300000', 'pib': '1.5'}
{'estado': 'São Paulo', 'pais': 'Brasil', 'habitantes': '160000', 'pib': '1.5'}
{'estado': 'Bahia', 'pais': 'Brasil', 'habitantes': '890000', 'pib': '1.4'}
{'estado': 'Rio de Janeiro', 'pais': 'Brasil', 'habitantes': '1250000', 'pib': '1.4'}
{'estado': 'Mato Grosso', 'pais': 'Brasil', 'habitantes': '620000', 'pib': '1.5'}
{'estado': 'Alagoas', 'pais': 'Brasil', 'habitantes': '250000', 'pib': '1.1'}
{'estado': 'Paraná', 'pais': 'Brasil', 'habitantes': '500000', 'pib': '1.5'}


### **Realizando operações com os dados:**
Com os dados organizados, podemos realizar operações de modo mais simples e rápido. Vamos realizar o cálculo:

1 - da média do PIB dos estados.

2 - total de habitantes e a sua média.

3 - quantidade de estados na base de dados.

In [4]:
# 1 - média do PIB dos Estados
total = 0

for observacao in dataset:
  total += float(observacao['pib'])

print(f'Média: {round(total / len(dataset), 2)}')


Média: 1.41


In [5]:
# 2 - total de habitantes e sua média
total = 0

for observacao in dataset:
  total += int(observacao['habitantes'])

print(f'Total: {total}')
print(f'Média: {round(total / len(dataset), 2)}')

Total: 3970000
Média: 567142.86


In [6]:
# 3 - quantidade de estados
estados = set()

for observacao in dataset:
  estados.add(observacao['estado'])

print(f'Estados: {sorted(estados)}')
print(f'Quantidade: {len(estados)}')

Estados: ['Alagoas', 'Bahia', 'Mato Grosso', 'Paraná', 'Rio de Janeiro', 'Santa Catarina', 'São Paulo']
Quantidade: 7


**Pronto!** Com mais essa prática, conseguimos aplicar um pouco mais dos conhecimentos de análise de dados em Python. Com o uso de dicionários, conseguimos mapear nossos dados de forma mais simples, além de possibilitar operações com outros tipos de dados (como listas e sets).