<a href="https://colab.research.google.com/github/dijkstra001/py-for-data/blob/main/py_for_data_case02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Utilização de Python para Análise de Dados: Caso prático - 02**

---

O conteúdo apresentado a seguir tem como objetivo criar cenários práticos e de uso geral onde a linguagem Python pode nos auxiliar de forma rápida e simples na análise de dados.

Esse material tem como objetivo ensinar algumas práticas para facilitar a análise de dados, não focando em técnicas complexas e de uso exclusivo para determinada situação.

O conteúdo tem como base o Livro **Python para Análise de Dados** (Wes McKinney, NOVATEC).

### **Realizando operações com listas de dados:**

Um tipo de dado muito utilizado em Python (em relação a análise de dados) são listas. Nelas, temos uma grande quantidade de informações que podem ser de tipos variados. Quando você tem um dataset (um conjunto de dados), cada coluna pode ser representada por uma lista. Vamos abordar tratamentos em dataset em casos posteriores, envolvendo outras complexidades durante esse processo.

Nesse caso prático, vamos utilizar as listas abaixo como exemplo. Com base nelas, vamos realizar algumas práticas de exploração de dados, assim como algumas operações de acordo com o tipo de dado.

lista_1 = [9.5, 10.0, 8.5, 8.0, 7.5, 4.5, 6.8, 10.0]

lista_2 = [8.5, 9.0, 5.5, 8.0, 4.5, 4.5, 8.8, 10.0]

lista_3 = ['Maria', 'Jose', 'Carlos', 'Marcia', 'Joana', 'Leticia', 'Carolina', 'Joana']

lista_4 = ['Maria', 'Joao', 'Carlos', 'Cristiano', 'Joana', 'Bruna', 'Carolina', 'Fernando']

**1. Realizar o agrupamento das listas:**

As listas 1 e 2 são compostas por valores numéricos (float) e as listas 3 e 4 por valores do tipo string (str). Podemos realizar o agrupamento dessas listas para apenas 2 grandes listas.

In [1]:
lista_1 = [9.5, 10.0, 8.5, 8.0, 7.5, 4.5, 6.8, 10.0]

lista_2 = [8.5, 9.0, 5.5, 8.0, 4.5, 4.5, 8.8, 10.0]

lista_3 = ['Maria', 'Jose', 'Carlos', 'Marcia', 'Joana', 'Leticia', 'Carolina', 'Joana']

lista_4 = ['Maria', 'Joao', 'Carlos', 'Cristiano', 'Joana', 'Bruna', 'Carolina', 'Fernando']

In [2]:
# verificando o tipo de dado:
tipo_de_dado = []

for i in lista_1:
  tipo_de_dado.append(type(i))

print(f'Tipo de dado na lista 1: {list(set(tipo_de_dado))}')
tipo_de_dado.clear()

for i in lista_2:
  tipo_de_dado.append(type(i))

print(f'Tipo de dado na lista 2: {list(set(tipo_de_dado))}')
tipo_de_dado.clear()

for i in lista_3:
  tipo_de_dado.append(type(i))

print(f'Tipo de dado na lista 3: {list(set(tipo_de_dado))}')
tipo_de_dado.clear()

for i in lista_4:
  tipo_de_dado.append(type(i))

print(f'Tipo de dado na lista 4: {list(set(tipo_de_dado))}')
tipo_de_dado.clear()


Tipo de dado na lista 1: [<class 'float'>]
Tipo de dado na lista 2: [<class 'float'>]
Tipo de dado na lista 3: [<class 'str'>]
Tipo de dado na lista 4: [<class 'str'>]


In [3]:
# realizando o agrupamento:
lista_numeros = lista_1 + lista_2
lista_strings = lista_3 + lista_4

print(f'Lista de números: {lista_numeros}')
print(f'Lista de strings: {lista_strings}')


Lista de números: [9.5, 10.0, 8.5, 8.0, 7.5, 4.5, 6.8, 10.0, 8.5, 9.0, 5.5, 8.0, 4.5, 4.5, 8.8, 10.0]
Lista de strings: ['Maria', 'Jose', 'Carlos', 'Marcia', 'Joana', 'Leticia', 'Carolina', 'Joana', 'Maria', 'Joao', 'Carlos', 'Cristiano', 'Joana', 'Bruna', 'Carolina', 'Fernando']


**2. Para a lista de variáveis numéricas, encontrar os valores min., máx., desvio-padrão, média, quantidade e soma total dos elementos da lista.**

In [4]:
from statistics import mean
from statistics import stdev

minimo = min(lista_numeros)
maximo = max(lista_numeros)
desvio = round(stdev(lista_numeros), 2)
media = round(mean(lista_numeros), 2)
quantidade = len(lista_numeros)
total = sum(lista_numeros)
print(f'Mínimo: {minimo}\nMáximo: {maximo}\nDesvio-padrão: {desvio}\nMédia: {media}\nQuantidade de elementos: {quantidade}\nTotal: {total}')

Mínimo: 4.5
Máximo: 10.0
Desvio-padrão: 2.0
Média: 7.72
Quantidade de elementos: 16
Total: 123.6


**3. Para a lista de variáveis do tipo string, encontrar a contagem total de elementos, variável mais frequente, iniciais das variáveis e maior variável da lista.**

In [5]:
# total de elementos:
total_elementos = len(lista_strings)
print(f'Total de elementos: {total_elementos}')

# valor mais frequente:
valores_unicos = set(lista_strings)
contagem = 0
frequente = ''
frequencia = 0

for elemento in valores_unicos:
  contagem = lista_strings.count(elemento)
  
  if frequencia < contagem:
    frequencia = contagem
    frequente = elemento

print(f'Frequência: {frequencia}, mais frequente: {frequente}')

# capturando as iniciais (valores únicos):
variaveis = set(lista_strings)
iniciais = []

for i in variaveis:
  iniciais.append(i[0])

print(f'Iniciais das variáveis: {sorted(set(iniciais))}')

# maior variável no conjunto de dados:
variaveis = set(lista_strings)
tamanho = 0
temp = 0
variavel = ''

for var in variaveis:
  temp = len(var)

  if tamanho < temp:
    tamanho = temp
    variavel = var

print(f'Maior variável: {variavel}, tamanho: {tamanho}')

Total de elementos: 16
Frequência: 3, mais frequente: Joana
Iniciais das variáveis: ['B', 'C', 'F', 'J', 'L', 'M']
Maior variável: Cristiano, tamanho: 9


**Pronto!** Finalizado nosso primeiro desafio. Como sugestão, podemos adaptar nosso código para tratamento de exceções, além de tentar converter os números do tipo str (string).