<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Fundamentos de Matemática
Caderno de **Exercícios**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Vetorização;</li>
  <li>Arrays Numpy;</li>
  <li>Operações.</li>
</ol>

---

# **Exercícios**

## 1\. Tráfego de São Paulo

Neste exercício, vamos analisar dados de mobilidade urbana da cidade de São Paulo. A base de dados está neste [link](https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/traffic.csv) e é uma copia do dado original, presente neste [link](https://archive.ics.uci.edu/ml/datasets/Behavior+of+the+urban+traffic+of+the+city+of+Sao+Paulo+in+Brazil). A base de dados contem a quantidade de acidentes ocorridos na cidade entre 14/12/09 e 18/12/09, das 07:00h ás 20:00h, agregados em intervalos de 30 minutos.

In [1]:
!wget -q "https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/traffic.csv" -O traffic.csv

In [2]:
import pandas as pd

In [3]:
df = pd.read_csv('traffic.csv', sep=';')

In [9]:
df.head(20)

Unnamed: 0,hour,bus_stoped,broken_truck,vehicle_excess,accident_victim,running_over,fire_vehicles,occurrence_freight,incident__dangerous_freight,lack_electricity,fire,flooding,manifestations,defect_trolleybuses,tree_road,semaphore_off,intermittent_emaphore,slowness_traffic_%
0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,41
1,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,66
2,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,87
3,4,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,92
4,5,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,111
5,6,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,109
6,7,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,83
7,8,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,82
8,9,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,76
9,10,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,64


- **Exemplo**:

O código abaixo extrai a 13ª linha do arquivo que representa a 14ª meia hora do dia 14/12/09, contadas a partir das 07:00h, ou seja, todos os incidentes ocorridos na cidade no dia em questão entre as 13:30h e 14:00h. Vemos, por exemplo, que dois ônibus e dois caminhões ficaram paradados nas ruas da cidade, atrapalhando o tráfego.

In [5]:
df.iloc[[13]]

Unnamed: 0,hour,bus_stoped,broken_truck,vehicle_excess,accident_victim,running_over,fire_vehicles,occurrence_freight,incident__dangerous_freight,lack_electricity,fire,flooding,manifestations,defect_trolleybuses,tree_road,semaphore_off,intermittent_emaphore,slowness_traffic_%
13,14,2,2,0,1,0,0,0,0,0,0,0,0,0,0,0,0,49


### **1.1. Nativo**

Neste primeira atividade, você deve ler o código abaixo implementado em Python nativo e responder a seguinte pergunta:

> O que o código abaixo computa?

**Resposta**:  O código abaixo realiza a leitura dos dados de tráfego a partir do arquivo "traffic.csv". Cada entrada no arquivo representa um intervalo de 30 minutos, o que significa que 27 entradas constituem um dia completo de coleta de dados (equivalente a 13,5 horas).

A coleta de dados começou no dia 14, e o código agrupa as entradas em intervalos diários, somando o número total de incidentes para cada dia. Dessa forma, ele calcula a soma de incidentes por dia ao longo do período de observação.

In [6]:
# -- read

data = None

with open(file='traffic.csv', mode='r', encoding='utf8') as fp:

  fp.readline()
  data = fp.read()

# -- analytics

day = 14
incidents = 0
incident_by_day = dict()

for timebox in data.split(sep='\n'):

  timebox_data = timebox.split(sep=';')

  # --
  # -- inicio da computação escalar
  # --

  for incident in timebox_data[1: len(timebox_data)-1]:
    incidents = incidents + int(incident)

  # --
  # -- fim da computação escalar
  # --

  try:

    half_hour = int(timebox_data[0])

    if half_hour == 27:
      incident_by_day[day] = incidents
      day = day + 1
      incidents = 0

  except ValueError:
    continue

# -- results

for day in incident_by_day:

  print(f'{day}: {incident_by_day[day]}')

14: 16
15: 63
16: 94
17: 82
18: 85


### **1.2. NumPy**

Substitua o trecho do código do algoritmo que utiliza da **computação escalar** por um que utiliza da **computação vetorial**. Use o pacote NumPy.

In [61]:
# -- read

data = None

with open(file='traffic.csv', mode='r', encoding='utf8') as fp:

  fp.readline()
  data = fp.read()

# -- analytics

import numpy as np

day = 14
incidents = 0
incident_by_day = dict()

for timebox in data.split(sep='\n'):

  timebox_data = timebox.split(sep=';')

  # --
  # -- inicio da computação vetorial
  # --

  incident = np.array(timebox_data[1:-1], dtype=int)
  incidents = np.array(incidents) + np.sum(incident)

  # --
  # -- fim da computação vetorial
  # --

  try:

    half_hour = int(timebox_data[0])

    if half_hour == 27:
      incident_by_day[day] = incidents
      day = day + 1
      incidents = 0

  except ValueError:
    continue

# -- results

for day in incident_by_day:

  print(f'{day}: {incident_by_day[day]}')

14: 16
15: 63
16: 94
17: 82
18: 85


---