<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Fundamentos de Estatística
Caderno de **Exercícios**<br> 
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Média e Variância;</li>
  <li>Ordem e Posição;</li>
  <li>Correlação.</li>
</ol>

---

# **Exercícios**

## 1\. Tráfego de São Paulo

Neste exercício, vamos continuar a analisar os dados de mobilidade urbana da cidade de São Paulo. A base de dados está neste [link](https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/traffic.csv) e é uma copia do dado original, presente neste [link](https://archive.ics.uci.edu/ml/datasets/Behavior+of+the+urban+traffic+of+the+city+of+Sao+Paulo+in+Brazil). A base de dados contem a quantidade de acidentes ocorridos na cidade entre 14/12/09 e 18/12/09, das 07:00h ás 20:00h, agregados em intervalos de 30 minutos.

In [1]:
!wget -q "https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/traffic.csv" -O traffic.csv

'wget' n�o � reconhecido como um comando interno
ou externo, um programa oper�vel ou um arquivo em lotes.


In [2]:
import pandas as pd

In [3]:
df = pd.read_csv('traffic.csv', sep=';')

In [4]:
df.head()

Unnamed: 0,hour,bus_stoped,broken_truck,vehicle_excess,accident_victim,running_over,fire_vehicles,occurrence_freight,incident__dangerous_freight,lack_electricity,fire,flooding,manifestations,defect_trolleybuses,tree_road,semaphore_off,intermittent_emaphore,slowness_traffic_%
0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,41
1,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,66
2,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,87
3,4,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,92
4,5,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,111


- **Exemplo**: (para relembrar)

O código abaixo extrai a 13ª linha do arquivo que representa a 14ª meia hora do dia 14/12/09, contadas a partir das 07:00h, ou seja, todos os incidentes ocorridos na cidade no dia em questão entre as 13:30h e 14:00h. Vemos, por exemplo, que dois ônibus e dois caminhões ficaram paradados nas ruas da cidade, atrapalhando o tráfego.

In [5]:
df.iloc[[13]]

Unnamed: 0,hour,bus_stoped,broken_truck,vehicle_excess,accident_victim,running_over,fire_vehicles,occurrence_freight,incident__dangerous_freight,lack_electricity,fire,flooding,manifestations,defect_trolleybuses,tree_road,semaphore_off,intermittent_emaphore,slowness_traffic_%
13,14,2,2,0,1,0,0,0,0,0,0,0,0,0,0,0,0,49


### **1.1. Agregação** 

Neste primeira atividade, você deve gerar um array NumPy por dia. Para cada array você deve somar todos os incidentes que aconteceram naquela meia hora. Sendo assim, cada array deve ter 27 posições, cada qual com a soma dos incidentes daquela meira hora.

**Dica**: Você deve remover a primeira e a última coluna.

**Dica**: Os arrays devem ter os seguintes valores:

```python
14: [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 5, 2, 0, 0, 0, 0, 0, 1, 0, 0, 0, 2, 2, 3]
15: [3, 0, 0, 0, 2, 4, 2, 1, 3, 0, 2, 0, 2, 3, 2, 2, 4, 7, 6, 3, 0, 1, 1, 5, 4, 6, 0]
16: [1, 1, 2, 4, 4, 5, 3, 2, 4, 2, 1, 1, 3, 6, 2, 0, 2, 8, 4, 6, 4, 1, 2, 7, 15, 4, 0]
17: [4, 1, 1, 0, 0, 0, 2, 3, 2, 7, 2, 1, 7, 3, 6, 4, 3, 2, 2, 3, 2, 5, 2, 0, 1, 4, 15]
18: [10, 1, 1, 5, 5, 7, 3, 4, 3, 1, 2, 3, 2, 2, 6, 2, 2, 4, 2, 3, 0, 3, 3, 2, 3, 6, 0]
```

In [8]:
# resposta da questão 1.1
import numpy as np

data = None

with open(file='traffic.csv', mode='r', encoding='utf8') as fp:
    fp.readline()
    data = fp.read()

# -- analytics

day = 14  
incidents = []
incident_by_day = dict()

for timebox in data.split(sep='\n'):

    timebox_data = timebox.split(sep=';')

    # Início da computação vetorial
    incidents_per_timebox = [int(incident) for incident in timebox_data[1: len(timebox_data)-1]]
    incidents.extend(incidents_per_timebox)
    # Fim da computação vetorial

    try: 

        half_hour = int(timebox_data[0])

        if half_hour == 27:
            incident_by_day[day] = np.sum(incidents)
            day += 1
            incidents = []

    except ValueError:
        continue

# -- results

for day in incident_by_day:
    print(f'{day}: {incident_by_day[day]}')

14: 16
15: 63
16: 94
17: 82
18: 85


### **1.2. Métricas** 

Para cada array você deve calcular as seguintes métricas: 

 - **média**;
 - **desvio padrão**.

In [13]:
# resposta da questão 1.2

import numpy as np

data = None

with open(file='traffic.csv', mode='r', encoding='utf8') as fp:
    fp.readline()
    data = fp.read()

# -- analise

day = 14 #o dia que começa  
incidents = [] #lista vazia para ser preenchida
incident_by_day = dict() #dicionário vazio que vai ser utilizado para armazenar o incidente


for timebox in data.split(sep='\n'): # iteração para o arquivo data (criado em cima com o data = none)
 #sep=\n separa as linhas pelo seu caracter de quebra de linha '\n'   
    timebox_data = timebox.split(sep=';')
#já separamos as linhas, agora separa as colunas
    # Início dos calculos
    incidents_per_timebox = [int(incident) for incident in timebox_data[1: len(timebox_data)-1]]
# com o arquivo separado em linhas e colunas, agora vai ser criado uma lista que vai percorrer toda a extensão 
# e o que achar na extensão vai ser converitdo em int e acumulado em uma lista
    incidents.extend(incidents_per_timebox)
    
#14: [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 5, 2, 0, 0, 0, 0, 0, 1, 0, 0, 0, 2, 2, 3]
#15: [3, 0, 0, 0, 2, 4, 2, 1, 3, 0, 2, 0, 2, 3, 2, 2, 4, 7, 6, 3, 0, 1, 1, 5, 4, 6, 0]
#16: [1, 1, 2, 4, 4, 5, 3, 2, 4, 2, 1, 1, 3, 6, 2, 0, 2, 8, 4, 6, 4, 1, 2, 7, 15, 4, 0]
#17: [4, 1, 1, 0, 0, 0, 2, 3, 2, 7, 2, 1, 7, 3, 6, 4, 3, 2, 2, 3, 2, 5, 2, 0, 1, 4, 15]
#18: [10, 1, 1, 5, 5, 7, 3, 4, 3, 1, 2, 3, 2, 2, 6, 2, 2, 4, 2, 3, 0, 3, 3, 2, 3, 6, 0]

    try: 

        half_hour = int(timebox_data[0])

        if half_hour == 27: #O código verifica se o horário (half_hour) é igual a 27, indicando meia-noite
            # Calcula a média e o desvio padrão dos incidentes acumulados até então
            media_incidentes = np.mean(incidents)
            std_incidentes = np.std(incidents)
            # Armazena a média e o desvio padrão no dicionário incident_by_day
            incident_by_day[day] = {'mean': media_incidentes, 'std_dev': std_incidentes}
            day += 1
            incidents = []

    except ValueError:
        continue
    #fim dos calculos    
# -- resultados

for day, stats in incident_by_day.items():
    print(f'Dia {day}: Média: {stats["mean"]}, Desvio Padrão: {stats["std_dev"]}')


Dia 14: Média: 0.037037037037037035, Desvio Padrão: 0.2327741683328988
Dia 15: Média: 0.14583333333333334, Desvio Padrão: 0.5481714131073858
Dia 16: Média: 0.2175925925925926, Desvio Padrão: 0.6190387865104977
Dia 17: Média: 0.18981481481481483, Desvio Padrão: 0.5979037168268283
Dia 18: Média: 0.19675925925925927, Desvio Padrão: 0.6241206090464313


### **1.3. Interpretação** 

Baseado nos resultados da questão 1.2, responda:

> Qual dia apresenta a maior média de acidentes por meia hora? dia 16

**Resposta:**

> Qual dia apresenta a menor variação de acidentes por meia hora? dia 14

**Resposta:**

---