<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Fundamentos de Estatística
Caderno de **Exercícios**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Média e Variância;</li>
  <li>Ordem e Posição;</li>
  <li>Correlação.</li>
</ol>

---

# **Exercícios**

## 1\. Tráfego de São Paulo

Neste exercício, vamos continuar a analisar os dados de mobilidade urbana da cidade de São Paulo. A base de dados está neste [link](https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/traffic.csv) e é uma copia do dado original, presente neste [link](https://archive.ics.uci.edu/ml/datasets/Behavior+of+the+urban+traffic+of+the+city+of+Sao+Paulo+in+Brazil). A base de dados contem a quantidade de acidentes ocorridos na cidade entre 14/12/09 e 18/12/09, das 07:00h ás 20:00h, agregados em intervalos de 30 minutos.

In [None]:
#1. Importação e Aquisição de Dados:
#Importação das bibliotecas necessárias:

import pandas as pd
import numpy as np

In [None]:
#Download do arquivo CSV:
#Utilizado o comando wget para baixar o arquivo traffic.csv diretamente no código, sem precisar de intervenção manual.
#O arquivo baixado é armazenado na variável traffic.csv

!wget -q "https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/traffic.csv" -O traffic.csv

In [None]:
#Leitura do arquivo CSV em um DataFrame:
#A função pd.read_csv é utilizada para ler o arquivo CSV e armazenar os dados em um DataFrame chamado df.
#O argumento sep=';' indica que o separador de colunas no CSV é ponto e vírgula.

df = pd.read_csv('traffic.csv', sep=';')

In [None]:
#Visualizando dados para começar análise
df.head()

Unnamed: 0,hour,bus_stoped,broken_truck,vehicle_excess,accident_victim,running_over,fire_vehicles,occurrence_freight,incident__dangerous_freight,lack_electricity,fire,flooding,manifestations,defect_trolleybuses,tree_road,semaphore_off,intermittent_emaphore,slowness_traffic_%
0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,41
1,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,66
2,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,87
3,4,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,92
4,5,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,111


- **Exemplo**: (para relembrar)

O código abaixo extrai a 13ª linha do arquivo que representa a 14ª meia hora do dia 14/12/09, contadas a partir das 07:00h, ou seja, todos os incidentes ocorridos na cidade no dia em questão entre as 13:30h e 14:00h. Vemos, por exemplo, que dois ônibus e dois caminhões ficaram paradados nas ruas da cidade, atrapalhando o tráfego.

In [None]:
df.iloc[[13]]

Unnamed: 0,hour,bus_stoped,broken_truck,vehicle_excess,accident_victim,running_over,fire_vehicles,occurrence_freight,incident__dangerous_freight,lack_electricity,fire,flooding,manifestations,defect_trolleybuses,tree_road,semaphore_off,intermittent_emaphore,slowness_traffic_%
13,14,2,2,0,1,0,0,0,0,0,0,0,0,0,0,0,0,49


### **1.1. Agregação**

Neste primeira atividade, você deve gerar um array NumPy por dia. Para cada array você deve somar todos os incidentes que aconteceram naquela meia hora. Sendo assim, cada array deve ter 27 posições, cada qual com a soma dos incidentes daquela meira hora.

**Dica**: Você deve remover a primeira e a última coluna.

**Dica**: Os arrays devem ter os seguintes valores:

```python
14: [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 5, 2, 0, 0, 0, 0, 0, 1, 0, 0, 0, 2, 2, 3]
15: [3, 0, 0, 0, 2, 4, 2, 1, 3, 0, 2, 0, 2, 3, 2, 2, 4, 7, 6, 3, 0, 1, 1, 5, 4, 6, 0]
16: [1, 1, 2, 4, 4, 5, 3, 2, 4, 2, 1, 1, 3, 6, 2, 0, 2, 8, 4, 6, 4, 1, 2, 7, 15, 4, 0]
17: [4, 1, 1, 0, 0, 0, 2, 3, 2, 7, 2, 1, 7, 3, 6, 4, 3, 2, 2, 3, 2, 5, 2, 0, 1, 4, 15]
18: [10, 1, 1, 5, 5, 7, 3, 4, 3, 1, 2, 3, 2, 2, 6, 2, 2, 4, 2, 3, 0, 3, 3, 2, 3, 6, 0]
```

In [None]:
# resposta da questão 1.1
#Visualizando dados antes de remoção de colunas
df.head(n=3)

Unnamed: 0,hour,bus_stoped,broken_truck,vehicle_excess,accident_victim,running_over,fire_vehicles,occurrence_freight,incident__dangerous_freight,lack_electricity,fire,flooding,manifestations,defect_trolleybuses,tree_road,semaphore_off,intermittent_emaphore,slowness_traffic_%
0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,41
1,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,66
2,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,87


In [None]:
#Remoção de colunas a primeira e a ultima:
#As colunas hour e slowness_traffic_% são removidas do DataFrame df utilizando a função pop.
df.pop("hour")
df.pop("slowness_traffic_%")

0       4,1
1       6,6
2       8,7
3       9,2
4      11,1
       ... 
130    17,8
131    18,1
132    17,7
133    17,4
134    12,1
Name: slowness_traffic_%, Length: 135, dtype: object

In [None]:
#Visualizando dados após remoção.
df.head(n=3)

Unnamed: 0,bus_stoped,broken_truck,vehicle_excess,accident_victim,running_over,fire_vehicles,occurrence_freight,incident__dangerous_freight,lack_electricity,fire,flooding,manifestations,defect_trolleybuses,tree_road,semaphore_off,intermittent_emaphore
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [None]:
#3. Agregação dos Dados:

#Cálculo da soma de acidentes por dia e meia hora:
#O DataFrame df é agrupado por dia e a soma dos acidentes para cada meia hora é calculada utilizando a função sum.
#O resultado é armazenado em um novo DataFrame chamado soma_por_dia.

# Gerando soma dia 14

soma_por_pessoa = df.sum(axis=1)
soma_14 = soma_por_pessoa[0:27]

# Gerando array soma dia 14

array_soma_incidentes_14 = np.array(soma_14)
print(array_soma_incidentes_15)

[3 0 0 0 2 4 2 1 3 0 2 0 2 3 2 2 4 7 6 3 0 1 1 5 4 6 0]


In [None]:
# Gerando soma dia 15

soma_15 = soma_por_pessoa[27:54]

# Gerando array soma dia 15

array_soma_incidentes_15 = np.array(soma_15)
print(array_soma_incidentes_15)


[3 0 0 0 2 4 2 1 3 0 2 0 2 3 2 2 4 7 6 3 0 1 1 5 4 6 0]


In [None]:
# Gerando soma dia 16

soma_16 = soma_por_pessoa[54:81]

# Gerando array soma dia 16

array_soma_incidentes_16 = np.array(soma_16)
print(array_soma_incidentes_16)

[ 1  1  2  4  4  5  3  2  4  2  1  1  3  6  2  0  2  8  4  6  4  1  2  7
 15  4  0]


In [None]:
# Gerando soma dia 17

soma_17 = soma_por_pessoa[81:108]

# Gerando array soma dia 17

array_soma_incidentes_17 = np.array(soma_17)
print(array_soma_incidentes_17)


[ 4  1  1  0  0  0  2  3  2  7  2  1  7  3  6  4  3  2  2  3  2  5  2  0
  1  4 15]


In [None]:
# soma incidentes dia 18

soma_18 = soma_por_pessoa[108:135]

# Gerando array soma dia 18

array_soma_incidentes_18 = np.array(soma_18)
print(array_soma_incidentes_18)

[10  1  1  5  5  7  3  4  3  1  2  3  2  2  6  2  2  4  2  3  0  3  3  2
  3  6  0]


### **1.2. Métricas**

Para cada array você deve calcular as seguintes métricas:

 - **média**;
 - **desvio padrão**.

In [None]:
# resposta da questão 1.2

# Gerando media array dia 14
np.mean(array_soma_incidentes_14)


0.5925925925925926

In [None]:
# Gerando desvio padrao array dia 14
np.std(array_soma_incidentes_14)

1.1944085553034889

In [None]:
#Gerando media do array dia 15
np.mean(array_soma_incidentes_15)


2.3333333333333335

In [None]:
#Gerando desvio padrao array dia 15
np.std(array_soma_incidentes_15)

2.0184335693983275

In [None]:
#Gerando media array dia 16
np.mean(array_soma_incidentes_16)

3.4814814814814814

In [None]:
#Gerando desvio padrao array dia 16
np.std(array_soma_incidentes_16)


3.047407767514698

In [None]:
#Gerando media array dia 17
np.mean(array_soma_incidentes_17)

3.037037037037037

In [None]:
#Gerando desvio padrao array dia 17
np.std(array_soma_incidentes_17)

3.0487578707046925

In [None]:
#Gerando media array dia 18
np.mean(array_soma_incidentes_18)


3.1481481481481484

In [None]:
#Gerando desvio padrao array dia 18
np.std(array_soma_incidentes_18)

2.1892617342417258

### **1.3. Interpretação**

Baseado nos resultados da questão 1.2, responda:

> Qual dia apresenta a maior média de acidentes por meia hora?

**Resposta:** Dia 16/12/09


> Qual dia apresenta a menor variação de acidentes por meia hora?

**Resposta:** Dia 14/12/09

---