# 🧶 Intensivo Curso Ada Tech: Data Science.

<img src="ada.svg" width="200rem">

**Bibliotecas Utilizadas:**
> 🐼 pandas para manipulação e análise de dados tabulares. Doc: https://bit.ly/46BOzo6

> 0️⃣ numpy para funções e operações matemáticas de alto desempenho. Doc: https://bit.ly/3PJGRRK

> 🤖 scikit-learn para aprendizado de máquina e que fornece ferramentas para treinar modelos.

> 📊 matplotlib para criação de gráficos e visualização de dados.

In [105]:
import pandas as pd
import numpy as np
import sklearn as sk
import matplotlib.pyplot as plt

Matplotlib is building the font cache; this may take a moment.


## Introdução ao Numpy:

In [106]:
# Arrays: Estrutura de dados.

listanumerica = [1, 2, 3, 4, 5]
listaArrayNumpy = np.array(listanumerica) # A lista torna-se um Array do numpy

In [107]:
print(listanumerica)
print(listaArrayNumpy)

[1, 2, 3, 4, 5]
[1 2 3 4 5]


In [108]:
# Matrizes: Grade de valores.

matrizes_np = np.zeros((4, 5)) 
print(matrizes_np)

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


In [109]:
# Cálculo de estatísticas das notas (Max, Min e Média)

lista_notas1 = [6.7, 5.8, 8.2, 6.0, 3.4]
notas1 = np.array(lista_notas1)

print(f"Nota máxima: {notas1.max()}") 
print(f"Nota mínimo: {notas1.min()}")
print(f"Nota média: {notas1.mean()}")

print(f"Posição da menor nota na Array: {notas1.argmin()}")
print(f"Desvio padrão: {notas1.std()}")

Nota máxima: 8.2
Nota mínimo: 3.4
Nota média: 6.02
Posição da menor nota na Array: 4
Desvio padrão: 1.5574337867145427


###  • Máscara Booleana:
> ❓ Usada para filtrar ou selecionar elementos em um conjunto de dados. Aplicar condições lógicas, como "verdadeiro" ou "falso", em elementos individuais de um conjunto, permitindo que você escolha quais elementos deseja incluir ou excluir com base nessas condições.

In [110]:
covid = np.array(['Yes', 'No', 'Yes', 'No', 'Yes', 'No'])

maskcovid_yes = covid == 'Yes'

covid[maskcovid_yes] = 'C19'

print(covid)

['C19' 'No' 'C19' 'No' 'C19' 'No']


In [111]:
Cov19 = np.array(['Yes', 'No', 'Yes', 'No', 'Yes', 'No'])

Cov19[Cov19 == 'Yes'] = 'C19'
Cov19[Cov19 == 'No'] = 'Not'

print(Cov19)

['C19' 'Not' 'C19' 'Not' 'C19' 'Not']


In [112]:
notas = np.array([6.8, 4.8, 7.8 , 5.7, 9.1, 5.6, 3.2])
mask_notas = notas > 8

print(mask_notas) # Dados Booleanos conforme cada item da Array
print(notas[mask_notas]) # Resulta em somente aos itens que correspondem aos critérios

[False False False False  True False False]
[9.1]


In [113]:
# Exercicio:

notas_School = np.array([6.8, 4.8, 7.8 , 5.7, 9.1, 5.6, 3.2, 6.5, 8.3, 7.3])

mask_pos = notas_School >= 8 # Abordagem 1 (mesma finalidade)
mask_neg = [notas < 8 for notas in notas_School] # Abordagem 2 (mesma finalidade)

print(f"Notas aprovadas: {notas_School[mask_pos]}")
print(f"Notas reprovadas: {notas_School[mask_neg]}")

Notas aprovadas: [9.1 8.3]
Notas reprovadas: [6.8 4.8 7.8 5.7 5.6 3.2 6.5 7.3]


## Introdução ao Pandas:

In [114]:
# Series

times = ['Internacional', 'Grêmio', 'Palmeiras', 'Bahia']
series_times = pd.Series(times)
series_times[0]

'Internacional'

In [115]:
# Dataframes

data = {'Nomes': ['Patrick', 'Rafaela'], 'Idade': [20, 28], 'Cidade': ['Poa', 'Poa']}
df = pd.DataFrame(data)
df['Idade'].sum()

48

In [116]:
livros = {
    'Autores': ['João Silva', 'Maria Santos', 'Pedro Almeida'],
    'Livros': [
        'Aventuras na Floresta',
        'Viagem pelo Espaço',
        'O Mistério da Pirâmide'
    ],
    'Preços': [
        29.99,
        24.99,
        23.99
    ]
}

df_book = pd.DataFrame(livros)
df_book.index.name = 'Index'

df_book

Unnamed: 0_level_0,Autores,Livros,Preços
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,João Silva,Aventuras na Floresta,29.99
1,Maria Santos,Viagem pelo Espaço,24.99
2,Pedro Almeida,O Mistério da Pirâmide,23.99


In [117]:
#Estatisticas

media = df_book['Preços'].mean()
soma = df_book['Preços'].sum()
minima = df_book['Preços'].min()
maximo = df_book['Preços'].max()

media, soma, minima, maximo

(26.323333333333334, 78.97, 23.99, 29.99)

In [118]:
# Coluna como index

df_book.set_index('Autores', inplace=True)
df_book

Unnamed: 0_level_0,Livros,Preços
Autores,Unnamed: 1_level_1,Unnamed: 2_level_1
João Silva,Aventuras na Floresta,29.99
Maria Santos,Viagem pelo Espaço,24.99
Pedro Almeida,O Mistério da Pirâmide,23.99


In [119]:
# Consulta por index

df1 = df_book.loc[['João Silva']]
df1

Unnamed: 0_level_0,Livros,Preços
Autores,Unnamed: 1_level_1,Unnamed: 2_level_1
João Silva,Aventuras na Floresta,29.99


In [120]:
# Consulta onde coluna seja igual a... 

df2 = df_book.query("`Livros` == 'Viagem pelo Espaço'")
df2

Unnamed: 0_level_0,Livros,Preços
Autores,Unnamed: 1_level_1,Unnamed: 2_level_1
Maria Santos,Viagem pelo Espaço,24.99


###  • Analisando Dados com Pandas:
> Dados obtidos em: https://bit.ly/46AcZy6

In [121]:
df_taxis = pd.read_csv('datasets/taxis.csv')

In [122]:
df_taxis['pickup_borough'].value_counts()

Manhattan    5268
Queens        657
Brooklyn      383
Bronx          99
Name: pickup_borough, dtype: int64

## Exercicio 1: 
#### Vizinhanças em que as casas costumam ser mais caras oferecem maiores e melhores gorjetas? 

In [123]:
df_taxis1 = df_taxis.set_index('pickup_borough')

In [124]:
listsCity = []
for c in df_taxis['pickup_borough']:
    if c in listsCity:
        pass
    else: 
        listsCity.append(c)
 
listsCity.pop(2)

nan

In [125]:
sumCitys = []
for city in listsCity:
    sumValue = df_taxis1['tip'].loc[city].sum()
    sumCitys.append(sumValue)

In [126]:
dictCitysValues = dict(zip(listsCity, sumCitys))

In [127]:
allValues = []
for key, value in dictCitysValues.items():
    allValues.append(value)
    if max(allValues) == value:
        print(f"A Vizinhança que paga as maiores gorjetas é {key} com um total de {value:.2f} dólares.") 

A Vizinhança que paga as maiores gorjetas é Manhattan com um total de 10217.55 dólares.


## Exercicio 2: 
#### Quanto mais passageriro maior é a gorjeta? 

In [128]:
df = df_taxis[['passengers', 'tip', 'dropoff_borough']]

In [129]:
listNumberspass = [] # Lista que vai conter o numero de passageiros (Somente uma ocorrência)
for x in df['passengers']:
    if x in listNumberspass:
        pass
    else:
        listNumberspass.append(x)

        
listNumberspass.pop(2)        
print(listNumberspass)

[1, 3, 6, 5, 2, 4]


In [130]:
df.set_index('passengers', inplace=True) # Steando a coluan 'passengers' para fazer as pesquisas via index

In [131]:
sumValuespssgs = [] # Lista que vai conter a soma das gorjetas por cada item da lista de 'listNumberspass'
for numberItem in listNumberspass:
    sumValuesTip = df.loc[numberItem]['tip'].sum()
    sumValuespssgs.append(sumValuesTip)

In [132]:
# Zipando em Dict o numero de passageiros com os totais de gorjetas, lado a lado:
dictpassgAndValues = dict(zip(listNumberspass, sumValuespssgs)) 

In [133]:
# resultado
for chave, value in dictpassgAndValues.items():
    print(f"Viajens com {chave} passageiro(s), a gorjeta foi ao todo {value:.2f} dólares.")

Viajens com 1 passageiro(s), a gorjeta foi ao todo 8992.47 dólares.
Viajens com 3 passageiro(s), a gorjeta foi ao todo 538.30 dólares.
Viajens com 6 passageiro(s), a gorjeta foi ao todo 313.99 dólares.
Viajens com 5 passageiro(s), a gorjeta foi ao todo 563.37 dólares.
Viajens com 2 passageiro(s), a gorjeta foi ao todo 1843.40 dólares.
Viajens com 4 passageiro(s), a gorjeta foi ao todo 250.82 dólares.


## Exercicio 2: 

In [151]:
voo = pd.read_csv('datasets/voo.csv')

In [152]:
voo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144 entries, 0 to 143
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   year        144 non-null    int64 
 1   month       144 non-null    object
 2   passengers  144 non-null    int64 
dtypes: int64(2), object(1)
memory usage: 3.5+ KB


In [153]:
years = [] # Lista com todos os anos disponiveis na coluna 'years'
for y in voo['year']:
    if y in years:
        pass
    else:
        years.append(y)

In [154]:
years # Aqui esãos todos os anos

[1949, 1950, 1951, 1952, 1953, 1954, 1955, 1956, 1957, 1958, 1959, 1960]

In [155]:
voo.set_index('year', inplace=True)

In [156]:
sumpassYears = []
for x in years:
    summ = voo.loc[x]['passengers'].sum()
    sumpassYears.append(summ)

In [157]:
sumpassYears # Aqui está a soma de todos os passageiros por anos

[1520, 1676, 2042, 2364, 2700, 2867, 3408, 3939, 4421, 4572, 5140, 5714]

In [158]:
dictYearsPassengersSum = dict(zip(years, sumpassYears))

In [159]:
for key, value in dictYearsPassengersSum.items():
    print(f"No ano de {key}, um total de {value} pessoas voaram.")

No ano de 1949, um total de 1520 pessoas voaram.
No ano de 1950, um total de 1676 pessoas voaram.
No ano de 1951, um total de 2042 pessoas voaram.
No ano de 1952, um total de 2364 pessoas voaram.
No ano de 1953, um total de 2700 pessoas voaram.
No ano de 1954, um total de 2867 pessoas voaram.
No ano de 1955, um total de 3408 pessoas voaram.
No ano de 1956, um total de 3939 pessoas voaram.
No ano de 1957, um total de 4421 pessoas voaram.
No ano de 1958, um total de 4572 pessoas voaram.
No ano de 1959, um total de 5140 pessoas voaram.
No ano de 1960, um total de 5714 pessoas voaram.
