# 🧶 Intensivo Curso Ada Tech: Data Science.

<img src="ada.svg" width="200rem">

**Bibliotecas Utilizadas:**
> 🐼 pandas para manipulação e análise de dados tabulares. Doc: https://bit.ly/46BOzo6

> 0️⃣ numpy para funções e operações matemáticas de alto desempenho. Doc: https://bit.ly/3PJGRRK

> 🤖 scikit-learn para aprendizado de máquina e que fornece ferramentas para treinar modelos.

> 📊 matplotlib para criação de gráficos e visualização de dados.

In [1]:
import pandas as pd
import numpy as np
import sklearn as sk
import matplotlib as plt

## Introdução ao Numpy:

In [2]:
# Arrays: Estrutura de dados.

listanumerica = [1, 2, 3, 4, 5]
listaArrayNumpy = np.array(listanumerica) # A lista torna-se um Array do numpy

In [3]:
print(listanumerica)
print(listaArrayNumpy)

[1, 2, 3, 4, 5]
[1 2 3 4 5]


In [4]:
# Matrizes: Grade de valores.

matrizes_np = np.zeros((4, 5)) 
print(matrizes_np)

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


In [5]:
# Cálculo de estatísticas das notas (Max, Min e Média)

lista_notas1 = [6.7, 5.8, 8.2, 6.0, 3.4]
notas1 = np.array(lista_notas1)

print(f"Nota máxima: {notas1.max()}") 
print(f"Nota mínimo: {notas1.min()}")
print(f"Nota média: {notas1.mean()}")

print(f"Posição da menor nota na Array: {notas1.argmin()}")
print(f"Desvio padrão: {notas1.std()}")

Nota máxima: 8.2
Nota mínimo: 3.4
Nota média: 6.02
Posição da menor nota na Array: 4
Desvio padrão: 1.5574337867145427


###  • Máscara Booleana:
> ❓ Usada para filtrar ou selecionar elementos em um conjunto de dados. Aplicar condições lógicas, como "verdadeiro" ou "falso", em elementos individuais de um conjunto, permitindo que você escolha quais elementos deseja incluir ou excluir com base nessas condições.

In [6]:
covid = np.array(['Yes', 'No', 'Yes', 'No', 'Yes', 'No'])

maskcovid_yes = covid == 'Yes'

covid[maskcovid_yes] = 'C19'

print(covid)

['C19' 'No' 'C19' 'No' 'C19' 'No']


In [7]:
Cov19 = np.array(['Yes', 'No', 'Yes', 'No', 'Yes', 'No'])

Cov19[Cov19 == 'Yes'] = 'C19'
Cov19[Cov19 == 'No'] = 'Not'

print(Cov19)

['C19' 'Not' 'C19' 'Not' 'C19' 'Not']


In [8]:
notas = np.array([6.8, 4.8, 7.8 , 5.7, 9.1, 5.6, 3.2])
mask_notas = notas > 8

print(mask_notas) # Dados Booleanos conforme cada item da Array
print(notas[mask_notas]) # Resulta em somente aos itens que correspondem aos critérios

[False False False False  True False False]
[9.1]


In [9]:
# Exercicio:

notas_School = np.array([6.8, 4.8, 7.8 , 5.7, 9.1, 5.6, 3.2, 6.5, 8.3, 7.3])

mask_pos = notas_School >= 8 # Abordagem 1 (mesma finalidade)
mask_neg = [notas < 8 for notas in notas_School] # Abordagem 2 (mesma finalidade)

print(f"Notas aprovadas: {notas_School[mask_pos]}")
print(f"Notas reprovadas: {notas_School[mask_neg]}")

Notas aprovadas: [9.1 8.3]
Notas reprovadas: [6.8 4.8 7.8 5.7 5.6 3.2 6.5 7.3]


## Introdução ao Pandas:

In [10]:
# Series

times = ['Internacional', 'Grêmio', 'Palmeiras', 'Bahia']
series_times = pd.Series(times)
series_times[0]

'Internacional'

In [11]:
# Dataframes

data = {'Nomes': ['Patrick', 'Rafaela'], 'Idade': [20, 28], 'Cidade': ['Poa', 'Poa']}
df = pd.DataFrame(data)
df['Idade'].sum()

48

In [12]:
livros = {
    'Autores': ['João Silva', 'Maria Santos', 'Pedro Almeida'],
    'Livros': [
        'Aventuras na Floresta',
        'Viagem pelo Espaço',
        'O Mistério da Pirâmide'
    ],
    'Preços': [
        29.99,
        24.99,
        23.99
    ]
}

df_book = pd.DataFrame(livros)
df_book.index.name = 'Index'

df_book

Unnamed: 0_level_0,Autores,Livros,Preços
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,João Silva,Aventuras na Floresta,29.99
1,Maria Santos,Viagem pelo Espaço,24.99
2,Pedro Almeida,O Mistério da Pirâmide,23.99


In [13]:
#Estatisticas

media = df_book['Preços'].mean()
soma = df_book['Preços'].sum()
minima = df_book['Preços'].min()
maximo = df_book['Preços'].max()

media, soma, minima, maximo

(26.323333333333334, 78.97, 23.99, 29.99)

In [14]:
# Coluna como index

df_book.set_index('Autores', inplace=True)
df_book

Unnamed: 0_level_0,Livros,Preços
Autores,Unnamed: 1_level_1,Unnamed: 2_level_1
João Silva,Aventuras na Floresta,29.99
Maria Santos,Viagem pelo Espaço,24.99
Pedro Almeida,O Mistério da Pirâmide,23.99


In [15]:
# Consulta por index

df1 = df_book.loc[['João Silva']]
df1

Unnamed: 0_level_0,Livros,Preços
Autores,Unnamed: 1_level_1,Unnamed: 2_level_1
João Silva,Aventuras na Floresta,29.99


In [16]:
# Consulta onde coluna seja igual a... 

df2 = df_book.query("`Livros` == 'Viagem pelo Espaço'")
df2

Unnamed: 0_level_0,Livros,Preços
Autores,Unnamed: 1_level_1,Unnamed: 2_level_1
Maria Santos,Viagem pelo Espaço,24.99


###  • Analisando Dados:
> Dados obtidos em: https://bit.ly/46AcZy6

In [17]:
df_taxis = pd.read_csv('taxis.csv')

In [18]:
df_taxis['pickup_borough'].value_counts()

Manhattan    5268
Queens        657
Brooklyn      383
Bronx          99
Name: pickup_borough, dtype: int64

## Exercicio: 
#### Vizinhanças em que as casas costumam ser mais caras oferecem maiores e melhores gorjetas? 

In [19]:
df_taxis1 = df_taxis.set_index('pickup_borough')

In [20]:
listsCity = []
for c in df_taxis['pickup_borough']:
    if c in listsCity:
        pass
    else: 
        listsCity.append(c)
 
listsCity.pop(2)

nan

In [21]:
sumCitys = []
for city in listsCity:
    sumValue = df_taxis1['tip'].loc[city].sum()
    sumCitys.append(sumValue)

In [22]:
dictCitysValues = dict(zip(listsCity, sumCitys))

In [23]:
allValues = []
for key, value in dictCitysValues.items():
    allValues.append(value)
    if max(allValues) == value:
        print(f"A Vizinhança que paga as maiores gorjetas é {key} com um total de {value:.2f} dólares.") 

A Vizinhança que paga as maiores gorjetas é Manhattan com um total de 10217.55 dólares.


## Exercicio: 
#### Quanto mais passageriro maior é a gorjeta? 

In [82]:
df = df_taxis[['passengers', 'tip', 'dropoff_borough']]

In [83]:
listNumberspass = [] # Lista que vai conter o numero de passageiros (Somente uma ocorrência)
for x in df['passengers']:
    if x in listNumberspass:
        pass
    else:
        listNumberspass.append(x)

        
listNumberspass.pop(2)        
print(listNumberspass)

[1, 3, 6, 5, 2, 4]


In [84]:
df.set_index('passengers', inplace=True) # Steando a coluan 'passengers' para fazer as pesquisas via index

In [85]:
sumValuespssgs = [] # Lista que vai conter a soma das gorjetas por cada item da lista de 'listNumberspass'
for numberItem in listNumberspass:
    sumValuesTip = df.loc[numberItem]['tip'].sum()
    sumValuespssgs.append(sumValuesTip)

In [86]:
# Zipando em Dict o numero de passageiros com os totais de gorjetas, lado a lado:
dictpassgAndValues = dict(zip(listNumberspass, sumValuespssgs)) 

In [91]:
# resultado
for chave, value in dictpassgAndValues.items():
    print(f"Viajens com {chave} passageiro(s), a gorjeta foi ao todo {value:.2f} dólares.")

Viajens com 1 passageiro(s), a gorjeta foi ao todo 8992.47 dólares.
Viajens com 3 passageiro(s), a gorjeta foi ao todo 538.30 dólares.
Viajens com 6 passageiro(s), a gorjeta foi ao todo 313.99 dólares.
Viajens com 5 passageiro(s), a gorjeta foi ao todo 563.37 dólares.
Viajens com 2 passageiro(s), a gorjeta foi ao todo 1843.40 dólares.
Viajens com 4 passageiro(s), a gorjeta foi ao todo 250.82 dólares.
