<a href="https://colab.research.google.com/github/martinsevandro/ETL_BootcampDIO/blob/main/Projeto1DIO.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Projeto ETL com Python (Simplificado) - Bootcamp Santander

**Contexto:** Utilizando um arquivo csv simples para esse primeiro projeto.

**Condições do Problema:**

1. É uma planilha simples, em formato CSV ('EntradaBootcamp.csv'), da seguinte forma:
  ```
  "UserID","Nome","Cidade","Idade"
  1,"João","Fortaleza",25
  2,"Maria","Sobral",18
  3,"Pedro","Natal",29
  4,"Paula","Natal",31
  5,"Paulo","Fortaleza",19
  
  ```
2. Sem API externa, serão utilizadas algumas funções com o arquivo de entrada e as modificações serão salvas no arquivo de saída.

## Extract

Extraia a lista de IDs de usuário, que são de Fortaleza, a partir do arquivo CSV.


In [162]:
import pandas as pd

# Importando o dataset do google drive
# Arquivo de Entrada disponível no meu drive: https://drive.google.com/file/d/1CxSDBBTuyucsN1cNva5rw-RZGphfNYnZ/view?usp=sharing
# Arquivo de Saída disponível no meu drive: https://drive.google.com/file/d/1GHNWKhog4ZOyR_sUUVFr79nGD8b6rV_4/view?usp=drive_link
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

# endereço do arquivo de entrada  (somente leitura)
entrada = '/content/drive/MyDrive/ProjetosDio/EntradaBootcamp.csv'

# endereço do arquivo de saida  (possivel editar)
saida = '/content/drive/MyDrive/ProjetosDio/SaidaBootcamp.csv'

df = pd.read_csv(entrada)
dfsaida = pd.read_csv(saida)



Mounted at /content/drive


In [163]:
# Mostrar todas as colunas e seus tipos do arquivo sobre Entrada
df.info()

# Importante para verificar se há valores nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   UserID  5 non-null      int64 
 1   Nome    5 non-null      object
 2   Cidade  5 non-null      object
 3   Idade   5 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 288.0+ bytes


In [164]:
# Mostrar os primeiros 5 itens do arquivo de Entrada
df.head()

Unnamed: 0,UserID,Nome,Cidade,Idade
0,1,João,Fortaleza,25
1,2,Maria,Sobral,18
2,3,Pedro,Natal,29
3,4,Paula,Natal,31
4,5,Paulo,Fortaleza,19


In [165]:
# Mostrar todas as colunas e seus tipos do arquivo sobre Saída
dfsaida.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   UserID     5 non-null      int64 
 1   Nome       5 non-null      object
 2   Cidade     5 non-null      object
 3   Idade      5 non-null      int64 
 4   Profissão  2 non-null      object
dtypes: int64(2), object(3)
memory usage: 328.0+ bytes


In [166]:
# Mostrar os primeiros 5 itens do arquivo de Saída
dfsaida.head()

# De início o arquivo saída não tem valores, apenas suas colunas informando os parâmetros iniciais

Unnamed: 0,UserID,Nome,Cidade,Idade,Profissão
0,1,JOÃO,Fortaleza,25,Desempregado
1,2,MARIA,Sobral,18,
2,3,PEDRO,Natal,29,
3,4,PAULA,Natal,31,
4,5,PAULO,Fortaleza,19,Desempregado


In [167]:
# Mostrar todos os IDs no arquivo de entrada
user_ids = df['UserID'].tolist()
print(user_ids)

[1, 2, 3, 4, 5]


In [168]:
# Mostrar todos os IDs que tenham a Cidade como Fortaleza
user_ids_fortaleza = df[df['Cidade'] == 'Fortaleza']['UserID'].tolist()
print(user_ids_fortaleza)

[1, 5]


## Transform

Adicionar uma coluna "Profissão". Aqueles que são de Fortaleza terão o valor "Desempregado" e os demais o valor "None".

In [169]:
# Adicionar uma nova coluna de Profissão.
df['Profissão'] = None

In [170]:
df.head()

Unnamed: 0,UserID,Nome,Cidade,Idade,Profissão
0,1,João,Fortaleza,25,
1,2,Maria,Sobral,18,
2,3,Pedro,Natal,29,
3,4,Paula,Natal,31,
4,5,Paulo,Fortaleza,19,


In [171]:
df.loc[df['Cidade'] == 'Fortaleza', 'Profissão'] = 'Desempregado'

In [172]:
df.head()

Unnamed: 0,UserID,Nome,Cidade,Idade,Profissão
0,1,João,Fortaleza,25,Desempregado
1,2,Maria,Sobral,18,
2,3,Pedro,Natal,29,
3,4,Paula,Natal,31,
4,5,Paulo,Fortaleza,19,Desempregado


In [173]:
# Convertendo a coluna Nome para maiúsculas.
df['Nome'] = df['Nome'].str.upper()

In [174]:
df.head()

Unnamed: 0,UserID,Nome,Cidade,Idade,Profissão
0,1,JOÃO,Fortaleza,25,Desempregado
1,2,MARIA,Sobral,18,
2,3,PEDRO,Natal,29,
3,4,PAULA,Natal,31,
4,5,PAULO,Fortaleza,19,Desempregado


## Load

Atualizando o arquivo SaidaBootcamp

In [175]:
# Mostrar que o arquivo de saída continua, por enquanto, igual ao do início
dfsaida.head()

Unnamed: 0,UserID,Nome,Cidade,Idade,Profissão
0,1,JOÃO,Fortaleza,25,Desempregado
1,2,MARIA,Sobral,18,
2,3,PEDRO,Natal,29,
3,4,PAULA,Natal,31,
4,5,PAULO,Fortaleza,19,Desempregado


In [176]:
# Salve os dados transformados em um novo arquivo CSV (que está no drive).
df.to_csv(saida, index=False)

In [177]:
# Mostrar que o arquivo de saída foi alterado com sucesso
dfsaida.head()

Unnamed: 0,UserID,Nome,Cidade,Idade,Profissão
0,1,JOÃO,Fortaleza,25,Desempregado
1,2,MARIA,Sobral,18,
2,3,PEDRO,Natal,29,
3,4,PAULA,Natal,31,
4,5,PAULO,Fortaleza,19,Desempregado
