# Desafio ETL - DIO
## Santander Bootcamp 2023 - Ciência de Dados com Python
### Pipeline de ETL com Python

#### Case:
    1) Importe os dados 
    2) Qual a média salarial dos clientes para cada estado do sudeste?
    3) Qual o maior salário? E o menor?
    4) Qual o percentual de clientes acima de 60 anos? (Responda com precisão de duas casas decimais)
    5) Relacione as cidades dos clientes com seus carros. Qual cidade possui mais carros da marca Ford?
    6) Quantas cidades distintas existem dentre os clientes do RS e quais são elas?

Autor: *Danillo de Souza Pereira.*

#### EXTRACT

In [1]:
import pandas as pd 
from unidecode import unidecode

df_cliente = pd.read_csv("clientes.csv", encoding="ISO-8859-1", sep=";")
df_auto = pd.read_csv("auto.csv", encoding="ISO-8859-1", sep=";")

#### TRANSFORM

In [2]:
df_cliente

Unnamed: 0,id_client,age,monthly_income,city,state,gender,education_level
0,1001,50,14544,Muriaé,MG,,
1,1002,31,1230,Araxá,MG,male,
2,1003,51,2428,Jaú,SP,male,
3,1004,51,20223,Veranópolis,RS,male,
4,1005,25,19924,São Paulo,SP,male,
...,...,...,...,...,...,...,...
35014,36028,34,9286,Carpina,PE,male,Da 5ª à 8ª série do ensino fundamental (antigo...
35015,36029,24,8396,Petrópolis,RJ,male,Ensino médio incompleto (antigo 2º grau
35016,36030,37,4832,Recife,PE,male,Ensino médio completo (antigo 2º grau
35017,36031,50,20698,Santana de Parnaíba,SP,male,4ª série completa do ensino fundamental (antig...


In [3]:
# Renomeando nome das colunas
df_cliente = df_cliente.rename(columns={"id_client":"id_cliente", "age":"idade", "monthly_income":"renda_mensal", "city":"cidade", "state":"estado", "gender":"sexo", "education_level":"escolaridade"})
df_cliente.columns

Index(['id_cliente', 'idade', 'renda_mensal', 'cidade', 'estado', 'sexo',
       'escolaridade'],
      dtype='object')

In [4]:
# Vendo os tipos de dados em cada coluna
df_cliente.dtypes

id_cliente       int64
idade            int64
renda_mensal     int64
cidade          object
estado          object
sexo            object
escolaridade    object
dtype: object

In [5]:
# Modificando os tipos de dados
df_cliente['id_cliente'] = df_cliente['id_cliente'].astype(str)
df_cliente['idade'] = df_cliente['idade'].astype(int)
df_cliente['renda_mensal'] = df_cliente['renda_mensal'].astype(float)

In [6]:
# Vendo se os tipos foram mudados e analisando se tem dados importantes para análise faltando
df_cliente.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35019 entries, 0 to 35018
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   id_cliente    35019 non-null  object 
 1   idade         35019 non-null  int32  
 2   renda_mensal  35019 non-null  float64
 3   cidade        34990 non-null  object 
 4   estado        35019 non-null  object 
 5   sexo          31070 non-null  object 
 6   escolaridade  19890 non-null  object 
dtypes: float64(1), int32(1), object(5)
memory usage: 1.7+ MB


In [7]:
# Observando quais estados estão presentes
df_cliente['estado'].unique()

array(['MG', 'SP', 'RS', 'RJ', 'PR', 'AM', 'MA', 'BA', 'SC', 'PE', 'AP',
       'PB', 'MT', 'DF', 'CE', 'ES', 'AC', 'PI', 'GO', 'PA', 'RN', 'AL',
       'MS', 'RO', 'TO', 'RR', 'SE'], dtype=object)

In [8]:
# Padronizando cidades para maiúsculas
df_cliente['cidade'] = df_cliente['cidade'].str.title()

# Função para remover acentos das cidades e deixar padrão
def remove_acentos(palavra):
    if isinstance(palavra, str):
        return unidecode(palavra)
    return palavra

df_cliente['cidade'] = df_cliente['cidade'].apply(remove_acentos)

df_cliente

Unnamed: 0,id_cliente,idade,renda_mensal,cidade,estado,sexo,escolaridade
0,1001,50,14544.0,Muriae,MG,,
1,1002,31,1230.0,Araxa,MG,male,
2,1003,51,2428.0,Jau,SP,male,
3,1004,51,20223.0,Veranopolis,RS,male,
4,1005,25,19924.0,Sao Paulo,SP,male,
...,...,...,...,...,...,...,...
35014,36028,34,9286.0,Carpina,PE,male,Da 5ª à 8ª série do ensino fundamental (antigo...
35015,36029,24,8396.0,Petropolis,RJ,male,Ensino médio incompleto (antigo 2º grau
35016,36030,37,4832.0,Recife,PE,male,Ensino médio completo (antigo 2º grau
35017,36031,50,20698.0,Santana De Parnaiba,SP,male,4ª série completa do ensino fundamental (antig...


In [9]:
# Visualizando o DATA FRAME de autos
df_auto

Unnamed: 0,ï»¿auto_id,auto_brand,auto_model,auto_year,auto_value,id_cliente
0,1993Au16811,Audi,100 2.8 V6,1993,40000,28596
1,1994Au13275,Audi,100 2.8 V6 Avant,1994,13873,1048
2,1998Pe10697,Peugeot,106 Passion 1.0 3p,1998,7000,34309
3,1999Pe13343,Peugeot,106 Passion 1.0 3p,1999,8000,14743
4,2000Pe13776,Peugeot,106 Passion 1.0 3p,2000,6000,31750
...,...,...,...,...,...,...
35024,2011Fi11771,Fiat,Palio,2011,24168,11300
35025,2011Fi11772,Fiat,Uno,2011,26912,20017
35026,2011Fi11773,Fiat,Marea,2011,323927,17697
35027,2011Fi11774,Fiat,Uno,2011,378734,9006


In [10]:
# Renomeando nomes das colunas
df_auto = df_auto.rename(columns={'ï»¿auto_id':'auto_id', 'auto_brand':'marca', 'auto_model':'modelo', 'auto_year':'ano_fab', 'auto_value':'valor'})
df_auto

Unnamed: 0,auto_id,marca,modelo,ano_fab,valor,id_cliente
0,1993Au16811,Audi,100 2.8 V6,1993,40000,28596
1,1994Au13275,Audi,100 2.8 V6 Avant,1994,13873,1048
2,1998Pe10697,Peugeot,106 Passion 1.0 3p,1998,7000,34309
3,1999Pe13343,Peugeot,106 Passion 1.0 3p,1999,8000,14743
4,2000Pe13776,Peugeot,106 Passion 1.0 3p,2000,6000,31750
...,...,...,...,...,...,...
35024,2011Fi11771,Fiat,Palio,2011,24168,11300
35025,2011Fi11772,Fiat,Uno,2011,26912,20017
35026,2011Fi11773,Fiat,Marea,2011,323927,17697
35027,2011Fi11774,Fiat,Uno,2011,378734,9006


In [11]:
# Removendo acentos da marca
df_auto['marca'] = df_auto['marca'].apply(remove_acentos)

In [12]:
# Visualizando as marcas únicas
df_auto['marca'].unique()

array(['Audi', 'Peugeot', 'BMW', 'Alfa Romeo', 'Fiat', 'Mercedes-Benz',
       'Renault', 'RAM', 'Chrysler', 'LIFAN', 'Nissan', 'Volvo', 'MG',
       'GM - Chevrolet', 'Hyundai', 'Honda', 'SSANGYONG', 'CitroA<<n',
       'Mitsubishi', 'VW - VolksWagen', 'FOTON', 'LAMBORGHINI', 'Mazda',
       'Suzuki', 'Toyota', 'Ford', 'Kia Motors', 'Gurgel', 'Walk',
       'Buggy', 'Fibravan', 'BRM', 'Ferrari', 'CHANA', 'Porsche', 'CHERY',
       'Jeep', 'Cross Lander', 'MINI', 'Seat', 'Dodge', 'Land Rover',
       'Lexus', 'Daewoo', 'Subaru', 'smart', 'GEELY', 'Daihatsu',
       'Plymouth', 'JAC', 'RELY', 'EFFA', 'Agrale', 'Rover', 'CHANGAN',
       nan, 'Lada', 'Matra', 'Mahindra', 'Cadillac', 'TAC', 'SHINERAY',
       'Troller', 'Asia Motors', 'JINBEI', 'HAFEI', 'Wake', 'Jaguar'],
      dtype=object)

In [13]:
# Vendo os tipos e se tem dados faltantes
df_auto.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35029 entries, 0 to 35028
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   auto_id     35029 non-null  object
 1   marca       35024 non-null  object
 2   modelo      35024 non-null  object
 3   ano_fab     35029 non-null  int64 
 4   valor       35029 non-null  object
 5   id_cliente  35029 non-null  int64 
dtypes: int64(2), object(4)
memory usage: 1.6+ MB


In [14]:
# Visualizando dados faltantes "NaN" no marca
sem_marca = df_auto.loc[df_auto['marca'].isna()]
sem_marca

Unnamed: 0,auto_id,marca,modelo,ano_fab,valor,id_cliente
22713,1995NA1960,,,1995,45000,4505
22714,2001NA12074,,,2001,9000,7133
22715,2007NA12991,,,2007,15000,8769
22716,2013NA10233,,,2013,41900,9035
22717,2014NA1897,,,2014,30000,9534


In [15]:
# Modificando tipo de id clientes para string
df_auto['id_cliente'] = df_auto['id_cliente'].astype(str)
df_auto.dtypes

auto_id       object
marca         object
modelo        object
ano_fab        int64
valor         object
id_cliente    object
dtype: object

##### Resposta 02

In [16]:
# Média salarial por Estado
media_salario = df_cliente.groupby('estado')['renda_mensal'].mean().map('R$: {:.2f}'.format)
media_salario

estado
AC    R$: 10680.23
AL    R$: 11859.61
AM    R$: 11104.22
AP    R$: 12322.11
BA    R$: 11899.66
CE    R$: 11386.42
DF    R$: 11436.52
ES    R$: 11867.91
GO    R$: 11562.53
MA    R$: 11654.32
MG    R$: 11498.02
MS    R$: 11331.57
MT    R$: 11389.91
PA    R$: 11511.39
PB    R$: 11742.24
PE    R$: 11289.37
PI    R$: 12148.38
PR    R$: 11586.89
RJ    R$: 11462.05
RN    R$: 11338.44
RO    R$: 10940.37
RR    R$: 11205.80
RS    R$: 12025.82
SC    R$: 11533.68
SE    R$: 12379.78
SP    R$: 11577.04
TO    R$: 11841.44
Name: renda_mensal, dtype: object

In [29]:
# Qual a média salarial dos clientes para cada estado do sudeste?
media_salario_sudeste = media_salario.loc[media_salario.index.isin(['SP', 'RJ', 'MG', 'ES'])]
r02 = pd.DataFrame(media_salario_sudeste).rename(columns={"renda_mensal": "media_salarial"})
r02

Unnamed: 0_level_0,media_salarial
estado,Unnamed: 1_level_1
ES,R$: 11867.91
MG,R$: 11498.02
RJ,R$: 11462.05
SP,R$: 11577.04


##### Resposta 03

In [18]:
# Maior salário por Estado
maior_salario = df_cliente.groupby('estado')['renda_mensal'].max().map('R$: {:.2f}'.format)
maior_salario

estado
AC     R$: 22001.00
AL     R$: 22056.00
AM     R$: 22032.00
AP     R$: 21870.00
BA     R$: 22139.00
CE     R$: 22011.00
DF    R$: 101200.00
ES     R$: 21938.00
GO     R$: 22135.00
MA     R$: 22100.00
MG     R$: 22141.00
MS     R$: 22136.00
MT     R$: 21944.00
PA     R$: 22047.00
PB     R$: 22039.00
PE     R$: 22024.00
PI     R$: 22134.00
PR     R$: 22124.00
RJ     R$: 40000.00
RN     R$: 22145.00
RO     R$: 22117.00
RR     R$: 21843.00
RS     R$: 22142.00
SC     R$: 22135.00
SE     R$: 22131.00
SP     R$: 29300.00
TO     R$: 22117.00
Name: renda_mensal, dtype: object

In [19]:
maior_salario_sudeste = maior_salario.loc[maior_salario.index.isin(['SP', 'RJ', 'MG', 'ES'])]

In [20]:
menor_salario = df_cliente.groupby('estado')['renda_mensal'].min().map('R$: {:.2f}'.format)
menor_salario

estado
AC    R$: 1042.00
AL    R$: 1213.00
AM    R$: 1032.00
AP    R$: 1117.00
BA    R$: 1037.00
CE    R$: 1047.00
DF    R$: 1039.00
ES    R$: 1042.00
GO     R$: 700.00
MA    R$: 1038.00
MG    R$: 1025.00
MS    R$: 1095.00
MT    R$: 1095.00
PA    R$: 1000.00
PB    R$: 1052.00
PE    R$: 1056.00
PI    R$: 1093.00
PR    R$: 1000.00
RJ    R$: 1028.00
RN    R$: 1027.00
RO    R$: 1239.00
RR    R$: 1250.00
RS    R$: 1033.00
SC    R$: 1000.00
SE    R$: 1226.00
SP    R$: 1000.00
TO    R$: 1084.00
Name: renda_mensal, dtype: object

In [21]:
menor_salario_sudeste = menor_salario.loc[menor_salario.index.isin(['SP', 'RJ', 'MG', 'ES'])]
menor_salario_sudeste

estado
ES    R$: 1042.00
MG    R$: 1025.00
RJ    R$: 1028.00
SP    R$: 1000.00
Name: renda_mensal, dtype: object

In [22]:
# Qual o maior salário? E o menor?
maior_e_menor_salario_sudeste = pd.concat([maior_salario_sudeste, menor_salario_sudeste], axis=1)
maior_e_menor_salario_sudeste.columns = ['maior_salario', 'menor_salario']
maior_e_menor_salario_sudeste

Unnamed: 0_level_0,maior_salario,menor_salario
estado,Unnamed: 1_level_1,Unnamed: 2_level_1
ES,R$: 21938.00,R$: 1042.00
MG,R$: 22141.00,R$: 1025.00
RJ,R$: 40000.00,R$: 1028.00
SP,R$: 29300.00,R$: 1000.00


##### Resposta 04 

In [23]:
# Descobrindo quantos clientes acima de 60
clientes_acima_60Anos = df_cliente[df_cliente['idade'] > 60]
clientes_acima_60Anos = len(clientes_acima_60Anos)

# Total de clientes
total_clientes = len(df_cliente['id_cliente'])

# Qual o percentual de clientes acima de 60 anos? (Responda com precisão de duas casas decimais)
percentual_clientes_acima60 = (clientes_acima_60Anos / total_clientes) * 100
percentual_clientes_acima60 = '{:.2f}%'.format(percentual_clientes_acima60)
percentual_clientes_acima60

'4.56%'

##### Resposta 05

In [24]:
# Relacionando as cidades dos clientes com seus carros pelo id_cliente
df_cliente_auto = pd.merge(df_cliente, df_auto, on='id_cliente')
df_cliente_auto.sample(5)

Unnamed: 0,id_cliente,idade,renda_mensal,cidade,estado,sexo,escolaridade,auto_id,marca,modelo,ano_fab,valor
10469,11477,28,12455.0,Brasilia,DF,,,2005Fo20625,Ford,Mondeo Ghia 2.0 16V 143cv 4p Aut,2005,25000
34481,35499,20,7420.0,Maracanau,CE,female,,2014Fi7684,Fiat,UNO WAY 1.0 EVO Fire Flex 8V 5p,2014,20000
22392,23405,53,14324.0,Rio Largo,AL,female,Ensino médio completo (antigo 2º grau,2011Ho34524,Honda,Fit EX/ S 1.5/ EX 1.5 Flex 16V 5p Aut.,2011,10000
13994,15003,46,20285.0,Chapeco,SC,male,,2012GM23265,GM - Chevrolet,MONTANA LS 1.4 ECONOFLEX 8V 2p,2012,24000
5798,6803,28,10955.0,Itapema,SC,female,,2000Fi2664,Fiat,Palio ELX/ 500 1.0 4p,2000,9500


In [25]:
# Apagando colunas que não vão ser udadas
df_cliente_auto = df_cliente_auto.drop(columns=['idade', 'renda_mensal', 'sexo', 'escolaridade', 'auto_id', 'ano_fab', 'valor', 'modelo'])

# Selecionando somente carros com marca Ford
carros_ford = df_cliente_auto[df_cliente_auto['marca'] == 'Ford']

In [26]:
# Relacione as cidades dos clientes com seus carros. Qual cidade possui mais carros da marca Ford?
carros_ford_por_cidade = carros_ford.groupby('cidade')['marca'].count()
cidade_com_mais_carros_ford = carros_ford_por_cidade.idxmax()
maior_qtd_de_carros_por_cidade = carros_ford_por_cidade.max()

print(f"A cidade com mais carros da marca Ford é: {cidade_com_mais_carros_ford.title()}, com {maior_qtd_de_carros_por_cidade} carros.")


A cidade com mais carros da marca Ford é: Sao Paulo, com 519 carros.


##### Resposta 06

In [47]:
# Separando somente as cidades únicas do RS 
df_cidades_rs = df_cliente[df_cliente['estado'] == 'RS']
cidades_disnt_rs = df_cidades_rs['cidade'].unique()
cidades_disnt_rs = cidades_disnt_rs[~pd.isna(cidades_disnt_rs)]

r06 = []
for index, cidade in enumerate(cidades_disnt_rs, start=1):
    r06.append(f"{index}: {cidade}")

# Quantas cidades distintas existem dentre os clientes do RS e quais são elas?

#### LOAD

In [56]:
print("1) Importe os dados\n   Dados importados.")

print("2) Qual a média salarial dos clientes para cada estado do sudeste?")
display(r02)

print("3) Qual o maior salário? E o menor?")
display(maior_e_menor_salario_sudeste)

print("4) Qual o percentual de clientes acima de 60 anos? (Responda com precisão de duas casas decimais)")
display(percentual_clientes_acima60)

print(f"5) Relacione as cidades dos clientes com seus carros. Qual cidade possui mais carros da marca Ford?\n    R: A cidade com mais carros da marca Ford é: {cidade_com_mais_carros_ford.title()}, com {maior_qtd_de_carros_por_cidade} carros.")

print("6) Quantas cidades distintas existem dentre os clientes do RS e quais são elas?")
display(r06)

1) Importe os dados
   Dados importados.
2) Qual a média salarial dos clientes para cada estado do sudeste?


Unnamed: 0_level_0,media_salarial
estado,Unnamed: 1_level_1
ES,R$: 11867.91
MG,R$: 11498.02
RJ,R$: 11462.05
SP,R$: 11577.04


3) Qual o maior salário? E o menor?


Unnamed: 0_level_0,maior_salario,menor_salario
estado,Unnamed: 1_level_1,Unnamed: 2_level_1
ES,R$: 21938.00,R$: 1042.00
MG,R$: 22141.00,R$: 1025.00
RJ,R$: 40000.00,R$: 1028.00
SP,R$: 29300.00,R$: 1000.00


4) Qual o percentual de clientes acima de 60 anos? (Responda com precisão de duas casas decimais)


'4.56%'

5) Relacione as cidades dos clientes com seus carros. Qual cidade possui mais carros da marca Ford?
    R: A cidade com mais carros da marca Ford é: Sao Paulo, com 519 carros.
6) Quantas cidades distintas existem dentre os clientes do RS e quais são elas?


['1: Veranopolis',
 '2: Porto Alegre',
 '3: Caxias Do Sul',
 '4: Bage',
 '5: Gravatai',
 '6: Sao Leopoldo',
 '7: Dois Irmaos',
 '8: Viamao',
 '9: Canoas',
 '10: Cangucu',
 '11: Rio Grande',
 '12: Lagoa Vermelha',
 '13: Sapucaia Do Sul',
 '14: Sobradinho',
 '15: Esteio',
 '16: Santa Rosa',
 '17: Passo Fundo',
 '18: Novo Hamburgo',
 '19: Salvador Do Sul',
 '20: Bento Goncalves',
 '21: Cachoeirinha',
 '22: Eldorado Do Sul',
 '23: Sinimbu',
 '24: Torres',
 '25: Alvorada',
 '26: Palmares Do Sul',
 '27: Sertao',
 '28: Triunfo',
 '29: Camaqua',
 '30: Santa Maria',
 '31: Pelotas',
 '32: Farroupilha',
 '33: Charqueadas',
 '34: Cruz Alta',
 '35: Passo Fundo ',
 '36: Girua',
 '37: Taquara',
 '38: Panambi',
 '39: Gramado',
 '40: Garibaldi',
 '41: Farroupilha ',
 '42: Tapera',
 '43: Marau',
 '44: Guaiba',
 '45: Estancia Velha',
 '46: Santo Antonio Da Patrulha',
 '47: Tapes',
 '48: Santa Cruz Do Sul',
 '49: Guapore',
 '50: Frederico Westphalen',
 '51: Victor Graeff',
 '52: Nova Araca',
 '53: Capao D