Desafio

Temos dois conjuntos de dados disponiveis, o dataset rouanet.csv e o dataset censo_estado.csv. Com esses datasets faremos nosso desafio. O que precisamos é criar um pipeline de operações que gerem um csv no final.

Os passos desse pipeline são:

* unificar os datasets rouanet.csv e censo_estado.csv atraves das colunas estado_ibge e codigo, respectivamente
* criar uma Natural Key para esse dado, usando as colunas estado_ibge e valor_em_reais
* remover as linhas duplicadas de acordo com a natural key
* remover linhas com valor_em_reais = 0 ou quantidade = 0
* trocar os dados da coluna estado para a sigla da UF correspondente, ex.: Rio de Janeiro vira RJ
* Depois desse pipeline você deve gerar um csv com nome dados_tratados.csv

In [1]:
import pandas as pd

In [3]:
df_rouanet = pd.read_csv("app/rouanet.csv")
df_censo = pd.read_csv("app/censo_estado.csv")

In [4]:
df_rouanet.head()

Unnamed: 0,ano,estado_ibge,quantidade,valor_em_reais
0,2003,11,4,254300.0
1,2003,12,2,0.0
2,2003,13,6,300000.0
3,2003,14,1,30000.0
4,2003,15,23,5842618.0


In [5]:
df_rouanet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 293 entries, 0 to 292
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   ano             293 non-null    int64  
 1   estado_ibge     293 non-null    int64  
 2   quantidade      293 non-null    int64  
 3   valor_em_reais  293 non-null    float64
dtypes: float64(1), int64(3)
memory usage: 9.3 KB


In [6]:
df_censo.head()

Unnamed: 0,estado,pib,codigo,area,população,idh,receita,despesa
0,Rondônia,39450587,11,237765233,1757589,690,9122311.0,7085530.0
1,Acre,13751126,12,164123738,869265,663,6632883.0,6084417.0
2,Amazonas,89017165,13,1559168117,4080611,674,17328460.0,15324900.0
3,Roraima,11011454,14,224273831,576568,707,4419450.0,3384684.0
4,Pará,138068008,15,1245759305,8513497,646,25849450.0,22533470.0


In [7]:
df_censo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Data columns (total 8 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   estado     27 non-null     object 
 1   pib        27 non-null     int64  
 2   codigo     27 non-null     int64  
 3   area       27 non-null     int64  
 4   população  27 non-null     int64  
 5   idh        27 non-null     int64  
 6   receita    27 non-null     float64
 7   despesa    27 non-null     float64
dtypes: float64(2), int64(5), object(1)
memory usage: 1.8+ KB


### unificar os datasets rouanet.csv e censo_estado.csv atraves das colunas estado_ibge e codigo, respectivamente

In [8]:
df_rouanet_censo = df_rouanet.merge(df_censo, left_on='estado_ibge', right_on='codigo')

In [9]:
df_rouanet_censo

Unnamed: 0,ano,estado_ibge,quantidade,valor_em_reais,estado,pib,codigo,area,população,idh,receita,despesa
0,2003,11,4,2.543000e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06
1,2004,11,11,3.947995e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06
2,2005,11,12,2.490391e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06
3,2006,11,7,1.774120e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06
4,2007,11,19,4.465080e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06
...,...,...,...,...,...,...,...,...,...,...,...,...
288,2008,35,2055,4.151045e+08,São Paulo,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08
289,2010,35,2385,4.921061e+08,São Paulo,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08
290,2011,35,2586,5.717870e+08,São Paulo,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08
291,2012,35,2089,5.632651e+08,São Paulo,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08


### criar uma Natural Key para esse dado, usando as colunas estado_ibge e valor_em_reais

In [10]:
df_rouanet_censo['nk_estado_ibge_valor_em_reais'] = df_rouanet_censo.estado_ibge.astype(str) + df_rouanet_censo.valor_em_reais.astype(str)

In [11]:
df_rouanet_censo

Unnamed: 0,ano,estado_ibge,quantidade,valor_em_reais,estado,pib,codigo,area,população,idh,receita,despesa,nk_estado_ibge_valor_em_reais
0,2003,11,4,2.543000e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11254300.0
1,2004,11,11,3.947995e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11394799.48
2,2005,11,12,2.490391e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11249039.11
3,2006,11,7,1.774120e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11177412.02
4,2007,11,19,4.465080e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11446508.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
288,2008,35,2055,4.151045e+08,São Paulo,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08,35415104537.89
289,2010,35,2385,4.921061e+08,São Paulo,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08,35492106132.72
290,2011,35,2586,5.717870e+08,São Paulo,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08,35571786989.08
291,2012,35,2089,5.632651e+08,São Paulo,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08,35563265073.69


### remover as linhas duplicadas de acordo com a natural key

In [12]:
df_rouanet_censo.drop_duplicates(subset=['nk_estado_ibge_valor_em_reais'], inplace=True)

In [13]:
df_rouanet_censo

Unnamed: 0,ano,estado_ibge,quantidade,valor_em_reais,estado,pib,codigo,area,população,idh,receita,despesa,nk_estado_ibge_valor_em_reais
0,2003,11,4,2.543000e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11254300.0
1,2004,11,11,3.947995e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11394799.48
2,2005,11,12,2.490391e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11249039.11
3,2006,11,7,1.774120e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11177412.02
4,2007,11,19,4.465080e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11446508.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
288,2008,35,2055,4.151045e+08,São Paulo,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08,35415104537.89
289,2010,35,2385,4.921061e+08,São Paulo,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08,35492106132.72
290,2011,35,2586,5.717870e+08,São Paulo,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08,35571786989.08
291,2012,35,2089,5.632651e+08,São Paulo,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08,35563265073.69


### remover linhas com valor_em_reais = 0 ou quantidade = 0

In [15]:
df_rouanet_censo.loc[df_rouanet_censo.valor_em_reais == 0]

Unnamed: 0,ano,estado_ibge,quantidade,valor_em_reais,estado,pib,codigo,area,população,idh,receita,despesa,nk_estado_ibge_valor_em_reais
11,2003,12,2,0.0,Acre,13751126,12,164123738,869265,663,6632883.0,6084417.0,120.0
34,2004,14,1,0.0,Roraima,11011454,14,224273831,576568,707,4419450.0,3384684.0,140.0
53,2003,16,3,0.0,Amapá,14338838,16,142470762,829494,708,5396417.0,4224464.0,160.0
69,2009,17,2,0.0,Tocantins,31575831,17,277720404,1555229,699,10305100.0,8929456.0,170.0


In [16]:
df_rouanet_censo.loc[df_rouanet_censo.quantidade == 0]

Unnamed: 0,ano,estado_ibge,quantidade,valor_em_reais,estado,pib,codigo,area,população,idh,receita,despesa,nk_estado_ibge_valor_em_reais
60,2010,16,0,61000.0,Amapá,14338838,16,142470762,829494,708,5396417.0,4224464.0,1661000.0


In [23]:
df_rouanet_censo_sem_zero = df_rouanet_censo[(df_rouanet_censo["valor_em_reais"] != 0) & (df_rouanet_censo["quantidade"] != 0)]
df_rouanet_censo_sem_zero

Unnamed: 0,ano,estado_ibge,quantidade,valor_em_reais,estado,pib,codigo,area,população,idh,receita,despesa,nk_estado_ibge_valor_em_reais
0,2003,11,4,2.543000e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11254300.0
1,2004,11,11,3.947995e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11394799.48
2,2005,11,12,2.490391e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11249039.11
3,2006,11,7,1.774120e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11177412.02
4,2007,11,19,4.465080e+05,Rondônia,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11446508.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
288,2008,35,2055,4.151045e+08,São Paulo,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08,35415104537.89
289,2010,35,2385,4.921061e+08,São Paulo,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08,35492106132.72
290,2011,35,2586,5.717870e+08,São Paulo,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08,35571786989.08
291,2012,35,2089,5.632651e+08,São Paulo,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08,35563265073.69


### trocar os dados da coluna estado para a sigla da UF correspondente, ex.: Rio de Janeiro vira RJ

In [30]:
df_estados = pd.read_csv('https://raw.githubusercontent.com/kelvins/Municipios-Brasileiros/main/csv/estados.csv',
                        usecols=['uf','nome'])

In [31]:
df_estados

Unnamed: 0,uf,nome
0,RO,Rondônia
1,AC,Acre
2,AM,Amazonas
3,RR,Roraima
4,PA,Pará
5,AP,Amapá
6,TO,Tocantins
7,MA,Maranhão
8,PI,Piauí
9,CE,Ceará


In [32]:
estados_nomes_ufs = dict(zip(df_estados['nome'], df_estados['uf']))
estados_nomes_ufs

{'Rondônia': 'RO',
 'Acre': 'AC',
 'Amazonas': 'AM',
 'Roraima': 'RR',
 'Pará': 'PA',
 'Amapá': 'AP',
 'Tocantins': 'TO',
 'Maranhão': 'MA',
 'Piauí': 'PI',
 'Ceará': 'CE',
 'Rio Grande do Norte': 'RN',
 'Paraíba': 'PB',
 'Pernambuco': 'PE',
 'Alagoas': 'AL',
 'Sergipe': 'SE',
 'Bahia': 'BA',
 'Minas Gerais': 'MG',
 'Espírito Santo': 'ES',
 'Rio de Janeiro': 'RJ',
 'São Paulo': 'SP',
 'Paraná': 'PR',
 'Santa Catarina': 'SC',
 'Rio Grande do Sul': 'RS',
 'Mato Grosso do Sul': 'MS',
 'Mato Grosso': 'MT',
 'Goiás': 'GO',
 'Distrito Federal': 'DF'}

In [33]:
df_rouanet_censo_sem_zero['estado'].replace(estados_nomes_ufs, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_rouanet_censo_sem_zero['estado'].replace(estados_nomes_ufs, inplace=True)


In [34]:
df_rouanet_censo_sem_zero

Unnamed: 0,ano,estado_ibge,quantidade,valor_em_reais,estado,pib,codigo,area,população,idh,receita,despesa,nk_estado_ibge_valor_em_reais
0,2003,11,4,2.543000e+05,RO,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11254300.0
1,2004,11,11,3.947995e+05,RO,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11394799.48
2,2005,11,12,2.490391e+05,RO,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11249039.11
3,2006,11,7,1.774120e+05,RO,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11177412.02
4,2007,11,19,4.465080e+05,RO,39450587,11,237765233,1757589,690,9.122311e+06,7.085530e+06,11446508.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
288,2008,35,2055,4.151045e+08,SP,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08,35415104537.89
289,2010,35,2385,4.921061e+08,SP,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08,35492106132.72
290,2011,35,2586,5.717870e+08,SP,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08,35571786989.08
291,2012,35,2089,5.632651e+08,SP,2038004931,35,248219481,45538936,783,2.328225e+08,2.319822e+08,35563265073.69


### Depois desse pipeline você deve gerar um csv com nome dados_tratados.csv

In [35]:
df_rouanet_censo_sem_zero.to_csv('dados_tratados.csv', index=False)

#### Dúvidas:
* No email tem "remover as linhas duplicadas de acordo com a surrogate key", mas no gist "remover as linhas duplicadas de acordo com a natural key". Considerei que seria a natural key faria mais sentido
