# Cooperação Internacional para o desenvolvimento do Complexo Econômico-Industrial Brasileiro
<p>Projeto Livre Reprograma curso Análise de Dados com Python </p>
<p>Aluna Cristiane Pereira</p>

<p><b>Introdução</b></p>
<p>Nesse notebook iremos mesclar e tratar as informações do CSV que será utilizado para responder as questões principais do projeto e gerar as primeiras visualizações.</p>
Perguntas e hipóteses exploratórias:
<ul>
<li>Quais são as condições da balança comercial em produtos de saúde para os países de interesse do estudo? Brasil, África do Sul, Índia, Argentina e México.</li>
<li>Quais produtos são importados/exportados por cada país?</li>
<li>Qual é a capacidade produtiva de IFA (Ingrediente Farmacêutico Ativo) de cada país?</li>
</ul>

<b>Importando os dados</b>

In [1]:
import pandas as pd

In [2]:
# Importando as bases de dados
df_Brazil_exports = pd.read_csv("Brazil-Pharmaceuticals-Exports.csv")
df_Brazil_imports = pd.read_csv("Brazil-Pharmaceuticals-Imports.csv")
df_Pharmaceutical_data = pd.read_csv("Pharmaceuticals-International-Trade-_parcial-data_.csv")

In [3]:
# Agora pretendo estudar como mesclar as bases de dados e preparar as colunas para as operações que desejo fazer
df_Pharmaceutical_data.columns

Index(['DESCRIPTION', 'COUNTRY', 'VALUE', 'YEAR', 'PARTNER', 'SOURCE'], dtype='object')

<b>Tratando os dados e dataframe final</b>

In [4]:
# Vou converter a coluna value para Float e a Year para datetime
# A conversão inicialmente deu errado, porque tem um dado incorreto na primeira linha do dataframe, vou substituí-lo, antes de converter
df_Pharmaceutical_data.iat[0,2] = "0.667"


In [5]:
#Verificando a alteração
df_Pharmaceutical_data.head(5)

Unnamed: 0,DESCRIPTION,COUNTRY,VALUE,YEAR,PARTNER,SOURCE
0,Urine bags imports (USD million),"South Africa, Eswatini and Kenya",0.667,2020.0,,Medical Industries in Africa - A regional resp...
1,Imports medical technology %,South Africa,0.9,2018.0,,Overview of the health technology sector in So...
2,Medical technological market (Rand billion),South Africa,350.0,2018.0,,Overview of the health technology sector in So...
3,Medical technological market (Euros billion),South Africa,22.0,2018.0,,Overview of the health technology sector in So...
4,Imports medical technology (Rand billion),South Africa,317.0,2018.0,,Overview of the health technology sector in So...


In [6]:
# Deu um erro na conversão por causa de valores com vígula, ao invés de pontos, então voltei para substituir o caracter nas strings
df_Pharmaceutical_data['VALUE'] = df_Pharmaceutical_data['VALUE'].str.replace(',','.')

In [7]:
# Finalmente, a conversão para float
df_Pharmaceutical_data["VALUE"] = df_Pharmaceutical_data["VALUE"].astype(float)

In [16]:
# RETIREI PORQUE DEU ERRO NO TABLEAU
# Próximo passo, a conversão para datetime da coluna Year
# from datetime import datetime
# df_Pharmaceutical_data["YEAR"] = pd.to_datetime(df_Pharmaceutical_data["YEAR"])

In [8]:
# Agora vou explorar os demais dataframes
df_Brazil_exports.columns

Index(['Segmentos', 'Type', 'Year', 'Total exports million USD',
       'Main exports destiny', 'Value exports main partner',
       'Partner share (%)'],
      dtype='object')

In [9]:
# Verificando quais colunas vou precisar converter
df_Brazil_exports.dtypes

Segmentos                      object
Type                           object
Year                            int64
Total exports million USD       int64
Main exports destiny           object
Value exports main partner      int64
Partner share (%)             float64
dtype: object

In [10]:
# Quero alterar o nome da coluna Segmentos para o inglês
df_Brazil_exports.rename(columns={"Segmentos": "Segments"}, inplace="True")

In [20]:
# RETIREI PORQUE DEU ERRO NO TABLEAU
# Convertendo a colunar Year para datetime
# df_Brazil_exports["Year"] = pd.to_datetime(df_Brazil_exports["Year"])

In [11]:
# Explorando o último dataframe
df_Brazil_imports.columns

Index(['Segments', 'Type', 'Year', 'Total Imports million U$S',
       'Main imports origin', 'Value imports main partner',
       'Partner share (%)'],
      dtype='object')

In [12]:
df_Brazil_imports.dtypes

Segments                       object
Type                           object
Year                            int64
Total Imports million U$S     float64
Main imports origin            object
Value imports main partner      int64
Partner share (%)             float64
dtype: object

In [13]:
# RETIREI PORQUE DEU ERRO NO TABLEAU
# Preciso converter Year de int para datetime
# df_Brazil_imports['Year'] = pd.to_datetime(df_Brazil_imports['Year'])

In [14]:
#Agora irei unir os dataframes, desejo manter o máximo de informações possível, então vou fazer um merge outer
df_Brazil_pharmaceuticals = pd.merge(df_Brazil_exports, df_Brazil_imports, how = "outer")

In [25]:
df_Brazil_pharmaceuticals.to_csv("FinalBrazil_pharmaceuticals.csv")

In [15]:
# Deu erro no merge final por causa da ausência de colunas com valores semelhantes, então vou voltei para verificar possibilidades de intersecção
df_Brazil_pharmaceuticals.columns

Index(['Segments', 'Type', 'Year', 'Total exports million USD',
       'Main exports destiny', 'Value exports main partner',
       'Partner share (%)', 'Total Imports million U$S', 'Main imports origin',
       'Value imports main partner'],
      dtype='object')

In [16]:
# Notei que preciso adicionar uma coluna para identificar os dados do Brasil
df_Brazil_pharmaceuticals["COUNTRY"] = "Brazil"

In [17]:
# Decidi alterar também o nome da coluna Year, para ficar igual ao da outra tabela
df_Brazil_pharmaceuticals.rename(columns={"Year": "YEAR"}, inplace="True")

In [18]:
# Finalmente a intersecção entre todas as tabelas
df_Pharmaceutical_market = pd.merge(df_Brazil_pharmaceuticals, df_Pharmaceutical_data, how="outer")

In [19]:
# Verificando o dataframe final
df_Pharmaceutical_market.describe()

Unnamed: 0,YEAR,Total exports million USD,Value exports main partner,Partner share (%),Total Imports million U$S,Value imports main partner,VALUE
count,223.0,51.0,51.0,101.0,51.0,51.0,127.0
mean,2020.309417,110092.411765,22752.156863,0.302921,362857.4,80610.2,8141.767441
std,1.345078,205128.542042,39548.599033,0.138388,1128619.0,223444.0,30492.875329
min,2017.0,1.0,1.0,0.107,2.479,15.0,0.03
25%,2020.0,189.0,38.0,0.21,230.5,90.5,4.479
50%,2020.0,17029.0,5558.0,0.269,910.0,228.0,78.2
75%,2021.0,73532.0,22209.0,0.33,113497.0,41621.5,425.0
max,2022.0,799762.0,156420.0,0.944,6689051.0,1304009.0,180555.0


In [20]:
#Exportando o dataframe final
df_Pharmaceutical_market.to_csv("FinalDataFramePharmaceuticalMarket.csv")

In [26]:
df_Pharmaceutical_market.head(20)

Unnamed: 0,Segments,Type,YEAR,Total exports million USD,Main exports destiny,Value exports main partner,Partner share (%),Total Imports million U$S,Main imports origin,Value imports main partner,COUNTRY,DESCRIPTION,VALUE,PARTNER,SOURCE
0,Total de Dispositivos Medicos (DMs),exports,2020.0,726.0,United States,186.0,0.256,,,,Brazil,,,,
1,Audiologia,exports,2020.0,5.0,United States,2.0,0.33,,,,Brazil,,,,
2,Cardiovascular,exports,2020.0,53.0,Switzerland,20.0,0.373,,,,Brazil,,,,
3,Demais equip. de uso hospitalar inclusive laser,exports,2020.0,63.0,United States,13.0,0.213,,,,Brazil,,,,
4,Diagnostico por imagem e seus insumos,exports,2020.0,27.0,United States,9.0,0.33,,,,Brazil,,,,
5,Equip. e material de apoio OPME,exports,2020.0,52.0,United States,24.0,0.456,,,,Brazil,,,,
6,Equipamentos para laboratorio,exports,2020.0,13.0,United States,4.0,0.346,,,,Brazil,,,,
7,Materiais e aparelhos para odontologia,exports,2020.0,53.0,United States,13.0,0.244,,,,Brazil,,,,
8,Materiais e suprimentos,exports,2020.0,222.0,United States,42.0,0.188,,,,Brazil,,,,
9,Oftalmologia,exports,2020.0,1.0,United States,1.0,0.583,,,,Brazil,,,,
