<a href="https://colab.research.google.com/github/ferraa1/AtividadesPython/blob/main/Copy_of_Aula02_Introducao_Pandas_parte2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Concatenar DataFrames

Às vezes, um conjunto de dados é dividido em várias tabelas. Por exemplo, os dados geralmente são divididos em vários arquivos CSV para que cada download seja menor.

Quando precisamos reconstruir um único DataFrame a partir de vários DataFrames menores, podemos usar o método pd.concat([df1, df2, df3, ...]). Este método só funciona se todas as colunas forem iguais em todos os DataFrames.

In [None]:
import pandas as pd

In [None]:
df1 = pd.DataFrame([
  ['Daniel Soares','daniel.soares@ifc.edu.br'],
  ['Juliano Brignoli','juliano.brignoli@ifc.edu.br'],
  ['André Stein','andre.stein@ifc.edu.br']
],
columns=['Nome', 'Email'])

In [None]:
df2 = pd.DataFrame([
  ['Cristhian Heck','cristhian.heck@ifc.edu.br'],
  ['Rodrigo Curvello','rodrigo.curvello@ifc.edu.br'],
  ['Fabio Alexandrini','fabio.alexandrini@ifc.edu.br']  
],
columns=['Nome', 'Email'])

In [None]:
professores = pd.concat([df1,df2])

In [None]:
#Ordenando DataFrame pela coluna 'Nome'
professores.sort_values(by="Nome")

### Juntando vários arquivos em único DataFrame

In [None]:
import glob
 
arquivos = glob.glob("arquivo*.csv")

lista_dfs = []
for nomeArquivo in arquivos:
    dados = pd.read_csv(nomeArquivo)
    lista_dfs.append(dados)

novo_df = pd.concat(lista_dfs)
 
print(novo_df)


### Juntando dados de tabelas diferentes

In [None]:
clientes = pd.read_csv('clientes.csv')
clientes.head()

In [None]:
produtos = pd.read_csv('produtos.csv')
produtos.head()

In [None]:
pedidos = pd.read_csv('pedidos.csv')
pedidos.head()

O método .merge() procura por colunas que são comuns entre dois DataFrames e, em seguida, procura por linhas onde os valores dessas colunas são os mesmos. Em seguida, combina as linhas correspondentes em uma única linha em uma nova tabela.

In [None]:
novo_df = pd.merge(pedidos,clientes)
novo_df

In [None]:
novo_df = pedidos.merge(clientes)
novo_df

In [None]:
novo_df = pedidos.merge(clientes).merge(produtos)
novo_df

### Mesclar DataFrames cujas colunas não correspondem

In [None]:
professores2 = pd.DataFrame([
  ['Daniel Soares','212-345-6789'],
  ['Juliano Brignoli','626-987-6543'],
  ['André Stein','303-456-7891']
],
columns=['Nome', 'Telefone'])


In [None]:
professores.head()

In [None]:
professores2.head()

In [None]:
#Linhas que não correspondem não são incluídas
novo_df = professores.merge(professores2)
novo_df

In [None]:
novo_df = professores.merge(professores2, how='outer')
novo_df

## Limpando os dados

Uma grande parte da ciência de dados envolve adquirir dados brutos e colocá-los em um formulário pronto para análise. Alguns estimaram que os cientistas de dados gastam 80% de seu tempo limpando e manipulando dados, e apenas 20% de seu tempo realmente analisando ou construindo modelos a partir deles.

A primeira etapa para diagnosticar se um conjunto de dados está organizado ou não é usar funções do pandas para explorar e investigar o conjunto de dados. Algumas das mais úteis são:

.head() - exibe as primeiras 5 linhas da tabela

.info() - exibir um resumo da tabela

.describe() - exibe as estatísticas resumidas da tabela

.columns - exibe os nomes das colunas da tabela

.value_counts() - exibe os valores distintos de uma coluna

#### Lidando com dados duplicados

In [None]:
frutas = pd.DataFrame([
  ['banana','R$ 5','105'],
  ['maçã','R$ 3','95'],
  ['maçã','R$ 3','95'],
  ['pêssego','R$ 4','55'],
  ['pêssego','R$ 3','55'],   
],
columns=['Item', 'Preço','Calorias'])
frutas

In [None]:
frutas.duplicated()

In [None]:
frutas.drop_duplicates()

In [None]:
#Removendo linhas duplicadas na coluna 'Item'
frutas.drop_duplicates(subset=['Item'])

#### Divisão por caractere

Ao tentar obter dados limpos, queremos garantir que cada coluna represente um tipo de medição. Muitas vezes, várias medições são registradas na mesma coluna e queremos separá-las para que possamos fazer análises individuais em cada variável.

In [None]:
clientes

In [None]:
nomes = clientes.customer_name.str.split(" ")
clientes['Primeiro Nome'] = nomes.str.get(0)
clientes['Sobrenome'] = nomes.str.get(1)
clientes

#### Verificando os tipos

In [None]:
clientes.dtypes

#### Valores Ausentes

Muitas vezes temos dados com elementos ausentes, como resultado de um problema com o processo de coleta de dados ou erros na forma como os dados foram armazenados. Os elementos ausentes normalmente aparecem como NaN (ou Not a Number)

In [None]:
olimpiadas = pd.read_csv('olimpíadas.csv')
olimpiadas.info()

In [None]:
#Excluindo registros com dados ausentes
novo_df = olimpiadas.dropna()
novo_df.info()

In [None]:
# Excluindo registros com dados ausentes somente na coluna 'medalha'
novo_df = olimpiadas.dropna(subset=['medalha'])
novo_df

In [None]:
#Substituindo valores NaN por outro valor
df = olimpiadas.fillna(value={'medalha':'Sem Medalha'})
df.head(10)

# FIM