# Introdução ao Pandas e manipulação de arquivos com Pandas

- Introdução ao Pandas
    - Conceitos Básicos de Pandas
      - Estruturas de dados: Series e DataFrames
      - Criação de Series e DataFrames a partir de listas e dicionários
      - Visualização de dados: cabeçalho, cauda e informações básicas
- Manipulação de Dados com Pandas
    - Carregamento de Dados
      - Leitura de dados de diferentes fontes (CSV, Excel, SQL) 
      - Visualização inicial e sumário estatístico
    - Limpeza e Preparação de Dados
      - Tratamento de valores ausentes
      - Remoção de duplicatas
      - Filtragem de dados  
    - Transformação de Dados
      - Operações com colunas (adicionar, remover, modificar)
      - Funções de mapeamento
      - Agrupamento e agregação


## Objetivo
- Fornecer uma compreensão abrangente da biblioteca Pandas, uma ferramenta essencial no Python para análise de dados. Ao final do curso, você será capaz de manipular, limpar e explorar conjuntos de dados de forma eficiente. Estaremos cobrindo desde a configuração do ambiente de desenvolvimento até a realização de análises de dados complexas e visualização de dados.

# Visão Geral do Pandas e sua Importância
- Pandas é uma biblioteca de código aberto que fornece estruturas de dados de alto desempenho e ferramentas de análise de dados para a linguagem Python. 
- Com Pandas, você pode realizar tarefas essenciais de __pré-processamento__ e __análise de dados__, como a __limpeza de dados__, transformações, agregações, e muito mais. 
- A biblioteca é amplamente utilizada em diversas áreas, incluindo finanças, neurociência, economia, estatística, publicidade e web analytics.

### Exemplo de Implementação Inicial com Pandas:
- Vamos começar com um exemplo simples para demonstrar como iniciar com o Pandas. 

In [None]:
import pandas as pd

# Criando um DataFrame simples
data = {
    'Nome': ['João', 'Ana', 'Pedro', 'Maria'],
    'Idade': [28, 34, 29, 32],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre']
}

df = pd.DataFrame(data)

print(df, "\n", "_"*50, "\n")

# Em notebooks o que é retornado da célula é renderizado (exibido) na saída da célula de código, não exigindo a função print
df


Cria um DataFrame, que é uma das principais estruturas de dados do Pandas. 

Um DataFrame é semelhante a uma tabela de banco de dados ou uma planilha de Excel, com linhas e colunas. 

No exemplo acima, criamos um DataFrame a partir de um dicionário de listas, uma estrutura de dados muito comum em Python.

## Séries e DataFrames
- Series: Uma Series é uma coluna unidimensional capaz de armazenar qualquer tipo de dados (inteiros, strings, floats, objetos Python, etc.). Cada elemento de uma Series é indexado, começando por padrão do índice 0.

In [None]:
import pandas as pd

# Criando uma Series a partir de uma lista
idades = pd.Series([25, 30, 35, 40])
print(idades)

print(idades[2])


In [None]:
import pandas as pd

vals = [1, 7, 2, 7, 2, 9, 5]

minha_serie = pd.Series(vals, index = ["a", "b", "c", "d", "e", "f", "g"])

print(minha_serie)

print(minha_serie["f"])

In [3]:
import pandas as pd
frequencia = {"aluno1": 5, "aluno2": 7, "aluno3": 2, "aluno4": 7, "aluno5": 2, "aluno6": 9, "aluno7": 5}

diario = pd.Series(frequencia)
print(diario)

aluno1    5
aluno2    7
aluno3    2
aluno4    7
aluno5    2
aluno6    9
aluno7    5
dtype: int64


In [3]:
import pandas as pd
frequencia = {"aluno1": 5, "aluno2": 7, "aluno3": 2, "aluno4": 7, "aluno5": 2, "aluno6": 9, "aluno7": 5}

diario = pd.Series(frequencia, index = ["aluno2", "aluno4", "aluno6"])

print(diario)

aluno2    7
aluno4    7
aluno6    9
dtype: int64


- DataFrames: Um DataFrame é uma estrutura de dados bidimensional, como uma planilha ou uma tabela de banco de dados, com colunas de diferentes tipos. Pode ser visto como um conjunto de Series que compartilham o mesmo índice.

In [4]:
# Criando um DataFrame a partir de um dicionário de listas
data = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Diana','Fernando'],
    'Idade': [28, 34, 29, 32, 45],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre', 'Brasília']
}
df = pd.DataFrame(data)
df


Unnamed: 0,Nome,Idade,Cidade
0,Ana,28,São Paulo
1,Bruno,34,Rio de Janeiro
2,Carlos,29,Belo Horizonte
3,Diana,32,Porto Alegre
4,Fernando,45,Brasília


### Criação de Series e DataFrames
- A partir de __listas__: Podemos criar uma Series diretamente de uma lista. Para criar um DataFrame a partir de listas, podemos combinar várias listas em um dicionário, onde cada chave se torna o nome da coluna.
- A partir de __dicionários__: Um DataFrame também pode ser criado a partir de um dicionário de listas ou de Series, proporcionando uma forma intuitiva de especificar dados junto com seus rótulos de coluna.

## Visualização de Dados
- Pandas oferece métodos simples para uma rápida inspeção dos seus dados.
- Ferramentas cruciais para uma primeira análise exploratória dos dados, permitindo uma visão geral rápida e eficiente da estrutura e conteúdo do seu conjunto de dados.

Métodos <code>.head() e .tail()</code>: Use df.head(n) para visualizar as primeiras n linhas do DataFrame df, e df.tail(n) para as últimas n. Se n não for especificado, o padrão é 5.

In [7]:
data = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Diana','Fernando','João', 'Ana', 'Pedro', 'Maria', 'Alice', 'Bob', 'Charlie'],
    'Idade': [28, 34, 29, 32, 45, 28, 34, 29, 32,25, 30, 35],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre', 'Brasília','São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre', 'New York', 'Paris', 'London']
}

print(data['Nome'][4])
# df = pd.DataFrame(data)

df.head()  # Mostra as primeiras 5 linhas


Fernando


Unnamed: 0,Nome,Idade,Cidade
0,Ana,28,São Paulo
1,Bruno,34,Rio de Janeiro
2,Carlos,29,Belo Horizonte
3,Diana,32,Porto Alegre
4,Fernando,45,Brasília


In [6]:

print('*'*80)

print(df.tail()) 
df

********************************************************************************
       Nome  Idade          Cidade
0       Ana     28       São Paulo
1     Bruno     34  Rio de Janeiro
2    Carlos     29  Belo Horizonte
3     Diana     32    Porto Alegre
4  Fernando     45        Brasília


Unnamed: 0,Nome,Idade,Cidade
0,Ana,28,São Paulo
1,Bruno,34,Rio de Janeiro
2,Carlos,29,Belo Horizonte
3,Diana,32,Porto Alegre
4,Fernando,45,Brasília


In [39]:

print('*'*80)

#localizar uma linha
df.loc[4]

# df['Nome'][4]

df['Nome'].loc[4]



********************************************************************************


'Fernando'

In [40]:

print('*'*80)

#localizar varias linhas - usando [[]] o resultado é um DataFrame
print(df.loc[[2,5,8]])

********************************************************************************
     Nome  Idade          Cidade
2  Carlos     29  Belo Horizonte
5    João     28       São Paulo
8   Maria     32    Porto Alegre


- Operações básicas de manipulação de dados com Pandas, como seleção de colunas, filtragem de linhas, e cálculos simples (médias, somas).

In [8]:
import pandas as pd
print(df)

print('*'*80)
# Seleção de colunas
print(df['Nome'])

print('*'*80)
# Filtragem de linhas
new_df = df[df['Idade'] > 30]

print('*'*80)
# Cálculos simples
print(df['Idade'].mean())

new_df

       Nome  Idade          Cidade
0       Ana     28       São Paulo
1     Bruno     34  Rio de Janeiro
2    Carlos     29  Belo Horizonte
3     Diana     32    Porto Alegre
4  Fernando     45        Brasília
********************************************************************************
0         Ana
1       Bruno
2      Carlos
3       Diana
4    Fernando
Name: Nome, dtype: object
********************************************************************************
********************************************************************************
33.6


Unnamed: 0,Nome,Idade,Cidade
1,Bruno,34,Rio de Janeiro
3,Diana,32,Porto Alegre
4,Fernando,45,Brasília


<code>.info()</code>: Este método fornece um resumo conciso do DataFrame, incluindo o número de entradas não-nulas em cada coluna, o tipo de dados e o uso de memória.

In [9]:
import pandas as pd

# df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')
df = pd.read_csv('dados/dataSujo.csv')
df.info()
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Duration  32 non-null     int64  
 1   Date      31 non-null     object 
 2   Pulse     32 non-null     int64  
 3   Maxpulse  32 non-null     int64  
 4   Calories  30 non-null     float64
dtypes: float64(1), int64(3), object(1)
memory usage: 1.4+ KB


Unnamed: 0,Duration,Date,Pulse,Maxpulse,Calories
0,60,'2020/12/01',110,130,409.1
1,60,'2020/12/02',117,145,479.0
2,60,'2020/12/03',103,135,340.0
3,45,'2020/12/04',109,175,282.4
4,45,'2020/12/05',117,148,406.0
5,60,'2020/12/06',102,127,300.0
6,60,'2020/12/07',110,136,374.0
7,450,'2020/12/08',104,134,253.3
8,30,'2020/12/09',109,133,195.1
9,60,'2020/12/10',98,124,269.0


<code>.describe()</code>: Oferece uma visão geral estatística das colunas numéricas, como contagem, média, desvio padrão, mínimos e máximos.

In [47]:
df.describe()


Unnamed: 0,Duration,Pulse,Maxpulse,Calories
count,32.0,32.0,32.0,30.0
mean,68.4375,103.5,128.5,304.68
std,70.039591,7.832933,12.998759,66.003779
min,30.0,90.0,101.0,195.1
25%,60.0,100.0,120.0,250.7
50%,60.0,102.5,127.5,291.2
75%,60.0,106.5,132.25,343.975
max,450.0,130.0,175.0,479.0


### Estatistica básica

- mean(): Calcula a média dos valores em uma coluna (soma de todos os valores dividida pelo número de valores).

- mode(): Calcula o valor mais frequente dos valores em uma coluna (o valor que aparece com maior frequência em uma coluna).

- median(): Calcula a mediana dos valores em uma coluna (o valor que divide a coluna em duas partes iguais).

- std(): Calcula o desvio padrão dos valores em uma coluna (raiz quadrada da soma dos quadrados das diferenças entre cada valor e a média dividida pelo número de valores).

- count(): Conta o número de valores não-nulos em uma coluna.

- min(): Calcula o valor mínimo dos valores em uma coluna.

- max(): Calcula o valor máximo dos valores em uma coluna.

- sum(): Calcula a soma dos valores em uma coluna.

- quantile(): Calcula um percentual específico dos valores em uma coluna (por exemplo, 25% para o primeiro quartil, 50% para a mediana e 75% para o terceiro quartil).

### Outras funções algébricas

- var(): Calcula a variância dos valores em uma coluna (a média dos quadrados das diferenças entre cada valor e a média dividida pelo número de valores).
 
- skew(): Calcula o coeficiente de assimetria dos valores em uma coluna (a média dos quadrados das diferenças entre cada valor e a média dividida pelo desvio padrão elevado ao quadrado).
 
- kurt(): Calcula o coeficiente de curtose dos valores em uma coluna (a média dos quadrados das diferenças entre cada valor e a média dividida pelo desvio padrão elevado ao quadrado elevado a quatro).
 
- cumsum(): Calcula a soma acumulada dos valores em uma coluna (a soma dos valores anteriores até o valor atual).
 
- cumprod(): Calcula o produto acumulado dos valores em uma coluna (o produto dos valores anteriores até o valor atual).
 
- cummin(): Calcula o valor mínimo acumulado dos valores em uma coluna (o valor mínimo dos valores anteriores até o valor atual).
 
- cummax(): Calcula o valor máximo acumulado dos valores em uma coluna (o valor máximo dos valores anteriores até o valor atual).
 
- cumvar(): Calcula a variância acumulada dos valores em uma coluna (a variância dos valores anteriores até o valor atual).

## Limpeza de Dados

A limpeza de dados é uma parte crítica da análise de dados. Pandas oferece várias funções para facilitar este processo.

In [71]:
df = pd.read_csv('dados/dataSujo.csv')
# print(df)
# Removendo linhas com valores ausentes
df_limpo = df.dropna(subset=['Calories'])


# Preenchendo valores ausentes com zero
df_preenchido = df.fillna(df['Calories'].mean())

# Removendo duplicatas
df_unico = df.drop_duplicates()

df_limpo, df_preenchido, df_unico
df["Duration"].loc[7] = 45
df


You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df["Duration"].loc[7] = 45
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["Duration"].loc[7] = 45


Unnamed: 0,Duration,Date,Pulse,Maxpulse,Calories
0,60,'2020/12/01',110,130,409.1
1,60,'2020/12/02',117,145,479.0
2,60,'2020/12/03',103,135,340.0
3,45,'2020/12/04',109,175,282.4
4,45,'2020/12/05',117,148,406.0
5,60,'2020/12/06',102,127,300.0
6,60,'2020/12/07',110,136,374.0
7,45,'2020/12/08',104,134,253.3
8,30,'2020/12/09',109,133,195.1
9,60,'2020/12/10',98,124,269.0


In [60]:
print(pd.options.display.max_rows) 
# print(df)
# pd.options.display.max_rows = 500
# print(df)
pd.options.display.max_rows = 50
print(df)
print(df.to_string())


30
    Duration          Date  Pulse  Maxpulse  Calories
0         60  '2020/12/01'    110       130     409.1
1         60  '2020/12/02'    117       145     479.0
2         60  '2020/12/03'    103       135     340.0
3         45  '2020/12/04'    109       175     282.4
4         45  '2020/12/05'    117       148     406.0
5         60  '2020/12/06'    102       127     300.0
6         60  '2020/12/07'    110       136     374.0
7        450  '2020/12/08'    104       134     253.3
8         30  '2020/12/09'    109       133     195.1
9         60  '2020/12/10'     98       124     269.0
10        60  '2020/12/11'    103       147     329.3
11        60  '2020/12/12'    100       120     250.7
12        60  '2020/12/12'    100       120     250.7
13        60  '2020/12/13'    106       128     345.3
14        60  '2020/12/14'    104       132     379.3
15        60  '2020/12/15'     98       123     275.0
16        60  '2020/12/16'     98       120     215.2
17        60  '2020/12/17

In [None]:
#para exibir todo DataFrame
print(df.to_string()) 

# Leitura de Dados de Diferentes Fontes


## Arquivos CSV
 Arquivos CSV (Valores Separados por Vírgula) são uma das formas mais comuns de armazenamento de dados tabulares. 
 
 Utilizar a biblioteca Pandas para ler, escrever e manipular dados em arquivos CSV de maneira eficiente, aproveitando as funcionalidades avancadas para analise de dados.
 
 Função pd.read_csv() para carregar dados de um arquivo CSV diretamente para um DataFrame, permitindo uma manipulação fácil e flexível dos dados.

 - Parâmetros úteis como sep para delimitadores customizados e usecols para selecionar colunas específicas.

In [None]:

import pandas as pd

# Carregando dados de um arquivo CSV
df_csv = pd.read_csv('dadosFictícios/Exemplo_Aula_8.csv')
df_csv.info()


In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')

# df = pd.read_json('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.json')

df.info()

In [None]:
import pandas as pd
# Exemplo: Leitura de um arquivo CSV com Pandas
df = pd.read_csv('dados/usuarios.csv')
print(df.head())  # Mostra as primeiras 5 linhas do DataFrame

Escrita para CSV:


In [None]:
df.to_csv('dados/saida_pandas.csv', index=False)


Exportar um DataFrame para um arquivo CSV usando o método to_csv(), permitindo salvar os resultados de análises e manipulações dos dados.

- Argumento index=False para evitar a escrita do índice como uma coluna no arquivo CSV.

In [None]:
# Exemplo: Escrita de um DataFrame em um arquivo CSV
df_novo = pd.DataFrame({
    'Nome': ['Alice', 'Bob', 'Carol'],
    'Idade': [25, 30, 22],
    'Email': ['alice@example.com', 'bob@example.com', 'carol@example.com']
})

df_novo.to_csv('saida_pandas.csv', index=False)



## Tarefas de dados:
Utilizar um arquivo CSV de sua escolha (pode ser um conjunto de dados público sobre um tema de interesse) para realizar as seguintes tarefas com Pandas:
1. Carregar os dados em um DataFrame.
2. Realizar uma análise exploratória básica (número de linhas, colunas, tipos de dados).
3. Limpar os dados se necessário (tratar valores ausentes, remover duplicatas).
4. Criar novas colunas com dados derivados ou calculados.
5. Salvar o DataFrame modificado em um novo arquivo CSV.


In [22]:
import pandas as pd

df = pd.read_csv('dados/dataSujo.csv')
df.head(3)
df.tail()
df.info()
df.describe()
df['TotalCalories'] = df['Calories'].cumsum()
df['Potencia'] = df['Calories'] / df['Duration']
df.to_csv('dados/novoteste.csv', sep='\t', index=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Duration  32 non-null     int64  
 1   Date      31 non-null     object 
 2   Pulse     32 non-null     int64  
 3   Maxpulse  32 non-null     int64  
 4   Calories  30 non-null     float64
dtypes: float64(1), int64(3), object(1)
memory usage: 1.4+ KB


# Manipulacao de Dados JSON com Pandas

## Objetivo:
Utilizar a biblioteca Pandas para manipular dados no formato JSON, convertendo-os facilmente entre formatos JSON e DataFrame para analise e processamento de dados.


Função pd.read_json() para carregar dados JSON em um DataFrame, discutindo diferentes opções de orientação de dados (como records, split, index, etc.) e como elas afetam a leitura dos dados.

In [6]:
import pandas as pd

# Exemplo: Carregando dados JSON em um DataFrame
dados_json = '{"nome": ["Alice", "Bob", "Carol"], "idade": [25, 30, 22], "email": ["alice@example.com", "bob@example.com", "carol@example.com"]}'
df = pd.read_json(dados_json)
print(df)


    nome  idade              email
0  Alice     25  alice@example.com
1    Bob     30    bob@example.com
2  Carol     22  carol@example.com


  df = pd.read_json(dados_json)


Usar a função pd.read_json() para carregar dados JSON em um DataFrame, discutindo diferentes opções de orientação de dados (como records, split, index, etc.) e como elas afetam a leitura dos dados.

In [88]:
# Carregando JSON com orientação diferente
df_orientado = pd.read_json('dados/saidaPessoas.json', orient='records')
# print(df_orientado)

# df_orientado.to_json('dados/saida_orientada.json', orient='table')
normalizado = pd.json_normalize(df_orientado['empregados'])
print(normalizado)


       nome  idade
0      João     30
1       Ana     25
2     Maria     35
3     Pedro     40
4      José     20
5    Marcos     30
6    Carlos     35
7     Jorge     40
8   Mariana     20
9     Marta     25
10    Joana     25
11    Carla     35
12    Jorge     40
13  Mariana     20
14    Marta     25


In [12]:
# Exemplo: Convertendo um DataFrame em JSON
df_novo = pd.DataFrame({
    'Produto': ['Mesa', 'Cadeira', 'Lampada'],
    'Preco': [300.00, 150.00, 50.00],
    'Quantidade': [10, 20, 30]
})

json_saida = df_novo.to_json(orient='table', indent=4)
print(json_saida)


{
    "schema":{
        "fields":[
            {
                "name":"index",
                "type":"integer"
            },
            {
                "name":"Produto",
                "type":"string"
            },
            {
                "name":"Preco",
                "type":"number"
            },
            {
                "name":"Quantidade",
                "type":"integer"
            }
        ],
        "primaryKey":[
            "index"
        ],
        "pandas_version":"1.4.0"
    },
    "data":[
        {
            "index":0,
            "Produto":"Mesa",
            "Preco":300.0,
            "Quantidade":10
        },
        {
            "index":1,
            "Produto":"Cadeira",
            "Preco":150.0,
            "Quantidade":20
        },
        {
            "index":2,
            "Produto":"Lampada",
            "Preco":50.0,
            "Quantidade":30
        }
    ]
}


Normalização de dados JSON aninhados usando pd.json_normalize, facilitando a análise de dados complexos e hierárquicos.

In [13]:
dados_aninhados = [
    {'nome': 'João', 'info': {'idade': 30, 'cidade': 'São Paulo'}},
    {'nome': 'Ana', 'info': {'idade': 25, 'cidade': 'Rio de Janeiro'}}
]

df_normalizado = pd.json_normalize(dados_aninhados)
print(df_normalizado)


   nome  info.idade     info.cidade
0  João          30       São Paulo
1   Ana          25  Rio de Janeiro


Análise com Pandas: Convertendo dados JSON em DataFrame para análise mais profunda usando Pandas.

In [None]:
import pandas as pd
import json

# Simulando dados JSON
dados_json = '''
[
    {"nome": "Alice", "idade": 30, "cidade": "New York"},
    {"nome": "Bob", "idade": 25, "cidade": "Los Angeles"}
]
'''
dados = json.loads(dados_json)
df = pd.DataFrame(dados)
print(df)



## Desafio:
Dado um DataFrame contendo informações sobre filmes (titulo, gênero, ano de lançamento), converta-o para o formato JSON. Em seguida, carregue esse JSON de volta para um DataFrame e adicione uma nova coluna com a duração dos filmes. Salve o DataFrame final como um novo arquivo JSON.


## Arquivos Excel:

### Objetivo:
Usar a biblioteca Pandas para a manipulacao de dados provenientes de arquivos Excel, abrangendo desde a leitura de multiplas planilhas ate a escrita de dados em novos arquivos Excel.

Pandas pode facilmente ler planilhas do Excel usando o método pd.read_excel(), tornando a transição de dados do Excel para análise em Python suave.


In [None]:
# Carregando dados de um arquivo Excel
df_excel = pd.read_excel('dadosFictícios/Exemplo_Aula_10.xlsx')
df_excel

Carregar múltiplas planilhas de um único arquivo Excel em diferentes DataFrames, utilizando o argumento sheet_name.

In [None]:
xlsx = pd.ExcelFile('dados/exemplo.xlsx')
df_sheet1 = pd.read_excel(xlsx, 'Planilha1')
df_sheet2 = pd.read_excel(xlsx, 'Planilha2')


Escrevendo dados em um arquivo Excel

In [None]:

# Exemplo: Escrevendo dados em um arquivo Excel
df_novo = pd.DataFrame({
    'Nome': ['Alice', 'Bob', 'Carol'],
    'Idade': [25, 30, 22],
    'Email': ['alice@example.com', 'bob@example.com', 'carol@example.com']
})

with pd.ExcelWriter('dados/saida.xlsx') as writer:
    df_novo.to_excel(writer, sheet_name='NovaPlanilha', index=False)


Salvar um DataFrame em um arquivo Excel, usando o método to_excel(), e como escrever múltiplos DataFrames em diferentes planilhas do mesmo arquivo.

In [None]:
with pd.ExcelWriter('dados/saida.xlsx') as writer:
    df_sheet1.to_excel(writer, sheet_name='NovaPlanilha1', index=False)
    df_sheet2.to_excel(writer, sheet_name='NovaPlanilha2', index=False)


Combinação de múltiplos DataFrames e a utilização de funções como merge e concat para integrar dados de várias fontes.

In [None]:
# Concatenando dados de duas planilhas
df_concatenado = pd.concat([df_sheet1, df_sheet2], ignore_index=True)
print(df_concatenado)


## Combinando Dados de Multiplos Arquivos Excel com Pandas


### Objetivo:
Combinar dados de multiplas fontes, especificamente de varios arquivos Excel, em um unico DataFrame usando Pandas, para analise consolidada.


In [None]:

import pandas as pd

# Carregando dados de multiplos arquivos Excel
df1 = pd.read_excel('dados_janeiro.xlsx')
df2 = pd.read_excel('dados_fevereiro.xlsx')

# Combinando os DataFrames
df_combinado = pd.concat([df1, df2], ignore_index=True)
print(df_combinado.head())


In [None]:

# Exemplo: Combinando dados usando merge
df_clientes = pd.read_excel('clientes.xlsx')
df_vendas = pd.read_excel('vendas.xlsx')

df_final = pd.merge(df_vendas, df_clientes, on='cliente_id')
print(df_final.head())



## Desafio:
Imagine que você tenha dois arquivos Excel, cada um contendo dados de vendas de diferentes meses. Seu desafio é carregar ambos os arquivos em DataFrames, combinar os dados em um único DataFrame e calcular o total de vendas para cada produto. Finalmente, escreva o resultado em um novo arquivo Excel.



## Desafio:
Você possui três arquivos Excel com dados de vendas dos primeiros três trimestres do ano. Cada arquivo contém dados de vendas com as colunas 'Data', 'Produto' e 'Quantidade'. Seu desafio é carregar esses arquivos em DataFrames separados, combiná-los em um único DataFrame e, em seguida, calcular o total de vendas por produto.


## Insights para Dados
Os dados muitas vezes estão espalhados por vários arquivos ou planilhas e a habilidade de combiná-los é crucial para análises abrangentes.

Cenário comum onde dados de vendas estão distribuídos mensalmente em diferentes arquivos e precisam ser consolidados para análise anual.

Carregar múltiplos arquivos Excel, usando laços for junto com listas de nomes de arquivos ou padrões de correspondência de nomes.

In [None]:
import pandas as pd
import glob

# Carregando todos os arquivos Excel no diretório atual
arquivos_excel = glob.glob('dados_mes_*.xlsx')
df_total = pd.DataFrame()

for arquivo in arquivos_excel:
    df = pd.read_excel(arquivo)
    df_total = pd.concat([df_total, df], ignore_index=True)

print(df_total)


Utilizar pd.concat() para combinar DataFrames verticalmente (unindo dados) e pd.merge() para combinar horizontalmente (enriquecendo os dados com informações adicionais).

In [None]:
# Supondo df_vendas e df_clientes como DataFrames previamente carregados
df_combinado = pd.merge(df_vendas, df_clientes, on='cliente_id')
print(df_combinado)


Verificar e tratar os dados após a combinação, como lidar com valores ausentes, duplicatas e inconsistências.

In [None]:
# Verificando valores ausentes
print(df_combinado.isnull().sum())

# Removendo duplicatas
df_combinado.drop_duplicates(inplace=True)


## Db SQL
Para dados armazenados em bancos de dados, Pandas pode executar consultas SQL diretamente e retornar o resultado como um DataFrame utilizando o método pd.read_sql_query().

In [13]:
!pip install sqlalchemy

Defaulting to user installation because normal site-packages is not writeable
Collecting sqlalchemy
  Obtaining dependency information for sqlalchemy from https://files.pythonhosted.org/packages/dc/01/bff536f96ea323a7d80df128a7bc947e3c25a60383425bf491232112c30d/SQLAlchemy-2.0.30-cp312-cp312-win_amd64.whl.metadata
  Downloading SQLAlchemy-2.0.30-cp312-cp312-win_amd64.whl.metadata (9.8 kB)
Collecting typing-extensions>=4.6.0 (from sqlalchemy)
  Obtaining dependency information for typing-extensions>=4.6.0 from https://files.pythonhosted.org/packages/01/f3/936e209267d6ef7510322191003885de524fc48d1b43269810cd589ceaf5/typing_extensions-4.11.0-py3-none-any.whl.metadata
  Downloading typing_extensions-4.11.0-py3-none-any.whl.metadata (3.0 kB)
Collecting greenlet!=0.4.17 (from sqlalchemy)
  Obtaining dependency information for greenlet!=0.4.17 from https://files.pythonhosted.org/packages/53/80/3d94d5999b4179d91bcc93745d1b0815b073d61be79dd546b840d17adb18/greenlet-3.0.3-cp312-cp312-win_amd64.whl


[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [12]:
from sqlalchemy import create_engine

# Criando uma conexão ao banco de dados (exemplo SQLite)
engine = create_engine('sqlite:///banco_de_dados.db')
df
df.to_sql('tabedfhgdhgla', engine, if_exists='append', index=False)
# Carregando dados via consulta SQL
# df_sql = pd.read_sql_query("SELECT * FROM sua_tabela", engine)


3

# Limpeza e Preparação de Dados
- Uma etapa fundamental no processo de análise de dados é a limpeza e preparação dos dados. 
- Esta fase envolve tratar valores ausentes, remover duplicatas, filtrar dados, e fazer transformações necessárias para garantir que os dados estejam em um formato adequado para análise. Vamos explorar técnicas comuns de limpeza de dados usando Pandas.

- Coisas que podem ter de erradas nos datasets
  - celulas vazias
  - valores duplicados
  - valores fora do formato
  - valores fora do contexto
  - valores inconsistentes
  - valores que não fazem sentido

In [None]:
import pandas as pd

df = pd.read_csv('dados/dataSujo.csv')
print(df.info())
print(df.describe())
print(df.to_string())

## Tratamento de Valores Ausentes
- Valores ausentes são comuns em muitos conjuntos de dados e podem ser o resultado de erros de entrada de dados, falhas na coleta de dados, ou outras inconsistências. 
- Pandas oferece várias formas de lidar com valores ausentes:

  - Descartando valores ausentes: Usar dropna() para remover linhas ou colunas que contêm valores ausentes.
    - É útil e ok, se estiver lidando com dataset grande, mas pode perder informações importantes, o que impacta especialmente em datasets pequenos.

In [None]:
df = pd.read_csv('dados/dataSujo.csv')
# Removendo linhas com valores ausentes
df_limpo = df.dropna()
print(df_limpo)
# Removendo colunas com valores ausentes
df_limpo = df.dropna(axis=1)

df_limpo


__dropna()__: Retorna um DataFrame já com a remoção de linhas com valores ausentes.

__dropna(axis=1)__: Retorna um DataFrame já com a remoção de colunas com valores ausentes.

Para que o método dropna() ao invés de retornar um novo DataFrame, modifique o DataFrame original, use o argumento `inplace=True`.

##### __fillna()__ 
Preenchendo valores ausentes: Utilizar fillna() para substituir os valores ausentes por um valor específico, como a média da coluna.


In [None]:
df = pd.read_csv('dados/dataSujo.csv')

# Preenchendo valores ausentes com a média da coluna
df.fillna(999999, inplace=True)
df


In [None]:
df = pd.read_csv('dados/dataSujo.csv')

# Preenchendo valores ausentes com a média da coluna
df['Calories'] = df['Calories'].fillna(df['Calories'].mean())
df


- Remoção de Duplicatas: Dados duplicados podem distorcer análises e resultados. Pandas torna fácil identificar e remover duplicatas com drop_duplicates().


In [None]:
# Removendo duplicatas
df_unico = df.drop_duplicates()


Filtragem de Dados
Filtrar dados é um processo chave para focar em informações relevantes. Com Pandas, você pode usar condições booleanas para filtrar linhas que atendem a critérios específicos.


In [None]:
import pandas as pd

df = pd.read_csv('dadosFictícios\Exemplo_Aula_6.csv')
print(df)

# Filtrando dados onde a coluna 'idade' é maior que 40
df_filtrado = df[df['Idade'] > 40]
df_filtrado


## Erro de formato

- Células com dados no formato errado podem causar problemas em análises e visualizações. 
- Nestes casos 2 soluções são mais práticadas:
  - Remover as linhas com valores fora do formato, usando dropna().
  - Converter todas as células da coluna para um mesmo formato, com astype() e to_datetime(), por exemplo.

#### Exemplo: As linhas 22 e 26 contêm valores fora do formato esperado.

In [None]:
df = pd.read_csv('dados/dataSujo.csv')
print(df.to_string())


In [15]:
from datetime import datetime, date, time

data_e_hora_atuais = datetime.now()
data_e_hora_em_texto = data_e_hora_atuais.strftime('%d/%m/%Y')

print(data_e_hora_em_texto)


23/05/2024


In [None]:


data = '{}/{}/{}'.format(data_atual.day, data_atual.month,data_atual.year)

df = pd.read_csv('dados/dataSujo.csv')

df['novaData'] = pd.to_datetime(df['Date'], errors='coerce')
# df['novaData'] = df['Date'].astype('datetime64[ns]')

print(df.to_string())

In [None]:
df = pd.read_csv('dados/dataSujo.csv')
# df['novaData'] = pd.to_datetime(df['Date'], errors='coerce')
df['novaData'] = df['Date'].astype('datetime64[ns]')

df.dropna(subset=['novaData'], inplace=True)

print(df.to_string())

- Transformação de Dados
  - Transformações são frequentemente necessárias para adequar os dados às necessidades da análise. Isso pode incluir a criação de novas colunas a partir de dados existentes, conversão de tipos de dados, entre outros.

- Adicionando novas colunas: Você pode adicionar colunas baseadas em operações com colunas existentes.


In [None]:

# Criando uma nova coluna 'idade_dobrada'
df['PulMax/Pulse'] = df['Maxpulse'] / df['Pulse']
df

Conversão de tipos de dados: Use astype() para converter o tipo de dados de uma coluna.


In [None]:

# Convertendo a coluna 'idade' para float
df['modificado'] = (df['PulMax/Pulse']*10).astype(int)
df

- Exemplo Prático: 
Considerando um DataFrame df_vendas que contém dados de vendas, incluindo algumas colunas com valores ausentes e possíveis duplicatas:



In [None]:
# Preenchendo valores ausentes na coluna 'quantidade' com a média
df_vendas['quantidade'] = df_vendas['quantidade'].fillna(df_vendas['quantidade'].mean())

# Removendo duplicatas
df_vendas = df_vendas.drop_duplicates()

# Filtrando vendas com valor maior que 500
df_vendas_altas = df_vendas[df_vendas['valor'] > 500]

# Adicionando uma nova coluna 'valor_total' (quantidade * valor)
df_vendas['valor_total'] = df_vendas['quantidade'] * df_vendas['valor']

## Identificando e lidando com dados "Errados" ou "Inconsistentes"

Um dataset pode conter um dado errado que não necessáriamente esteja vazio ou no formato errado. Por exemplo, um valor de idade negativo, ou um valor de data de nascimento no futuro, ou um valor digitado 199 onde se esperaria 1.99, ou um valor de temperatura de -300 graus Celsius, ou um valor de peso de 2 toneladas para um bebê recém-nascido.

Olhando para o dataset, você pode identificar esses dados errados e decidir como lidar com eles. Você pode corrigir manualmente, remover, ou substituir por um valor correto.
Vejao exemplo da linha 7 do dataset abaixo.

In [None]:
df = pd.read_csv('dados/dataSujo.csv')
df.head(10)

Não há nada de errado com a duração do exercício ser de 450, mas isso parece ser inconsistente com os valores das outras linhas da coluna e com a quantidade de calorias queimadas. Isso pode ser um erro de digitação, e você pode decidir corrigir manualmente ou remover a linha.

In [None]:
df.loc[7, 'Duration'] = 45
df

Neste caso temos um dataset relativamente pequeno e é possível corrigir manualmente. Mas em datasets maiores, você pode usar regras de negócio ou algoritmos para identificar e corrigir esses dados inconsistentes.

In [None]:
df = pd.read_csv('dados/dataSujo.csv')
#exemplo de alteração de valores
for x in df.index:
  if df.loc[x, "Duration"] > 120:
    df.loc[x, "Duration"] = 120
df.head(10)

In [None]:
df = pd.read_csv('dados/dataSujo.csv')
#exemplo de remoção de valores
for x in df.index:
  if df.loc[x, "Duration"] > 120:
    df.drop(x, inplace=True)
df.head(10)

## Duplicatas

Valores duplicados podem distorcer análises e resultados. 

In [None]:
df = pd.read_csv('dados/dataSujo.csv')
print(df.duplicated().to_string())

df.drop_duplicates(inplace=True)
print(df.to_string())

## Correlações

O método corr() calcula a correlação entre cada uma das colunas do DataFrame. 

A correlação é uma medida estatística que descreve a relação entre duas variáveis.

In [16]:
df = pd.read_csv('dados/dataSujo.csv')

df['Date'] = df['Date'].astype('datetime64[ns]')

df.dropna(inplace=True)
df.drop_duplicates(inplace=True)
for x in df.index:
  if df.loc[x, "Duration"] > 120:
    df.loc[x, "Duration"] = 120

print(df.to_string())
df.corr()

    Duration       Date  Pulse  Maxpulse  Calories
0         60 2020-12-01    110       130     409.1
1         60 2020-12-02    117       145     479.0
2         60 2020-12-03    103       135     340.0
3         45 2020-12-04    109       175     282.4
4         45 2020-12-05    117       148     406.0
5         60 2020-12-06    102       127     300.0
6         60 2020-12-07    110       136     374.0
7        120 2020-12-08    104       134     253.3
8         30 2020-12-09    109       133     195.1
9         60 2020-12-10     98       124     269.0
10        60 2020-12-11    103       147     329.3
11        60 2020-12-12    100       120     250.7
13        60 2020-12-13    106       128     345.3
14        60 2020-12-14    104       132     379.3
15        60 2020-12-15     98       123     275.0
16        60 2020-12-16     98       120     215.2
17        60 2020-12-17    100       120     300.0
19        60 2020-12-19    103       123     323.0
20        45 2020-12-20     97 

Unnamed: 0,Duration,Date,Pulse,Maxpulse,Calories
Duration,1.0,-0.036126,-0.107417,-0.150758,0.035323
Date,-0.036126,1.0,-0.380088,-0.549973,-0.368101
Pulse,-0.107417,-0.380088,1.0,0.200177,0.503243
Maxpulse,-0.150758,-0.549973,0.200177,1.0,0.338515
Calories,0.035323,-0.368101,0.503243,0.338515,1.0


In [18]:
df = pd.read_csv('dados/dataSujo2.csv')
print(df.info(), df.describe())

df.dropna(inplace=True)
df.drop_duplicates(inplace=True)
for x in df.index:
  if df.loc[x, "Duration"] > 120:
    df.loc[x, "Duration"] = 120

df.corr()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 169 entries, 0 to 168
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Duration  169 non-null    int64  
 1   Pulse     169 non-null    int64  
 2   Maxpulse  169 non-null    int64  
 3   Calories  164 non-null    float64
dtypes: float64(1), int64(3)
memory usage: 5.4 KB
None          Duration       Pulse    Maxpulse     Calories
count  169.000000  169.000000  169.000000   164.000000
mean    63.846154  107.461538  134.047337   375.790244
std     42.299949   14.510259   16.450434   266.379919
min     15.000000   80.000000  100.000000    50.300000
25%     45.000000  100.000000  124.000000   250.925000
50%     60.000000  105.000000  131.000000   318.600000
75%     60.000000  111.000000  141.000000   387.600000
max    300.000000  159.000000  184.000000  1860.400000


Unnamed: 0,Duration,Pulse,Maxpulse,Calories
Duration,1.0,-0.251712,-0.086029,0.820359
Pulse,-0.251712,1.0,0.784994,0.015301
Maxpulse,-0.086029,0.784994,1.0,0.195309
Calories,0.820359,0.015301,0.195309,1.0


#### Resultados de correlação
	
- 1: Correlação positiva perfeita
- 0.9: Correlação positiva muito forte
- \- 0.9: Correlação negativa muito forte
- 0.2: Correlação fraca, ou seja uma informação não está associada à outra

## Exibição de dados

O pandas possui o método plot() para criar diagramas de dispersão, histogramas, gráficos de linha, e muito mais.
Também podemos utilizar o submódulo matplotlib.pyplot ou o módulo saeborn para criar gráficos mais complexos.


In [None]:
import pandas as pd
import matplotlib.pyplot as plt

df.plot()

plt.show()

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

df.plot(kind = 'scatter', x = 'Duration', y = 'Calories', color = 'red', label = 'Calorias x Tempo', figsize = (10, 6), grid = True, title = 'Correlação entre Calorias e Tempo', fontsize = 12, legend = True, style = '--', linewidth = 2)

plt.show()

## Transformação de Dados

Depois de limpar e preparar os dados, o próximo passo é transformá-los para facilitar análises futuras.
Operações de manipulação de dados, incluindo operações com colunas, funções de mapeamento, agrupamento, e agregação, utilizando a biblioteca Pandas.


- Operações com Colunas: 
Adicionar, remover e modificar colunas: Pandas permite a manipulação flexível de colunas em um DataFrame.

In [None]:
# Adicionando uma nova coluna
df['nova_coluna'] = df['coluna_existente'] * 10

# Removendo uma coluna
df = df.drop('coluna_para_remover', axis=1)

# Modificar valores de uma coluna (por exemplo, aplicando uma função lambda)
df['coluna_existente'] = df['coluna_existente'].apply(lambda x: x * 2)


### Funções de Mapeamento
apply() e map(): Estas funções permitem aplicar uma função ao longo de um eixo do DataFrame ou a uma Series, respectivamente, facilitando a transformação de dados.

In [None]:
# Usando apply() para aplicar uma função a todas as linhas de uma coluna
df['coluna'] = df['coluna'].apply(lambda x: x + 100)

# Usando map() para substituir valores em uma Series
df['categoria'] = df['categoria'].map({'A': 1, 'B': 2, 'C': 3})


#### Agrupamento e Agregação
groupby(): Esta função é usada para agrupar dados com base em uma ou mais colunas e aplicar uma função de agregação (como soma, média, etc.) ao grupo.

In [None]:
# Agrupando dados pela coluna 'categoria' e calculando a média das outras colunas
df_agrupado = df.groupby('categoria').mean()


Funções de agregação: Após agrupar os dados, você pode aplicar várias funções de agregação para resumir os dados agrupados.

In [None]:
# Calculando várias estatísticas agregadas após o agrupamento
df_agrupado = df.groupby('categoria').agg({'coluna_numerica': ['mean', 'min', 'max']})


## Exemplo Prático

Suponha que temos um DataFrame df_vendas contendo colunas para data, categoria, valor_venda e quantidade. Vamos realizar algumas transformações para analisar esses dados.

In [None]:
import pandas as pd

# Simulando o DataFrame
data = {
    'data': pd.date_range('2021-01-01', periods=4),
    'categoria': ['A', 'B', 'A', 'B'],
    'valor_venda': [100, 200, 150, 300],
    'quantidade': [1, 2, 2, 3]
}
df_vendas = pd.DataFrame(data)

# Adicionando uma coluna 'valor_total'
df_vendas['valor_total'] = df_vendas['valor_venda'] * df_vendas['quantidade']

# Agrupando por 'categoria' e calculando o valor total de vendas por categoria
vendas_por_categoria = df_vendas.groupby('categoria')['valor_total'].sum()

# Exibindo o resultado
print(vendas_por_categoria)


## Análise e Visualização de Dados

Pandas integra-se bem com Matplotlib e Seaborn para visualização de dados, permitindo a análise visual dos dados.

In [19]:
import matplotlib.pyplot as plt
import seaborn as sns

# Histograma
df['Idade'].hist()
plt.title('Distribuição de Idades')
plt.xlabel('Idade')
plt.ylabel('Frequência')
plt.show()

# Gráfico de barras
sns.barplot(x='Cidade', y='Idade', data=df)
plt.title('Média de Idade por Cidade')
plt.show()

ModuleNotFoundError: No module named 'matplotlib'

In [None]:
metodos = pd.read_excel('metodosPandas.xlsx', sheet_name='Sheet1')
metodos