<a href="https://colab.research.google.com/github/fabiomarcolia/python-para-dados/blob/main/notebooks/praticando_operacoes_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Prática com Pandas:
- Data Importing
- Data Cleaning
- Data Statistics

Este notebook contém exemplos práticos para trabalhar com funções de **Pandas** relacionadas a importação de dados, limpeza e estatísticas. Cada função será explicada e mostrada em ação.



In [None]:
# Ativando as bibliotecas necessárias
import pandas as pd
import numpy as np

## 1. Data Importing
Vamos importar os dados de um arquivo CSV e criar algumas estruturas de dados comuns em Pandas.

### pd.read_csv
Lê um arquivo CSV para um DataFrame.

In [None]:
df = pd.read_csv('https://github.com/fabiomarcolia/python-para-dados/raw/refs/heads/main/dados/operacoes_python.csv')
display(df.head())

### pd.read_excel
Lê um arquivo Excel para um DataFrame.

In [None]:
df_excel = pd.read_excel('https://github.com/fabiomarcolia/python-para-dados/raw/refs/heads/main/dados/Clientes.xlsx')
display(df_excel.head())

### pd.read_json
Lê dados de um arquivo JSON.

In [None]:
# Atenção: Este é um exemplo, altere o caminho com permissão de escrita -> c:\Clientes.json
df_json = pd.DataFrame({'Id': [1, 2], 'Nome': ['Alice', 'Bob']}).to_json('c:\Clientes.json')
df_json_loaded = pd.read_json('c:\Clientes.json')
display(df_json_loaded)

### pd.read_html
Lê uma tabela de uma página HTML.

In [None]:
html_data = '''<table><tr><th>Id</th><th>Nome</th></tr><tr><td>1</td><td>Alice</td></tr><tr><td>2</td><td>Bob</td></tr></table>'''
with open('COLOQUE UM CAMINHO COM ACESSO DE ESCRITA + O NOME DO ARQUITO HTML PARA CRIAR', 'w') as f:
    f.write(html_data)
df_html = pd.read_html('COLOQUE O CAMINHO DO ARQUIVO CRIADO ACIMA')[0]
display(df_html)

### pd.concat
Concatena dois DataFrames.

In [None]:
df_concatenated = pd.concat([df.head(5), df.tail(5)])
display(df_concatenated)

### pd.DataFrame
Cria um DataFrame a partir de um dicionário.

In [None]:
data = {'Id': [1, 2, 3], 'Nome': ['Ana', 'Bruno', 'Carlos']}
df_from_dict = pd.DataFrame(data)
display(df_from_dict)

### pd.series
Cria uma série de dados.

In [None]:
serie = pd.Series([1, 2, 3, 4, 5], name='Numeros')
display(serie)

### pd.date_range
Cria uma série de datas.

In [None]:
datas = pd.date_range(start='2023-01-01', periods=5)
display(datas)

## 2. Data Cleaning
Aplicaremos técnicas de limpeza de dados para tratar valores nulos, ordenar valores e realizar outras operações comuns de pré-processamento.

### pd.fillna
Preenche valores nulos com um valor específico.

In [None]:
df_filled = df.fillna({'Idade': df['Idade'].mean(), 'Salario': df['Salario'].mean()})
display(df_filled)

### pd.dropna
Remove linhas com valores nulos.

In [None]:
df_dropped = df.dropna()
display(df_dropped)

### pd.sort_values
Ordena o DataFrame com base em uma coluna.

In [None]:
df_sorted = df.sort_values(by='Nome')
display(df_sorted)

### pd.apply
Aplica uma função a cada elemento de uma coluna.

In [None]:
df['Idade_ajustada'] = df['Idade'].apply(lambda x: x + 1 if not np.isnan(x) else x)
display(df)

### pd.groupby
Agrupa dados por uma coluna e aplica agregações.

In [None]:
df_grouped = df.groupby('Cidade')['Salario'].mean()
display(df_grouped)

### pd.append
Adiciona uma linha ao DataFrame.

In [None]:
new_row = {'Id': 21, 'Nome': 'Victor', 'Idade': 25, 'Salario': 3100, 'Cidade': 'São Paulo', 'Departamento': 'TI'}
df_appended = df.append(new_row, ignore_index=True)
display(df_appended.tail())

### pd.join
Realiza um join entre DataFrames usando o índice.

In [None]:
df_joined = df.set_index('Id').join(df_from_dict.set_index('Id'), lsuffix='_orig', rsuffix='_new')
display(df_joined)

### pd.rename
Renomeia colunas do DataFrame.

In [None]:
df_renamed = df.rename(columns={'Nome': 'Nome_Completo'})
display(df_renamed)

### pd.to_csv
Exporta o DataFrame para um arquivo CSV.

In [None]:
df.to_csv('/mnt/data/Pratica_Pandas_Operacoes_Exportado.csv', index=False)

### pd.set_index
Define uma coluna como índice do DataFrame.

In [None]:
df_indexed = df.set_index('Id')
display(df_indexed.head())

## 3. Data Statistics
Calcule estatísticas descritivas para entender melhor os dados.

### pd.head
Exibe as primeiras linhas do DataFrame.

In [None]:
display(df.head())

### pd.tail
Exibe as últimas linhas do DataFrame.

In [None]:
display(df.tail())

### pd.describe
Retorna estatísticas descritivas do DataFrame.

In [None]:
display(df.describe())

### pd.info
Mostra informações sobre o DataFrame.

In [None]:
df.info()

### pd.mean
Calcula a média de uma coluna numérica.

In [None]:
media_salario = df['Salario'].mean()
print(f'Média do Salário: {media_salario}')

### pd.median
Calcula a mediana de uma coluna numérica.

In [None]:
mediana_idade = df['Idade'].median()
print(f'Mediana da Idade: {mediana_idade}')

### pd.count
Conta o número de valores não nulos em cada coluna.

In [None]:
contagem = df.count()
display(contagem)

### pd.std
Calcula o desvio padrão de uma coluna numérica.

In [None]:
desvio_padrao_salario = df['Salario'].std()
print(f'Desvio Padrão do Salário: {desvio_padrao_salario}')

### pd.max
Retorna o valor máximo de uma coluna.

In [None]:
max_salario = df['Salario'].max()
print(f'Máximo Salário: {max_salario}')

### pd.min
Retorna o valor mínimo de uma coluna.

In [None]:
min_idade = df['Idade'].min()
print(f'Mínima Idade: {min_idade}')

# Outras formas que posso te ajudar:

*   Fale comigo no Linkedin: https://www.linkedin.com/in/fabiomarcolia/

*   Pratique SQL On-line: [e-Book Grátis](https://mentordados.gumroad.com/l/sql)
*  [Inscreva-se](https://mentordados.substack.com/)  na Newsletter e tenha acesso a recursos:
 *  Currículo
 *  Portifólio
 *  SQL Roadmap






