### Manipulação de dados com Pandas

In [1]:
import pandas as pd
import random

In [3]:
# Definindo a quantidade de registros
num_records = 100

# Gerando dados fictícios
data = {
    'ID do Cliente': [i+1 for i in range(num_records)],
    'Nome': ['Cliente ' + str(i+1) for i in range(num_records)],
    'Idade': [random.randint(18, 65) for _ in range(num_records)],
    'Cidade': ['Cidade ' + str(random.randint(1, 10)) for _ in range(num_records)],
    'Valor Total Gasto': [round(random.uniform(50, 1000), 2) for _ in range(num_records)]
}

# Criando o DataFrame
df = pd.DataFrame(data)

# Exibindo as primeiras linhas do DataFrame
print(df.head())

   ID do Cliente       Nome  Idade     Cidade  Valor Total Gasto
0              1  Cliente 1     51   Cidade 3             887.55
1              2  Cliente 2     37   Cidade 2             986.91
2              3  Cliente 3     45   Cidade 9             949.40
3              4  Cliente 4     20  Cidade 10             225.37
4              5  Cliente 5     49   Cidade 2             316.13


### Ex 1: Carregue uma base de dados CSV usando o Pandas.

In [None]:
df = pd.read_csv(r'caminho/do/arquivo.csv')

### Ex 2: Exiba as primeiras 5 linhas de um DataFrame.

In [None]:
df.head(5)

### Ex 3: Selecione uma coluna específica de um DataFrame.

In [None]:
df['ID do Cliente']

### Ex 4: Calcule a média de uma coluna numérica.

In [None]:
df['Valor Total Gasto'].mean()

### Ex 5: Conte o número de valores únicos em uma coluna.

In [None]:
df['ID do Cliente'].drop_duplicates().count()

### Ex 6: Filtre linhas com base em uma condição.

In [None]:
df.loc[ df['ID do Cliente'] > 20 ]

### Ex 7: Preencha valores faltantes com a média de uma coluna.

In [None]:
df['Valor Total Gasto'].fillna( df['Valor Total Gasto'].mean() )

### Ex 8: Crie uma nova coluna calculada a partir de outras colunas.

In [None]:
df['Media Tres Anteriores'] = df.rolling(window=3).mean()

### Ex 9: Ordene o DataFrame com base em uma coluna.

In [None]:
df.sort_values(by='Cidade')

### Ex 10: Agrupe dados por uma coluna e calcule a soma.

In [None]:
df.groupby('ID do Cliente').sum()

### Ex 11: Crie um gráfico de barras mostrando contagem de valores em uma coluna.

In [None]:
import matplotlib.pyplot as plt

janela = plt.figure(figsize=(15, 7))
plt.bar(df['Cidade'], df['Valor Total Gasto'])

### Ex 12: Realize um merge entre dois DataFrames.

In [None]:
# Gerando dados fictícios para o df2
data2 = {
    'ID do Cliente': [i+1 for i in range(num_records)],
    'Nome': ['Cliente ' + str(i+1) for i in range(num_records)],
    'Idade': [random.randint(18, 65) for _ in range(num_records)],
    'Cidade': ['Cidade ' + str(random.randint(1, 10)) for _ in range(num_records)],
    'Valor Total Gasto': [round(random.uniform(50, 1000), 2) for _ in range(num_records)]
}

# Criando o DataFrame
df2 = pd.DataFrame(data2)

merge_df = df.merge(df2, on='ID do Cliente', how='inner')

### Ex 13: Remova duplicatas de um DataFrame.

In [None]:
df = df.drop_duplicates()

### Ex 14: Pivote um DataFrame para transformar valores em colunas.

In [None]:
df.pivot_table(index='Cidade', columns=['ID do Cliente', 'Nome'], values='Valor Total Gasto')

### Ex 15: Use uma função de agregação personalizada em um grupo de dados.

In [None]:
def media_ponderada_ficticia(df_func):
    resultado = df_func['Idade'].corr(df['Valor Total Gasto'])
    return pd.Series({'Correlação Idade - V Total Gasto': resultado})

df.groupby('Cidade').apply(media_ponderada_ficticia)

### Ex 16: Transforme valores de uma coluna aplicando uma função lambda.

In [None]:
df.groupby('Cidade').apply(lambda x: {'Idade max - min': pd.Series(x['Idade']).min() - pd.Series(x['Idade']).max()})

### Ex 17: Converta dados de string para datetime.

In [None]:
from datetime import date

data_atual_str = str(date.today())

df['Data'] = pd.to_datetime( data_atual_str )

### Ex 18: Faça um plot de dispersão (scatter plot) entre duas colunas.

In [None]:
import matplotlib.pyplot as plt

plt.scatter( df['Cidade'], df['Valor Total Gasto'] )
plt.xticks(rotation=45)

### Ex 19: Crie uma tabela dinâmica (pivot table) com agregações.

In [None]:
pivot = df.pivot_table(index='Cidade', columns='Nome', values='Valor Total Gasto' )
pivot2 = pivot.applymap(lambda x: x * 2)

### Ex 20: Calcule a correlação entre colunas numéricas.

In [None]:
df['Idade'].corr(df['Valor Total Gasto'])

### Ex 21: Lide com dados em formato JSON, normalizando-os em um DataFrame.

In [None]:

dados_json = {
  "nome": "João da Silva",
  "idade": 30,
  "cidade": "São Paulo",
  "interesses": ["leitura", "esportes", "viagens"],
  "contato": {
    "email": "joao@example.com",
    "telefone": "123-456-7890"
  }
}

dados_normalizados = pd.json_normalize(
    dados_json, # Base de dados
    'interesses', # Coluna para expandir
    ['nome', 'idade', 'cidade', ['contato', 'email'], ['contato', 'telefone'] ], # Seleção de colunas
    record_prefix='i' 
)

dados_normalizados.rename( columns={'i0':'Interesse'}, inplace=True  )


### Ex 22: Faça operações em grupos de dados com transform.

In [None]:
dados_normalizados['Tipo de interesse'] = dados_normalizados['Interesse'].transform(lambda x: 'Legal' if x in ('leitura', 'esportes') else 'Chato')


### Ex 23: Utilize a função apply para realizar operações complexas em um DataFrame.

In [None]:
df.groupby('Cidade').apply(lambda x: x['Idade'].mean())
df.groupby('Cidade')['Idade'].mean() # A de cima e essa são a mesma coisa