<a href="https://colab.research.google.com/github/gmcalixto/pipeline_pandas/blob/main/DataOps_ETL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Criando pipelines de processamento com o Pandas**

Importando o arquivo para o Colab

In [None]:
from google.colab import files

file = files.upload()

Fazendo a carga do arquivo texto

In [None]:
import pandas as pd
file = 'persons.csv'
data = pd.read_csv(file)
print(data.head())

Vamos extrair a contagem sobre gêneros por agrupamentos

In [None]:
gender_counts = data['gender'].value_counts()
gender_table = gender_counts.reset_index()
gender_table.columns = ['gender', 'count']

# Exibir a tabela resultante
print(gender_table)

Montando a média de anos de educação por gênero

In [None]:
gender_education_mean = data.groupby('gender')['years_of_education'].mean().reset_index()
gender_education_mean.columns = ['gender', 'average_years_of_education']
print(gender_education_mean)

Gerando o gráfico da distribuição de gênero

In [None]:
import matplotlib.pyplot as plt

# Criar o gráfico de barras
plt.figure(figsize=(10,6))
gender_counts.plot(kind='bar', color='skyblue')

# Adicionar título e rótulos aos eixos
plt.title('Pessoas distribuiídas por gênero')
plt.xlabel('Gênero')
plt.ylabel('Quantidade')

for index, value in enumerate(gender_counts):
    plt.text(index, value, str(value), ha='center', va='bottom')

# Exibir o gráfico
plt.show()

Tarefa 1: Monte uma tabela do agrupamento das gerações e da quantidade de pessoas




In [None]:
gen_counts = data['generation'].value_counts()
gen_table = gen_counts.reset_index()
gen_table.columns = ['generation', 'count']

# Exibir a tabela resultante
print(gen_table)

Tarefa 2: Monte uma tabela do agrupaento das estado atual de emprego e as quantidades de pessoas.

In [None]:
job_counts = data['employment_status'].value_counts()
job_table = job_counts.reset_index()
job_table.columns = ['employment_status', 'count']

# Exibir a tabela resultante
print(job_table)

Tarefa 3: Gere o gráfico de barras da distribuição de gerações

In [None]:
# Criar o gráfico de barras
plt.figure(figsize=(10,6))
gen_counts.plot(kind='bar', color='green')

# Adicionar título e rótulos aos eixos
plt.title('Pessoas distribuiídas por geração')
plt.xlabel('Geração')
plt.ylabel('Quantidade')

for index, value in enumerate(gen_counts):
    plt.text(index, value, str(value), ha='center', va='bottom')

# Exibir o gráfico
plt.show()

Tarefa 4: Gere o gráfico de barras da distribuição do estado atual de emprego

In [None]:
# Criar o gráfico de barras
plt.figure(figsize=(10,6))
job_counts.plot(kind='bar', color='cyan')

# Adicionar título e rótulos aos eixos
plt.title('Pessoas distribuiídas por estado atual de emprego')
plt.xlabel('Estado atual de emprego')
plt.ylabel('Quantidade')

for index, value in enumerate(job_counts):
    plt.text(index, value, str(value), ha='center', va='bottom')

# Exibir o gráfico
plt.show()

Vamos experimentar mais transformações que podem ser realizadas
Distribuição entre Geração e Gênero

In [None]:
generation_gender_distribution = data.groupby(['generation', 'gender']).size().unstack()
print(generation_gender_distribution)

A média de anos de educação por gênero

In [None]:
generation_education_mean = data.groupby('generation')['years_of_education'].mean()
print(generation_education_mean)

Faixa Etária por Gênero

In [None]:
# Criar faixas etárias
data['age_group'] = pd.cut(data['age'], bins=[0, 18, 30, 45, 60, 100], labels=['0-18', '19-30', '31-45', '46-60', '61+'])

# Contar o número de pessoas por gênero em cada faixa etária
age_gender_distribution = data.groupby(['age_group', 'gender']).size().unstack()
print(age_gender_distribution)

Percentual de Pessoas Empregadas por Gênero

In [None]:
employment_percentage_by_gender = data[data['employment_status'] == 'Employed']['gender'].value_counts(normalize=True) * 100
print(employment_percentage_by_gender)

Visualização Gráfica - Pizza de Distribuição de Gêneros

In [None]:
data['gender'].value_counts().plot(kind='pie', autopct='%1.1f%%', figsize=(6,6))
plt.title('Distribuição de Gêneros')
plt.show()

Gráfico de Barras da Educação por Gênero e Geração

In [None]:
education_by_generation_gender = data.groupby(['generation', 'gender'])['years_of_education'].mean().unstack()
education_by_generation_gender.plot(kind='bar', figsize=(10,6))
plt.title('Média de Anos de Educação por Gênero e Geração')
plt.xlabel('Geração')
plt.ylabel('Média de Anos de Educação')
plt.show()