# Projeto prático Pandas

O projeto será constituído de duas partes:

1. Exercícios de fixação das funcionalidades da biblioteca Pandas
2. Exercícios utilizando as bibliotecas para análise em Pandas

# Parte 1
## Revisão Pandas

### Antes de tudo, execute o código a seguir e tire um tempo para observar os dados, a estrutura do código e o que ele faz

In [None]:
import pandas as pd

dados_mulheres_tecnologia = {
    'Nome': [
        'Ada Lovelace',
        'Grace Hopper',
        'Mary Jackson',
        'Nina da Hora',
        'Sonia Guimarães',
        'Hedy Lamarr',
        'Bárbara Flores Borum-Kren',
        'Mariéme Jamme',
        'Lynn Ann Conway'
    ],
    'Data Nascimento': [
        '10/12/1815',
        '09/12/1906',
        '09/04/1921',
        '1995',
        '26/06/1957',
        '09/11/1914',
        '1984',
        '1974',
        '02/01/1938'
    ],
   'Nacionalidade': [
        'Britânica',
        'Estadunidense',
        'Estadunidense',
        'Brasileira',
        'Brasileira',
        'Austríaca/Estadunidense',
        'Brasileira',
        'Senegalesa/Britânica',
        'Estadunidense'
    ],
    'Raça / Etnia': [
        'Branca',
        'Branca',
        'Negra',
        'Negra',
        'Negra',
        'Branca',
        'Indígena (Krenak)',
        'Negra',
        'Branca'
    ],
    'Gênero': [
        'Cisgênero',
        'Cisgênero',
        'Cisgênero',
        'Não-binário',
        'Cisgênero',
        'Cisgênero',
        'Cisgênero',
        'Cisgênero',
        'Transgênero'
    ],
    'Publicação': [
        'Notas sobre o Esquema de Babbage (Nota G)',
        'Understanding Computers',
        'Effects of Nose Angle and Mach Number on Transition on Cones at Supersonic Speeds (NACA TN 4388)',
        'MyNews Explica - Algoritmos',
        'Obtenção e transferencia de tecnologia de detectores de radiacao infravermelha atraves de crescimento epitaxial de ligas semicondutoras',
        'Patente para Sistema de Comunicação Secreta (Patente #2,292,387)',
        'Feminino e Sustentabilidade: A luta das mulheres não está separada da luta da natureza',
        'I Am The Code (Organização)',
        'Introduction to VLSI Systems'
    ],
    'Tipo de Publicação': [
        'Artigo',
        'Livro',
        'Relatório Científico',
        'Livro',
        'Trabalho Acadêmico',
        'Patente',
        'Trabalho Acadêmico',
        'Fundação/Iniciativa',
        'Livro'
    ],
    'Ano de Publicação': [
        1843,
        1984,
        1958,
        2023,
        2020,
        1942,
        2014,
        2017,
        1979
    ]
}

df_mulheres_tecnologia = pd.DataFrame(dados_mulheres_tecnologia)

print("DataFrame 1: Mulheres Pioneiras e Diversidade na Tecnologia e Ciência")
# print(df_mulheres_tecnologia)
df_mulheres_tecnologia

### Agora responda as seguintes perguntas:

1. dados_mulheres_tecnologia é um exemplo de qual estrutura de dados/tipo? Resposta: JSON

2. df_mulheres_tecnologia é um exemplo de qual estrutura de dados?
Resposta: CSV

### Exercício 1

Selecione as 3 primeiras linhas do dataframe

In [None]:
df_mulheres_tecnologia.head(3)

### Exercício 2
Slecione as 3 últimas linhas do dataframe

In [None]:
df_mulheres_tecnologia.tail(3)

### Exercício 3

Conte quantas linhas tem no dataframe

In [None]:
df_mulheres_tecnologia.shape

### Exercício 4
Selecione apenas as seguintes colunas do dataframe
- Nome
- Publicação
- Tipo de Publicação
- Ano de Publicação

In [None]:
df_selecao = df_mulheres_tecnologia[['Nome', 'Publicação', 'Tipo de Publicação', 'Ano de Publicação']]
df_selecao

### Exercício 5

Ordene por Ano de Publicação

In [None]:
df_selecao.sort_values(by ='Ano de Publicação')

### Exercício 6
Gere um gráfico demonstrando os tipos de publicação

In [None]:
import matplotlib.pyplot as plt

df_mulheres_tecnologia['Tipo de Publicação'].value_counts().plot(
    kind='bar',
    figsize=(8, 5),
    title='Distribuição dos Tipos de Publicação entre Mulheres na Tecnologia',
    xlabel='Tipo de Publicação',
    ylabel='Quantidade'
)

plt.show()

### Exercício 7

#### 7.1
- Defina uma pergunta de análise que possa ser respondida a partir dos dados existentes ou complementares.
- Adicione uma nova coluna ao DataFrame *df_mulheres_tecnologia* cujos valores permitam responder à sua pergunta (Passo 1).

#### 7.2
- Crie um gráfico utilizando a nova coluna (e outras, se necessário) para visualizar a resposta à sua pergunta.
- Descreva o que o gráfico revela sobre as mulheres na tecnologia e ciência.


In [None]:
# Converter a coluna de data para o tipo datetime
df_mulheres_tecnologia['Data Nascimento'] = pd.to_datetime(
    df_mulheres_tecnologia['Data Nascimento'], errors='coerce', dayfirst=True
)

# Criar uma nova coluna com o ano
df_mulheres_tecnologia['Ano Nascimento'] = df_mulheres_tecnologia['Data Nascimento'].dt.year


In [None]:
df_mulheres_tecnologia['Ano de Publicação']


In [None]:
df_mulheres_tecnologia['Idade na Publicação'] = (
    df_mulheres_tecnologia['Ano de Publicação'] - df_mulheres_tecnologia['Ano Nascimento']
)


In [None]:
df_mulheres_tecnologia['Ano Nascimento'] = (
    df_mulheres_tecnologia['Ano Nascimento']
    .astype('Int64')  # <- mantém inteiros e aceita NaN
)

df_mulheres_tecnologia['Idade na Publicação'] = (
    df_mulheres_tecnologia['Idade na Publicação']
    .astype('Int64')
)


In [None]:
df_mulheres_tecnologia[['Nome', 'Ano Nascimento', 'Ano de Publicação', 'Idade na Publicação']]


# Parte 2

## Análise de dados com Python e Pandas



### Exercício
Vamos fazer juntas!

O que vamos praticar?
- Importar arquivo csv com o pandas
- Importar arquivo no formato json
- Fazer análise exploratória
- Manipular colunas com pandas
- Montar gráficos com pandas

#### Fazer upload das bases de dados
Vamos trabalhar com a base de dados da **Câmara dos deputados referente à legislatura 57**, a mesma utilizada no módulo de Planilhas. Porém dessa vez vamos combinar duas bases (uma em csv e outra em formato json)

1. Baixe o arquivo [deputados_legislatura_57_base_tratada.csv](https://drive.google.com/file/d/1GZO-zaf7ofbnth8BkwnJptVAtZDwuUW0/view?usp=drive_link)
1. Baixe o arquivo [deputados_legislatura_57.json](https://drive.google.com/file/d/1GHx1NiMCX-WWHPkzesFNmPvcgSLZl-0W/view?usp=drive_link)
2. No menu lateral esquerdo aqui do Colab, clique no ícone de arquivos
3. Selecione a opção de fazer upload e selecione os arquivos você baixou anteriormente

Observação: Para encontrar o caminho completo da base de dados importada:
- Clique com o botão direito sobre o arquivo importado
- Selecione "Copiar caminho"


#### Importar a biblioteca pandas executando o código a seguir



In [None]:
import pandas as pd

#### Lidando com dados em csv

Execute o bloco de código a seguir para transformar os dados csv em Data Frame

In [None]:
# Definindo o caminho para buscar a base de dados
base_dados_deputados_csv = '/content/drive/MyDrive/Colab Notebooks/deputados_legislatura_57_base_tratada.csv'

# Transformando a base de dados de csv para o formato Data Frame
df_deputados_csv = pd.read_csv(base_dados_deputados_csv)

#selecionar apenas algumas colunas
colunas_csv = ['Nome', 'Estado', 'Sigla Gênero', 'Gênero', 'Data de nascimento', 'Idade', 'Primeira legislatura']
df_deputados_csv = df_deputados_csv[colunas_csv]

# Exibir as colunas do dataframe
print(df_deputados_csv.columns)

# Exibir as quantidade de linhas
df_deputados_csv.value_counts()


In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
df_deputados_csv

#### Lidando com dados em json

Execute o bloco de código a seguir para transformar os dados json em Data Frame


In [None]:
import json

# Definindo o caminho para buscar a base de dados
base_dados_deputados_json = '/content/drive/MyDrive/Colab Notebooks/deputados_legislatura_57.json'

# Transformando a base de dados de json para o formato Data Frame
df_deputados_json = pd.read_json(base_dados_deputados_json)

#selecionar apenas algumas colunas
colunas_json = ['id', 'nome', 'siglaPartido', 'email']
df_deputados_json = df_deputados_json[colunas_json]

# Exibir as colunas do dataframe
print(df_deputados_json.columns)

# Exibir as quantidade de linhas
print(df_deputados_json.value_counts)

# Imprime os as colunas do dataframe
print(df_deputados_json.columns)
print(df_deputados_json.value_counts)

#### Juntar bases de dados em uma só

Vamos utilizar o conceito de [joins (ou junção)](https://https://www.alura.com.br/artigos/join-e-seus-tipos?srsltid=AfmBOorqiWzXLMyZKkskHWph08lQWzlGAOAJJ-DQR-cC4DF46cQ_VnA1 ) para mesclar as duas bases em uma só a partir da coluna "nome"

In [None]:
# Juntar as duas bases num inner join usando as colunas de nome
df_deputados_final = pd.merge(
    df_deputados_json,
    df_deputados_csv,
    left_on='nome',
    right_on='Nome',
    how='inner'
)

# Remover a coluna duplicada Nome
df_deputados_final = df_deputados_final.drop(columns=['Nome'])

print(df_deputados_final.head(3))

#### Análise

Agora é com você!  

1. Qual a quantidade de parlamentares por estado e gênero?
2. Qual a média de idade por gênero de parlamentares?
3. Qual a proporção de reeleição e primeira legislatura  por gênero?
4. Quais partidos têm a maior quantidade de deputadas mulheres e qual é a proporção de mulheres em relação aos homens em cada partido?
5. Faça um inner join e conte quantos nomes ficaram de fora do CSV e do JSON. → Dica: compare os tamanhos antes e depois do merge.

Extra (opcional):

Faça uma pergunta extra  e uma visualização com base na nova coluna adicionada *siglaPartido*


1. Qual a quantidade de parlamentares por estado e gênero?

In [None]:

df_deputados_csv = df_deputados_final.groupby(['Estado', 'Gênero']).size()
df_deputados_csv



2. Qual a média de idade por gênero de parlamentares?

In [34]:
media_idade_genero = df_deputados_final.groupby('Gênero')['Idade'].mean().round(1)
df_deputados_final.groupby('Gênero')['Idade'].mean()

media_idade_genero

Unnamed: 0_level_0,Idade
Gênero,Unnamed: 1_level_1
Feminino,49.6
Masculino,53.2


3. Qual a proporção de reeleição e primeira legislatura por gênero?

In [33]:

proporcao_reeleicao = pd.crosstab(df_deputados_final['Gênero'], df_deputados_final['Primeira legislatura'], normalize='index') * 100

pd.crosstab(df_deputados_final['Gênero'], df_deputados_final['Primeira legislatura'], normalize='index')

print(proporcao_reeleicao.round(1))


Primeira legislatura  False  True 
Gênero                            
Feminino                0.8   99.2
Masculino               3.1   96.9


4. Quais partidos têm a maior quantidade de deputadas mulheres e qual é a proporção de mulheres em relação aos homens em cada partido?

In [38]:

df_mulheres = df_deputados_final[df_deputados_final['Gênero'] == 'Feminino']

mulheres_partido = df_mulheres['siglaPartido'].value_counts().head(10)
genero_partido = df_deputados_final.groupby(['siglaPartido', 'Gênero']).size().unstack(fill_value=0)

genero_partido['Total'] = genero_partido.sum(axis=1)

genero_partido['% Mulheres'] = (genero_partido['Feminino'] / genero_partido['Total']) * 100

resultado = genero_partido.sort_values(by='Feminino', ascending=False)

resultado['% Mulheres'] = resultado['% Mulheres'].apply(lambda x: f'{x:.2f}%')

resultado.head(10)

Gênero,Feminino,Masculino,Total,% Mulheres
siglaPartido,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PT,21,57,78,26.92%
PL,20,99,119,16.81%
MDB,11,42,53,20.75%
UNIÃO,11,61,72,15.28%
REPUBLICANOS,9,51,60,15.00%
PSOL,8,7,15,53.33%
PP,7,57,64,10.94%
PCdoB,5,4,9,55.56%
PODE,5,21,26,19.23%
PDT,5,17,22,22.73%
