# **Introdução à Análise de Dados com Python**

Neste notebook, exploraremos um conjunto de dados de títulos de empregos, disponível no Kaggle.
A análise de dados é fundamental para extrair insights significativos que podem ajudar nas tomadas de decisão dentro das organizações. Usaremos o Python, uma das ferramentas mais poderosas e populares na análise de dados
devido à sua simplicidade e à vasta biblioteca de recursos disponíveis.





**Passo a Passo:**

base de dados retirada do kaggle:https://www.kaggle.com/datasets/thedevastator/predicting-job-titles-from-resumes

1-Carregar os Dados:

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display

# Carregar os dados do arquivo CSV
df = pd.read_csv('/content/jobss.csv')

# Exibir as primeiras linhas do DataFrame
print("Primeiras linhas do DataFrame:")
display(df.head(20))


Primeiras linhas do DataFrame:


Unnamed: 0,Job Title,Unnamed: 1,Job Experience Required,Key Skills,Role Category,Location,Functional Area,Industry,Role,Longitude,Latitude,sal
0,Digital Media Planner,,5 - 10 yrs,Media Planning| Digital Media,Advertising,Mumbai,"Marketing , Advertising , MR , PR , Media Plan...","Advertising, PR, MR, Event Management",Media Planning Executive/Manager,72.877393,19.07599,3855
1,Online Bidding Executive,,2 - 5 yrs,pre sales| closing| software knowledge| clien...,Retail Sales,"Pune,Pune","Sales , Retail , Business Development","IT-Software, Software Services",Sales Executive/Officer,73.854454,18.521428,2639
2,Trainee Research/ Research Executive- Hi- Tec...,,0 - 1 yrs,Computer science| Fabrication| Quality check|...,R&D,Gurgaon,"Engineering Design , R&D","Recruitment, Staffing",R&D Executive,77.0027,28.428262,2156
3,Technical Support,,0 - 5 yrs,Technical Support,Admin/Maintenance/Security/Datawarehousing,Mumbai,"IT Software - Application Programming , Mainte...","IT-Software, Software Services",Technical Support Engineer,72.877393,19.07599,4059
4,Software Test Engineer -hyderabad,,2 - 5 yrs,manual testing| test engineering| test cases|...,Programming & Design,Hyderabad,IT Software - QA & Testing,"IT-Software, Software Services",Testing Engineer,78.474061,17.360589,5347
5,Opening For Adobe Analytics Specialist,,5 - 7 yrs,adobe experience manager| digital| digital ma...,Programming & Design,Pune,"IT Software - Application Programming , Mainte...","IT-Software, Software Services",System Analyst,73.854454,18.521428,4838
6,Sales- Fresher-for Leading Property Consultant,,0 - 0 yrs,channel partners| real estate| negotiation| p...,Retail Sales,Bengaluru,"Sales , Retail , Business Development","Real Estate, Property",Sales Executive/Officer,77.590082,12.976794,2585
7,Opportunity For Azure Devops Architect For Hy...,,9 - 14 yrs,TFS| Azure| Git| VSTS| Docker| DynaTrace| Spl...,Programming & Design,Hyderabad,"IT Software - Application Programming , Mainte...","IT-Software, Software Services",Technical Architect,78.474061,17.360589,3914
8,BDE- PUNE,,2 - 7 yrs,Bde,Institutional Sales,Pune,"Sales , Retail , Business Development","IT-Software, Software Services",Sales Executive/Officer,73.854454,18.521428,2111
9,Technical Support/ Product Support,,1 - 5 yrs,technical support| support services| applicat...,Voice,Bengaluru,"ITES , BPO , KPO , LPO , Customer Service , Op...","IT-Software, Software Services",Associate/Senior Associate -(Technical),77.590082,12.976794,2359


**2-Exploração inicial**

In [None]:
# Exibir informações gerais do DataFrame
print("\nInformações gerais do DataFrame:")
print(df.info())



Informações gerais do DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 12 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Job Title                489 non-null    object 
 1   Unnamed: 1               0 non-null      float64
 2   Job Experience Required  500 non-null    object 
 3   Key Skills               500 non-null    object 
 4   Role Category            463 non-null    object 
 5   Location                 489 non-null    object 
 6   Functional Area          489 non-null    object 
 7   Industry                 489 non-null    object 
 8   Role                     486 non-null    object 
 9   Longitude                473 non-null    float64
 10  Latitude                 473 non-null    float64
 11  sal                      500 non-null    int64  
dtypes: float64(3), int64(1), object(8)
memory usage: 47.0+ KB
None


**3-Limpeza de Dados**

In [None]:
# Exibir quantidade de valores ausentes por coluna
print("\nValores ausentes por coluna:")
print(df.isnull().sum())



Valores ausentes por coluna:
Job Title                   11
Unnamed: 1                 500
Job Experience Required      0
Key Skills                   0
Role Category               37
Location                    11
Functional Area             11
Industry                    11
Role                        14
Longitude                   27
Latitude                    27
sal                          0
dtype: int64


In [None]:
# Remover colunas desnecessárias
df = df.drop(columns=['Unnamed: 1', 'Longitude', 'Latitude'])

# Remover as linhas que contêm valores ausentes
df.dropna(inplace=True)


# Verificar novamente valores ausentes após a limpeza
print("\nValores ausentes por coluna após limpeza:")
print(df.isnull().sum())



Valores ausentes por coluna após limpeza:
Job Title                  0
Job Experience Required    0
Key Skills                 0
Role Category              0
Location                   0
Functional Area            0
Industry                   0
Role                       0
sal                        0
dtype: int64


4-Análise Exploratória de Dados

Utilidade do Resumo Estatístico:

-Este resumo é extremamente útil para obter uma rápida visão geral da distribuição dos dados numéricos.

-Ajuda a identificar rapidamente problemas potenciais, como outliers extremos ou erros de entrada de dados (por exemplo, um salário extremamente baixo ou alto que não faz sentido).

-Auxilia na compreensão da dispersão dos dados, indicando se estão distribuídos de forma uniforme, se são tendenciosos, ou se há uma grande variabilidade.

Esses insights são fundamentais para decisões subsequentes em análises mais profundas, ajustes de modelos de dados ou mesmo estratégias de negócios e políticas de recursos humanos.








In [None]:
# Exibir resumo estatístico do DataFrame
print("\nResumo estatístico do DataFrame:")
print(df.describe())



Resumo estatístico do DataFrame:
               sal
count   463.000000
mean   4214.740821
std    1598.338568
min    1510.000000
25%    2827.000000
50%    4199.000000
75%    5619.500000
max    6991.000000


Utilidade do Código abaixo:

Análise Exploratória de Dados: Este código é particularmente útil na fase inicial de análise de dados, conhecida como Análise Exploratória de Dados (EDA). Ele ajuda os analistas a compreender rapidamente a diversidade e a distribuição das categorias dentro de cada coluna categórica.

Preparação para Limpeza de Dados: Ao identificar os valores únicos em cada coluna, os analistas podem detectar inconsistências, como categorias mal formatadas, erros de digitação ou categorias inesperadas, que podem precisar ser corrigidas ou normalizadas.

Projeto de Modelagem de Dados: Compreender os valores únicos em colunas categóricas também pode informar decisões de modelagem, como a necessidade de transformação desses valores em dados numéricos por meio de técnicas como codificação one-hot ou codificação de etiquetas, especialmente útil em modelagem preditiva e machine learning.

Esse código é uma ferramenta simples, mas poderosa, para obter uma visão rápida das características categóricas de um conjunto de dados, facilitando a tomada de decisões informadas em etapas subsequentes do processo de análise de dados.

In [None]:
# Exibir valores únicos em colunas categóricas
print("\nValores únicos em colunas categóricas:")
for column in df.select_dtypes(include=['object']).columns:
    print(f"{column}: {df[column].unique()}")



Valores únicos em colunas categóricas:
Job Title: [' Digital Media Planner' ' Online Bidding Executive'
 ' Trainee Research/ Research Executive- Hi- Tech Operations'
 ' Technical Support' ' Software Test Engineer -hyderabad'
 ' Opening For Adobe Analytics Specialist'
 ' Sales- Fresher-for Leading Property Consultant'
 ' Opportunity For Azure Devops Architect For Hyderabad Location'
 ' BDE- PUNE' ' Technical Support/ Product Support'
 ' Executive Assistant To Chairman' ' SEO Executive'
 ' Workflow Coordinator' 'Oracle IDAM'
 ' Looking Facebook /social Media Manager For our Digital Marketing Ageny'
 ' Tooling &amp; Sampling' ' Account Manager' ' Magento Developer'
 ' Looking For Trained Freshers in MS Dynamics CRM- Hyderabad'
 ' Job Openings Kotak Life/ Max Life/ Aditya Birla Health for Sales Mgr'
 ' Business Development / Corporate Sales'
 ' Business Development Manager (BDM)' ' QA Executive'
 ' Back End Java Developer - Restful Services/soap' ' Product Engineer'
 ' Opening For Articul

In [None]:
df

Unnamed: 0,Job Title,Job Experience Required,Key Skills,Role Category,Location,Functional Area,Industry,Role,sal
0,Digital Media Planner,5 - 10 yrs,Media Planning| Digital Media,Advertising,Mumbai,"Marketing , Advertising , MR , PR , Media Plan...","Advertising, PR, MR, Event Management",Media Planning Executive/Manager,3855
1,Online Bidding Executive,2 - 5 yrs,pre sales| closing| software knowledge| clien...,Retail Sales,"Pune,Pune","Sales , Retail , Business Development","IT-Software, Software Services",Sales Executive/Officer,2639
2,Trainee Research/ Research Executive- Hi- Tec...,0 - 1 yrs,Computer science| Fabrication| Quality check|...,R&D,Gurgaon,"Engineering Design , R&D","Recruitment, Staffing",R&D Executive,2156
3,Technical Support,0 - 5 yrs,Technical Support,Admin/Maintenance/Security/Datawarehousing,Mumbai,"IT Software - Application Programming , Mainte...","IT-Software, Software Services",Technical Support Engineer,4059
4,Software Test Engineer -hyderabad,2 - 5 yrs,manual testing| test engineering| test cases|...,Programming & Design,Hyderabad,IT Software - QA & Testing,"IT-Software, Software Services",Testing Engineer,5347
...,...,...,...,...,...,...,...,...,...
495,Finance & OPS - Technical Consultant (dynamic...,2 - 7 yrs,microsoft dynamics ax| strategy implementatio...,System Design/Implementation/ERP/CRM,Bengaluru,"IT Software - Application Programming , Mainte...","IT-Software, Software Services",ERP Consultant,4922
496,Business Development Manager-digital / Export,5 - 8 yrs,digital marketing| international sales| inter...,Institutional Sales,Noida,"Sales , Retail , Business Development","Internet, Ecommerce",Sales/Business Development Manager,5866
497,Sr. Software Engineer,4 - 9 yrs,Unix| PDF| Deployment| Informatica| Oracle| T...,Programming & Design,Hyderabad,"IT Software - Application Programming , Mainte...","IT-Software, Software Services",Software Developer,1515
498,Website Designer,0 - 2 yrs,jQuery| Analytical| Wordpress| Conceptualizat...,Creative,Gurgaon,"Design , Creative , User Experience","IT-Software, Software Services",Web Designer,1946


In [None]:
# Calcular a média salarial para cada categoria de "job"
media_salarial_por_job = df.groupby('Job Title')['sal'].mean()

# Criar um DataFrame a partir da série de médias salariais
df_media_salarial = media_salarial_por_job.reset_index()
df_media_salarial.columns = ['Job Title', 'média salarial']

# Exibir o DataFrame resultante
from IPython.display import display
display(df_media_salarial)


Unnamed: 0,Job Title,média salarial
0,".NET Developer (asp.net, MVC, C#)",6630.0
1,ACCOUNTS EXECUTIVES,5957.0
2,ADM - External Affairs &amp; CSR - Bangalore,3893.0
3,AIT Global India Private Limited is Looking F...,4770.0
4,ARCHITECTURAL CAD,3895.0
...,...,...
441,Spring Boot,5170.0
442,Sr.consultant-power Distribution,4560.0
443,System Monitoring Tools & Techniques Professional,4639.0
444,Urgent Opening Automation Test Engineer 2-5yrs...,3991.0


5-Salvando o novo DF

In [None]:
# Salvando o DataFrame limpo em um novo CSV
caminho_novo_csv = '/content/jobss_limpo.csv'  # Nome do arquivo CSV para salvar os dados limpos
df.to_csv(caminho_novo_csv, index=False)  # Salvando o DataFrame limpo em um novo arquivo CSV

print("DataFrame limpo salvo com sucesso em:", caminho_novo_csv)


DataFrame limpo salvo com sucesso em: /content/jobss_limpo.csv


**6- Visualização de dados no PowerBI**