## Sobre o Conjunto de Dados
### Descrição: 
Este conjunto de dados contém estatísticas sobre os bilionários do mundo, incluindo informações sobre seus negócios, indústrias e detalhes pessoais. Ele fornece insights sobre a distribuição de riqueza, setores de negócios e demografia dos bilionários em todo o mundo.

### Principais Características
- **rank:** A classificação do bilionário em termos de riqueza.
- **finalWorth:** O patrimônio líquido final do bilionário em dólares americanos.
- **category:** A categoria ou indústria na qual opera o negócio do bilionário.
- **personName:** O nome completo do bilionário.
- **age:** A idade do bilionário.
- **country:** O país em que o bilionário reside.
- **city:** A cidade em que o bilionário reside.
- **source:** A fonte da riqueza do bilionário.
- **industries:** As indústrias associadas aos interesses comerciais do bilionário.
- **countryOfCitizenship:** O país de cidadania do bilionário.
- **organization:** O nome da organização ou empresa associada ao bilionário.
- **selfMade:** Indica se o bilionário é auto-suficiente (True/False).
- **status:** "D" representa bilionários auto-suficientes (Fundadores/Empreendedores) e "U" indica riqueza herdada ou não conquistada.
- **gender:** O gênero do bilionário.
- **birthDate:** A data de nascimento do bilionário.
- **lastName:** O sobrenome do bilionário.
- **firstName:** O primeiro nome do bilionário.
- **title:** O título ou honraria do bilionário.
- **date:** A data de coleta de dados.
- **state:** O estado em que o bilionário reside.
- **residenceStateRegion:** A região ou estado de residência do bilionário.
- **birthYear:** O ano de nascimento do bilionário.
- **birthMonth:** O mês de nascimento do bilionário.
- **birthDay:** O dia de nascimento do bilionário.
- **cpi_country:** Índice de Preços ao Consumidor (CPI) para o país do bilionário.
- **cpi_change_country:** Mudança no CPI para o país do bilionário.
- **gdp_country:** Produto Interno Bruto (PIB) para o país do bilionário.
- **gross_tertiary_education_enrollment:** Matrícula no ensino terciário no país do bilionário.
- **gross_primary_education_enrollment_country:** Matrícula no ensino primário no país do bilionário.
- **life_expectancy_country:** Expectativa de vida no país do bilionário.
- **tax_revenue_country_country:** Receita fiscal no país do bilionário.
- **total_tax_rate_country:** Taxa tributária total no país do bilionário.
- **population_country:** População do país do bilionário.
- **latitude_country:** Coordenada de latitude do país do bilionário.
- **longitude_country:** Coordenada de longitude do país do bilionário.

### Potenciais Casos de Uso
- **Análise da distribuição de riqueza:** Explore a distribuição da riqueza dos bilionários em diferentes indústrias, países e regiões.
- **Análise demográfica:** Investigue a demografia de idade, gênero e local de nascimento dos bilionários.
- **Riqueza autoconstruída vs. herdada:** Analise a proporção de bilionários auto-suficientes e aqueles que herdaram sua riqueza.
- **Indicadores econômicos:** Estude correlações entre a riqueza dos bilionários e indicadores econômicos como PIB, CPI e taxas fiscais.
- **Análise geoespacial:** Visualize a distribuição geográfica dos bilionários e de sua riqueza em um mapa.
- **Tendências ao longo do tempo:** Acompanhe as mudanças na demografia e riqueza dos bilionários ao longo dos anos.
- **Tendências ao longo do tempo:** Acompanhe as mudanças na demografia e riqueza dos bilionários ao longo dos anos.



## Importando bibliotecas

In [28]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

pd.set_option('display.max_columns', None)

## Importando dados

In [42]:
df = pd.read_csv("https://github.com/anwarhermuche/lives/raw/main/Billionaires%20Statistics%20Dataset.csv", parse_dates = ['birthDate','date'])


## Breve análise dos dados

In [43]:
df.head()

Unnamed: 0,rank,finalWorth,category,personName,age,country,city,source,industries,countryOfCitizenship,organization,selfMade,status,gender,birthDate,lastName,firstName,title,date,state,residenceStateRegion,birthYear,birthMonth,birthDay,cpi_country,cpi_change_country,gdp_country,gross_tertiary_education_enrollment,gross_primary_education_enrollment_country,life_expectancy_country,tax_revenue_country_country,total_tax_rate_country,population_country,latitude_country,longitude_country
0,1,211000,Fashion & Retail,Bernard Arnault & family,74.0,France,Paris,LVMH,Fashion & Retail,France,LVMH Moët Hennessy Louis Vuitton,False,U,M,1949-03-05,Arnault,Bernard,Chairman and CEO,2023-04-04 05:01:00,,,1949.0,3.0,5.0,110.05,1.1,"$2,715,518,274,227",65.6,102.5,82.5,24.2,60.7,67059887.0,46.227638,2.213749
1,2,180000,Automotive,Elon Musk,51.0,United States,Austin,"Tesla, SpaceX",Automotive,United States,Tesla,True,D,M,1971-06-28,Musk,Elon,CEO,2023-04-04 05:01:00,Texas,South,1971.0,6.0,28.0,117.24,7.5,"$21,427,700,000,000",88.2,101.8,78.5,9.6,36.6,328239523.0,37.09024,-95.712891
2,3,114000,Technology,Jeff Bezos,59.0,United States,Medina,Amazon,Technology,United States,Amazon,True,D,M,1964-01-12,Bezos,Jeff,Chairman and Founder,2023-04-04 05:01:00,Washington,West,1964.0,1.0,12.0,117.24,7.5,"$21,427,700,000,000",88.2,101.8,78.5,9.6,36.6,328239523.0,37.09024,-95.712891
3,4,107000,Technology,Larry Ellison,78.0,United States,Lanai,Oracle,Technology,United States,Oracle,True,U,M,1944-08-17,Ellison,Larry,CTO and Founder,2023-04-04 05:01:00,Hawaii,West,1944.0,8.0,17.0,117.24,7.5,"$21,427,700,000,000",88.2,101.8,78.5,9.6,36.6,328239523.0,37.09024,-95.712891
4,5,106000,Finance & Investments,Warren Buffett,92.0,United States,Omaha,Berkshire Hathaway,Finance & Investments,United States,Berkshire Hathaway Inc. (Cl A),True,D,M,1930-08-30,Buffett,Warren,CEO,2023-04-04 05:01:00,Nebraska,Midwest,1930.0,8.0,30.0,117.24,7.5,"$21,427,700,000,000",88.2,101.8,78.5,9.6,36.6,328239523.0,37.09024,-95.712891


In [44]:
print(f"Temos {df.shape[0]} linhas e {df.shape[1]} colunas")

Temos 2640 linhas e 35 colunas


In [45]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2640 entries, 0 to 2639
Data columns (total 35 columns):
 #   Column                                      Non-Null Count  Dtype         
---  ------                                      --------------  -----         
 0   rank                                        2640 non-null   int64         
 1   finalWorth                                  2640 non-null   int64         
 2   category                                    2640 non-null   object        
 3   personName                                  2640 non-null   object        
 4   age                                         2575 non-null   float64       
 5   country                                     2602 non-null   object        
 6   city                                        2568 non-null   object        
 7   source                                      2640 non-null   object        
 8   industries                                  2640 non-null   object        
 9   countryO

In [46]:
df.gdp_country = df.gdp_country.apply(lambda x: int(x.replace('$', '').replace(',', '')) if not x is np.nan else -1)

In [47]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2640 entries, 0 to 2639
Data columns (total 35 columns):
 #   Column                                      Non-Null Count  Dtype         
---  ------                                      --------------  -----         
 0   rank                                        2640 non-null   int64         
 1   finalWorth                                  2640 non-null   int64         
 2   category                                    2640 non-null   object        
 3   personName                                  2640 non-null   object        
 4   age                                         2575 non-null   float64       
 5   country                                     2602 non-null   object        
 6   city                                        2568 non-null   object        
 7   source                                      2640 non-null   object        
 8   industries                                  2640 non-null   object        
 9   countryO

In [49]:
df.describe().T

Unnamed: 0,count,mean,min,25%,50%,75%,max,std
rank,2640.0,1289.159091,1.0,659.0,1312.0,1905.0,2540.0,739.693726
finalWorth,2640.0,4623.787879,1000.0,1500.0,2300.0,4200.0,211000.0,9834.240939
age,2575.0,65.140194,18.0,56.0,65.0,75.0,101.0,13.258098
birthDate,2564.0,1957-08-10 08:18:54.477379072,1921-09-11 00:00:00,1948-02-04 18:00:00,1957-07-15 12:00:00,1966-09-23 12:00:00,2004-05-06 00:00:00,
date,2640.0,2023-04-04 05:01:10.909091072,2023-04-04 05:01:00,2023-04-04 05:01:00,2023-04-04 05:01:00,2023-04-04 05:01:00,2023-04-04 09:01:00,
birthYear,2564.0,1957.183307,1921.0,1948.0,1957.0,1966.0,2004.0,13.282516
birthMonth,2564.0,5.74025,1.0,2.0,6.0,9.0,12.0,3.710085
birthDay,2564.0,12.099844,1.0,1.0,11.0,21.0,31.0,9.918876
cpi_country,2456.0,127.755204,99.55,117.24,117.24,125.08,288.57,26.452951
cpi_change_country,2456.0,4.364169,-1.9,1.7,2.9,7.5,53.5,3.623763


In [51]:
df.isnull().mean()[df.isnull().mean() > 0].sort_values(ascending = False)

organization                                  0.876894
title                                         0.871591
residenceStateRegion                          0.717045
state                                         0.714773
cpi_country                                   0.069697
cpi_change_country                            0.069697
tax_revenue_country_country                   0.069318
gross_tertiary_education_enrollment           0.068939
total_tax_rate_country                        0.068939
life_expectancy_country                       0.068939
gross_primary_education_enrollment_country    0.068561
longitude_country                             0.062121
latitude_country                              0.062121
population_country                            0.062121
birthDay                                      0.028788
birthMonth                                    0.028788
birthYear                                     0.028788
birthDate                                     0.028788
city      

## Análise Exporatória de Dados
### Perguntas de negócio

- Quantos bilionários são CEOs?
- Quais são as 10 industrias com mais bilionários?


### Quantos bilionários são CEOs?

In [55]:
for titulo in df.title.values[:10]:
    print(titulo)

Chairman and CEO
CEO
Chairman and Founder
CTO and Founder
CEO
Cochair
CEO
Honorary Chairman
Founder and Chairman
Owner


In [89]:
# Criando uma lista com valores 1 para CEO e 0 para não CEO ou nulo.
contain_ceo = np.array([0 if type(titulo) != str else 1 if 'ceo' in titulo.lower() else 0 for titulo in df.title.values])

In [78]:
porcentagem_de_ceos = contain_ceo.mean()*100

In [79]:
print(f"A porcentagem de CEO's é de {porcentagem_de_ceos:.2f}% no dataset.")

A porcentagem de CEO's é de 3.52% no dataset.


Consideramos como sendo cargos de CEO todos os titulos que continham a palavra 'CEO' nele. Entretanto, temos 87,16% dos dados dessa coluna(title) nulos e isso impacta negativamente a nossa analise. Lembrando que a porcentagem foi calculada como sendo a média da lista "contain_ceo". Considerei como sendo '1', ou seja, "é um CEO", todos os titulos que continham CEO. Todo o resto (Valores nulos e titulos que nao contém "ceo") considerei como 0.

Abaixo irei calcular a mesma porcentagem, porém excluindo os valores nulos.

In [85]:
contain_ceo_novo = np.array([-1 if type(titulo) != str else 1 if 'ceo' in titulo.lower() else 0 for titulo in df.title.values])

In [86]:
porcentagem_de_ceos_novo = contain_ceo_novo[contain_ceo_novo != -1].mean()*100

In [87]:
porcentagem_de_ceos_novo

27.43362831858407

In [88]:
print(f"Temos {porcentagem_de_ceos_novo:.2f}% de CEO's no dataset cujo o titulo é não nulo.")

Temos 27.43% de CEO's no dataset cujo o titulo é não nulo.


A partir disso, temos que para todos os cargos que são não nulos, 27$ dos bilionários desempenham o papel de CEO.

### *Quais são as 10 industrias com mais bilionários?*

In [96]:
df.groupby('industries').count()[['rank']].\
            reset_index().\
            sort_values(by = 'rank', ascending = False).\
            rename(columns = {'rank': 'quantity'}).\
            reset_index(drop = True).\
            head(10)

Unnamed: 0,industries,quantity
0,Finance & Investments,372
1,Manufacturing,324
2,Technology,314
3,Fashion & Retail,266
4,Food & Beverage,212
5,Healthcare,201
6,Real Estate,193
7,Diversified,187
8,Energy,100
9,Media & Entertainment,91


A partir da nossa analise e do dataframe, podemos saber quais são as top 10 industrias com maior quantidade de bilionários.