Dentre as tecnologias de manipulação de dados presentes no mercado, destacam-se três: Pandas, Dask e Modin. Cada uma destas possui sua individualide e formas específicas de aplicação, cabendo ao profissional de dados interar-se e absorver conhecimentos sobre estas três ferramentas e possuir a capacidade de correta escolha quanto ao uso delas.

Pandas é mais voltado ao trabalho com bases de dados de pequeno a médio porte. Tal limitação deve-se ao fato de que o dataset, quando processado no Pandas, deve caber na memória RAM do computador, assim como esta biblioteca não aproveita os múltiplos núcleos do processador e não lida com clusters.
Para lidar com este problema, as seguintes bibliotecas abaixo são voltadas ao processamento exigente do Big Data:

Dask - Fornece os DaskDataFrames, os quais possuem funcionamento parecido com os DataFrames tradicionais do Pandas. No entanto, o Dask consegue utilizar todos os núcleos da CPU ou atuar em cluster de computadores e possui a capacidade de executar as tarefas somente quando necessário (Lazy Execution);

Modin - É tida como um substituto direto do Pandas, pois podemos usar o código Pandas que possuímos com a adição de paralelização da esmagadora maioria das operações. Ou seja, mesmo código pandas, só com distribuição das tarefas de processamento entre os vários núcleos do computador ou em clusters de computadores, possuindo ainda a possibilidade de trabalhar com datasets maiores que a RAM;

## Aplicação do Pandas

In [54]:
import pandas as pd

In [55]:
base_pandas = pd.read_parquet("fortune1000_2024.parquet")  ## Download realizado a partir do Kaggle

In [56]:
base_pandas.head(3)

Unnamed: 0,Rank,Company,Ticker,Sector,Industry,Profitable,Founder_is_CEO,FemaleCEO,Growth_in_Jobs,Change_in_Rank,...,Assets_M,CEO,Country,HeadquartersCity,HeadquartersState,Website,CompanyType,Footnote,MarketCap_Updated_M,Updated
0,1,Walmart,WMT,Retailing,General Merchandisers,yes,no,no,no,0.0,...,252399.0,C. Douglas McMillon,U.S.,Bentonville,Arkansas,https://www.stock.walmart.com,Public,"Figures are for fiscal year ended Jan. 31, 202...",559911.0,2024-08-05
1,2,Amazon,AMZN,Retailing,Internet Services and Retailing,yes,no,no,no,0.0,...,527854.0,Andrew R. Jassy,U.S.,Seattle,Washington,https://www.amazon.com,Public,"Market value as of July 15, 2024.",2005565.0,2024-08-05
2,3,Apple,AAPL,Technology,"Computers, Office Equipment",yes,no,no,no,1.0,...,352583.0,Timothy D. Cook,U.S.,Cupertino,California,https://www.apple.com,Public,"Figures are for fiscal year ended Sept. 30, 20...",3594309.0,2024-08-05


In [57]:
base_pandas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 32 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   Rank                           1000 non-null   int64         
 1   Company                        1000 non-null   object        
 2   Ticker                         959 non-null    object        
 3   Sector                         1000 non-null   category      
 4   Industry                       1000 non-null   category      
 5   Profitable                     1000 non-null   category      
 6   Founder_is_CEO                 1000 non-null   category      
 7   FemaleCEO                      1000 non-null   category      
 8   Growth_in_Jobs                 1000 non-null   category      
 9   Change_in_Rank                 1000 non-null   float64       
 10  Gained_in_Rank                 1000 non-null   category      
 11  Dropped_in_Rank   

In [58]:
base_pandas[base_pandas['Founder_is_CEO'] == "yes"].head(3)  ## fundados que são CEO's

Unnamed: 0,Rank,Company,Ticker,Sector,Industry,Profitable,Founder_is_CEO,FemaleCEO,Growth_in_Jobs,Change_in_Rank,...,Assets_M,CEO,Country,HeadquartersCity,HeadquartersState,Website,CompanyType,Footnote,MarketCap_Updated_M,Updated
29,30,Meta Platforms,META,Technology,Internet Services and Retailing,yes,yes,no,no,1.0,...,229623.0,Mark Zuckerberg,U.S.,Menlo Park,California,https://investor.fb.com,Public,"Market value as of July 15, 2024.",1258678.0,2024-08-05
39,40,Tesla,TSLA,Motor Vehicles & Parts,Motor Vehicles & Parts,yes,yes,no,yes,10.0,...,106618.0,Elon Musk,U.S.,Austin,Texas,https://www.tesla.com,Public,"Market value as of July 15, 2024.",805719.0,2024-08-05
47,48,Dell Technologies,DELL,Technology,"Computers, Office Equipment",yes,yes,no,no,-14.0,...,82089.0,Michael S. Dell,U.S.,Round Rock,Texas,https://www.delltechnologies.com/,Public,"Figures are for fiscal year ended Jan. 31, 202...",97331.0,2024-08-05


In [59]:
base_pandas[base_pandas['HeadquartersState'] == "Texas"].head(3)  ## Companhias localizadas no estado americano do Texas

Unnamed: 0,Rank,Company,Ticker,Sector,Industry,Profitable,Founder_is_CEO,FemaleCEO,Growth_in_Jobs,Change_in_Rank,...,Assets_M,CEO,Country,HeadquartersCity,HeadquartersState,Website,CompanyType,Footnote,MarketCap_Updated_M,Updated
6,7,Exxon Mobil,XOM,Energy,Petroleum Refining,yes,no,no,no,-4.0,...,376317.0,Darren W. Woods,U.S.,Spring,Texas,https://www.exxonmobil.com,Public,Excise taxes have been deducted. Market value ...,516824.0,2024-08-05
8,9,McKesson,MCK,Health Care,Wholesalers: Health Care,yes,no,no,no,0.0,...,62320.0,Brian S. Tyler,U.S.,Irving,Texas,https://www.mckesson.com,Public,"Figures are for fiscal year ended March 31, 20...",75007.0,2024-08-05
25,26,Phillips 66,PSX,Energy,Petroleum Refining,yes,no,no,yes,-9.0,...,75501.0,Mark E. Lashier,U.S.,Houston,Texas,https://www.phillips66.com,Public,Excise taxes have been deducted. Market value ...,59383.0,2024-08-05


In [None]:
comp_estado = base_pandas.groupby('HeadquartersState')['Company'].count().reset_index().sort_values(by = 'Company', ascending=False)
comp_estado.head(10) ## Os dados estados com mais companhias

  comp_estado = base_pandas.groupby('HeadquartersState')['Company'].count().reset_index().sort_values(by = 'Company', ascending=False)


Unnamed: 0,HeadquartersState,Company
3,California,124
41,Texas,107
30,New York,78
12,Illinois,58
33,Ohio,51
36,Pennsylvania,45
8,Florida,39
44,Virginia,39
9,Georgia,37
20,Massachusetts,32
