# Pandas
Biblioteca essencial para a manipulação e análise de dados tabulares. 
Estruturas principais: _Series_ (1D) e _DataFrame_ (2D)

## Importação

In [1]:
import pandas as pd
import numpy as np # Geralmente usado junto
print(f'Panda version: {pd.__version__}')

Panda version: 1.4.4


## Criação de Series
Array 1D rotulado

In [2]:
# A partir de lista
dados_serie = [10, 20, 30, 40]
indices_serie = ['a', 'b', 'c', 'd']
serie = pd.Series(data=dados_serie, index=indices_serie)
print(f"Série criada:\n{serie}")
print(f'Valores da série: {serie.values}')
print(f'Índice da série: {serie.index}')

# A partir de dicionário (chaves viram índices)
dict_serie = {'SP' : 2_662, 'RJ': 2_490, 'MG': 2_001, 'ES': 2_111}
serie_dict = pd.Series(dict_serie)
print(f'\nSérie a partir de dict (Rendimento mensal domiciliar per capita em reais):\n{serie_dict}')

Série criada:
a    10
b    20
c    30
d    40
dtype: int64
Valores da série: [10 20 30 40]
Índice da série: Index(['a', 'b', 'c', 'd'], dtype='object')

Série a partir de dict (Rendimento mensal domiciliar per capita em reais):
SP    2662
RJ    2490
MG    2001
ES    2111
dtype: int64


## Criação de DataFrames
Estruturas 2D tipo tabela

In [3]:
# A partir de dicionário de listas (chaves viram colunas)
dados_df = {
    'Estado': ['SP', 'RJ', 'MG', 'ES'],
    'População': [45_973_194, 17_219_679, 21_322_691, 4_102_129],
    'Area_km2': [248_219_485, 43_750_425, 586_513_984, 46_074_448]
}

df = pd.DataFrame(dados_df)
print(f'DataFrame criado:\n{df}')

# Especificando índice (Códigos IBGE)
df_com_indice = pd.DataFrame(dados_df, index=['35', '33', '31', '32'])
print(f'\nDataFrame com índice do código IBGE:\n{df_com_indice}')

# A partir de lista de dicionários
lista_dicts = [
    {'Nome': 'Pedro', 'Idade': 27, 'Cidade:': 'Itajubá'},
    {'Nome': 'Joãozinho', 'Idade': 13, 'Cidade:': 'São Paulo'},
    {'Nome': 'Alice' , 'Idade': 25, 'Cidade:': 'Belo Horizonte'}
]

df_lista_dicts = pd.DataFrame(lista_dicts)
print(f'\nDataFrame a partir de lista de dicts:\n{df_lista_dicts}')

# A partir de array NumPy
array_np = np.random.randint(0, 100, size=(4, 3))
colunas = ['Coluna A', 'Coluna B', 'Coluna C']
df_numpy = pd.DataFrame(array_np, columns=colunas)
print(f'\nDataFrame a partir de NumPy array:\n{df_numpy}')

DataFrame criado:
  Estado  População   Area_km2
0     SP   45973194  248219485
1     RJ   17219679   43750425
2     MG   21322691  586513984
3     ES    4102129   46074448

DataFrame com índice do código IBGE:
   Estado  População   Area_km2
35     SP   45973194  248219485
33     RJ   17219679   43750425
31     MG   21322691  586513984
32     ES    4102129   46074448

DataFrame a partir de lista de dicts:
        Nome  Idade         Cidade:
0      Pedro     27         Itajubá
1  Joãozinho     13       São Paulo
2      Alice     25  Belo Horizonte

DataFrame a partir de NumPy array:
   Coluna A  Coluna B  Coluna C
0        28        72         4
1        70        15        85
2        22        91        75
3        79        84        51


## Leitura e Escrita de Arquivos (Exemplo CSV)

In [4]:
# Criando um CSV de exemplo
df_para_csv = pd.DataFrame({
    'col1': [1, 2, 3],
    'col2': ['A', 'B', 'C']
})
df_para_csv.to_csv('/home/lopes/Projects/roadmap-ciencia-dados-study-journey/fase1/exemplo.csv', index=False)
print('\nArquivo exemplo.csv salvo.')

# Lendo o CSV
df_lido = pd.read_csv('/home/lopes/Projects/roadmap-ciencia-dados-study-journey/fase1/exemplo.csv')
print(f'\nDataFrame lido do CSV:\n{df_lido}')

# Outros formatos comuns: p.read_excel(), df.to_excel, pd.read_json()


Arquivo exemplo.csv salvo.

DataFrame lido do CSV:
   col1 col2
0     1    A
1     2    B
2     3    C


## Inspeção Básica

In [5]:
# Usando o df criado anteriormmente
print(f'Primeiras 2 linhas (.head(2)):\n{df.head(2)}')
print(f'\nÚltimas 2 linhas (.tail(2)):\n{df.tail(2)}')
print('\nInformações Gerais(.info()):')
df.info()
print(f'\nEstatísticas descritivas (.describe()):\n{df.describe()}')
print(f'\nFormato (linhas, colunas): {df.shape}')
print(f'\nColunas: {df.columns}')
print(f'\nÍndice: {df.index}')
print(f'\nTipos de dados por coluna:\n{df.dtypes}')

Primeiras 2 linhas (.head(2)):
  Estado  População   Area_km2
0     SP   45973194  248219485
1     RJ   17219679   43750425

Últimas 2 linhas (.tail(2)):
  Estado  População   Area_km2
2     MG   21322691  586513984
3     ES    4102129   46074448

Informações Gerais(.info()):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Estado     4 non-null      object
 1   População  4 non-null      int64 
 2   Area_km2   4 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 224.0+ bytes

Estatísticas descritivas (.describe()):
          População      Area_km2
count  4.000000e+00  4.000000e+00
mean   2.215442e+07  2.311396e+08
std    1.749536e+07  2.555690e+08
min    4.102129e+06  4.375042e+07
25%    1.394029e+07  4.549344e+07
50%    1.927118e+07  1.471470e+08
75%    2.748532e+07  3.327931e+08
max    4.597319e+07  5.865140e+08

Formato (linhas, colunas)

## Seleção e Indexação 

In [6]:
# Selecionando uma coluna (retorna uma Series)
print(df.columns)

populacao_serie = df['População']
print(f'\nColuna População (Series):\n{populacao_serie}')
print(f'Tipo: {type(populacao_serie)}')

# Selecionando múltiplas
print('hello world!')

Index(['Estado', 'População', 'Area_km2'], dtype='object')

Coluna População (Series):
0    45973194
1    17219679
2    21322691
3     4102129
Name: População, dtype: int64
Tipo: <class 'pandas.core.series.Series'>
hello world!
