# Primeiros Passos com Pandas

## Como importar o Pandas

Para usar o Pandas, precisamos importá-lo. Veja na célula seguinte:

In [1]:
import pandas as pd

Assim importamos o Pandas e damos o nome de `pd`. Sempre que usarmos `pd`, estamos usando o Pandas.

## Como carregar bases de dados

Primeiro é importante entender que nem todas as bases de dados são carregadas por padrão pelo Pandas. Às vezes é necessário usar outras bibliotecas para bases em Excel ou SQL.

Como estamos usando uma base de dados em .csv, ela carrega por padrão.

Para carregar uma base de dados usando Pandas, fazemos da seguinte forma:

In [None]:

db1 = 'data/qc_science-and-technology_moz.csv'
db2 = 'data/clearglobal_language_use_moz_admin1.csv'


Criamos duas variáveis que têm o caminho (path) da localização das nossas bases de dados.

## Como ler essas bases de dados com Pandas

## como ler essas bases de dados com pandas

In [None]:
pd.read_csv(db1)

In [None]:
pd.read_csv(db2)

Como você vê nos exemplos acima, lemos duas bases de dados usando Pandas.

1. Primeiro chamamos o Pandas `pd`
2. Depois passamos a função que lê arquivos CSV `.read_csv()`
3. Dentro da função passamos a variável que armazena o path da nossa base de dados

Também há outra forma de carregar e visualizar informação em Pandas:

## Parâmetros importantes do pd.read_csv()

Quando carregamos dados CSV, às vezes precisamos especificar parâmetros adicionais como:

- `sep`: separador dos dados (padrão é vírgula `,`)
- `encoding`: codificação do arquivo (padrão é `utf-8`)
- `header`: linha que contém os cabeçalhos (padrão é 0, primeira linha)
- `index_col`: coluna a usar como índice
- `usecols`: quais colunas carregar
- `dtype`: tipos de dados para colunas específicas

Vamos ver exemplos:

In [None]:
# Exemplo com encoding específico (se o arquivo tiver caracteres especiais)
df_utf8 = pd.read_csv("data/clearglobal_language_use_moz_admin1.csv", encoding='utf-8')
display(df_utf8.head())

# Exemplo com separador diferente (ponto e vírgula)
# df_semicolon = pd.read_csv("data/arquivo_com_ponto_virgula.csv", sep=';')
# display(df_semicolon.head())

# Exemplo especificando colunas
df_cols = pd.read_csv("data/clearglobal_language_use_moz_admin1.csv", usecols=['location_name', 'language_name', 'proportion_value'])
display(df_cols.head())

# Exemplo com tipos de dados específicos
df_types = pd.read_csv("data/clearglobal_language_use_moz_admin1.csv", dtype={'location_code': str, 'proportion_value': float})
display(df_types.dtypes)

In [2]:
df = pd.read_csv("data/clearglobal_language_use_moz_admin1.csv")
display(df.head())

Unnamed: 0,location_code,location_name,location_level,language_code,language_name,language_rank,proportion_value,reliability_score,dataset_name,url,source,datetime_published,date_creation,representivity_rating
0,MZ06,Maputo City,1,chan1318,Changana,2,0.171507,0.56506,Mozambique Round 9 data (2023),https://www.afrobarometer.org/wp-content/uploa...,AfroBarometer,06-20-2024,05-29-2025 17:41:31,moderate
1,MZ06,Maputo City,1,port1283,Portuguese,1,0.810382,0.56506,Mozambique Round 9 data (2023),https://www.afrobarometer.org/wp-content/uploa...,AfroBarometer,06-20-2024,05-29-2025 17:41:31,moderate
2,MZ06,Maputo City,1,rong1268,Ronga,3,0.018111,0.56506,Mozambique Round 9 data (2023),https://www.afrobarometer.org/wp-content/uploa...,AfroBarometer,06-20-2024,05-29-2025 17:41:31,moderate
3,MZ03,Inhambane,1,gito1238,Gitonga,3,0.2018,0.56506,Mozambique Round 9 data (2023),https://www.afrobarometer.org/wp-content/uploa...,AfroBarometer,06-20-2024,05-29-2025 17:41:31,moderate
4,MZ03,Inhambane,1,chan1318,Changana,5,0.014998,0.56506,Mozambique Round 9 data (2023),https://www.afrobarometer.org/wp-content/uploa...,AfroBarometer,06-20-2024,05-29-2025 17:41:31,moderate


## Funcionalidades de Display e Exploração de Dados

O Pandas oferece várias funções para visualizar e entender seus dados:

- `df.head(n)`: mostra as primeiras n linhas (padrão 5)
- `df.tail(n)`: mostra as últimas n linhas
- `df.info()`: informações sobre colunas, tipos de dados e valores nulos
- `df.describe()`: estatísticas descritivas para colunas numéricas
- `df.shape`: dimensões do DataFrame (linhas, colunas)
- `df.columns`: nomes das colunas
- `df.dtypes`: tipos de dados de cada coluna

Vamos explorar:

In [None]:
# Carregar dados
df = pd.read_csv("data/clearglobal_language_use_moz_admin1.csv")

# Mostrar primeiras 5 linhas
print("Primeiras 5 linhas:")
display(df.head())

# Mostrar últimas 3 linhas
print("\nÚltimas 3 linhas:")
display(df.tail(3))

# Informações sobre o DataFrame
print("\nInformações do DataFrame:")
df.info()

# Estatísticas descritivas
print("\nEstatísticas descritivas:")
display(df.describe())

# Dimensões
print(f"\nDimensões: {df.shape[0]} linhas x {df.shape[1]} colunas")

# Nomes das colunas
print(f"\nColunas: {list(df.columns)}")

# Tipos de dados
print("\nTipos de dados:")
print(df.dtypes)