# Estrutura de Dados e Exploração de Dados com Python

Prof. Daniel de Abreu Pereira Uhr

### Conteúdo
* Estrutura de Dados
  * Listas ("lists")
  * Tuplas ("tuples")
  * Conjuntos ("sets")
  * Dicionários ("dictionaries")
  * numpy arrays
  * pandas DataFrames
  * Resumo
* Exploração de Dados
  * Importando os dados
  * Inspecionando os dados
  * Seleção de dados
  * Agregação e Tabelas Dinâmicas
* Uma Aplicação Voltada à Pesquisa
  * Carregando o DataFrame
  * Explorando o DataFrame
  * Gerando Estatísticas Descritivas	
* Conclusão Geral e Próximos Passos

### Referências
* [Introduction to Statistical Learning](https://www.statlearning.com/) by Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani 
* [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/) by Jake VanderPlas
* [Python (Documentação Oficial)](https://docs.python.org/3/)
* [NumPy (Array e Computação Numérica)](https://numpy.org/doc/stable/)
* [Pandas (Manipulação e Análise de Dados)](https://pandas.pydata.org/docs/)

# Estrutura de Dados

### Listas ("lists")

Uma **lista** é uma estrutura de dados de **matriz mutável** em Python com as seguintes características:

* pode conter ***qualquer tipo de dado***
* pode conter ***diferentes tipos de dados ao mesmo tempo***
* ***pode ser modificado***

Podemos gerar listas usando **colchetes**.

In [10]:
l = [12, "world", [3,4,5]]
print(l)

[12, 'world', [3, 4, 5]]


Como as listas são ordenadas , podemos acessar seus elementos chamando a posição do elemento na lista.

In [11]:
l[0]

12

In [12]:
l[1]

'world'

In [13]:
l[2]

[3, 4, 5]

Como as listas são mutáveis, logo, podemos modificar seus elementos.

In [14]:
l[0] = 'hello'
print(l)

['hello', 'world', [3, 4, 5]]


Podemos adicionar elementos a uma lista usando `.append()`.

In [15]:
l.append(23)
l

['hello', 'world', [3, 4, 5], 23]

Repare que o elemento adicionado na lista é colocado no final da lista. Mas poderíamos adicionar elementos em qualquer posição da lista usando `.insert()`.

Vamos inserir o numero 34 na posição 0.

In [17]:
l.insert(0, 34)
l

[34, 'hello', 'world', [3, 4, 5], 23]

Podemos remover elementos chamando `del`. Vamos deletar os dois primeiros elementos da lista l

In [None]:
del l[:2]
print(l)


['world', [3, 4, 5], 23]


Vou adicionar um novo elemento, e deletá-lo.

In [19]:
l.insert(1, 100)
l


['world', 100, [3, 4, 5], 23]

In [20]:
del l[1]
l

['world', [3, 4, 5], 23]

Podemos combinar duas listas usando +. Note que esta operação não modifica a lista, mas gera uma nova.

In [21]:
l + [23]

['world', [3, 4, 5], 23, 23]

Também podemos gerar listas usando compreensões .

In [9]:
l = [n for n in range(3)]
print(l)

[0, 1, 2]


O $range(n)$ vai de $0$ até $n-1$.

Outra forma seria:

In [22]:
l = []
for n in range(3):
    l.append(n)
print(l)

[0, 1, 2]


O que acontece:
* Inicializa uma lista vazia l = [].
* Itera sobre range(3), que gera os números 0, 1, 2.
* Adiciona cada número à lista usando l.append(n).
* Imprime a lista.

A compreensão é uma ferramenta poderosa!

Agora vamos adicionar expressão condicional `if` para filtrar elementos.

In [12]:
l = [n+10 for n in range(10) if (n%2==0) and (n>4)]
print(l)

[16, 18]


* `range(10)`: Gera uma sequência de números de 0 a 9 (o número 10 não é incluído).
* `if (n % 2 == 0) and (n > 4)`: Filtra os números do range(10):
  * n % 2 == 0: Verifica se n é par (Ele retorna o ***resto da divisão inteira entre dois números***.).
    * a condição n % 2 == 0 retorna True para números pares e False para números ímpares.
  * n > 4: Verifica se n é maior que 4.

* n + 10: Para cada número n que passou pelo filtro, soma 10 e adiciona o resultado à lista.

In [None]:
# vamos veridicar a condição n % 2 == 0 
print(4 % 2)  # 0 → 4 é par
print(7 % 2)  # 1 → 7 é ímpar
print(10 % 2) # 0 → 10 é par
print(15 % 2) # 1 → 15 é ímpar

0
1
0
1


### Tuplas ("tuples")

Uma tupla é uma estrutura de dados de **matriz imutável** em Python com as seguintes características:

* pode conter ***qualquer tipo de dado***
* pode conter ***diferentes tipos de dados ao mesmo tempo***
* ***não pode ser modificado***

Quando usar Tuplas ao invés de Listas?

* Quando você quer **garantir que os dados não sejam alterados** (exemplo: coordenadas geográficas (latitude, longitude)).
* Quando precisa de um desempenho um pouco melhor (tuplas são mais rápidas que listas).
* Quando precisa armazenar chaves para dicionários, pois tuplas podem ser usadas como chaves (listas não).


Podemos gerar tuplas usando ***parênteses***.

In [13]:
# Uma lista com diferentes tipos de dados
t = (12, "world", [3,4,5])
print(t)

(12, 'world', [3, 4, 5])


Como as tuplas são ordenadas , podemos acessar seus elementos chamando a posição do elemento na lista.

In [14]:
t[0]

12

Como as tuplas são imutáveis , não podemos modificar seus elementos.

In [15]:
# Tentar (Try) modificar o elemento
try:
    t[0] = 'hello'
except Exception as e:
    print(e)

'tuple' object does not support item assignment


O que está acontecendo? 
* O código dentro do bloco try será executado.
* Se ocorrer algum erro durante essa execução, o Python interrompe a execução do try e pula para o bloco except

In [16]:
try:
    t.append('hello')
except Exception as e:
    print(e)

'tuple' object has no attribute 'append'


mais uma tentativa

In [17]:
try:
    del t[0]
except Exception as e:
    print(e)

'tuple' object doesn't support item deletion


Podemos combinar duas tuplas usando +. Note que esta operação não modifica a tupla, mas gera uma nova. 

**Note também que para gerar uma tupla de 1 elemento precisamos inserir uma vírgula.** Caso contrário, o Python interpretará o valor como um número.

In [19]:
t + (23,)

(12, 'world', [3, 4, 5], 23)

In [20]:
print(type(t))

<class 'tuple'>


Caso contrário:

In [22]:
print(type((23)))

<class 'int'>


Podemos gerar tuplas usando compreensões , mas precisamos especificar que é um tuple.

In [35]:
t = tuple(n for n in range(3))
print(t)

(0, 1, 2)


### Conjuntos ("sets")

Um conjunto é uma estrutura de dados de matriz mutável em Python com as seguintes características:

* pode ***conter apenas tipos hasháveis*** (se ele tem um valor hash imutável)
* pode conter diferentes tipos de dados ao mesmo tempo
* ***não pode ser modificado***
* ***não pode conter duplicatas***


Podemos gerar usando chaves.

In [24]:
s = {12, "world", (3,4,5)}
print(s)

{(3, 4, 5), 12, 'world'}


Como os conjuntos não são ordenados nem indexados , não podemos acessar elementos individuais chamando sua posição.

In [25]:
# Tentar (Try) acessar o elemento pela posição
try:
    s[0]
except Exception as e:
    print(e)

'set' object is not subscriptable


Como os conjuntos não são ordenados , não podemos modificar seus elementos especificando a posição.

In [26]:
# Tentar modificar o elemento
try:
    s[0] = 'hello'
except Exception as e:
    print(e)

'set' object does not support item assignment


Entretanto, como os conjuntos são mutáveis , podemos adicionar elementos usando `.add()`.

In [27]:
s.add('hello')
print(s)

{'hello', (3, 4, 5), 12, 'world'}


Entretanto, não podemos adicionar duplicatas .

In [40]:
s.add('hello')
print(s)

{'world', (3, 4, 5), 12, 'hello'}


Podemos excluir elementos de um conjunto usando `.remove()`.

In [41]:
s.remove('hello')
print(s)

{'world', (3, 4, 5), 12}


Também podemos gerar conjuntos usando compreensões .

In [43]:
s = {n for n in range(3)}
print(s)

{0, 1, 2}


Em geral, utilizamos:

* Listas para armazenar dados ordenados e mutáveis.
* Tuplas para armazenar dados ordenados e imutáveis.
* Conjuntos para armazenar dados não ordenados e únicos.

Para análise econométrica, utilizamos principalmente listas e tuplas porque precisamos de dados ordenados. Listas são mais flexíveis porque são mutáveis.

### Dicionários ("dictionaries")

Definição: Coleção de pares chave-valor.

Características:
* As chaves são únicas.
* Permite busca rápida de valores associados a chaves.
* Mutável.


In [2]:
dicionario = {"nome": "Alice", "idade": 25, "cidade": "São Paulo"}
print(dicionario["nome"])  # Output: Alice

Alice


In [3]:
dicionario["idade"] = 26  # Modifica um valor

In [4]:
print(dicionario["idade"])

26


In [5]:
print(dicionario)

{'nome': 'Alice', 'idade': 26, 'cidade': 'São Paulo'}


Use um dicionário quando precisar de uma estrutura simples para mapear chaves a valores, sem a necessidade de operações avançadas de manipulação ou de uma organização tabular.

### NumPy Arrays (numpy arrays)

Definição: Estrutura de dados otimizada para cálculos numéricos.

Características:
* Semelhante a listas, mas mais eficiente e rápido para operações matemáticas.
* ***Todos os elementos devem ser do mesmo tipo*** (exemplo: apenas float ou int).
* Suporta operações vetorizadas.


Exemplo:

In [4]:
import numpy as np

array = np.array([1, 2, 3, 4])
array


array([1, 2, 3, 4])

In [5]:
print(array * 2)  # Output: [2 4 6 8] (operação vetorizada)

[2 4 6 8]


In [6]:
array**2

array([ 1,  4,  9, 16])

In [7]:
array + 2

array([3, 4, 5, 6])

In [9]:
array + array

array([2, 4, 6, 8])

In [14]:
np.sqrt(array)

array([1.        , 1.41421356, 1.73205081, 2.        ])

In [15]:
array**0.5

array([1.        , 1.41421356, 1.73205081, 2.        ])

In [18]:
exp_array = np.exp(array)
exp_array

array([ 2.71828183,  7.3890561 , 20.08553692, 54.59815003])

In [19]:
np.log(exp_array)

array([1., 2., 3., 4.])

In [21]:
matriz = np.array([[1, 2, 3], [4, 5, 6]])
print(matriz)


[[1 2 3]
 [4 5 6]]


In [22]:
dados = np.array([1, 2, 3, 4, 5])
print(np.mean(dados))  # Média: 3.0
print(np.std(dados))   # Desvio padrão
print(np.sum(dados))   # Soma total: 15
print(np.max(dados))   # Valor máximo: 5
print(np.min(dados))   # Valor mínimo: 1


3.0
1.4142135623730951
15
5
1


### Pandas DataFrames (pandas.DataFrame)

Definição: Estrutura tabular de dados em colunas e linhas.

Características:
* Semelhante a uma planilha do Excel ou a uma tabela SQL.
  * Cada coluna tem um rótulo (nome) e um tipo de dados.
  * Cada linha tem um índice.
* Manipulação eficiente de grandes conjuntos de dados.
* Suporte a indexação avançada e estatísticas descritivas.
* Internamente, um DataFrame usa arrays do NumPy, garantindo alta eficiência computacional.


In [23]:
import pandas as pd

dados = {
    'Nome': ['Ana', 'Bruno', 'Carlos'],
    'Idade': [25, 30, 35],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte']
}

df = pd.DataFrame(dados)
print(df)


     Nome  Idade          Cidade
0     Ana     25       São Paulo
1   Bruno     30  Rio de Janeiro
2  Carlos     35  Belo Horizonte


Acessando Dados no DataFrame

In [25]:
df['Nome']  # Retorna a coluna "Nome"


0       Ana
1     Bruno
2    Carlos
Name: Nome, dtype: object

In [26]:
df[['Nome', 'Idade']]  # Retorna múltiplas colunas

Unnamed: 0,Nome,Idade
0,Ana,25
1,Bruno,30
2,Carlos,35


Acessando Linhas:

In [27]:
df.loc[0]  # Retorna a primeira linha

Nome            Ana
Idade            25
Cidade    São Paulo
Name: 0, dtype: object

In [28]:
df.iloc[1]  # Retorna a segunda linha

Nome               Bruno
Idade                 30
Cidade    Rio de Janeiro
Name: 1, dtype: object

Filtrando Dados:

In [29]:
df[df['Idade'] > 30]  # Filtra pessoas com mais de 30 anos


Unnamed: 0,Nome,Idade,Cidade
2,Carlos,35,Belo Horizonte


Estatísticas básicas das colunas numéricas

In [None]:
df.describe()

Unnamed: 0,Idade
count,3.0
mean,30.0
std,5.0
min,25.0
25%,27.5
50%,30.0
75%,32.5
max,35.0


Informações sobre o DataFrame

In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nome    3 non-null      object
 1   Idade   3 non-null      int64 
 2   Cidade  3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes


Use um DataFrame quando estiver trabalhando com dados organizados em formato de tabela e precisar realizar análises, transformações e manipulações complexas.

Resumo


| Estrutura          | Ordenado? | Mutável? | Duplicatas? | Uso principal |
|--------------------|----------|----------|-------------|--------------|
| **Listas**        | ✅ Sim    | ✅ Sim    | ✅ Sim       | Coleção de elementos variados |
| **Tuplas**        | ✅ Sim    | ❌ Não    | ✅ Sim       | Dados imutáveis e seguros |
| **Conjuntos**     | ❌ Não    | ✅ Sim    | ❌ Não       | Operações matemáticas (união, interseção) |
| **Dicionários**   | ❌ Não    | ✅ Sim    | ❌ Não (chaves) | Mapeamento chave-valor |
| **NumPy Arrays**  | ✅ Sim    | ✅ Sim    | ✅ Sim       | Cálculos numéricos eficientes |
| **Pandas DF**     | ✅ Sim    | ✅ Sim    | ✅ Sim       | Dados tabulares pequenos/médios |



# Exploração de Dados

Agora vamos aprofundar um pouco mais.

Para o escopo deste tutorial, usaremos dados *Scraped do AirBnb* para a cidade de Bolonha. Os dados estão disponíveis gratuitamente em Inside AirBnb : http://insideairbnb.com/get-the-data.html .

Usaremos 2 conjuntos de dados:

* conjunto de dados de listagem: contém informações de nível de listagem
* conjunto de dados de preços: contém dados de preços ao longo do tempo

Vamos começar carregando as bibliotecas necessárias e os dados.

In [34]:
import numpy as np 
import pandas as pd 

### Importando os dados

O **Pandas** tem uma variedade de funções para importar dados

* `pd.read_csv()`
* `pd.read_html()`
* `pd.read_parquet()`

O mais importante para o nosso propósito `pd.read_csv()` para ler dados `*.csv`, sem contar que podemos ***importar os dados diretamente da web***.

O primeiro conjunto de dados que vamos importar é o conjunto de dados de listagens do Airbnb em Bolonha. Ele contém informações de nível de listagem.

In [35]:
url_listings = "http://data.insideairbnb.com/italy/emilia-romagna/bologna/2021-12-17/visualisations/listings.csv"
df_listings = pd.read_csv(url_listings)

procedimento:
* importamos o arquivo csv para a variável `url_listings`
* depois usamos `pd.read_csv()` para ler o arquivo csv e armazenar os dados na variável `df_listings`

O segundo dataset que vamos usar é o dataset de preços de calendário. Desta vez, o dataset está compactado, mas podemos usar a opção `compression` para importá-lo diretamente.

In [36]:
url_prices = "http://data.insideairbnb.com/italy/emilia-romagna/bologna/2021-12-17/data/calendar.csv.gz"
df_prices = pd.read_csv(url_prices, compression="gzip")

seguimos a mesma lógica, entretanto, desta vez, usamos a opção `compression` para descompactar o arquivo.

### Inspecionando Dados

**Métodos**

* `info()`
* `head()`
* `describe()`

A primeira maneira de dar uma olhada rápida nos dados é o método `info()`. Se chamado com a opção `verbose=False`, ele fornece uma visão geral rápida das dimensões dos dados.

In [37]:
df_listings.info(verbose=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3453 entries, 0 to 3452
Columns: 18 entries, id to license
dtypes: float64(4), int64(8), object(6)
memory usage: 485.7+ KB


vejamos sem a opção `verbose=False`.

In [38]:
df_listings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3453 entries, 0 to 3452
Data columns (total 18 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id                              3453 non-null   int64  
 1   name                            3453 non-null   object 
 2   host_id                         3453 non-null   int64  
 3   host_name                       3444 non-null   object 
 4   neighbourhood_group             0 non-null      float64
 5   neighbourhood                   3453 non-null   object 
 6   latitude                        3453 non-null   float64
 7   longitude                       3453 non-null   float64
 8   room_type                       3453 non-null   object 
 9   price                           3453 non-null   int64  
 10  minimum_nights                  3453 non-null   int64  
 11  number_of_reviews               3453 non-null   int64  
 12  last_review                     30

Se quisermos saber como os dados se parecem, podemos usar o método `head()`. Ele imprime as primeiras 5 linhas dos dados por padrão.

In [39]:
df_listings.head()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm,license
0,42196,50 sm Studio in the historic centre,184487,Carlo,,Santo Stefano,44.48507,11.34786,Entire home/apt,68,3,180,2021-11-12,1.32,1,161,6,
1,46352,A room in Pasolini's house,467810,Eleonora,,Porto - Saragozza,44.49168,11.33514,Private room,29,1,300,2021-11-30,2.2,2,248,37,
2,59697,COZY LARGE BEDROOM in the city center,286688,Paolo,,Santo Stefano,44.48817,11.34124,Private room,50,1,240,2020-10-04,2.18,2,327,0,
3,85368,Garden House Bologna,467675,Anna Maria,,Santo Stefano,44.47834,11.35672,Entire home/apt,126,2,40,2019-11-03,0.34,1,332,0,
4,145779,SINGLE ROOM,705535,Valerio,,Porto - Saragozza,44.49306,11.33786,Private room,50,10,69,2021-12-05,0.55,9,365,5,


Podemos imprimir uma descrição dos dados usando `describe()`. 

In [40]:
df_listings.describe()

Unnamed: 0,id,host_id,neighbourhood_group,latitude,longitude,price,minimum_nights,number_of_reviews,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm
count,3453.0,3453.0,0.0,3453.0,3453.0,3453.0,3453.0,3453.0,3044.0,3453.0,3453.0,3453.0
mean,29502180.0,123642400.0,,44.49756,11.345095,118.944686,2.854619,41.470895,1.237622,6.101072,142.116421,6.867362
std,15239880.0,116075600.0,,0.011736,0.019861,315.22396,13.97041,71.083728,1.416358,11.173105,125.115628,12.400067
min,42196.0,38468.0,,44.4236,11.232,7.0,1.0,0.0,0.01,1.0,0.0,0.0
25%,17485970.0,25500070.0,,44.49186,11.33732,53.0,1.0,3.0,0.27,1.0,15.0,0.0
50%,30787070.0,88454380.0,,44.496986,11.34519,74.0,2.0,14.0,0.75,2.0,116.0,2.0
75%,42200940.0,200592600.0,,44.50271,11.35406,104.0,2.0,50.0,1.72,5.0,255.0,8.0
max,53854960.0,435431600.0,,44.55093,11.42027,9999.0,400.0,764.0,11.53,55.0,365.0,137.0


Se tivermos muitas variáveis, é melhor ***imprimi-las transpostas*** usando o atributo `T`.

In [41]:
df_listings.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,3453.0,29502180.0,15239880.0,42196.0,17485970.0,30787070.0,42200940.0,53854960.0
host_id,3453.0,123642400.0,116075600.0,38468.0,25500070.0,88454380.0,200592600.0,435431600.0
neighbourhood_group,0.0,,,,,,,
latitude,3453.0,44.49756,0.01173569,44.4236,44.49186,44.49699,44.50271,44.55093
longitude,3453.0,11.34509,0.01986071,11.232,11.33732,11.34519,11.35406,11.42027
price,3453.0,118.9447,315.224,7.0,53.0,74.0,104.0,9999.0
minimum_nights,3453.0,2.854619,13.97041,1.0,1.0,2.0,2.0,400.0
number_of_reviews,3453.0,41.47089,71.08373,0.0,3.0,14.0,50.0,764.0
reviews_per_month,3044.0,1.237622,1.416358,0.01,0.27,0.75,1.72,11.53
calculated_host_listings_count,3453.0,6.101072,11.1731,1.0,1.0,2.0,5.0,55.0


In [42]:
df_listings.describe().T[:5]

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,3453.0,29502180.0,15239880.0,42196.0,17485970.0,30787070.0,42200940.0,53854960.0
host_id,3453.0,123642400.0,116075600.0,38468.0,25500070.0,88454380.0,200592600.0,435431600.0
neighbourhood_group,0.0,,,,,,,
latitude,3453.0,44.49756,0.01173569,44.4236,44.49186,44.49699,44.50271,44.55093
longitude,3453.0,11.34509,0.01986071,11.232,11.33732,11.34519,11.35406,11.42027


Você pode selecionar quais variáveis ​​exibir usando a opção `include` . `include='all'` inclui também variáveis ​​categóricas.

Vamos supor que você queira montar uma tabela com essas informações em markdown. Podemos usar o método `to_markdown()`.

In [None]:
table_1 = df_listings.describe().T[:5].to_markdown()
print(table_1)

|                     |   count |          mean |           std |        min |           25% |           50% |           75% |           max |
|:--------------------|--------:|--------------:|--------------:|-----------:|--------------:|--------------:|--------------:|--------------:|
| id                  |    3453 |   2.95022e+07 |   1.52399e+07 | 42196      |   1.7486e+07  |   3.07871e+07 |   4.22009e+07 |   5.3855e+07  |
| host_id             |    3453 |   1.23642e+08 |   1.16076e+08 | 38468      |   2.55001e+07 |   8.84544e+07 |   2.00593e+08 |   4.35432e+08 |
| neighbourhood_group |       0 | nan           | nan           |   nan      | nan           | nan           | nan           | nan           |
| latitude            |    3453 |  44.4976      |   0.0117357   |    44.4236 |  44.4919      |  44.497       |  44.5027      |  44.5509      |
| longitude           |    3453 |  11.3451      |   0.0198607   |    11.232  |  11.3373      |  11.3452      |  11.3541      |  11.4203      |

In [46]:
df_listings.describe(include='all').T[:5]

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
id,3453.0,,,,29502177.118158,15239877.346777,42196.0,17485973.0,30787074.0,42200938.0,53854962.0
name,3453.0,3410.0,"Luxury Industrial Design LOFT, HEPA UV airpuri...",5.0,,,,,,,
host_id,3453.0,,,,123642405.854619,116075571.230048,38468.0,25500072.0,88454378.0,200592620.0,435431590.0
host_name,3444.0,747.0,Andrea,101.0,,,,,,,
neighbourhood_group,0.0,,,,,,,,,,


Podemos obter a lista de colunas usando o atributo `.columns`.

In [47]:
df_listings.columns

Index(['id', 'name', 'host_id', 'host_name', 'neighbourhood_group',
       'neighbourhood', 'latitude', 'longitude', 'room_type', 'price',
       'minimum_nights', 'number_of_reviews', 'last_review',
       'reviews_per_month', 'calculated_host_listings_count',
       'availability_365', 'number_of_reviews_ltm', 'license'],
      dtype='object')

Podemos obter o índice usando o atributo `.index`,

In [48]:
df_listings.index

RangeIndex(start=0, stop=3453, step=1)

Isso significa que o índice do DataFrame **df_listings** é um RangeIndex, que é o índice padrão atribuído pelo Pandas quando um DataFrame é criado sem um índice específico.

* start=0: O índice começa no 0.
* stop=3453: O índice vai até 3452 (pois o stop é exclusivo).
* step=1: O índice aumenta de 1 em 1.

Isso indica que o df_listings tem 3453 linhas, numeradas de 0 a 3452.

### Seleção de Dados

Podemos acessar colunas individuais como se o DataFrame fosse um dicionário.

In [49]:
df_listings['price']

0        68
1        29
2        50
3       126
4        50
       ... 
3448     32
3449     45
3450     50
3451    134
3452    115
Name: price, Length: 3453, dtype: int64

Podemos selecionar linhas e colunas por índice, usando o atributo `.iloc` . (usado para indexação baseada na posição)

In [50]:
df_listings.iloc[:7, 5:9]

Unnamed: 0,neighbourhood,latitude,longitude,room_type
0,Santo Stefano,44.48507,11.34786,Entire home/apt
1,Porto - Saragozza,44.49168,11.33514,Private room
2,Santo Stefano,44.48817,11.34124,Private room
3,Santo Stefano,44.47834,11.35672,Entire home/apt
4,Porto - Saragozza,44.49306,11.33786,Private room
5,Navile,44.51628,11.33074,Private room
6,Santo Stefano,44.48787,11.35392,Entire home/apt


***iloc[:7, 5:9]***

* : → Refere-se a todas as linhas no intervalo especificado.
* :7 → Seleciona as primeiras 7 linhas (0 a 6).
* 5:9 → Seleciona as colunas da posição 5 até 8 (o índice final 9 não é incluído).

In [51]:
# repare
df_listings.head()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm,license
0,42196,50 sm Studio in the historic centre,184487,Carlo,,Santo Stefano,44.48507,11.34786,Entire home/apt,68,3,180,2021-11-12,1.32,1,161,6,
1,46352,A room in Pasolini's house,467810,Eleonora,,Porto - Saragozza,44.49168,11.33514,Private room,29,1,300,2021-11-30,2.2,2,248,37,
2,59697,COZY LARGE BEDROOM in the city center,286688,Paolo,,Santo Stefano,44.48817,11.34124,Private room,50,1,240,2020-10-04,2.18,2,327,0,
3,85368,Garden House Bologna,467675,Anna Maria,,Santo Stefano,44.47834,11.35672,Entire home/apt,126,2,40,2019-11-03,0.34,1,332,0,
4,145779,SINGLE ROOM,705535,Valerio,,Porto - Saragozza,44.49306,11.33786,Private room,50,10,69,2021-12-05,0.55,9,365,5,


Se quisermos condicionar apenas linhas ou colunas, precisamos usar a dimensão irrestrita `:`, caso contrário, obteremos um erro.

In [52]:
df_listings.iloc[:, 5:9].head()

Unnamed: 0,neighbourhood,latitude,longitude,room_type
0,Santo Stefano,44.48507,11.34786,Entire home/apt
1,Porto - Saragozza,44.49168,11.33514,Private room
2,Santo Stefano,44.48817,11.34124,Private room
3,Santo Stefano,44.47834,11.35672,Entire home/apt
4,Porto - Saragozza,44.49306,11.33786,Private room


Em vez disso, o atributo `.loc` nos permite usar nomes de linhas e colunas.

In [53]:
df_listings.loc[:, ['neighbourhood', 'latitude', 'longitude']].head()

Unnamed: 0,neighbourhood,latitude,longitude
0,Santo Stefano,44.48507,11.34786
1,Porto - Saragozza,44.49168,11.33514
2,Santo Stefano,44.48817,11.34124
3,Santo Stefano,44.47834,11.35672
4,Porto - Saragozza,44.49306,11.33786


Também podemos selecionar intervalos.

In [54]:
df_listings.loc[:, 'neighbourhood':'room_type'].head()

Unnamed: 0,neighbourhood,latitude,longitude,room_type
0,Santo Stefano,44.48507,11.34786,Entire home/apt
1,Porto - Saragozza,44.49168,11.33514,Private room
2,Santo Stefano,44.48817,11.34124,Private room
3,Santo Stefano,44.47834,11.35672,Entire home/apt
4,Porto - Saragozza,44.49306,11.33786,Private room


Existe uma maneira fácil de selecionar ***colunas numéricas*** : a função `.select_dtypes()` .

In [55]:
df_listings.select_dtypes(include=['number']).head()

Unnamed: 0,id,host_id,neighbourhood_group,latitude,longitude,price,minimum_nights,number_of_reviews,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm
0,42196,184487,,44.48507,11.34786,68,3,180,1.32,1,161,6
1,46352,467810,,44.49168,11.33514,29,1,300,2.2,2,248,37
2,59697,286688,,44.48817,11.34124,50,1,240,2.18,2,327,0
3,85368,467675,,44.47834,11.35672,126,2,40,0.34,1,332,0
4,145779,705535,,44.49306,11.33786,50,10,69,0.55,9,365,5


Outros tipos incluem

* **object** para cordas
* **bool** para booleanos
* **int** para inteiros
* **float** para floats (números que não são inteiros)

Também podemos usar operadores lógicos para selecionar linhas.

In [56]:
df_listings.loc[df_listings['number_of_reviews']>500, :].head()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm,license
52,884148,APOSA FLAT / CITY CENTER - BO,4664996,Vie D'Acqua Di Sandra Maria,,Santo Stefano,44.49945,11.34566,Entire home/apt,46,1,668,2021-12-11,6.24,5,252,20,
92,1435627,heart of Bologna Piazza Maggiore,7714013,Carlotta,,Porto - Saragozza,44.49321,11.33569,Entire home/apt,56,2,508,2021-12-12,5.08,1,131,69,
98,1566003,"""i portici di via Piella """,8325248,Massimo,,Santo Stefano,44.49855,11.34411,Entire home/apt,51,2,764,2021-12-14,7.62,3,119,120,
131,2282623,"S.Orsola zone,parking for free and self check-in",11658074,Cecilia,,San Donato - San Vitale,44.49328,11.3665,Entire home/apt,38,1,689,2021-10-24,7.2,1,5,72,
175,3216486,Stanza Privata,16289536,Fabio,,Navile,44.50903,11.342,Private room,82,1,569,2021-12-05,6.93,1,7,5,


Podemos usar operações lógicas também. Mas lembre-se de usar parênteses.

Nota : as expressões **and** e **or** não funcionam nesta configuração. Temos que usar `&` e `|` em vez disso.

In [57]:
df_listings.loc[(df_listings['number_of_reviews']>300) &
                (df_listings['reviews_per_month']>7), 
                :].head()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm,license
98,1566003,"""i portici di via Piella """,8325248,Massimo,,Santo Stefano,44.49855,11.34411,Entire home/apt,51,2,764,2021-12-14,7.62,3,119,120,
131,2282623,"S.Orsola zone,parking for free and self check-in",11658074,Cecilia,,San Donato - San Vitale,44.49328,11.3665,Entire home/apt,38,1,689,2021-10-24,7.2,1,5,72,
204,4166793,Centralissimo a Bologna,8325248,Massimo,,Santo Stefano,44.50092,11.34456,Entire home/apt,71,2,750,2021-12-10,9.21,3,233,84,
751,15508481,Monolocale in zona fiera /centro,99632788,Walid,,Navile,44.514462,11.353731,Entire home/apt,64,1,475,2021-12-01,7.56,1,4,48,
773,15886516,Monolocale nel cuore del ghetto ebraico di Bol...,103024123,Catia,,Santo Stefano,44.49508,11.34722,Entire home/apt,58,1,428,2021-12-15,7.88,1,285,17,


Para uma única coluna (ou seja, uma série), podemos obter os valores exclusivos usando a função `unique()`.

In [58]:
df_listings['neighbourhood'].unique()

array(['Santo Stefano', 'Porto - Saragozza', 'Navile',
       'San Donato - San Vitale', 'Savena', 'Borgo Panigale - Reno'],
      dtype=object)

Para várias colunas, podemos usar a função `drop_duplicates`.

In [59]:
df_listings[['neighbourhood', 'room_type']].drop_duplicates()

Unnamed: 0,neighbourhood,room_type
0,Santo Stefano,Entire home/apt
1,Porto - Saragozza,Private room
2,Santo Stefano,Private room
5,Navile,Private room
7,Navile,Entire home/apt
8,Porto - Saragozza,Entire home/apt
19,San Donato - San Vitale,Private room
24,Savena,Private room
36,Borgo Panigale - Reno,Entire home/apt
41,San Donato - San Vitale,Entire home/apt


### Agregação e Tabelas Dinâmicas

Podemos calcular estatísticas por grupo usando `.groupby()`.

In [60]:
df_listings.groupby('neighbourhood')[['price', 'reviews_per_month']].mean()

Unnamed: 0_level_0,price,reviews_per_month
neighbourhood,Unnamed: 1_level_1,Unnamed: 2_level_1
Borgo Panigale - Reno,83.020548,0.983488
Navile,142.200993,1.156745
Porto - Saragozza,129.908312,1.340325
San Donato - San Vitale,91.618138,0.933011
Santo Stefano,119.441841,1.34481
Savena,69.626016,0.805888


Se você quiser executar mais de uma função, talvez em colunas diferentes, você pode usar `.aggregate()`, que pode ser abreviado para `.agg()`. Ele recebe como argumento um dicionário com variáveis ​​como chaves e listas de funções como valores.

In [61]:
df_listings.groupby('neighbourhood').agg({"reviews_per_month": ["mean"],
                                          "price": ["min", np.max]}).reset_index()

Unnamed: 0_level_0,neighbourhood,reviews_per_month,price,price
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,min,amax
0,Borgo Panigale - Reno,0.983488,9,1429
1,Navile,1.156745,14,5000
2,Porto - Saragozza,1.340325,7,9999
3,San Donato - San Vitale,0.933011,10,1600
4,Santo Stefano,1.34481,11,9999
5,Savena,0.805888,9,680


O problema com essa sintaxe é que ela gera uma estrutura hierárquica para nomes de variáveis, o que pode não ser tão fácil de trabalhar. No exemplo acima, para acessar o preço médio, você tem que usar `df.price["min"]`.

Para executar a nomenclatura e agregação de variáveis ​​ao mesmo tempo, você pode usar a seguinte sintaxe: `agg(output_var = ("input_var", function))`.

In [62]:
df_listings.groupby('neighbourhood').agg(mean_reviews=("reviews_per_month", "mean"),
                                         min_price=("price", "min"),
                                         max_price=("price", np.max)).reset_index()

Unnamed: 0,neighbourhood,mean_reviews,min_price,max_price
0,Borgo Panigale - Reno,0.983488,9,1429
1,Navile,1.156745,14,5000
2,Porto - Saragozza,1.340325,7,9999
3,San Donato - San Vitale,0.933011,10,1600
4,Santo Stefano,1.34481,11,9999
5,Savena,0.805888,9,680


Podemos fazer tabelas dinâmicas com a .pivot_table()função. Ela recebe os seguintes argumentos:

* **index**: linhas
* **columns**: colunas
* **values**: valores
* **aggfunc**: função de agregação



In [63]:
df_listings.pivot_table(index='neighbourhood', columns='room_type', values='price', aggfunc='mean')

room_type,Entire home/apt,Hotel room,Private room,Shared room
neighbourhood,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Borgo Panigale - Reno,96.700935,,45.487179,
Navile,172.14,1350.0,68.416107,28.0
Porto - Saragozza,148.410926,102.375,83.070234,16.5
San Donato - San Vitale,106.775,55.0,61.19403,59.0
Santo Stefano,129.99026,103.827586,80.734177,95.4
Savena,86.30137,,46.229167,22.5


# Uma Aplicação Voltada à Pesquisa

A ideia dessa seção é nos aproximarmos do uso da programação em python no contexto de pesquisa. Ainda é um exemplo simples, mas que será bastante útil no futuro.

### Carregando o DataFrame

Vamos carregar uma base de dados "cattaneo2.dta" sobre peso dos bebês ao nascer, características das mães durante a gestação, dos pais, etc.

Como os dados estão salvos em um arquivo Stata, precisamos importar a biblioteca `pandas` e a função `pd.read_stata()`.

In [2]:
import pandas as pd

# DataFrame
df = pd.read_stata("https://github.com/Daniel-Uhr/data/raw/main/cattaneo2.dta")

### Explorando o DataFrame

Vamos observar as primeiras linhas do DataFrame usando o método `head()`.

In [44]:
df.head(10)

Unnamed: 0,bweight,mmarried,mhisp,fhisp,foreign,alcohol,deadkids,mage,medu,fage,...,birthmonth,lbweight,fbaby,prenatal1,Y,Treated,X1,X2,X3,X4
0,3459,married,0,0,0,0,0,24,14,28,...,12,0,No,Yes,3459,0,24,14,28,16
1,3260,notmarried,0,0,1,0,0,20,10,0,...,7,0,No,Yes,3260,0,20,10,0,0
2,3572,married,0,0,1,0,0,22,9,30,...,3,0,No,Yes,3572,0,22,9,30,9
3,2948,married,0,0,0,0,0,26,12,30,...,1,0,No,Yes,2948,0,26,12,30,12
4,2410,married,0,0,0,0,0,20,12,21,...,3,1,Yes,Yes,2410,0,20,12,21,14
5,3147,notmarried,0,0,0,0,0,27,12,40,...,4,0,Yes,Yes,3147,0,27,12,40,12
6,3799,married,0,0,0,0,0,27,12,29,...,12,0,No,Yes,3799,0,27,12,29,14
7,3629,married,0,0,0,0,0,24,12,33,...,6,0,Yes,Yes,3629,0,24,12,33,12
8,2835,married,0,0,0,0,0,21,12,24,...,6,0,Yes,Yes,2835,0,21,12,24,9
9,3880,married,0,0,0,0,0,30,15,33,...,12,0,No,Yes,3880,0,30,15,33,15


Vamos adicionar no mesmo dataframe, outras variáveis que serão úteis para a análise.

In [45]:
# Ajustando as variáveis
# Criar a variável de resultado
df['Y'] = df['bweight']

# Criar a variável de tratamento 'Treated' com valor inicial de 0
df['Treated'] = 0
# Recodificar a variável de tratamento 'Treated' para 1 se 'mbsmoke' for igual a 'smoker'
df.loc[df['mbsmoke'] == 'smoker', 'Treated'] = 1

# Criar as variáveis de controle/covariáveis
df['X1'] = df['mage']
df['X2'] = df['medu']
df['X3'] = df['fage']
df['X4'] = df['fedu']

Repare que as variáveis são adicionadas ao DataFrame original.

In [46]:
df.head(10)

Unnamed: 0,bweight,mmarried,mhisp,fhisp,foreign,alcohol,deadkids,mage,medu,fage,...,birthmonth,lbweight,fbaby,prenatal1,Y,Treated,X1,X2,X3,X4
0,3459,married,0,0,0,0,0,24,14,28,...,12,0,No,Yes,3459,0,24,14,28,16
1,3260,notmarried,0,0,1,0,0,20,10,0,...,7,0,No,Yes,3260,0,20,10,0,0
2,3572,married,0,0,1,0,0,22,9,30,...,3,0,No,Yes,3572,0,22,9,30,9
3,2948,married,0,0,0,0,0,26,12,30,...,1,0,No,Yes,2948,0,26,12,30,12
4,2410,married,0,0,0,0,0,20,12,21,...,3,1,Yes,Yes,2410,0,20,12,21,14
5,3147,notmarried,0,0,0,0,0,27,12,40,...,4,0,Yes,Yes,3147,0,27,12,40,12
6,3799,married,0,0,0,0,0,27,12,29,...,12,0,No,Yes,3799,0,27,12,29,14
7,3629,married,0,0,0,0,0,24,12,33,...,6,0,Yes,Yes,3629,0,24,12,33,12
8,2835,married,0,0,0,0,0,21,12,24,...,6,0,Yes,Yes,2835,0,21,12,24,9
9,3880,married,0,0,0,0,0,30,15,33,...,12,0,No,Yes,3880,0,30,15,33,15


### Gerando Estatísticas Descritivas	




Agora vamos gerar tabelas com estatísticas descritivas das variáveis que nós adicionamos ao DataFrame.

In [None]:
# Vamos criar a "Table_2", descrevendo as estatísticas descritivas das variáveis Y, Treated, X1, X2, X3 e X4
table_2 = df[['Y', 'Treated', 'X1', 'X2', 'X3', 'X4']].describe()
table_2 

Unnamed: 0,Y,Treated,X1,X2,X3,X4
count,4642.0,4642.0,4642.0,4642.0,4642.0,4642.0
mean,3361.679879,0.186127,26.504524,12.689573,27.267126,12.307195
std,578.819623,0.389251,5.619026,2.520661,9.354411,3.684028
min,340.0,0.0,13.0,0.0,0.0,0.0
25%,3033.0,0.0,22.0,12.0,24.0,12.0
50%,3390.0,0.0,26.0,12.0,28.0,12.0
75%,3725.0,0.0,30.0,14.0,33.0,14.0
max,5500.0,1.0,45.0,17.0,60.0,17.0


Agora vamos separar as estatísticas descritivas entre as mães que fumam ((Treated)) e as que não fumam.

In [48]:
# Criar Table_3, descrevendo as estatísticas descritivas das variáveis Y, Treated, X1, X2, X3 e X4 condicionais a ser Treated = 1 ou Treated = 0
table_3 = df.groupby('Treated')[['Y', 'X1', 'X2', 'X3', 'X4']].describe().T

table_3

Unnamed: 0,Treated,0,1
Y,count,3778.0,864.0
Y,mean,3412.911593,3137.659722
Y,std,570.687108,560.893051
Y,min,340.0,397.0
Y,25%,3101.25,2835.0
Y,50%,3430.0,3178.5
Y,75%,3771.0,3487.0
Y,max,5500.0,5018.0
X1,count,3778.0,864.0
X1,mean,26.810482,25.166667


### Conclusão Geral e Próximos Passos

Nesta aula, exploramos as principais estruturas de dados em Python, incluindo listas, tuplas, dicionários e conjuntos. Compreendemos suas características, vantagens e aplicações práticas, além de introduzirmos o uso das bibliotecas numpy e pandas para manipulação eficiente de dados. Essas ferramentas são fundamentais para quem deseja trabalhar com análise de dados e econometria computacional.

No entanto, entender as estruturas de dados isoladamente não é suficiente para realizar análises reais, que frequentemente envolvem dados desorganizados, com tipos inconsistentes ou informações ausentes. Assim, na próxima aula, avançaremos para um tópico essencial: manipulação e transformação de tipos de dados. Veremos como converter variáveis entre diferentes formatos, lidar com valores faltantes e formatar dados corretamente, preparando-os para análises estatísticas mais robustas.

Com esse conhecimento, você estará cada vez mais preparado para enfrentar desafios práticos de análise de dados e modelagem econômica computacional.