# Pandas: conhecendo a biblioteca

## Conhecendo a base de dados

In [None]:
import pandas as pd

In [None]:
url = 'https://raw.githubusercontent.com/lukaswyllis/formacao_python_para_data_science/refs/heads/master/pandas1/aluguel.csv'
pd.read_csv(url)

In [None]:
dados = pd.read_csv(url, sep=';')
dados

In [None]:
dados.head(10)

In [None]:
type(dados)

In [None]:
dados.shape

In [None]:
dados.columns

In [None]:
dados.info()

In [None]:
dados[['Quartos', 'Valor']]

### Desafio
Para praticar os métodos aprendidos no decorrer dessa aula e também aprender novos, vamos realizar algumas análises utilizando um arquivo csv diferente: [alunos.csv](https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/desafios/alunos.csv).

**1)** Importe o arquivo alunos.csv e armazene seu conteúdo em um DataFrame Pandas.

**2)** Visualize as primeiras 7 linhas do DataFrame e as 5 últimas.

**3)** Confira a quantidade de linhas e colunas desse DataFrame.

**4)** Explore as colunas do DataFrame e analise os tipos dos dados presentes em cada coluna.

**Extra:** Calcule algumas estatísticas descritivas básicas dos dados do DataFrame (média, desvio padrão, etc). **Dica**: pesquise pelo método **describe**.

In [None]:
url = 'https://raw.githubusercontent.com/lukaswyllis/formacao_python_para_data_science/refs/heads/master/pandas1/alunos.csv'
alunos = pd.read_csv(url)

In [None]:
alunos.head(7)

In [None]:
alunos.tail(5)

In [None]:
alunos.shape

In [None]:
alunos.info()

In [None]:
alunos.describe()

## Análise exploratória dos dados

In [None]:
dados.head()

In [None]:
dados['Valor'].mean()

In [None]:
dados.groupby('Tipo').mean(numeric_only=True)

In [None]:
dados.groupby('Tipo')['Valor'].mean()

In [None]:
dados.groupby('Tipo')[['Valor']].mean().sort_values('Valor')

In [None]:
df_preco_tipo = dados.groupby('Tipo')[['Valor']].mean().sort_values('Valor')

In [None]:
df_preco_tipo.plot(kind='barh', figsize=(14, 10), color='purple')

In [None]:
dados.Tipo.unique()

In [None]:
imoveis_comerciais = ['Conjunto Comercial/Sala',
                      'Prédio Inteiro', 'Loja/Salão',
                      'Galpão/Depósito/Armazém',
                      'Casa Comercial', 'Terreno Padrão',
                      'Loja Shopping/ Ct Comercial',
                      'Box/Garagem', 'Chácara',
                      'Loteamento/Condomínio', 'Sítio',
                      'Pousada/Chalé', 'Hotel', 'Indústria']

In [None]:
dados.query('@imoveis_comerciais in Tipo')

In [None]:
dados.query('@imoveis_comerciais not in Tipo')

In [None]:
df = dados.query('@imoveis_comerciais not in Tipo')
df.head()

In [None]:
df.Tipo.unique()

In [None]:
df_preco_tipo = df.groupby('Tipo')[['Valor']].mean().sort_values('Valor')
df_preco_tipo.plot(kind='barh', figsize=(14, 10), color='purple')

In [None]:
df.Tipo.value_counts(normalize=True)

In [None]:
df.Tipo.value_counts(normalize=True).to_frame().sort_values('Tipo', ascending=False)

In [None]:
df_percentual_tipo = df.Tipo.value_counts(normalize=True).to_frame().sort_values('Tipo', ascending=False)
df_percentual_tipo.plot(kind='bar', figsize=(14, 10), color='green', xlabel = 'Tipos', ylabel = 'Percentual')

In [None]:
df_apartamentos = df.query('Tipo == "Apartamento"')
df_apartamentos

In [None]:
df_apartamentos['Bairro'].value_counts()

### Desafio 2
O time de ML chegou com algumas demandas de última hora para resolvermos nesse momento da análise exploratória. Essas demandas são:

**1)** Calcular a média de quartos por apartamento;

**2)** Conferir quantos bairros únicos existem na nossa base de dados;

**3)** Analisar quais bairros possuem a média de valor de aluguel mais elevadas;

**4)** Criar um gráfico de barras horizontais que apresente os 5 bairros com as médias de valores de aluguel mais elevadas.

In [None]:
apartamentos = dados.query('Tipo == "Apartamento"')
apartamentos['Quartos'].mean()

In [None]:
len(dados['Bairro'].unique()) # contagem de bairros únicos

In [None]:
dados['Bairro'].nunique() # contagem de bairros únicos, variação

In [None]:
apts_caros = apartamentos.groupby('Bairro')['Valor'].mean().sort_values(ascending=False).head()

In [None]:
apts_caros.plot(kind='barh', color='blue', xlabel = 'Bairros', ylabel='Média de Aluguel', figsize=(7,4))