# Introdução ao Pandas 🐼

O **Pandas** é uma biblioteca essencial para análise e manipulação de dados em Python.  
Ele fornece estruturas como **DataFrames** e **Series**, facilitando operações como leitura, filtragem, agregação e análise de dados.

📌 **O que você aprenderá neste notebook?**  
✅ Como importar e usar o Pandas  
✅ Como carregar arquivos CSV  
✅ Como manipular dados com DataFrames  
✅ Como realizar operações comuns em análise de dados  

Vamos começar! 🚀


## 📌 Importação de Bibliotecas

Antes de trabalhar com dados, precisamos importar o **Pandas**.

In [95]:
import pandas as pd

### Carrega o arquivo CSV chamado movies.csv em um DataFrame do pandas.


In [None]:
pd.read_csv("movies.csv")

### Carrega o arquivo movies.csv, definindo a coluna Title como índice do DataFrame.

In [None]:
pd.read_csv('movies.csv', index_col = 'Title')

### Carrega o dataset e armazena o DataFrame na variável movies.
### A coluna Title será usada como índice, permitindo acesso mais rápido aos filmes pelo título.

In [None]:
movies = pd.read_csv('movies.csv', index_col = 'Title')

### Exibe as 4 primeiras linhas do DataFrame.

In [None]:
movies.head(4)

### Exibe as 6 últimas linhas do DataFrame.

In [None]:
movies.tail(6)

### Retorna o número total de linhas (filmes) no DataFrame.

In [None]:
len(movies)

### Retorna a dimensão do DataFrame no formato (número de linhas, número de colunas).

In [None]:
movies.shape

### Retorna a dimensão do DataFrame no formato (número de linhas, número de colunas).

In [None]:
movies.dtypes

### Retorna a 500ª linha (índice baseado em posição, começa do zero).

In [None]:
movies.iloc[499]

### Retorna a 500ª linha (índice baseado em posição, começa do zero).

In [None]:
movies.loc['Forrest Gump']

### Retorna os dados do filme 101 Dalmatians.

In [None]:
movies.loc['101 Dalmatians']

### Ordena os filmes por ano de lançamento (Year) em ordem decrescente e exibe os primeiros resultados.

In [None]:
movies.sort_values(by = 'Year', ascending = False).head()

### Ordena os filmes primeiro por Studio (em ordem alfabética) e depois por Year (em ordem crescente).
### Exibe os primeiros resultados.

In [None]:
movies.sort_values(by = ['Studio', 'Year']).head()

### Retorna a coluna Studio, contendo o estúdio responsável por cada filme.

In [None]:
movies['Studio']

### Conta quantas vezes cada estúdio aparece e exibe os 10 estúdios mais frequentes.

In [None]:
movies['Studio'].value_counts().head(10)

### Filtra o DataFrame, retornando apenas os filmes produzidos pelo estúdio Universal.

In [None]:
movies[movies['Studio'] == 'Universal']

### Cria uma máscara booleana onde cada linha é True se o estúdio for Universal e False caso contrário.

In [None]:
released_by_universal = (movies['Studio'] == 'Universal')

### Usa a máscara booleana para exibir os primeiros filmes lançados pela Universal.

In [None]:
movies[released_by_universal].head()

## Filtrando filmes com múltiplas condições
### Filtra os filmes que foram lançados pela Universal e no ano 2015.
### O operador & (E lógico) garante que ambas as condições sejam verdadeiras.

In [None]:
released_by_universal = movies['Studio'] == 'Universal'
released_in_2015 = movies['Year'] == 2015
movies[released_by_universal & released_in_2015]

### Retorna todos os filmes lançados antes de 1975.

In [None]:
before_1975 = movies['Year'] < 1975
movies[before_1975]

### Usa .between() para selecionar filmes lançados entre 1983 e 1986, incluindo ambos os anos.

In [None]:
mid_80s = movies['Year'].between(1983, 1986)
movies[mid_80s]

### Converte o índice (títulos dos filmes) para minúsculas e verifica quais contêm a palavra "dark".
### Retorna todos os filmes cujo título contém a palavra "dark".

In [None]:
has_dark_in_title = movies.index.str.lower().str.contains('dark')
movies[has_dark_in_title]

### Remove os símbolos "$" e as vírgulas da coluna Gross, que representa a bilheteria dos filmes.

In [None]:
movies['Gross'].str.replace('$', '', regex = False).str.replace(',', '', regex = False)

### Além da remoção, converte os valores para o tipo float para permitir cálculos numéricos.

In [None]:
movies['Gross'].str.replace('$', '', regex = False).str.replace(',', '', regex = False).astype(float)

### Atualiza a coluna Gross no DataFrame, armazenando os valores como números decimais.

In [None]:
movies['Gross'] = (movies['Gross'].str.replace('$', '', regex = False).str.replace(',', '', regex = False).astype(float))

### Calcula a média de bilheteria de todos os filmes.

In [None]:
movies['Gross'].mean()

### Agrupa os filmes pelo nome do estúdio.
### Permite realizar operações estatísticas por grupo.

In [None]:
studios = movies.groupby('Studio')

### Conta quantos filmes cada estúdio produziu e exibe os primeiros resultados.

In [None]:
studios['Gross'].count().head()

### Conta os filmes por estúdio e ordena do maior para o menor.

In [None]:
studios['Gross'].count().sort_values(ascending = False).head()

### Calcula a bilheteria total de cada estúdio e exibe os primeiros resultados.

In [None]:
studios['Gross'].sum().head()

### Ordena os estúdios pelo total arrecadado em bilheteria (do maior para o menor).

In [None]:
studios['Gross'].sum().sort_values(ascending = False).head()