# Introdu√ß√£o ao Pandas üêº

O **Pandas** √© uma biblioteca essencial para an√°lise e manipula√ß√£o de dados em Python.  
Ele fornece estruturas como **DataFrames** e **Series**, facilitando opera√ß√µes como leitura, filtragem, agrega√ß√£o e an√°lise de dados.

üìå **O que voc√™ aprender√° neste notebook?**  
‚úÖ Como importar e usar o Pandas  
‚úÖ Como carregar arquivos CSV  
‚úÖ Como manipular dados com DataFrames  
‚úÖ Como realizar opera√ß√µes comuns em an√°lise de dados  

Vamos come√ßar! üöÄ


## üìå Importa√ß√£o de Bibliotecas

Antes de trabalhar com dados, precisamos importar o **Pandas**.

In [95]:
import pandas as pd

### Carrega o arquivo CSV chamado movies.csv em um DataFrame do pandas.


In [None]:
pd.read_csv("movies.csv")

### Carrega o arquivo movies.csv, definindo a coluna Title como √≠ndice do DataFrame.

In [None]:
pd.read_csv('movies.csv', index_col = 'Title')

### Carrega o dataset e armazena o DataFrame na vari√°vel movies.
### A coluna Title ser√° usada como √≠ndice, permitindo acesso mais r√°pido aos filmes pelo t√≠tulo.

In [None]:
movies = pd.read_csv('movies.csv', index_col = 'Title')

### Exibe as 4 primeiras linhas do DataFrame.

In [None]:
movies.head(4)

### Exibe as 6 √∫ltimas linhas do DataFrame.

In [None]:
movies.tail(6)

### Retorna o n√∫mero total de linhas (filmes) no DataFrame.

In [None]:
len(movies)

### Retorna a dimens√£o do DataFrame no formato (n√∫mero de linhas, n√∫mero de colunas).

In [None]:
movies.shape

### Retorna a dimens√£o do DataFrame no formato (n√∫mero de linhas, n√∫mero de colunas).

In [None]:
movies.dtypes

### Retorna a 500¬™ linha (√≠ndice baseado em posi√ß√£o, come√ßa do zero).

In [None]:
movies.iloc[499]

### Retorna a 500¬™ linha (√≠ndice baseado em posi√ß√£o, come√ßa do zero).

In [None]:
movies.loc['Forrest Gump']

### Retorna os dados do filme 101 Dalmatians.

In [None]:
movies.loc['101 Dalmatians']

### Ordena os filmes por ano de lan√ßamento (Year) em ordem decrescente e exibe os primeiros resultados.

In [None]:
movies.sort_values(by = 'Year', ascending = False).head()

### Ordena os filmes primeiro por Studio (em ordem alfab√©tica) e depois por Year (em ordem crescente).
### Exibe os primeiros resultados.

In [None]:
movies.sort_values(by = ['Studio', 'Year']).head()

### Retorna a coluna Studio, contendo o est√∫dio respons√°vel por cada filme.

In [None]:
movies['Studio']

### Conta quantas vezes cada est√∫dio aparece e exibe os 10 est√∫dios mais frequentes.

In [None]:
movies['Studio'].value_counts().head(10)

### Filtra o DataFrame, retornando apenas os filmes produzidos pelo est√∫dio Universal.

In [None]:
movies[movies['Studio'] == 'Universal']

### Cria uma m√°scara booleana onde cada linha √© True se o est√∫dio for Universal e False caso contr√°rio.

In [None]:
released_by_universal = (movies['Studio'] == 'Universal')

### Usa a m√°scara booleana para exibir os primeiros filmes lan√ßados pela Universal.

In [None]:
movies[released_by_universal].head()

## Filtrando filmes com m√∫ltiplas condi√ß√µes
### Filtra os filmes que foram lan√ßados pela Universal e no ano 2015.
### O operador & (E l√≥gico) garante que ambas as condi√ß√µes sejam verdadeiras.

In [None]:
released_by_universal = movies['Studio'] == 'Universal'
released_in_2015 = movies['Year'] == 2015
movies[released_by_universal & released_in_2015]

### Retorna todos os filmes lan√ßados antes de 1975.

In [None]:
before_1975 = movies['Year'] < 1975
movies[before_1975]

### Usa .between() para selecionar filmes lan√ßados entre 1983 e 1986, incluindo ambos os anos.

In [None]:
mid_80s = movies['Year'].between(1983, 1986)
movies[mid_80s]

### Converte o √≠ndice (t√≠tulos dos filmes) para min√∫sculas e verifica quais cont√™m a palavra "dark".
### Retorna todos os filmes cujo t√≠tulo cont√©m a palavra "dark".

In [None]:
has_dark_in_title = movies.index.str.lower().str.contains('dark')
movies[has_dark_in_title]

### Remove os s√≠mbolos "$" e as v√≠rgulas da coluna Gross, que representa a bilheteria dos filmes.

In [None]:
movies['Gross'].str.replace('$', '', regex = False).str.replace(',', '', regex = False)

### Al√©m da remo√ß√£o, converte os valores para o tipo float para permitir c√°lculos num√©ricos.

In [None]:
movies['Gross'].str.replace('$', '', regex = False).str.replace(',', '', regex = False).astype(float)

### Atualiza a coluna Gross no DataFrame, armazenando os valores como n√∫meros decimais.

In [None]:
movies['Gross'] = (movies['Gross'].str.replace('$', '', regex = False).str.replace(',', '', regex = False).astype(float))

### Calcula a m√©dia de bilheteria de todos os filmes.

In [None]:
movies['Gross'].mean()

### Agrupa os filmes pelo nome do est√∫dio.
### Permite realizar opera√ß√µes estat√≠sticas por grupo.

In [None]:
studios = movies.groupby('Studio')

### Conta quantos filmes cada est√∫dio produziu e exibe os primeiros resultados.

In [None]:
studios['Gross'].count().head()

### Conta os filmes por est√∫dio e ordena do maior para o menor.

In [None]:
studios['Gross'].count().sort_values(ascending = False).head()

### Calcula a bilheteria total de cada est√∫dio e exibe os primeiros resultados.

In [None]:
studios['Gross'].sum().head()

### Ordena os est√∫dios pelo total arrecadado em bilheteria (do maior para o menor).

In [None]:
studios['Gross'].sum().sort_values(ascending = False).head()