# Introdução ao Pandas e manipulação de arquivos com Pandas
## Sumario

- **Introdução ao Pandas**
    - Conceitos Básicos de Pandas
      - Estruturas de dados: Series e DataFrames
      - Criação de Series e DataFrames a partir de listas e dicionários
      - Visualização de dados: cabeçalho, cauda e informações básicas
  
- **Manipulação de Dados com Pandas**
    - Carregamento de Dados
      - Leitura de dados de diferentes fontes (CSV, Excel, SQL) 
      - Visualização inicial e sumário estatístico
    - Limpeza e Preparação de Dados
      - Tratamento de valores ausentes
      - Remoção de duplicatas
      - Filtragem de dados  
    - Transformação de Dados
      - Operações com colunas (adicionar, remover, modificar)
      - Funções de mapeamento
      - Agrupamento e agregação


## Objetivos
- Fornecer uma compreensão abrangente da biblioteca **Pandas**, uma ferramenta essencial no Python para **análise de dados**. 
  
- Ser capaz de **manipular, limpar e explorar** conjuntos de dados de forma eficiente. 
  
- Análises de dados complexas e visualização de dados.

---

# Visão Geral do Pandas e sua Importância
- Pandas é uma biblioteca de **código aberto** que fornece estruturas de dados de **alto desempenho** e ferramentas de **análise de dados** para a linguagem Python. 

- Com **Pandas**, você pode realizar tarefas essenciais de __pré-processamento__ e __análise de dados__, como a __limpeza de dados__, transformações, agregações, e muito mais. 

- A biblioteca é amplamente utilizada em **diversas áreas**, incluindo finanças, neurociência, economia, estatística, publicidade e web analytics.

### Exemplo de Implementação Inicial com Pandas:
- Vamos começar com um exemplo simples:
  
  -  Iniciar com o Pandas. 
  
  -  Criar um **DataFrame**

In [2]:
!pip install pandas

Collecting pandas
  Using cached pandas-2.2.3-cp312-cp312-win_amd64.whl.metadata (19 kB)
Collecting numpy>=1.26.0 (from pandas)
  Using cached numpy-2.1.3-cp312-cp312-win_amd64.whl.metadata (60 kB)
Collecting pytz>=2020.1 (from pandas)
  Using cached pytz-2024.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Using cached tzdata-2024.2-py2.py3-none-any.whl.metadata (1.4 kB)
Using cached pandas-2.2.3-cp312-cp312-win_amd64.whl (11.5 MB)
Using cached numpy-2.1.3-cp312-cp312-win_amd64.whl (12.6 MB)
Using cached pytz-2024.2-py2.py3-none-any.whl (508 kB)
Using cached tzdata-2024.2-py2.py3-none-any.whl (346 kB)
Installing collected packages: pytz, tzdata, numpy, pandas
Successfully installed numpy-2.1.3 pandas-2.2.3 pytz-2024.2 tzdata-2024.2



[notice] A new release of pip is available: 24.1.1 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
import pandas as pd

# Criando um DataFrame simples
data = {
    'Nome': ['João', 'Ana', 'Pedro', 'Maria'],
    'Idade': [28, 34, 29, 32],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre']
}

df = pd.DataFrame(data)

print(df)
print("\n", "_"*50, "\n")

# Em notebooks o que é retornado da célula é renderizado (exibido) na saída da célula de código, não exigindo a função print
df


    Nome  Idade          Cidade
0   João     28       São Paulo
1    Ana     34  Rio de Janeiro
2  Pedro     29  Belo Horizonte
3  Maria     32    Porto Alegre

 __________________________________________________ 



Unnamed: 0,Nome,Idade,Cidade
0,João,28,São Paulo
1,Ana,34,Rio de Janeiro
2,Pedro,29,Belo Horizonte
3,Maria,32,Porto Alegre


### O que esse código faz..
- Cria um DataFrame, que é uma das principais estruturas de dados do Pandas. 

- Um DataFrame é semelhante a uma tabela de banco de dados ou uma planilha de Excel, com linhas e colunas. 

- No exemplo acima, criamos um DataFrame a partir de um dicionário de listas, uma estrutura de dados muito comum em Python.

---

## Estruturas do Pandas: Séries e DataFrames
#### Series: 
- Uma Series é uma coluna unidimensional capaz de armazenar qualquer tipo de dados (inteiros, strings, floats, objetos Python, etc.). 
  - Cada elemento de uma Series é indexado, começando por padrão do índice 0.

In [3]:
import pandas as pd

# Criando uma Series a partir de uma lista
idades = pd.Series([25, 30, 35, 40])
print(idades)

print(idades[2])


0    25
1    30
2    35
3    40
dtype: int64
35


- Definindo um *index* personalizado

In [8]:
import pandas as pd

vals = [1, 7, 2, 7, 2, 9, 5]

minha_serie = pd.Series(vals, index = ["a", "b", "c", "d", "e", "f", "g"])

print(minha_serie)

print()
print()

# Acessando um item da série
print(minha_serie["f"])

a    1
b    7
c    2
d    7
e    2
f    9
g    5
dtype: int64


9


##### Criando uma Série de um dicionário

In [9]:
import pandas as pd
frequencia = {"aluno1": 5, "aluno2": 7, "aluno3": 2, "aluno4": 7, "aluno5": 2, "aluno6": 9, "aluno7": 5}

diario = pd.Series(frequencia)
print(diario)

aluno1    5
aluno2    7
aluno3    2
aluno4    7
aluno5    2
aluno6    9
aluno7    5
dtype: int64


- Selecionando itens

In [10]:
import pandas as pd
frequencia = {"aluno1": 5, "aluno2": 7, "aluno3": 2, "aluno4": 7, "aluno5": 2, "aluno6": 9, "aluno7": 5}

diario = pd.Series(frequencia, index = ["aluno2", "aluno4", "aluno6"])

print(diario)

aluno2    7
aluno4    7
aluno6    9
dtype: int64


### DataFrames: 
- Um DataFrame é uma estrutura de dados **bidimensional**, como uma planilha ou uma **tabela** de banco de dados, com colunas de diferentes *tipos*. 
  - Pode ser visto como um conjunto de Series que compartilham o mesmo índice.

In [11]:
# Criando um DataFrame a partir de um dicionário de listas
data = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Diana','Fernando'],
    'Idade': [28, 34, 29, 32, 45],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre', 'Brasília']
}
df = pd.DataFrame(data)
df


Unnamed: 0,Nome,Idade,Cidade
0,Ana,28,São Paulo
1,Bruno,34,Rio de Janeiro
2,Carlos,29,Belo Horizonte
3,Diana,32,Porto Alegre
4,Fernando,45,Brasília


### Criação de Series e DataFrames

- A partir de __listas__: 
  - Podemos criar uma *Series* diretamente de uma lista. 
  
  - Para criar um *DataFrame* a partir de listas, podemos combinar **várias listas em um dicionário**, onde *cada chave* se torna o *nome da coluna*.

- A partir de __dicionários__: 
  - Um **DataFrame** também pode ser criado a partir de um **dicionário de listas ou de Series**, proporcionando uma forma intuitiva de especificar dados junto com seus rótulos de coluna.

---

## Visualização de Dados (**EDA** - Análise Exploratória de Dados)

- **Pandas** oferece métodos simples para uma rápida inspeção dos seus dados.

- Ferramentas **cruciais** para uma primeira análise exploratória dos dados, permitindo uma **visão geral rápida e eficiente** da estrutura e conteúdo do seu conjunto de dados.

### Começando
#### Métodos `.head()` e `.tail()`:
- Use `df.head(n)` para visualizar as primeiras *n* linhas do DataFrame *df*, e `df.tail(n)` para as últimas *n*. 
  - Se n não for especificado, o padrão é 5.

In [15]:
data = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Diana','Fernando','João', 'Ana', 'Pedro', 'Maria', 'Alice', 'Bob', 'Charlie'],
    'Idade': [28, 34, 29, 32, 45, 28, 34, 29, 32,25, 30, 35],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre', 'Brasília','São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre', 'New York', 'Paris', 'London']
}
df = pd.DataFrame(data)

display(df.head())  # Mostra as primeiras 5 linhas

print('*'*80)

display(df.tail()) 


Unnamed: 0,Nome,Idade,Cidade
0,Ana,28,São Paulo
1,Bruno,34,Rio de Janeiro
2,Carlos,29,Belo Horizonte
3,Diana,32,Porto Alegre
4,Fernando,45,Brasília


********************************************************************************


Unnamed: 0,Nome,Idade,Cidade
7,Pedro,29,Belo Horizonte
8,Maria,32,Porto Alegre
9,Alice,25,New York
10,Bob,30,Paris
11,Charlie,35,London


#### Acessando dados do DataFrame

- localizar uma linha `df.loc()`


In [21]:
print(df.loc[3])

Nome             Diana
Idade               32
Cidade    Porto Alegre
Name: 3, dtype: object


- localizar *varias linhas* - usando `[[]]` => **Retorna** é um DataFrame


In [19]:
df.loc[[2,5,8]]

Unnamed: 0,Nome,Idade,Cidade
2,Carlos,29,Belo Horizonte
5,João,28,São Paulo
8,Maria,32,Porto Alegre


### Operações básicas de manipulação de dados com Pandas
 
 - seleção de colunas
 
 - filtragem de linhas
 
 - cálculos simples (médias, somas).

In [26]:
import pandas as pd
display(df)

# Seleção de colunas
display(df['Nome'])


Unnamed: 0,Nome,Idade,Cidade
0,Ana,28,São Paulo
1,Bruno,34,Rio de Janeiro
2,Carlos,29,Belo Horizonte
3,Diana,32,Porto Alegre
4,Fernando,45,Brasília
5,João,28,São Paulo
6,Ana,34,Rio de Janeiro
7,Pedro,29,Belo Horizonte
8,Maria,32,Porto Alegre
9,Alice,25,New York


0          Ana
1        Bruno
2       Carlos
3        Diana
4     Fernando
5         João
6          Ana
7        Pedro
8        Maria
9        Alice
10         Bob
11     Charlie
Name: Nome, dtype: object

In [24]:
# Filtragem de linhas
display(df[df['Idade'] > 30])


Unnamed: 0,Nome,Idade,Cidade
1,Bruno,34,Rio de Janeiro
3,Diana,32,Porto Alegre
4,Fernando,45,Brasília
6,Ana,34,Rio de Janeiro
8,Maria,32,Porto Alegre
11,Charlie,35,London


In [27]:
# Cálculos simples
print(df['Idade'].mean())


31.75


### Informaçoes sobre o DataFrame
 
#### `.info()`:
- Este método fornece um **resumo** conciso do DataFrame 

  - incluindo o número de entradas não-nulas em cada coluna

  - o tipo de dados 

  - o uso de memória

In [32]:
import pandas as pd

df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')
# df = pd.read_csv('dados/dadosNumericos.csv')
df.info()
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


#### `.describe()`: 
- Oferece uma visão geral estatística das colunas numéricas, como contagem, média, desvio padrão, mínimos e máximos.

In [34]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### Estatistica básica

- **`mean():`**
    -  Calcula a média dos valores em uma coluna (soma de todos os valores dividida pelo número de valores).

- **`mode():`**
    -  Calcula o valor mais frequente dos valores em uma coluna (o valor que aparece com maior frequência em uma coluna).

- **`median():`**
    -  Calcula a mediana dos valores em uma coluna (o valor que divide a coluna em duas partes iguais).

- **`std():`**
    -  Calcula o desvio padrão dos valores em uma coluna (raiz quadrada da soma dos quadrados das diferenças entre cada valor e a média dividida pelo número de valores).

- **`count():`**
    -  Conta o número de valores não-nulos em uma coluna.

- **`min():`**
    -  Calcula o valor mínimo dos valores em uma coluna.

- **`max():`**
    -  Calcula o valor máximo dos valores em uma coluna.

- **`sum():`**
    -  Calcula a soma dos valores em uma coluna.

- **`quantile():`**
    -  Calcula um percentual específico dos valores em uma coluna (por exemplo, 25% para o primeiro quartil, 50% para a mediana e 75% para o terceiro quartil).

### Outras funções algébricas

- **`var():`**
    - Calcula a variância dos valores em uma coluna (a média dos quadrados das diferenças entre cada valor e a média dividida pelo número de valores).
 
- **`skew():`**
    - Calcula o coeficiente de assimetria dos valores em uma coluna (a média dos quadrados das diferenças entre cada valor e a média dividida pelo desvio padrão elevado ao quadrado).
 
- **`kurt():`**
    - Calcula o coeficiente de curtose dos valores em uma coluna (a média dos quadrados das diferenças entre cada valor e a média dividida pelo desvio padrão elevado ao quadrado elevado a quatro).
 
- **`cumsum():`**
    - Calcula a soma acumulada dos valores em uma coluna (a soma dos valores anteriores até o valor atual).
 
- **`cumprod():`**
    - Calcula o produto acumulado dos valores em uma coluna (o produto dos valores anteriores até o valor atual).
 
- **`cummin():`**
    - Calcula o valor mínimo acumulado dos valores em uma coluna (o valor mínimo dos valores anteriores até o valor atual).
 
- **`cummax():`**
    - Calcula o valor máximo acumulado dos valores em uma coluna (o valor máximo dos valores anteriores até o valor atual).
 
- **`cumvar():`**
    - Calcula a variância acumulada dos valores em uma coluna (a variância dos valores anteriores até o valor atual).
  
---

# Limpeza de Dados

A limpeza de dados é uma parte ***crítica*** da análise de dados. Pandas oferece várias funções para facilitar este processo.

In [38]:
display(df)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


### Removendo linhas com valores ausentes


In [49]:
display(df.info())
df_limpo = df.dropna()
df_limpo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


None

<class 'pandas.core.frame.DataFrame'>
Index: 183 entries, 1 to 889
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  183 non-null    int64  
 1   Survived     183 non-null    int64  
 2   Pclass       183 non-null    int64  
 3   Name         183 non-null    object 
 4   Sex          183 non-null    object 
 5   Age          183 non-null    float64
 6   SibSp        183 non-null    int64  
 7   Parch        183 non-null    int64  
 8   Ticket       183 non-null    object 
 9   Fare         183 non-null    float64
 10  Cabin        183 non-null    object 
 11  Embarked     183 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 18.6+ KB


### Preenchendo valores ausentes com zero


In [53]:
display(df.info())
df_preenchido = df.fillna(0)
df_preenchido.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        891 non-null    object 
 11  Embarked     891 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### Removendo duplicatas


In [None]:
df_unico = df.drop_duplicates()
df_unico.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


## Exibição de Dados

In [None]:
print(pd.options.display.max_rows) 
print(df)
pd.options.display.max_rows = 500
print(df)
pd.options.display.max_rows = 30
print(df)


30
     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   .

#### para exibir todo DataFrame


In [None]:
print(df.to_string()) 

     PassengerId  Survived  Pclass                                                                                Name     Sex    Age  SibSp  Parch              Ticket      Fare            Cabin Embarked
0              1         0       3                                                             Braund, Mr. Owen Harris    male  22.00      1      0           A/5 21171    7.2500              NaN        S
1              2         1       1                                 Cumings, Mrs. John Bradley (Florence Briggs Thayer)  female  38.00      1      0            PC 17599   71.2833              C85        C
2              3         1       3                                                              Heikkinen, Miss. Laina  female  26.00      0      0    STON/O2. 3101282    7.9250              NaN        S
3              4         1       1                                        Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.00      1      0              113803   53.1000       

# Desafio

