
# Biblioteca Pandas

Pandas é uma biblioteca Python de análise e manipulação de dados que otimiza o trabalho com dados relacionais, tornando-se uma ferramenta essencial dentro da área de Ciências de Dados pois permite limpeza e tratamento de dados, análise exploratória de dados (EDA), suporte em atividades de Machine Learning, consultas e queries em bancos de dados relacionais, visualização de dados, webscraping, etc.

#### Pandas: Instalando a biblioteca

O Jupyter Notebook já contém a biblioteca Pandas instalada. Porém, quando necessário a maneira de fazer a instalação de libs é dessa maneira:

```bash
!pip install pandas
```

Importar a lib e explicar o conceito de **alias** (apelido): Por convênção cada lib tem um apelido adotado pela comunidade que a utiliza.

In [None]:

pip install pandas


In [9]:
import pandas as pd

#### Pandas: Séries (Series)

Séries e Dataframes são as duas principais estruturas de dados dessa biblioteca. 

Sendo a Series compostas por chave(index) e valor: Séries são arrays unidimensionais rotulados (também chamado de nomeados) capazes de armazenar dados de qualquer tipo (inteiro, string, float, objetos python, etc). Dessa forma, podemos acessar os valores e as chaves, que são referenciadas como Index.

Séries podem ser criadas a partir de listas, dicionários ou NumPy arrays.

![image.png](attachment:image.png)

In [None]:
lista = ["Patrícia", "Camila", "Gabi", "Anna", "Tamires"]

serie_da_lista = pd.Series(lista)
print(serie_da_lista)
type(serie_da_lista)

In [None]:
dicionario = {"a": "Patrícia", "b": "Camila", "c": "Gabi", "d": "Anna", "e": "Tamires"}

serie_do_dicionario = pd.Series(dicionario)
print(serie_do_dicionario)
type(serie_do_dicionario)

In [None]:
array_numpy = np.random.randint(5, 25, size=5)
print(array_numpy)

serie_do_array = pd.Series(array_numpy)

print(serie_do_array)
type(serie_do_array)

Series - Acessando valores individuais : Podemos acessar um valor específico utilizando a chave associada a esse valor.

In [15]:
serie_do_dicionario[0]

NameError: name 'serie_do_dicionario' is not defined

In [None]:
serie_do_dicionario["d"]

#### Pandas: Dataframes e Manipulando dados em Dataframes

DataFrames são a outra estrutura de dados fundamental em Pandas. Trata-se de uma estrutura bidimensional com linhas e colunas nomeadas, similar a uma tabela. Dataframes possuem dois índices (um para linha e um para colunas) e cada linha e coluna individual também é uma Série. 

![image.png](attachment:image.png)

# Base de Dados

Vamos continuar essa aula usando o dataset do 'Titanic', disponível [aqui](https://www.kaggle.com/competitions/titanic/overview) - arquivo 'train.csv'.

In [16]:
import pandas as pd

df = pd.read_csv("titanic.csv")

In [17]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [18]:
#função head() 
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [None]:
# função tail
df.tail()

In [None]:
# Qual o tamanho do dataframe?
df.shape

In [None]:
# resumo estatístico dos dados
df.describe()

In [None]:
# Quais os tipos dos dados?
df.dtypes

In [21]:
# Caso queiremos reduzir o número de amostras, podemos usar a função sample
df_menor = df.sample(250)



In [20]:
# Pq resetar o index pode ser beneficial nesse tipo de análise?
df_menor = df_menor.reset_index(drop=True)

df_menor

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,142,1,3,"Nysten, Miss. Anna Sofia",female,22.0,0,0,347081,7.7500,,S
1,335,1,1,"Frauenthal, Mrs. Henry William (Clara Heinshei...",female,,1,0,PC 17611,133.6500,,S
2,203,0,3,"Johanson, Mr. Jakob Alfred",male,34.0,0,0,3101264,6.4958,,S
3,819,0,3,"Holm, Mr. John Fredrik Alexander",male,43.0,0,0,C 7075,6.4500,,S
4,98,1,1,"Greenfield, Mr. William Bertram",male,23.0,0,1,PC 17759,63.3583,D10 D12,C
...,...,...,...,...,...,...,...,...,...,...,...,...
245,442,0,3,"Hampe, Mr. Leon",male,20.0,0,0,345769,9.5000,,S
246,435,0,1,"Silvey, Mr. William Baird",male,50.0,1,0,13507,55.9000,E44,S
247,509,0,3,"Olsen, Mr. Henry Margido",male,28.0,0,0,C 4001,22.5250,,S
248,239,0,2,"Pengelly, Mr. Frederick William",male,19.0,0,0,28665,10.5000,,S


In [22]:
# Slicing: obter apenas uma parte do dataset
df[:250]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
245,246,0,1,"Minahan, Dr. William Edward",male,44.0,2,0,19928,90.0000,C78,Q
246,247,0,3,"Lindahl, Miss. Agda Thorilda Viktoria",female,25.0,0,0,347071,7.7750,,S
247,248,1,2,"Hamalainen, Mrs. William (Anna)",female,24.0,0,2,250649,14.5000,,S
248,249,1,1,"Beckwith, Mr. Richard Leonard",male,37.0,1,1,11751,52.5542,D35,S


In [24]:
mini_df = df[:10]
mini_df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [23]:
# Como obter as colunas do dataframe:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

# Manipulação de dados

#### Pandas: Processamento de dados (remoção de dados nulos, substituição de valores, normalização, remoção de duplicados, preenchimento de valores)

A limpeza e tratamento de dados permitem análises mais efetivas e precisas através da transformação de dados brutos em formatos úteis e eficientes. Esse processamento geralmente envolve a reformantação, correção e/ou a combinação de conjuntos de informações. 
Além disso, a preparação de dados garante a consistência e replicabilidade da análise, fator imperativo em contextos Data Driven.

***OBS: sempre checar shape e conteúdo do dataframe após alterações que alterem o formato da tabela para que alunas possam enxergar as mudanças realizadas via código***


In [25]:
# Checar valores nulos no dataset
print("Valores nulos por coluna do dataframe:")
print(df.isnull().sum())


Valores nulos por coluna do dataframe:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


In [27]:
# Remove entradas (linhas) contendo valores nulos em colunas específicas
df = df.dropna(subset=['Age', 'Embarked'])
df.shape

(712, 12)

In [28]:
# Vamos substituir os valores contidos na coluna 'Sex' por 'F' e 'M'
df['Sex'] = df['Sex'].replace({'male': 'M', 'female': 'F'})

df.head(10) # alterando o número de entradas no retorno da função

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",M,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",F,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",F,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",F,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",M,35.0,0,0,373450,8.05,,S
6,7,0,1,"McCarthy, Mr. Timothy J",M,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",M,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",F,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",F,14.0,1,0,237736,30.0708,,C
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",F,4.0,1,1,PP 9549,16.7,G6,S


In [None]:
# Removendo entradas duplicadas
df = df.drop_duplicates()
df.shape


## Normalização dos dados

- O que é normalização?

O objetivo da normalização é mudar os valores  nessas colunas para que o conjunto de dados utilizado (nesse caso, o nosso dataframe) para usar uma escala comum,  sem distorcer as diferenças nos intervalos de valores nem perder informações. A normalização também é necessária para alguns algoritmos para modelar os dados corretamente.

[Fonte](https://learn.microsoft.com/pt-br/azure/machine-learning/component-reference/normalize-data?view=azureml-api-2)

A nossa técnica de normalização reduz a escala de colunas numéricas para valores entre [0,1] subtraindo o mínimo valor e dividindo pelo range. Algumas bibliotecas oferecem essa lógica já de forma implementada, mas faremos pelo Pandas:

In [30]:
# Normalização de colunas numéricas 

df_normalizado = df.copy()

for column in df_normalizado.columns:
    df_normalizado["Age"] = (df_normalizado["Age"] - df_normalizado["Age"].min()) / (df_normalizado["Age"].max() - df_normalizado["Age"].min())
    df_normalizado["Fare"] = (df_normalizado["Fare"] - df_normalizado["Fare"].min()) / (df_normalizado["Fare"].max() - df_normalizado["Fare"].min())


df_normalizado

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",M,0.271174,1,0,A/5 21171,0.014151,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",F,0.472229,1,0,PC 17599,0.139136,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",F,0.321438,0,0,STON/O2. 3101282,0.015469,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",F,0.434531,1,0,113803,0.103644,C123,S
4,5,0,3,"Allen, Mr. William Henry",M,0.434531,0,0,373450,0.015713,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",F,0.484795,0,5,382652,0.056848,,Q
886,887,0,2,"Montvila, Rev. Juozas",M,0.334004,0,0,211536,0.025374,,S
887,888,1,1,"Graham, Miss. Margaret Edith",F,0.233476,0,0,112053,0.058556,B42,S
889,890,1,1,"Behr, Mr. Karl Howell",M,0.321438,0,0,111369,0.058556,C148,C


In [35]:
# Preenchendo dados nulos
df['Age'] = df['Age'].fillna(df['Age'].mean())
df['Embarked'] = df['Embarked'].fillna(df['Embarked'].mode().iloc[0])

# Bora Praticar: (40 minutos)


Utilizar a basede de dados **Titanic** e manipular os dados de acordo com as instruções abaixo:
    
    - diminuir numero de amostras para 50 via slicing
    - retirar nulos da coluna 'Cabin'
    - preencher valores da coluna Age
    - obter métricas
    - Organizar valores via coluna 'Fare'
    - copiar o DF
    - Bônus: normalizar coluna (qualquer uma)
    - Bônus II: pesquisar sobre outras formas de processamento de dados além das vistas em sala de aula

In [31]:
df_exercicio =pd.read_csv('titanic.csv')
df_exercicio

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [42]:
df_exercicio[:50]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [43]:
df_exercicio.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [41]:
df_exercicio['Age'].fillna(df['Age'].mean())

0      22.000000
1      38.000000
2      26.000000
3      35.000000
4      35.000000
         ...    
886    27.000000
887    19.000000
888    29.642093
889    26.000000
890    32.000000
Name: Age, Length: 891, dtype: float64