Você pode imaginar uma Series do Pandas como uma versão especializada de um dicionário do Python. Enquanto um dicionário mapeia chaves arbitrárias para valores arbitrários, uma Series mapeia chaves e valores com tipos específicos. Essa tipagem é crucial: assim como os arrays do NumPy são mais eficientes que listas do Python devido à tipagem, a Series do Pandas é muito mais eficiente que dicionários do Python para certas operações devido às suas informações de tipo.

###   pd . Série ( dados ,  índice = índice )

### O objeto Pandas DataFrame 
DataFrame pode ser pensado como uma generalização de um array NumPy ou como uma especialização de um dicionário Python.

![Operador Pandas](https://raw.githubusercontent.com/naticost/DataAnalytics/main/Python/img/operatormet.png)

### Alinhamento de Índice no DataFrame

Um tipo semelhante de alinhamento ocorre para colunas e índices ao realizar operações em DataFrames:

In [5]:
import numpy as np
import pandas as pd

# Gerando dados aleatórios para os DataFrames
rng = np.random.default_rng()
A = pd.DataFrame(rng.integers(0, 20, (2, 2)), columns=list('AB'))
B = pd.DataFrame(rng.integers(0, 10, (3, 3)), columns=list('BAC'))

print("DataFrame A:")
print(A)

print("\nDataFrame B:")
print(B)


DataFrame A:
    A  B
0   8  6
1  11  0

DataFrame B:
   B  A  C
0  2  4  3
1  8  2  3
2  6  3  8


In [6]:
result = A + B
print("\nResultado de A + B:")
print(result)



Resultado de A + B:
      A    B   C
0  12.0  8.0 NaN
1  13.0  8.0 NaN
2   NaN  NaN NaN


### Alinhamento de Índices
Os índices e colunas são alinhados automaticamente. Se um índice ou coluna não existe em ambos os DataFrames, o resultado será NaN.

### Preenchendo Valores Faltantes
Se não quisermos NaN para valores faltantes, podemos usar o método add e especificar um valor de preenchimento (fill_value):

In [7]:
fill_value = A.stack().mean()  # Calculando a média dos valores em A
result_fill = A.add(B, fill_value=fill_value)
print("\nResultado de A.add(B, fill_value=fill_value):")
print(result_fill)



Resultado de A.add(B, fill_value=fill_value):
       A      B      C
0  12.00   8.00   9.25
1  13.00   8.00   9.25
2   9.25  12.25  14.25


### O Pandas facilita operações entre DataFrames, alinhando automaticamente os índices e colunas. Podemos evitar NaNs resultantes de alinhamentos usando o método add com fill_value.

### None: Dados Ausentes no Pandas
O Pandas usa None, um objeto do Python, para representar dados ausentes. No entanto, None só pode ser usado em arrays de objetos (dtype=object). Vamos ver como isso funciona na prática e entender suas implicações.

Exemplo com None
Vamos criar um array do NumPy contendo None e observar o comportamento:

In [8]:
import numpy as np

# Criando um array do NumPy com valores ausentes (None)
vals1 = np.array([1, None, 3, 4])
print(vals1)


[1 None 3 4]


O dtype=object significa que o NumPy identificou que os elementos do array são objetos Python (como None), e não números comuns como inteiros ou floats.

O que significa dtype=object?
Representação de Objetos Python:

dtype=object indica que o array pode conter qualquer tipo de objeto Python, como números, strings, ou até mesmo None.
Isso é útil quando você precisa misturar diferentes tipos de dados em um array.
Desempenho mais lento:

Arrays de objetos (dtype=object) são mais lentos do que arrays de tipos nativos do NumPy (como int ou float), porque as operações são realizadas no nível do Python, o que envolve mais processamento.
Veja a comparação de desempenho abaixo:

In [9]:
# Comparação de desempenho entre arrays de objetos e arrays de inteiros
for dtype in ['object', 'int']:
    print(f"dtype={dtype}")
    %timeit np.arange(1E6, dtype=dtype).sum()
    print()


dtype=object
63.6 ms ± 3.45 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

dtype=int
2.7 ms ± 370 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)



# Resumo das Diferenças
### Dados Ausentes:
Refere-se à falta de dados onde eles deveriam estar, representados geralmente por NaN em contextos numéricos e por None em contextos gerais.

### Dados Nulos: 
É um conceito mais amplo que pode incluir a ausência de valor ou dados desconhecidos. Em bancos de dados, é representado como NULL. Em Python/Pandas, None é frequentemente usado para representar dados nulos e é convertido para NaN em operações numéricas.

### NaN: Representação de Dados Ausentes Numéricos
O NaN (Not a Number) é uma forma comum de representar dados ausentes em contextos numéricos. É um valor especial de ponto flutuante reconhecido por sistemas que utilizam a representação de ponto flutuante padrão IEEE.

Exemplo com NaN
Vamos criar um array do NumPy com NaN e ver como ele é tratado:

In [10]:
import numpy as np

# Criando um array do NumPy com NaN
vals2 = np.array([1, np.nan, 3, 4])
print(vals2)
print("Tipo de dados:", vals2.dtype)


[ 1. nan  3.  4.]
Tipo de dados: float64


### Comportamento do NaN
Operações com NaN: Quando você realiza operações com NaN, o resultado geralmente será NaN. Isso pode ser problemático, pois NaN se comporta como um "vírus de dados" que se propaga:

In [11]:
print(1 + np.nan)  # Resulta em NaN
print(0 * np.nan)  # Resulta em NaN


nan
nan


Agregações com NaN: As funções padrão de agregação, como soma, mínimo e máximo, também retornam NaN se o array contiver NaN:

In [12]:
print(vals2.sum())  # Resulta em NaN
print(vals2.min())  # Resulta em NaN
print(vals2.max())  # Resulta em NaN


nan
nan
nan


Funções específicas para NaN: O NumPy oferece funções que ignoram NaN ao realizar agregações:

In [None]:
print(np.nansum(vals2))  # Soma ignorando NaN: 8.0
print(np.nanmin(vals2))  # Mínimo ignorando NaN: 1.0
print(np.nanmax(vals2))  # Máximo ignorando NaN: 4.0


### O Pandas é projetado para lidar com NaN e None, tratando-os de maneira semelhante:

In [13]:
import pandas as pd

# Criando uma Série do Pandas com NaN e None
s = pd.Series([1, np.nan, 2, None])
print(s)


0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64


 Conversão de Tipo: Quando um valor NaN é inserido em uma Série de inteiros, o Pandas converte automaticamente o tipo para float64:


 Isso ocorre porque o None é convertido para NaN, que é um tipo de ponto flutuante.

In [14]:
x = pd.Series(range(2), dtype=int)
print(x)

x[0] = None
print(x)


0    0
1    1
dtype: int32
0    NaN
1    1.0
dtype: float64


![Valores em NA](https://raw.githubusercontent.com/naticost/DataAnalytics/main/Python/img/valoresNAN.png)


### Trabalhando com Valores Nulos

No Pandas, `None` e `NaN` são tratados de forma intercambiável para representar valores ausentes. Para gerenciar esses valores nulos, o Pandas oferece vários métodos úteis:

- **`isnull()`**: Cria uma máscara booleana que indica onde os valores estão ausentes.
- **`notnull()`**: Faz o oposto de `isnull()`, mostrando onde os valores não estão ausentes.
- **`dropna()`**: Retorna uma versão dos dados onde os valores ausentes foram removidos.
- **`fillna()`**: Retorna uma cópia dos dados onde os valores ausentes foram preenchidos com um valor especificado.

Esses métodos ajudam a identificar, limpar e substituir valores nulos em seus DataFrames e Series.

In [15]:
import pandas as pd
import numpy as np

dados = pd.Series([1, np.nan, 'hello', None])
print(dados.isnull())  # Indica onde os valores são nulos
print(dados.notnull())  # Indica onde os valores não são nulos


0    False
1     True
2    False
3     True
dtype: bool
0     True
1    False
2     True
3    False
dtype: bool


In [21]:
df = pd.DataFrame([[1, np.nan, 2], [2, 3, 5], [np.nan, 4, 6]])
print("Data Frame Exemplo")
print(df)
print("-----------------------------")

# Remove linhas com qualquer valor nulo
print(df.dropna())
print("-----------------------------")

# Remove colunas com qualquer valor nulo
print(df.dropna(axis='columns'))
print("-----------------------------")

# Remove linhas onde todos os valores são nulos
df[3] = np.nan
print(df.dropna(axis='columns', how='all'))
print("-----------------------------")

# Remove linhas com menos de 3 valores não nulos
print(df.dropna(axis='rows', thresh=3))


Data Frame Exemplo
     0    1  2
0  1.0  NaN  2
1  2.0  3.0  5
2  NaN  4.0  6
-----------------------------
     0    1  2
1  2.0  3.0  5
-----------------------------
   2
0  2
1  5
2  6
-----------------------------
     0    1  2
0  1.0  NaN  2
1  2.0  3.0  5
2  NaN  4.0  6
-----------------------------
     0    1  2   3
1  2.0  3.0  5 NaN


### Preenchendo Valores Nulos
Em vez de remover valores nulos, você pode optar por substituí-los por valores válidos. Isso pode ser feito substituindo por um único número, como zero, ou utilizando métodos de imputação ou interpolação. O Pandas facilita esse processo com o método fillna(), que cria uma cópia dos dados com os valores nulos substituídos.

In [22]:
import pandas as pd
import numpy as np

dados = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
print(dados)


a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64


In [23]:
dados.fillna(0)


a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

In [24]:
dados.fillna(method='ffill')


  dados.fillna(method='ffill')


a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Para DataFrames, as opções são semelhantes e você também pode especificar o eixo ao longo do qual o preenchimento ocorre:

In [25]:
df = pd.DataFrame([[1, np.nan, 2, np.nan], [2, 3, 5, np.nan], [np.nan, 4, 6, np.nan]])
print(df)


     0    1  2   3
0  1.0  NaN  2 NaN
1  2.0  3.0  5 NaN
2  NaN  4.0  6 NaN


In [26]:
df.fillna(method='ffill', axis=1)


  df.fillna(method='ffill', axis=1)


Unnamed: 0,0,1,2,3
0,1.0,1.0,2.0,2.0
1,2.0,3.0,5.0,5.0
2,,4.0,6.0,6.0
