In [3]:
import pandas as pd
import random as rd

# üéØ C√≥pia rasa e c√≥pia profunda

Compreender **view** (visualiza√ß√£o superficial) e **copy** (c√≥pia profunda) √© uma parte importante para saber como o NumPy e o Pandas manipulam dados. Tamb√©m pode ajud√°-lo a evitar erros e gargalos de desempenho. √Äs vezes, os dados s√£o copiados de uma parte da mem√≥ria para outra, mas em outros casos, dois ou mais objetos podem compartilhar os mesmos dados, economizando tempo e mem√≥ria.

**View**: uma view √© uma visualiza√ß√£o supercial de uma Series ou um DataFrame. Qualquer altera√ß√£o que fizermos nessa view ser√° propagado para o objeto original.

**copy**: uma copy por outro lado √© uma c√≥pia profunda de uma Series ou um DataFrame. Qualquer altera√ß√£o que essa copy possa vir a sofrer n√£o ser√° propagado para o objeto original.

##  üëæ <font size=5>copy<font>

Algumas opera√ß√µes que fazemos com uma Series ou um DataFrame podem retorna uma view ou uma copy. Pra saber o que cada opera√ß√£o retorna a√≠ complica. Por isso o pandas tem o m√©todo **copy()** que serve para escolher se o objeto que vamos manusear no momento tem que ser uma view ou copy do objeto original.


### <font color=purple>_copy (_<font>
<br>
    
**deep** =  True<br> 

    
### <font color=purple>_)_<font>
<br>


### deep

O par√¢metro deep quando True (seu valor padr√£o), um novo objeto ser√° criado com uma c√≥pia profunda dos dados e √≠ndices do objeto original. Modifica√ß√µes nos dados ou √≠ndices da c√≥pia n√£o ser√£o refletidas no objeto original.

In [20]:
# Criando uma Series para testar deep=True
s = pd.Series('A B C D'.split())

# Criando uma c√≥pia profunda da Series
s_copy = s.copy()

In [21]:
# Alterando a s_copia para mostrar que nenhuma mudan√ßa feita em s_copia afetar√° s
s_copy[[0, 3]] = 'XX'

print(f'*s_copia*\n{s_copy}\n')
print(f'*s_original*\n{s}')

# O mesmo raciocinio serve para um dataframe

*s_copia*
0    XX
1     B
2     C
3    XX
dtype: object

*s_original*
0    A
1    B
2    C
3    D
dtype: object


 <br>

Quando deep = False, retorna um objeto que ser√° uma view (visualoza√ß√£o superficial) do objeto original. Modifica√ß√µes nos dados ou √≠ndices da **view** ser√£o refletidas no objeto original.

In [24]:
# Criando uma Series para testar deep=False
s = pd.Series('A B C D'.split())

# Criando uma visualisa√ß√£o superficial da Series
s_view = s.copy(deep=False)

In [26]:
# Qualquer altera√ß√£o que s_view sofrer s tamb√©m sofrer√°
s_view[[0, 3]] = 'XX'

print(f'*s_view*\n{s_view}\n')
print(f'*s_original*\n{s}')

# O mesmo raciocinio serve para um dataframe

*s_view*
0    XX
1     B
2     C
3    XX
dtype: object

*s_original*
0    XX
1     B
2     C
3    XX
dtype: object


<br>

Quando tentamos mudar o elemento de uma view por outro elemento que tenha o tipo de dado diferente essa view deixa de ser view e se torna uma copy. Caso os elementos tenham o mesmo tipo a view continua sendo view.

In [29]:
s = pd.Series(x for x in range(4))

# Criando uma view
s_view = s.copy(deep=False)

# Alterando elementos da view
s_view[[0, 3]] = 'A'

# Mostrando a view e a Series original
print(f'*s_view*\n{s_view}\n')
print(f'*s_original*\n{s}')

# Perceba que somente a view mudou, isso pq ela virou uma copy, devido a troca de elementos int por elementos str
# Esse mesmo processo n√£o funciona quando √© o inverso, ou seja, trocar elementos str por elementos de outro tipo.
# At√© podemos fazer a troca, mas view n√£o deixa de ser view.

*s_view*
0    A
1    1
2    2
3    A
dtype: object

*s_original*
0    0
1    1
2    2
3    3
dtype: int64


 <br>

# üéØ Dtype 

### sum√°rio
- O que √© um dtype e como ele funciona
- Os 4 principais tipos de dtype
- A import√¢ncia de uma Series n√£o ter o __dtype = object__.
- Apresentar os m√©todos astype, to_numeric, convert_dtypes.

Como sabemos, √© muito importante que cada elemento da coluna do nosso DataFrame possua o mesmo tipo de dado. Para que a coluna seja homog√™nea e assim podermor fazer muitas opera√ß√µes e com muita performance. Pois estaremos no nivel numpy de processamento.

J√° quando o tipo da coluna do DataFrame √© **object** significa que as opera√ß√µes que ser√£o feitas com essa coluna ser√£o bem limitadas e com pouca efici√™ncia, pois o numpy n√£o estar√° mais em a√ß√£o, mas sim o python.

O m√©todo **astype** nos permite definir o tipo de cada coluna do DataFrame. Bom √© isso o que queremos, cada coluna com um tipo especifico e que esse tipo n√£o seja object. Abaixo veja os par√¢metros que esse m√©todo recebe.

Esse assunto √© muito importante e precisa de muita aten√ß√£o para ser estudado. Pois no mundo real um cientista de dados lida na maioria das vezes com datasets que possuem dados ausentes. Os
dados ausentes podem ocorrer quando nenhuma informa√ß√£o √© fornecida para um ou mais itens ou para uma unidade inteira. 

Quando estamos trabalhando com o pandas, para o nosso DataFrame, o ideal √© que cada coluna tenha todos os elementos com o mesmo tipo de dado. E que cada tipo represente o tipo da vari√°vel. Por exemplo, o **tipo float** serve para representar vari√°veis como altura, renda e etc. 

Uma series que cont√©m string por padr√£o tem o tipo **object**. Esse tipo de comportamento tem haver com o numpy, pois como sabemos o **pandas usa o Numpy** por debaixo do capor. Uma Series com o **dtype** igual a **object** significa que a melhor representa√ß√£o de tipo comum que o Numpy pode inferir para o conte√∫do da Series, √© que eles s√£o objetos Python. Embora ter uma Series com esse dtype seja √∫til para alguns prop√≥sitos, qualquer opera√ß√£o nos dados ser√° feita no n√≠vel do Python, com muito mais sobrecarga do que as opera√ß√µes normalmente r√°pidas, vistas nos arrays nativos do Numpy.

##  üëæ <font size=5>astype<font>



### <font color=purple>_.astype (_<font>

**dtype**<br> 
**copy**   =  True<br>
**erros**  =  'raise'<br>

### <font color=purple>_)_<font>
<br>


### <font color=purple>dtype : str ou dict<font>

O par√¢metro dtype √© utilizado para espeficicar o tipo de dado que voc√™ quer for√ßar em determinada Series ou Dataframe. Podemos passar ao par√¢metro dtype um tipo de dado para ser for√ßado em um Series e tamb√©m num DataFrame por completo, ou seja, todas as colunas do DataFrame.

In [134]:
df = pd.DataFrame({'Nome':['Huan', 'Luigi', 'Lucas', np.nan, 'Ana'],
                   'Idade':[np.nan, 19, 18, 16, np.nan],
                   'Altura':[1.8, 1.78, np.nan, 1.83, 1.75]})

s = pd.Series(['Huan', 'Luigi', 'Lucas', np.nan, 'Ana'])


# Mudando o tipo de todas as colunas do df
df = df.astype(dtype='string') 

# Mudando o tipo da Series
s = s.astype(dtype='string')


#######################################################################
# Note que √© necess√°rio sobreescrever o DataFrame e a Series anterior #
#######################################################################


# Depois da mudan√ßa de tipo
print('**DataFrame**')
print(df.dtypes, '\n')

print('**Series**')
print(s.dtype)

**DataFrame**
Nome      string
Idade     string
Altura    string
dtype: object 

**Series**
string


O m√©todo **astype** aplicado em um DataFrame nos permite passar um dicinion√°rio ao par√¢metro **dtype**, onde cada chave do dicion√°rio corresponde ao nome de uma coluna do DataFrame e o valor de cada chave corresponde ao tipo de dado que deve ser for√ßado na coluna em espec√≠fico.

In [119]:
df = pd.DataFrame(
    data={'Nome'   : ['Huan', 'Luigi', 'Lucas', np.nan, 'Ana'],
          'Idade'  : [np.nan, 19, 18, 16, np.nan],
          'Altura' : [1.8, 1.78, np.nan, 1.83, 1.75]}
)


# Modificando o tipo de cada coluna do df
df = df.astype(
    dtype={'Nome'   : 'string',
           'Idade'  : 'Int64' ,
           'Altura' : 'Float64'}
)

# Tipo de cada coluna ap√≥s a mudan√ßa
df.dtypes

Nome       string
Idade       Int64
Altura    Float64
dtype: object


### <font color=purple>copy : bool<font>

O par√¢metro copy serve para definir se o retorno do par√¢metro ser√° uma copia profunda ou rasa do DataFrame original. Quando copy igual a **True** (o padr√£o) uma c√≥pia profunda do DataFrame original ser√° retornado. Quando copy igual a **False** uma c√≥pia rasa ser√° retornado.


### <font color=purple>errors : {‚Äòraise‚Äô, ‚Äòignore‚Äô}, default ‚Äòraise‚Äô<font>

Ao defini-lo como **' raise '**, permitimos que as exce√ß√µes sejam levantadas pela fun√ß√£o. Caso contr√°rio, podemos configur√°-lo para **' ignorar '**. Quando **errors = 'ignore'**, significa que qualquer exece√ß√£o √© ignorada e o objeto original √© retornado.

In [62]:
s = pd.Series(['Huan', 'Luigi', 'Lucas', np.nan, 'Ana'])
s1 = s.astype(dtype='Int64', errors='ignore')

<br>

Para contornar esse problema o pandas nos disponibiliza o tido de dado 'string'. Quando definimos que o tipo de dado da nossa Series deve ser 'String', por mais que ela tenha valores **NaN**, o seu tipo deixa de ser object e passa a ser 'string'.

In [70]:
# Series com valor vazio
s = pd.Series(['A', 'B', 'C', np.nan], dtype='string')

# Obeverve o dtype
s

0       A
1       B
2       C
3    <NA>
dtype: string

<br>

##  üëæ <font size=5>to_numeric<font>

##  üëæ <font size=5>convert_dtypes<font>

# üéØ Dados ausentes

Dados ausentes ...

##  üëæ <font size=5 >isna, isnull e notnull<font>

Existem 2 m√©todos utilizados para descobrir valores nulos dentro de uma Series. Os m√©todos s√£o **isna** e **isnull**. Os dois m√©todo quando uitlizados retornam uma series de tipo booleano indicando **True** quando um valor for nulo e **False** quando o contr√°rio.

In [71]:
x = pd.Series(['A', 'B', 'C', np.nan, np.nan, 'F'], dtype='string')

# Com isna
print(f'*Com isna*\n{x.isna()}', end='\n\n\n')

# Com isnull
print(f'*Com isnull*\n{x.isnull()}')

*Com isna*
0    False
1    False
2    False
3     True
4     True
5    False
dtype: bool


*Com isnull*
0    False
1    False
2    False
3     True
4     True
5    False
dtype: bool


 <br>

O m√©todo **notnull** funciona de forma contr√°ria, ou seja, quando **True** significa que naquela posi√ß√£o existe um dado real e quando **False** existe um dado ausente.

In [37]:
x.notnull()

0     True
1     True
2     True
3    False
4    False
5     True
dtype: bool

 <br>

Como a series retornada pelos m√©todos √© do tipo booleano, n√≥s podemos utilizar a fun√ß√£o soma para poder calcular quantos dados s√£o dados ausentes ou reais.

In [78]:
print('Quantidade de dados ausentes:', x.isna().sum())
print('Quantidade de dados n√£o ausentes:', x.notnull().sum())

Quantidade de dados ausentes: 2
Quantidade de dados n√£o ausentes: 4


 <br>

## üëæ <font size=5>dropna<font>

A m√©todo **dropna()** do Pandas  √© usado para remover linhas ou colunas com valores nulos. Por padr√£o, essa fun√ß√£o retorna um novo DataFrame e o DataFrame de origem permanece inalterado. A sintaxe do m√©todo **dropna()** √©:


### <font color=purple>_.dropna (_<font>

**axis**    =  0    <br> 
**how**     =  'Any'<br>
**subset**  =  None <br>
**inplace** =  False<br>
    
### <font color=purple>_)_<font>
<br>


### <font color=purple>axis : {0 or ‚Äòindex‚Äô, 1 or ‚Äòcolumns‚Äô}, default 0<font>

Esse par√¢metro serve para definir se a linha ou a coluna ser√° excluida. 0 para linha e 1  para coluna.

In [163]:
# Criando o  DataFrame com dados ausentes
df = pd.DataFrame({'Nome':['Huan', 'Luigi', 'Lucas', 'Marcos', 'Ana'],
                   'Idade':[np.nan, 19, 18, 16, np.nan],
                   'Altura':[np.nan, 1.78, np.nan, 1.83, 1.75],
                   'Sex': [np.nan, np.nan, np.nan, np.nan, np.nan]})
df

Unnamed: 0,Nome,Idade,Altura,Sex
0,Huan,,,
1,Luigi,19.0,1.78,
2,Lucas,18.0,,
3,Marcos,16.0,1.83,
4,Ana,,1.75,


In [103]:
# Excluindo as linhas que possuem valores ausentes
df.dropna(axis=0)

Unnamed: 0,Nome,Idade,Altura,Sex


In [104]:
# Excluindo as colunas que possuem valores ausentes
df.dropna(axis=1)

Unnamed: 0,Nome
0,Huan
1,Luigi
2,Lucas
3,Marcos
4,Ana


<br>


### <font color=purple>how : {‚Äòany‚Äô or ‚Äòall‚Äô}, default ‚Äòany‚Äô<font>

O par√¢metro how √© mais adequado para um DataFrame. Quando o par√¢metro **how** for igual a **'any'**, significa que a linha ou acoluna ser√° excluida se possuir um ou mais valores nulos. Quando o par√¢metro for igual a **'all'**, significa que a linha ou coluna ser√° excluida apenas se for composta inteiramente por valores nulos.

In [105]:
# Excluindo as linhas que possui 1 ou mais valores vazios
df.dropna(axis=0, how='any')

Unnamed: 0,Nome,Idade,Altura,Sex


In [106]:
# Excluindo as colunas que possui 1 ou mais valores vazios
df.dropna(axis=1, how='any')

Unnamed: 0,Nome
0,Huan
1,Luigi
2,Lucas
3,Marcos
4,Ana


In [107]:
# Excluindo as linhas que possui todos os valores vazios
df.dropna(axis=0, how='all')

Unnamed: 0,Nome,Idade,Altura,Sex
0,Huan,,,
1,Luigi,19.0,1.78,
2,Lucas,18.0,,
3,Marcos,16.0,1.83,
4,Ana,,1.75,


In [108]:
# Excluindo as colunas que possui todos os valores vazios
df.dropna(axis=1, how='all')

Unnamed: 0,Nome,Idade,Altura
0,Huan,,
1,Luigi,19.0,1.78
2,Lucas,18.0,
3,Marcos,16.0,1.83
4,Ana,,1.75


 <br>


### <font color=purple>subset  : column label or sequence of labels, optional<font>

O par√¢metro **subset** serve para:

- excluir linhas com base em uma coluna espec√≠fica ou mais de uma coluna. 
- excluir colunas com base em uma linha espec√≠fica ou mais de uma linha.

In [131]:
# df antes de excluir as linhas
df

Unnamed: 0,Nome,Idade,Altura,Sex
0,Huan,,,
1,Luigi,19.0,1.78,
2,Lucas,18.0,,
3,Marcos,16.0,1.83,
4,Ana,,1.75,


Vamos escluir as linhas com base na coluna **Altura**. Ou seja, cada linha da coluna **Altura** que conter valor nulo ser√° excluida.

In [147]:
df.dropna(axis=0, subset=['Altura'])

Unnamed: 0,Nome,Idade,Altura,Sex
1,Luigi,19.0,1.78,
3,Marcos,16.0,1.83,
4,Ana,,1.75,


Vamos escluir as linhas com base na coluna **Altura** e **Idade**. Ou seja, cada linha da coluna **Altura** e da coluna **Idade** que conter valor nulo ser√° excluida.

In [135]:
df.dropna(axis=0, subset=['Altura', 'Idade'])

Unnamed: 0,Nome,Idade,Altura,Sex
1,Luigi,19.0,1.78,
3,Marcos,16.0,1.83,


Vamos escluir as coluna com base na **primeira linha do df**. Ou seja, cada coluna da **primeira linha do df** que conter valor nulo ser√° excluida.

In [137]:
df.dropna(axis=1, subset=[0])

Unnamed: 0,Nome
0,Huan
1,Luigi
2,Lucas
3,Marcos
4,Ana


Vamos escluir as coluna com base na **primeira linha do df** e na **quinta linha do df**. Ou seja, cada coluna da **primeira linha do df** e da **primeira linha do df** que conter valor nulo ser√° excluida.

In [152]:
df.dropna(axis=1, subset=[0, 4])

Unnamed: 0,Nome
0,Huan
1,Luigi
2,Lucas
3,Marcos
4,Ana


<br>


### <font color=purple>implace  : bool, default False<font>

Quando True, o DataFrame de origem √© alterado. Quando False, um novo DataFrame √© retornado.

In [157]:
# Um novo DataFrame √© retornado
df_novo = df.dropna(axis=0, inplace=False)
df_novo

Unnamed: 0,Nome,Idade,Altura,Sex


Vamos escluir as coluna com base na **primeira linha do df**. Ou seja, cada coluna da **primeira linha do df** que conter valor nulo ser√° excluida.

In [159]:
# O DataFrame original √© alterado
df.dropna(axis=0, inplace=True)
df

Unnamed: 0,Nome,Idade,Altura,Sex


<br>

## üëæ <font size=5>fillna<font>

## üëæ <font size=5>replace<font>

## üëæ <font size=5>interpolate<font>