# Tratamento dos dados: Projeto Chuva

### Informações do dataset

#### Fontes

- http://www.hidrologia.daee.sp.gov.br/

- http://www.daee.sp.gov.br/site/

#### Informações Gerais

- PREFIXO: 	E3-262

- NOME DO POSTO: 	GUARAU

- MUNICÍPIO: 	SAO PAULO	

- CURSO D'ÁGUA: 	CABUCU DE BAIXO,R/(ITAGUACU,COR)

- LATITUDE: 	23°26'33"

- LONGITUDE: 	46°39'01"

- DADOS DE 1985 A 2021

In [13]:
import numpy as np
import pandas as pd

## **Análise e Tratamento Inicial**

In [14]:
chuva = pd.read_csv('E3-262_Chuva_Mensal.csv', sep=';')
chuva.head()

Unnamed: 0,Ano,Janeiro,Fevereiro,Março,Abril,Maio,Junho,Julho,Agosto,Setembro,Outubro,Novembro,Dezembro
0,1985,1849,2429,230,59,1262,146,4,218,1261,711,1113,1552
1,1986,1996,221,2187,1065,1131,39,303,---,345,607,2425,3899
2,1987,5258,---,1613,981,2938,1839,118,309,802,848,727,1521
3,1988,2687,2244,1892,1751,2249,586,13,02,284,1739,1002,2898
4,1989,3129,3443,2882,663,217,525,1501,329,521,801,88,2367


In [15]:
chuva.shape

(38, 13)

In [16]:
# análise dos tipos de atributos.
# object: strings
# int64: inteiros
# float64: reais
# complex: complexos
chuva.dtypes

Ano          object
Janeiro      object
Fevereiro    object
Março        object
Abril        object
Maio         object
Junho        object
Julho        object
Agosto       object
Setembro     object
Outubro      object
Novembro     object
Dezembro     object
dtype: object

In [17]:
# substituindo as vírgulas por pontos
chuva = chuva.apply(lambda x: x.str.replace(',','.'))
chuva.head()




# função lambda é chamada de função anônima (simplifica a escrita da função)
# sem a função lambda, seria dessa forma:

# # Defina uma função para substituir vírgulas por pontos
#           def substituir_virgulas_por_pontos(valor):
#               return valor.str.replace(',', '.')

# # Aplique a função a todas as colunas do DataFrame
#           chuva = chuva.apply(substituir_virgulas_por_pontos)

Unnamed: 0,Ano,Janeiro,Fevereiro,Março,Abril,Maio,Junho,Julho,Agosto,Setembro,Outubro,Novembro,Dezembro
0,1985,184.9,242.9,230.0,59.0,126.2,14.6,4.0,21.8,126.1,71.1,111.3,155.2
1,1986,199.6,221,218.7,106.5,113.1,3.9,30.3,---,34.5,60.7,242.5,389.9
2,1987,525.8,---,161.3,98.1,293.8,183.9,11.8,30.9,80.2,84.8,72.7,152.1
3,1988,268.7,224.4,189.2,175.1,224.9,58.6,1.3,0.2,28.4,173.9,100.2,289.8
4,1989,312.9,344.3,288.2,66.3,21.7,52.5,150.1,32.9,52.1,80.1,88.0,236.7


In [18]:
# também é possível mostrar os dados com print
print(chuva)

         Ano Janeiro Fevereiro   Março  Abril   Maio  Junho  Julho Agosto  \
0       1985   184.9     242.9     230     59  126.2   14.6      4   21.8   
1       1986   199.6       221   218.7  106.5  113.1    3.9   30.3    ---   
2       1987   525.8       ---   161.3   98.1  293.8  183.9   11.8   30.9   
3       1988   268.7     224.4   189.2  175.1  224.9   58.6    1.3    0.2   
4       1989   312.9     344.3   288.2   66.3   21.7   52.5  150.1   32.9   
5       1990   284.1     196.9   310.1   85.8   77.9   50.6  121.2   76.3   
6       1991   330.7     340.3   522.4  200.3   43.3   96.8   28.2   37.3   
7       1992   129.2     258.5     ---   87.2   93.5   11.6   40.9   24.7   
8       1993   221.5     225.7     110   84.6  133.9   74.7   11.2   40.8   
9       1994   196.9     184.4   231.6  111.4   54.9   30.5   39.2    2.4   
10      1995   373.8     383.1   267.7   73.9   79.7   31.2   46.8    1.5   
11      1996   334.3     376.5   284.5   42.3   21.7   45.1   12.2   41.2   

In [19]:
chuva.dtypes

Ano          object
Janeiro      object
Fevereiro    object
Março        object
Abril        object
Maio         object
Junho        object
Julho        object
Agosto       object
Setembro     object
Outubro      object
Novembro     object
Dezembro     object
dtype: object

In [20]:
# transformar variáveis categóricas em numéricas e substituir os traços pela média,
## pois se simplesmente excluir esses dados nós vamos perder muitos dados


# transformando a variável Janeiro como variável numérica e trocando '---' pela média que visualizamos no print(chuva)
chuva['Janeiro'] =  pd.to_numeric(chuva['Janeiro'].str.replace('---', '305.79'))
print(chuva)

         Ano  Janeiro Fevereiro   Março  Abril   Maio  Junho  Julho Agosto  \
0       1985   184.90     242.9     230     59  126.2   14.6      4   21.8   
1       1986   199.60       221   218.7  106.5  113.1    3.9   30.3    ---   
2       1987   525.80       ---   161.3   98.1  293.8  183.9   11.8   30.9   
3       1988   268.70     224.4   189.2  175.1  224.9   58.6    1.3    0.2   
4       1989   312.90     344.3   288.2   66.3   21.7   52.5  150.1   32.9   
5       1990   284.10     196.9   310.1   85.8   77.9   50.6  121.2   76.3   
6       1991   330.70     340.3   522.4  200.3   43.3   96.8   28.2   37.3   
7       1992   129.20     258.5     ---   87.2   93.5   11.6   40.9   24.7   
8       1993   221.50     225.7     110   84.6  133.9   74.7   11.2   40.8   
9       1994   196.90     184.4   231.6  111.4   54.9   30.5   39.2    2.4   
10      1995   373.80     383.1   267.7   73.9   79.7   31.2   46.8    1.5   
11      1996   334.30     376.5   284.5   42.3   21.7   45.1   1

In [21]:
# transformando todas as variáveis categóricas em numéricas e substituir os traços pela média
chuva['Fevereiro'] =  pd.to_numeric(chuva['Fevereiro'].str.replace('---', '249.3'))
chuva['Março'] =  pd.to_numeric(chuva['Março'].str.replace('---', '227.97'))
chuva['Abril'] =  pd.to_numeric(chuva['Abril'].str.replace('---', '93.64'))
chuva['Maio'] =  pd.to_numeric(chuva['Maio'].str.replace('---', '86.67'))
chuva['Junho'] =  pd.to_numeric(chuva['Junho'].str.replace('---', '59.66'))
chuva['Julho'] =  pd.to_numeric(chuva['Julho'].str.replace('---', '54.6'))
chuva['Agosto'] =  pd.to_numeric(chuva['Agosto'].str.replace('---', '27.85'))
chuva['Setembro'] =  pd.to_numeric(chuva['Setembro'].str.replace('---', '83.8'))
chuva['Outubro'] =  pd.to_numeric(chuva['Outubro'].str.replace('---', '139.89'))
chuva['Novembro'] =  pd.to_numeric(chuva['Novembro'].str.replace('---', '145.04'))
chuva['Dezembro'] =  pd.to_numeric(chuva['Dezembro'].str.replace('---', '236.04'))
print(chuva)

         Ano  Janeiro  Fevereiro   Março   Abril    Maio   Junho  Julho  \
0       1985   184.90      242.9  230.00   59.00  126.20   14.60    4.0   
1       1986   199.60      221.0  218.70  106.50  113.10    3.90   30.3   
2       1987   525.80      249.3  161.30   98.10  293.80  183.90   11.8   
3       1988   268.70      224.4  189.20  175.10  224.90   58.60    1.3   
4       1989   312.90      344.3  288.20   66.30   21.70   52.50  150.1   
5       1990   284.10      196.9  310.10   85.80   77.90   50.60  121.2   
6       1991   330.70      340.3  522.40  200.30   43.30   96.80   28.2   
7       1992   129.20      258.5  227.97   87.20   93.50   11.60   40.9   
8       1993   221.50      225.7  110.00   84.60  133.90   74.70   11.2   
9       1994   196.90      184.4  231.60  111.40   54.90   30.50   39.2   
10      1995   373.80      383.1  267.70   73.90   79.70   31.20   46.8   
11      1996   334.30      376.5  284.50   42.30   21.70   45.10   12.2   
12      1997   235.00    

In [22]:
chuva.dtypes

Ano           object
Janeiro      float64
Fevereiro    float64
Março        float64
Abril        float64
Maio         float64
Junho        float64
Julho        float64
Agosto       float64
Setembro     float64
Outubro      float64
Novembro     float64
Dezembro     float64
dtype: object

In [23]:
# excluindo as duas últimas linhas
chuva2 = chuva.drop([36,37])
print(chuva2)

     Ano  Janeiro  Fevereiro   Março  Abril   Maio   Junho  Julho  Agosto  \
0   1985   184.90      242.9  230.00   59.0  126.2   14.60    4.0   21.80   
1   1986   199.60      221.0  218.70  106.5  113.1    3.90   30.3   27.85   
2   1987   525.80      249.3  161.30   98.1  293.8  183.90   11.8   30.90   
3   1988   268.70      224.4  189.20  175.1  224.9   58.60    1.3    0.20   
4   1989   312.90      344.3  288.20   66.3   21.7   52.50  150.1   32.90   
5   1990   284.10      196.9  310.10   85.8   77.9   50.60  121.2   76.30   
6   1991   330.70      340.3  522.40  200.3   43.3   96.80   28.2   37.30   
7   1992   129.20      258.5  227.97   87.2   93.5   11.60   40.9   24.70   
8   1993   221.50      225.7  110.00   84.6  133.9   74.70   11.2   40.80   
9   1994   196.90      184.4  231.60  111.4   54.9   30.50   39.2    2.40   
10  1995   373.80      383.1  267.70   73.9   79.7   31.20   46.8    1.50   
11  1996   334.30      376.5  284.50   42.3   21.7   45.10   12.2   41.20   

In [24]:
chuva2.to_csv('chuva_tratado.csv', index = False) # index = false para não incluir um índice