Analise de dados Centro Nacional de Adoção
======================================


Autores:
-----------------------
Bruna Larissa C. Gomes

Kleber

Thales Guilherme

1º ADS - Turma B

In [1]:
import pandas as pd
from pandas import Series, DataFrame as df

import seaborn as sb
import numpy as np
import plotly.offline as py
import plotly.graph_objs as go
import matplotlib.pyplot as plt

%matplotlib inline
py.init_notebook_mode(connected = True)


Crianças para adoção
==================

**OBJETIVOS**

* Leitura da 1ª tabela com relatório de crianças
* Manipulação e formatação dos dados da tabela
* Utilização de DataFrames
* Apresentação dos gráficos utilizando a biblioteca Plotly


In [2]:
#Leitura do arquivo 'Relatório_De_Criancas.xlsx' utilizando delimitadores
tabela1 = pd.read_excel('Relatorio_De_Criancas.xlsx')

#Substituindo espaços sem conteudo (N/A) por string vazia
tabela1 = tabela1.fillna('')

tabela1

Unnamed: 0,Título,Total,Porcentagem
0,Total de crianças/adolescentes cadastradas:,9536,1
1,Total de crianças/adolescentes da raça branca:,3151,33.04%
2,Total de crianças/adolescentes da raça negra:,1585,16.62%
3,Total de crianças/adolescentes da raça amarela:,19,0.2%
4,Total de crianças/adolescentes da raça parda:,4750,49.81%
5,Total de crianças/adolescentes da raça indígena:,31,0.33%
6,Total de crianças/adolescentes que possuem irmãos,,
7,Total que não possuem irmãos:,4262,44.69%
8,Total que possuem irmãos:,5274,55.31%
9,Total de crianças/adolescentes que possuem pro...,2461,25.81%


In [3]:
#Criando um dataframe da tabela em uma posição específica
df = pd.DataFrame(tabela1[65:93])
df.columns = ['Título','Total', 'Porcentagem']

#Criando gráfico
trace = go.Bar(x = ['AC','AL','AM','AP','BA','CE','DF','ES','GO','MA','MG','MS','MT','PA','PB','PE','PI','PR','RJ','RN','RO','RR','RS','SC','SE','SP','TO'],
                  y = df['Total'] )

#Armazenando gráfico na variável data
data = [trace]

#Criando Layout
layout = go.Layout(title = 'Numero de crianças para adoção',
                  yaxis = {'title':'Quantidade de crianças'},
                  xaxis = {'title': 'estados do Brasil'})

#Criando figura que será exibida
fig = go.Figure(data = data, layout = layout)

#Exibindo figura
py.iplot(fig)

In [4]:
df.describe()

Unnamed: 0,Título,Total,Porcentagem
count,28,28.0,28
unique,28,26.0,26
top,Total de crianças do AP:,72.0,0.76%
freq,1,2.0,2


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28 entries, 65 to 92
Data columns (total 3 columns):
Título         28 non-null object
Total          28 non-null object
Porcentagem    28 non-null object
dtypes: object(3)
memory usage: 378.0+ bytes


In [6]:
df.sample(10)

Unnamed: 0,Título,Total,Porcentagem
71,Total de crianças do DF:,168,1.76%
67,Total de crianças do AM:,72,0.76%
85,Total de crianças do RO:,74,0.78%
77,Total de crianças do MT:,119,1.25%
86,Total de crianças do RR:,3,0.03%
78,Total de crianças do PA:,105,1.1%
73,Total de crianças do GO:,194,2.03%
83,Total de crianças do RJ:,933,9.78%
91,Total de crianças do TO:,42,0.44%
76,Total de crianças do MS:,340,3.57%


Indice de Natalidade nos Municipios de São Paulo 2017
=======================================


In [7]:
tabela2 = pd.read_excel('NatalidadeSP.xlsx')
tabela2.head(10)

Unnamed: 0,Município,Nascim p/resid.mãe
0,TOTAL,611803
1,350010 Adamantina,344
2,350020 Adolfo,38
3,350030 Aguaí,436
4,350040 Águas da Prata,79
5,350050 Águas de Lindóia,239
6,350055 Águas de Santa Bárbara,71
7,350060 Águas de São Pedro,37
8,350070 Agudos,577
9,350075 Alambari,70


In [8]:
#Criando DataFrame da coluna
df2 = pd.DataFrame(tabela2[1:])

#Renomeando colunas da tabela
df2.columns=['Municipio','Nascimentos']

In [9]:
print(sum(df2['Nascimentos']))

611803


In [10]:
df2.sample(10)

Unnamed: 0,Municipio,Nascimentos
416,353670 Pederneiras,531
194,351680 Gastão Vidigal,49
3,350030 Aguaí,436
384,353380 Óleo,27
126,351100 Castilho,246
343,353030 Mirassol,722
197,351700 Getulina,100
645,355715 Zacarias,24
346,353060 Mogi das Cruzes,6345
451,354020 Pontal,560


In [104]:
df2.describe()

Unnamed: 0,Nascimentos
count,646.0
mean,947.063467
std,6844.219317
min,5.0
25%,67.0
50%,154.0
75%,501.5
max,169299.0


In [11]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 646 entries, 1 to 646
Data columns (total 2 columns):
Municipio      646 non-null object
Nascimentos    646 non-null int64
dtypes: int64(1), object(1)
memory usage: 7.6+ KB


Pretendentes adotivos
===================================

In [12]:
tabela3 = pd.read_excel('Relatorio_De_Pret.xlsx')
tabela3.head(10)

Unnamed: 0,Título,Total,Porcentagem
0,Total de pretendentes cadastrados:,46036.0,1
1,Total de pretendentes que somente aceitam cria...,6773.0,14.71%
2,Total de pretendentes que somente aceitam cria...,359.0,0.78%
3,Total de pretendentes que somente aceitam cria...,45.0,0.1%
4,Total de pretendentes que somente aceitam cria...,1849.0,4.02%
5,Total de pretendentes que somente aceitam cria...,24.0,0.05%
6,Total de pretendentes que aceitam crianças da ...,42575.0,92.48%
7,Total de pretendentes que aceitam crianças da ...,25974.0,56.42%
8,Total de pretendentes que aceitam crianças da ...,26969.0,58.58%
9,Total de pretendentes que aceitam crianças da ...,38278.0,83.15%


In [13]:
df3 = pd.DataFrame(tabela3[72:99])
df3.columns = ['Título','Total', 'Porcentagem']

trace = go.Bar(x = ['AC','AL','AM','AP','BA','CE','DF','ES','GO','MA','MG','MS','MT','PA','PB','PE','PI','PR','RJ','RN','RO','RR','RS','SC','SE','SP','TO'],
                  y = df3['Total'] )

data2 = [trace]

layout = go.Layout(title = 'Numero de pretendentes',
                  yaxis = {'title':'Quantidade de pretendentes'},
                  xaxis = {'title': 'estados do Brasil'})

fig = go.Figure(data = data, layout = layout)

py.iplot(fig)

In [98]:
df3.sample(10)

Unnamed: 0,Título,Total,Porcentagem
85,Total de pretendentes do PA:,345.0,0.75%
98,Total de pretendentes do TO:,228.0,0.5%
95,Total de pretendentes do SC:,2793.0,6.07%
96,Total de pretendentes do SE:,518.0,1.13%
87,Total de pretendentes do PE:,1303.0,2.83%
81,Total de pretendentes do MA:,274.0,0.6%
86,Total de pretendentes do PB:,621.0,1.35%
74,Total de pretendentes do AM:,171.0,0.37%
80,Total de pretendentes do GO:,1446.0,3.14%
73,Total de pretendentes do AL:,424.0,0.92%


In [14]:
df3.describe()

Unnamed: 0,Total
count,27.0
mean,1705.037037
std,2547.302155
min,81.0
25%,324.5
50%,621.0
75%,1470.5
max,11071.0


In [15]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 72 to 98
Data columns (total 3 columns):
Título         27 non-null object
Total          27 non-null float64
Porcentagem    27 non-null object
dtypes: float64(1), object(2)
memory usage: 474.0+ bytes
