# Fazendo Analise de dados SÓ com Python (Just Python)

Vamos fazer uma pequena demonstração... vamos analisar o dataset do naufrágio do Titanic somente com Python sem utilizar nenhuma lib ou framework.

Assim deixando com curiosidade para conhecer ou como funcionam as famosas bibliotecas de análise de dados em python e tambem conhecer mais sobre o que é possível fazer fazer somente com python.

----
*Dataset originalmente diponibilizado na Kaggle [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic).*

----

Autor: [Cesar Bruschetta](https://www.linkedin.com/in/cesarbruschetta/)


### Import dos Modulos

In [0]:
# Modulos básicos para leitura do DataSet
import csv
import io
import urllib

In [0]:
# Modulo para cálculos e manipulação de Iterables
import statistics
from itertools import groupby
from operator import itemgetter
from functools import partial

### Leitura do DataSet

In [0]:
# URL do CSV do dados do passageiro do Titanic
url_dataFrame = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"

# Recebendo os dados do URL
with urllib.request.urlopen(url_dataFrame) as handler:
    data = io.StringIO(handler.read().decode())       

# Carregando dados do CSV e converter o obj `DictReader` para uma lista
reader = list(csv.DictReader(data))

### Exibição dos primeiro dados do DataSet (*Like a df.head()*)

In [4]:
for i in reader[1:5]:
    print(i)

OrderedDict([('PassengerId', '2'), ('Survived', '1'), ('Pclass', '1'), ('Name', 'Cumings, Mrs. John Bradley (Florence Briggs Thayer)'), ('Sex', 'female'), ('Age', '38'), ('SibSp', '1'), ('Parch', '0'), ('Ticket', 'PC 17599'), ('Fare', '71.2833'), ('Cabin', 'C85'), ('Embarked', 'C')])
OrderedDict([('PassengerId', '3'), ('Survived', '1'), ('Pclass', '3'), ('Name', 'Heikkinen, Miss. Laina'), ('Sex', 'female'), ('Age', '26'), ('SibSp', '0'), ('Parch', '0'), ('Ticket', 'STON/O2. 3101282'), ('Fare', '7.925'), ('Cabin', ''), ('Embarked', 'S')])
OrderedDict([('PassengerId', '4'), ('Survived', '1'), ('Pclass', '1'), ('Name', 'Futrelle, Mrs. Jacques Heath (Lily May Peel)'), ('Sex', 'female'), ('Age', '35'), ('SibSp', '1'), ('Parch', '0'), ('Ticket', '113803'), ('Fare', '53.1'), ('Cabin', 'C123'), ('Embarked', 'S')])
OrderedDict([('PassengerId', '5'), ('Survived', '0'), ('Pclass', '3'), ('Name', 'Allen, Mr. William Henry'), ('Sex', 'male'), ('Age', '35'), ('SibSp', '0'), ('Parch', '0'), ('Ticket'

### Dados Principais Absolutos


In [5]:
total_passageiros = len(reader)

total_male = len(list(filter(lambda i: i["Sex"] == "male", reader)))

total_female = len(list(filter(lambda i: i["Sex"] == "female", reader)))

total_1_classe = len(list(filter(lambda i: i["Pclass"] == "1", reader)))

total_2_classe = len(list(filter(lambda i: i["Pclass"] == "2", reader)))

total_3_classe = len(list(filter(lambda i: i["Pclass"] == "3", reader)))

print(
    f"Total de passageiros: \t\t\t{total_passageiros}\n"
    f"Total de passageiros Homens: \t\t{total_male}\n"
    f"Total de passageiros Mulheres: \t\t{total_female}\n"
    f"Total de passageiros na 1º classe: \t{total_1_classe}\n"
    f"Total de passageiros na 2º classe: \t{total_2_classe}\n"
    f"Total de passageiros na 3º classe: \t{total_3_classe}"
    )

Total de passageiros: 			891
Total de passageiros Homens: 		577
Total de passageiros Mulheres: 		314
Total de passageiros na 1º classe: 	216
Total de passageiros na 2º classe: 	184
Total de passageiros na 3º classe: 	491


Dados Principais em Proporção *(%)*

In [6]:
# Função de calcular a porcentagem e arredondar para 2 casas decimais
calc_percentil = partial(
    lambda d,t: round(( d * 100 ) / t, 2), 
    t=total_passageiros
)

porcent_total_male = calc_percentil(total_male)
porcent_total_female = calc_percentil(total_female)
porcent_total_1_classe = calc_percentil(total_1_classe)
porcent_total_2_classe = calc_percentil(total_2_classe)
porcent_total_3_classe = calc_percentil(total_3_classe)

print(
    f"Porcentagem de passageiros Homens: \t\t{porcent_total_male}\n"
    f"Porcentagem de passageiros Mulheres: \t\t{porcent_total_female}\n"
    f"Porcentagem de passageiros na 1º classe \t{porcent_total_1_classe}\n"
    f"Porcentagem de passageiros na 2º classe \t{porcent_total_2_classe}\n"
    f"Porcentagem de passageiros na 3º classe \t{porcent_total_3_classe}"
)

Porcentagem de passageiros Homens: 		64.76
Porcentagem de passageiros Mulheres: 		35.24
Porcentagem de passageiros na 1º classe 	24.24
Porcentagem de passageiros na 2º classe 	20.65
Porcentagem de passageiros na 3º classe 	55.11


### Analise dos Sobreviventes 

In [7]:
# Absolutos
survived = len(list(filter(lambda i: i["Survived"] == "1", reader)))

not_survived = len(list(filter(lambda i: i["Survived"] == "0", reader)))

# porcentagem 
porcent_survived = calc_percentil(survived)
porcent_not_survived = calc_percentil(not_survived)

print(
    f"Sobreviventes: \t\t{survived} ({porcent_survived}%)\n"
    f"Não sobreviventes: \t{not_survived} ({porcent_not_survived}%)"
)

Sobreviventes: 		342 (38.38%)
Não sobreviventes: 	549 (61.62%)


### Analise dos Dados Agrupados

In [8]:
# Função para calculara a porcentagem dos sobreviventes
calc_percentil_survived = partial(
    lambda d,t: round(( d * 100 ) / t, 2), 
    t=survived
)

# Função para calculara a porcentagem dos Não sobreviventes
calc_percentil_not_survived = partial(
    lambda d,t: round(( d * 100 ) / t, 2), 
    t=not_survived
)

# Função para buscar 2 chaves no dicionario e usar como agrupamento
key_f = itemgetter("Survived", "Sex") 

# Pulo do Gato ( deve estar ordenado e remover a ultima linha que é o "cabeçalho")
reader = sorted(reader, key=key_f)[:-1]

 # Agrupa todas as linhas que tem o mesmo valor na coluna ("Survived", "Sex")
groups_class = groupby(reader, key_f)

for i, items in groups_class:
    count = len(list(items))
    print ("Survived: ", i, "\t" , count, "\t" , 
           calc_percentil_survived(count) 
           if int(i[0]) else calc_percentil_not_survived(count), "%")


Survived:  ('0', 'female') 	 81 	 14.75 %
Survived:  ('0', 'male') 	 468 	 85.25 %
Survived:  ('1', 'female') 	 233 	 68.13 %
Survived:  ('1', 'male') 	 108 	 31.58 %


### Visualização dos dados

Para visualização do dados em formato de grafico eu utilizei uma projeto que achei no GitHub que segue a mesma ideia da nossa aprentação..., usar somente python

```
PlainChart

A text-based, no-dependencies, pip-installable, open-source charting utility in Python.
```
https://github.com/gduverger/plainchart


In [9]:
# Mecanismo para clonar o reporitorio externo no no Colab
# Isso pode depender do mecanismo utilizado para executar no Notebook

!git clone https://github.com/gduverger/plainchart.git

Cloning into 'plainchart'...
remote: Enumerating objects: 57, done.[K
Unpacking objects:   1% (1/57)   Unpacking objects:   3% (2/57)   Unpacking objects:   5% (3/57)   Unpacking objects:   7% (4/57)   Unpacking objects:   8% (5/57)   Unpacking objects:  10% (6/57)   Unpacking objects:  12% (7/57)   Unpacking objects:  14% (8/57)   Unpacking objects:  15% (9/57)   Unpacking objects:  17% (10/57)   Unpacking objects:  19% (11/57)   Unpacking objects:  21% (12/57)   Unpacking objects:  22% (13/57)   Unpacking objects:  24% (14/57)   Unpacking objects:  26% (15/57)   Unpacking objects:  28% (16/57)   Unpacking objects:  29% (17/57)   Unpacking objects:  31% (18/57)   Unpacking objects:  33% (19/57)   Unpacking objects:  35% (20/57)   Unpacking objects:  36% (21/57)   Unpacking objects:  38% (22/57)   Unpacking objects:  40% (23/57)   Unpacking objects:  42% (24/57)   Unpacking objects:  43% (25/57)   Unpacking objects:  45% (26/57)   Unpacking objects:  47% (27/

In [0]:
# Adicionando o pasta do projeto `plainchart` ao sys.path
# para que o python reconheça e possa carregar

import sys
sys.path.append('/content/plainchart/plainchart')

# Carregando o Modulo do `PlainChart`
import json
import plainchart

In [11]:
# Agrupando a Idade dos passageiros
key_f = itemgetter("Age") 
reader = sorted(reader, key=key_f)[:-1]
groups_ages = groupby(reader, key_f)

# Grupos Absolutos 
passengers_age = {
    float(i): len(list(items)) 
    for i, items in groups_ages
    if i 
}
print("Exemplo:")
print("Quantidade de Passageiros com 10 anos: ", passengers_age[10.0])

Exemplo:
Quantidade de Passageiros com 10 anos:  2


In [0]:
# Função para agrupamentos das Chaves do dicionario `passengers_age``
# Essa função retornara uma lista de lista com as chaves de 0-9 
# EX:
# [[10.0, 11.0, 12.0, 13.0, 14.0, 14.5, 15.0, 16.0, 17.0, 18.0, 19.0],
# [20.0, 21.5, 25.0 29.0]]

def group_by_10s(mylist):
    result = []
    decade = -1
    for i in sorted(mylist):
        while i // 10 != decade:
            result.append([])
            decade += 1
        result[-1].append(i)
    return result

In [13]:
# Agrupando as Idades e o valores do Passageiros do Titanic

labels = group_by_10s(passengers_age.keys())

age = {
    "%s - %s" %(l[0],l[-1]) : sum(
        [ passengers_age[i] for i in l ]
    )
    for l in labels
}

# Carregando o Grafico 
chart = plainchart.PlainChart(age.values())
print(chart.render())

print(json.dumps(
    age, indent=4
))

  ▌      
  ▌      
  ▌▌     
  ▌▌     
  ▌▌     
 ▌▌▌     
 ▌▌▌▌    
▌▌▌▌▌    
▌▌▌▌▌▌   
▌▌▌▌▌▌▌  
{
    "0.42 - 9.0": 61,
    "10.0 - 19.0": 102,
    "20.0 - 29.0": 219,
    "30.0 - 39.0": 167,
    "40.0 - 49.0": 89,
    "50.0 - 59.0": 48,
    "60.0 - 66.0": 19,
    "70.0 - 74.0": 6,
    "80.0 - 80.0": 1
}
