# Análise da turbina eólica

## Introdução

O concreto é o material mais importante na engenharia civil. A resistência à compressão do concreto é uma função altamente não linear da idade e dos ingredientes. Esses ingredientes incluem cimento, escória de alto forno, cinzas volantes, água, superplastificante, agregado graúdo e agregado miúdo.

Este material encontra-se dividido em três etapas: 
* 1ª Etapa: Tratamento dos dados;
* 2ª Etapa: Análises dos dados e conclusões;
* 3º Etapa: Clustering;
* 3º Etapa: Modelagem preditiva.

## Objeto de análise:

O objetivo dessa análise é criar um modelo para prever o valor de resistência à compressão do concreto. A constituição básico do concreto é:

$Concreto = Cimento + H_{2}O + Agregado_{miudo} + Agregado_{graudo}$

O dimensionamento da resistência à compressão do concreto acontece em classes, isto é, [..., 20, 25, 30, ...].

**A dosagem do concreto está relacionado com:**

* $f_{ck}$  do cimento;
* Eficiência da cura;
* Dosagem de água;
* etc...

`Resistência a compressão:` é o principal parâmetro de estruturas de concreto. No dimensionamento do concreto escolhe-se o valor da resistência referente ao cimento, isto é, deseja-se um concreto com $f_{ck} = 25$, então utiliza-se um cimento de resistência 25 e, por fim, dimensiona-seo 


## Objetivos

Os objetivos da análise são:

* Encontrar as variáveis mais correlacionadas;
* Encotrar padrões para os valores da resistência do concreto à compressão
* Encontrar o melhor modelo preditivo;

## Informações sobre o dataset e limitações

O dataset nos forcene os seguintes dados:

Attribute Information
* Cimento : medido em $kg/m^{3}$
* Escória: medido em $kg/m^{3}$
* Cinza volante : medido em $kg/m^{3}$
* Água : medido em $kg/m^{3}$
* Super plastificante : medido em $kg/m^{3}$
* Agregado graúdo : medido em $kg/m^{3}$
* Agregado miúdo : medido em $kg/m^{3}$
* Idade : medido em dias (1~365)
* Resistência da compressão do concreto: medido em $MPa$


**FONTE:**
* https://www.kaggle.com/vinayakshanawad/cement-manufacturing-concrete-dataset
* https://www.kaggle.com/fahadmehfoooz/santader-customer-transaction-classification
*


**LIMITAÇÕES DA ANÁLISE:**
* O dataset não informa o valor do $f_{ck}$ do cimento utilizado.
* O valor do $f_{ck}$ do cimento é a variável mais importante na hora do dimensionamento do concreto, por isso, provavelmente, os modelos regressivos não serão eficientes.

## Metodologia
* Para as análises e limpezada dos dados foi utilizada a linguagem de programação Python com a interface do Jupyter.

* Para as análises estatísticas foram utilizadas bibliotecas do Python.

## Importações iniciais

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import itertools

# configurações
import warnings
warnings.filterwarnings('ignore')


# Análise de dados

In [2]:
train = pd.read_csv("dados/train.csv")
test = pd.read_csv("dados/test.csv")

FileNotFoundError: [Errno 2] No such file or directory: 'dados/train.csv'

In [None]:
train.head()

In [None]:
train.shape

In [None]:
train.isnull().sum().sum()

In [None]:
train.target.value_counts()

In [None]:
train.duplicated().sum()