# Relatório Data Quality

Após a integração e exploração dos dados do site de e-commerce, você identificou várias inconsistências e dados faltantes que podem impactar negativamente a performance dos modelos de IA e a experiência de compra dos clientes. 
- Como você abordaria a melhoria da qualidade desses dados utilizando as ferramentas e práticas recomendadas pela Dadosfera?

Resposta: Garantir a alta qualidade de dados é fundamental para otimizar a gestão do e-commerce e aumentar a conversão de vendas. Dessa forma, para melhorar a qualidade dos nossos dados devemos seguir as etapas a seguir:
1. Avaliar a qualidade dos dados atuais:
    - Realizar uma análise detalhada dos dados existentes, para identificar inconsistências, erros e lacunas.
    - Verificar a integridade, precisão e confiabilidade dos dados.
2. Fazer uma limpeza de dados:
    - Remover os registros duplicados, incorretos ou incompletos.
    - Padronizar formatos (por exemplo, datas, endereços) para garantir consistência.
3. Usar ferramentas de data quality para e-commerce:
    - Utilizar soluções específicas para melhorar a qualidade dos dados.
    - Ferramentas de validação, enriquecimento e deduplicação podem ser úteis.
4. Treinar os funcionários:
    - Capacitar a equipe para entender a importância dos dados de qualidade.
    - Promover boas práticas de entrada e manutenção de dados.
4. Fazer o monitoramento contínuo dos dados:
    - Implementar processos de auditoria regularmente.
    - Acompanhar métricas de qualidade e tomar ações corretivas quando necessário.

In [8]:
import pandas as pd
import great_expectations as ge

In [42]:
dados = pd.read_csv('dados/adventure_works_sales_country_region_currency.csv', sep='|')
dados.head()

Unnamed: 0,CountryRegionCode,CurrencyCode,ModifiedDate
0,AE,AED,2014-02-08 10:17:21.510
1,AR,ARS,2014-02-08 10:17:21.510
2,AT,ATS,2014-02-08 10:17:21.510
3,AT,EUR,2008-04-30 00:00:00.000
4,AU,AUD,2014-02-08 10:17:21.510


In [43]:
check_dados = ge.read_csv('dados/adventure_works_sales_country_region_currency.csv', sep='|')
check_dados.expect_column_distinct_values_to_contain_set(column='CountryRegionCode', value_set=['US', 'CA', 'FR', 'DE', 'AU', 'GB'])

{
  "success": true,
  "result": {
    "observed_value": [
      "AE",
      "AR",
      "AT",
      "AU",
      "BB",
      "BD",
      "BE",
      "BG",
      "BH",
      "BN",
      "BO",
      "BR",
      "BS",
      "BT",
      "CA",
      "CH",
      "CL",
      "CN",
      "CO",
      "CR",
      "CY",
      "CZ",
      "DE",
      "DK",
      "DO",
      "DZ",
      "EC",
      "EE",
      "EG",
      "ES",
      "FI",
      "FJ",
      "FR",
      "GB",
      "GH",
      "GR",
      "GT",
      "HK",
      "HR",
      "HU",
      "ID",
      "IE",
      "IL",
      "IN",
      "IS",
      "IT",
      "JM",
      "JO",
      "JP",
      "KE",
      "KR",
      "KW",
      "LB",
      "LK",
      "LT",
      "LU",
      "LV",
      "MA",
      "MT",
      "MU",
      "MV",
      "MX",
      "MY",
      "NG",
      "NL",
      "NO",
      "NP",
      "NZ",
      "OM",
      "PA",
      "PE",
      "PH",
      "PK",
      "PL",
      "PT",
      "PY",
      "RO",
      "RU",
     

In [44]:
check_dados.expect_column_distinct_values_to_contain_set(column='CurrencyCode', value_set=['USD', 'CAD', 'EUR', 'AUD', 'GBP'])

{
  "success": true,
  "result": {
    "observed_value": [
      "AED",
      "ARS",
      "ATS",
      "AUD",
      "BBD",
      "BDT",
      "BEF",
      "BGN",
      "BHD",
      "BND",
      "BOB",
      "BRL",
      "BSD",
      "BTN",
      "CAD",
      "CHF",
      "CLP",
      "CNY",
      "COP",
      "CRC",
      "CYP",
      "CZK",
      "DEM",
      "DKK",
      "DOP",
      "DZD",
      "EEK",
      "EGP",
      "ESP",
      "EUR",
      "FIM",
      "FJD",
      "FRF",
      "GBP",
      "GHC",
      "GRD",
      "GTQ",
      "HKD",
      "HRK",
      "HUF",
      "IDR",
      "IEP",
      "ILS",
      "INR",
      "ISK",
      "ITL",
      "JMD",
      "JOD",
      "JPY",
      "KES",
      "KRW",
      "KWD",
      "LBP",
      "LKR",
      "LTL",
      "LVL",
      "MAD",
      "MTL",
      "MUR",
      "MVR",
      "MXN",
      "MYR",
      "NAD",
      "NGN",
      "NLG",
      "NOK",
      "NPR",
      "NZD",
      "OMR",
      "PAB",
      "PEN",
      "PHP",
     

In [45]:
check_dados.expect_column_values_to_be_null(column='CountryRegionCode', mostly=0.1)

{
  "success": false,
  "result": {
    "element_count": 109,
    "unexpected_count": 108,
    "unexpected_percent": 99.08256880733946,
    "unexpected_percent_total": 99.08256880733946,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

In [47]:
check_dados = ge.read_csv('dados/adventure_works_sales_credit_card.csv', sep='|')
check_dados.expect_column_distinct_values_to_contain_set(column='CardType', value_set=['VISA', 'MasterCard', 'American Express', 'Discover'])
check_dados.

{
  "success": false,
  "result": {
    "observed_value": [
      "ColonialVoice",
      "Distinguish",
      "SuperiorCard",
      "Vista"
    ],
    "element_count": 19118,
    "missing_count": null,
    "missing_percent": null
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}