# <span style='color:Blue'> *Proyecto Final*  </span>
 
## Ejercicio en Ciencia de Datos y creación de un Dashboard informativo

### Maestría en Ciencia de Datos / Universidad de Sonora
### Curso: Ingeniería de Características

####  Alumna: Brenda Leyva Amaya

#### <span style='color:Red'> Entregas indicadas: </span>

> 1. Script de proceso reproducible de limpieza de datos. 

> 2. Archivo de datos "Tidy".

> 3. Diccionario de términos.

> 4. Dashboard en base a datos tidy y al menos dos herramientas de ingeniería de características. 
>> * *transformación de datos* 
>> * *representación de datos cualitativos*
>> * *detección de outliers*
>> * *imutación de datos perdidos*
>> * *análisis en componentes principales*
>> * *graficación con t-SNE y/o medición de la correlación de variables*

> 5. Entrada de Medium correspondiente. 


**Fuentes de datos:**

* [UFO Sightings](https://www.kaggle.com/NUFORC/ufo-sightings)

* [Nuclear Power Plants and Reactors](https://www.kaggle.com/liananapalkova/nuclear-power-plants)


**Algunos artículos de referencia:**

* [UFO Disclosure and Sightings](https://storymaps.arcgis.com/stories/35c19e657e134a45bff7efd0beaf5d14)

* [Why Have There Been So Many UFO Sightings Near Nuclear Facilities?](https://www.history.com/news/ufos-near-nuclear-facilities-uss-roosevelt-rendlesham)

* [Do Nuclear Facilities Attract UFOs?](https://www.cufon.org/contributors/DJ/Do%20Nuclear%20Facilities%20Attract%20UFOs.htm#_ftnref1)



**Entrega:** *11 de diciembre, 2020*


#### Importamos librerías

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import dfply
import plotly
from scipy import stats
%matplotlib inline

# Lectura de archivos y limpieza inicial de datos

## Dataset 1: Avistamientos

La lectura del archivo presentó un par de problemas. Fue necesario hacer la indicación "engine = 'python'" para la lectura correcta con pandas y debido a errores en algunas lineas del archivo csv estas se extendían una columna más, sin embargo esa columna no esta definida y causaba conflicto. Después de una revisión rápida al csv parecía ser que los datos que quedaban en esta columna adicional eran solo una serie de ceros y se decidió agregar de manera manual un nombre a dicha columna, "added", para poder hacer la lectura.

In [2]:
data1 = pd.read_csv('UFO.csv', sep = ",", engine = 'python')

In [3]:
data1.head()

Unnamed: 0,datetime,city,state,country,shape,duration (seconds),duration (hours/min),comments,date posted,latitude,longitude,added
0,10/10/1949 20:30,san marcos,tx,us,cylinder,2700,45 minutes,This event took place in early fall around 194...,4/27/2004,29.8830556,-97.941111,
1,10/10/1949 21:00,lackland afb,tx,,light,7200,1-2 hrs,1949 Lackland AFB&#44 TX. Lights racing acros...,12/16/2005,29.38421,-98.581082,
2,10/10/1955 17:00,chester (uk/england),,gb,circle,20,20 seconds,Green/Orange circular disc over Chester&#44 En...,1/21/2008,53.2,-2.916667,
3,10/10/1956 21:00,edna,tx,us,circle,20,1/2 hour,My older brother and twin sister were leaving ...,1/17/2004,28.9783333,-96.645833,
4,10/10/1960 20:00,kaneohe,hi,us,light,900,15 minutes,AS a Marine 1st Lt. flying an FJ4B fighter/att...,1/22/2004,21.4180556,-157.803611,


Eliminamos la columna adicional que solo contiene ceros:

In [4]:
data1 = data1.drop('added', axis=1)

Utilizando la funcion "resumetable" que se define a continuación, hechamos un vistazo a la forma y contenido generales de data1.

In [5]:
def resumetable(df):
    print(f"Dataset Shape: {df.shape}")
    summary = pd.DataFrame(df.dtypes,columns=['dtypes'])
    summary = summary.reset_index()
    summary['Name'] = summary['index']
    summary = summary[['Name','dtypes']]
    summary['Missing'] = df.isnull().sum().values    
    summary['Uniques'] = df.nunique().values
    summary['First Value'] = df.loc[0].values
    summary['Second Value'] = df.loc[1].values

    return summary

In [6]:
resumetable(data1)

Dataset Shape: (88875, 11)


Unnamed: 0,Name,dtypes,Missing,Uniques,First Value,Second Value
0,datetime,object,0,76305,10/10/1949 20:30,10/10/1949 21:00
1,city,object,196,22018,san marcos,lackland afb
2,state,object,7519,68,tx,tx
3,country,object,12561,5,us,
4,shape,object,3118,29,cylinder,light
5,duration (seconds),object,2,546,2700,7200
6,duration (hours/min),object,3103,9806,45 minutes,1-2 hrs
7,comments,object,126,88348,This event took place in early fall around 194...,1949 Lackland AFB&#44 TX. Lights racing acros...
8,date posted,object,0,513,4/27/2004,12/16/2005
9,latitude,object,0,19572,29.8830556,29.38421


De lo anterior identificamos que se cuenta con 88,875 registros en 11 columnas o atributos, de los cuales 7 tienen valores nulos o faltantes. Observamos que existen campos como la fecha que se han detectado como el tipo de dato objeto, es preferible corregir en este punto a tipos de datos correctos para facilitar su posterior manejo.

In [7]:
data1[['date','time']] = data1['datetime'].str.split(expand=True)
data1['datetime'] = (pd.to_datetime(data1.pop('date'), format='%m/%d/%Y') + 
                     pd.to_timedelta(data1.pop('time') + ':00'))

## Tomando los datos correspondientes a Reino Unido

Debido a limitaciones de tiempo y capacidad de computo, limitaremos el análisis a Reino Unido, sin embargo, el dataset es muy extenso y podría realizarse un análisis mucho más profundo considerando todos los países involucrados para los cuales se tiene información también de plantas nucleares.

In [8]:
data1.country.unique()

array(['us', nan, 'gb', 'ca', 'au', 'de'], dtype=object)

In [9]:
data1 = data1 >> dfply.mask(data1.country == 'gb')

#### Detección de filas problemáticas.

Latitud no esta en el formato correcto asi que lo corregimos, se hace hasta este punto ya que en el paso anterior se eliminaron algunas filas que generaban problema al momento de intentar hacer el cambio.

In [10]:
data1['latitude'] = data1['latitude'].astype('float64')

Filas con duración de 0 segundos:

In [11]:
data1 >> dfply.mask(data1['duration (seconds)'] == '0')

Unnamed: 0,datetime,city,state,country,shape,duration (seconds),duration (hours/min),comments,date posted,latitude,longitude
1227,2008-10-12 21:30:00,buckinghamshire (uk/england),,gb,triangle,0,,i saw a ufo,5/12/2009,51.750000,-0.750000
1429,2004-10-13 07:20:00,manchester (uk/england),,gb,light,0,,Two lights in Sky,10/27/2004,53.500000,-2.216667
2715,2013-10-16 19:27:00,derbyshire (uk/england),,gb,oval,0,night,White low flying fast novel shaped craft.,10/23/2013,53.166667,-1.583333
5248,2009-10-26 20:15:00,manchester (uk/england),,gb,diamond,0,,Diamond shaped object seen over Miles Platting...,12/12/2009,53.500000,-2.216667
5339,2000-10-27 11:45:00,sunderland (uk/england),,gb,,0,,This report was made in my local newspaper &#3...,12/2/2000,54.911944,-1.383333
...,...,...,...,...,...,...,...,...,...,...,...
82067,2003-09-13 21:45:00,manchester (uk/england),,gb,light,0,22.01,dim light making circle movement in sky above ...,9/17/2003,53.500000,-2.216667
82538,1970-09-16 00:00:00,gillingham (uk/england),,gb,chevron,0,,Watching Discovery Science on TV about the Phe...,2/8/2005,51.400000,0.566667
83780,1996-09-19 22:00:00,west yorkshire (uk/england),,gb,triangle,0,,HBCCUFO CANADIAN REPORT: The object fly slowl...,6/4/2004,54.000000,-1.500000
85633,2004-09-24 06:30:00,leicester (uk/england),,gb,light,0,,The ball of light just hovered above the motor...,9/29/2004,52.664913,-1.034894


In [12]:
delete = data1 >> dfply.mask(data1['duration (seconds)'] == '0')
delete = delete.index
data1.drop(delete, inplace=True)

In [13]:
data1.shape

(1908, 11)

In [14]:
data1.isna().sum()

datetime                   0
city                       0
state                   1896
country                    0
shape                     50
duration (seconds)         0
duration (hours/min)       0
comments                   0
date posted                0
latitude                   0
longitude                  0
dtype: int64

Eliminamos datos nulos:

In [15]:
data1 = data1.dropna(subset=['shape'])

In [16]:
data1.shape

(1858, 11)

Veamos las formas más comunes de los avistamientos:

In [17]:
data1['shape'].value_counts()

light        361
circle       244
triangle     169
sphere       158
other        134
fireball     117
disk         102
unknown       93
oval          86
cigar         60
formation     60
changing      46
diamond       43
teardrop      38
egg           32
cylinder      30
rectangle     29
flash         25
cone          13
cross         10
chevron        8
Name: shape, dtype: int64

Guardamos el dataset en un csv nuevo.

In [18]:
data1.to_csv('UFO_fixed.csv', index = False)

## Dataset 2: Plantas nucleares

In [19]:
data2 = pd.read_csv('nuclear_plants.csv')

In [20]:
data2.head()

Unnamed: 0,FID,Region,Country,Plant,NumReactor,Latitude,Longitude,p90_1200,p00_1200,p10_1200,...,p10r_600,p90_300,p00_300,p10_300,p90u_300,p00u_300,p10u_300,p90r_300,p00r_300,p10r_300
0,0,Europe - Western,SWEDEN,AGESTA,1,59.206022,18.082872,187382000,188684000,188250000,...,8972550.0,5013240.0,5227700.0,5471110.0,3426880.0,3596030.0,3764920.0,1586350.0,1631670.0,1706190
1,1,Europe - Western,SPAIN,ALMARAZ,2,39.8081,-5.69694,136675000,147718000,163429000,...,19453700.0,17756500.0,18187800.0,20185200.0,10986000.0,11415400.0,12689800.0,6770480.0,6772380.0,7495340
2,2,America - Latin,BRAZIL,ANGRA,3,-23.007857,-44.458098,99195200,113894000,127898000,...,18605600.0,39546400.0,44701700.0,50210600.0,32788500.0,37064600.0,41648300.0,6757940.0,7637110.0,8562300
3,3,America - Northern,UNITED STATES OF AMERICA,ARKANSAS ONE,2,35.31032,-93.231289,117830000,132729000,146482000,...,9498240.0,5603180.0,6226360.0,6866840.0,3779400.0,4198920.0,4633770.0,1823770.0,2027450.0,2233070
4,4,Europe - Western,SPAIN,ASCO,2,41.2,0.56667,271854000,287134000,308922000,...,17594700.0,14398500.0,15095600.0,16830700.0,11215400.0,11773600.0,13151300.0,3183180.0,3322050.0,3679470


In [21]:
data2.shape

(276, 61)

In [22]:
data2 = data2[['Plant', 'Country', 'Latitude', 'Longitude']]

In [23]:
data2.head()

Unnamed: 0,Plant,Country,Latitude,Longitude
0,AGESTA,SWEDEN,59.206022,18.082872
1,ALMARAZ,SPAIN,39.8081,-5.69694
2,ANGRA,BRAZIL,-23.007857,-44.458098
3,ARKANSAS ONE,UNITED STATES OF AMERICA,35.31032,-93.231289
4,ASCO,SPAIN,41.2,0.56667


In [24]:
data2.dtypes

Plant         object
Country       object
Latitude     float64
Longitude    float64
dtype: object

In [25]:
data2.Country.unique()

array(['SWEDEN', 'SPAIN', 'BRAZIL', 'UNITED STATES OF AMERICA',
       'ARGENTINA', 'GERMANY', 'RUSSIAN FEDERATION', 'BULGARIA', 'FRANCE',
       'UNITED KINGDOM', 'SWITZERLAND', 'KAZAKHSTAN', 'SLOVAK REPUBLIC',
       'NETHERLANDS', 'CANADA', 'IRAN, ISLAMIC REPUBLIC OF', 'ITALY',
       'CHINA', 'ROMANIA', 'PAKISTAN', 'UKRAINE', 'TAIWAN, CHINA',
       'BELGIUM', 'CZECH REPUBLIC', 'JAPAN', 'LITHUANIA', 'INDIA',
       'SOUTH AFRICA', 'KOREA, REPUBLIC OF', 'SLOVENIA', 'MEXICO',
       'FINLAND', 'ARMENIA', 'HUNGARY'], dtype=object)

In [26]:
data2 = data2 >> dfply.mask(data2.Country == 'UNITED KINGDOM')

In [27]:
data2.shape

(18, 4)

In [28]:
data2.head()

Unnamed: 0,Plant,Country,Latitude,Longitude
13,BERKELEY,UNITED KINGDOM,51.6925,-2.493611
23,BRADWELL,UNITED KINGDOM,51.741389,0.896944
42,CHAPELCROSS,UNITED KINGDOM,55.01566,-3.22605
66,DOUNREAY,UNITED KINGDOM,58.57814,-3.75233
70,DUNGENESS,UNITED KINGDOM,50.913889,0.963889


In [29]:
data2.to_csv('nuclear_fixed.csv', index = False)