# TRABAJO DATA VISUALIZATION 
## Limpieza y analisis de la base de datos Pollution 

### Esquema de trabajo:

* Estraccion de datos a traves de la lectura del csv 'pollution_us_2000_2016.csv'
* Realizacion de una copia de la informacion para mantener la integriedad de los datos originales
* Eliminar columnas que consideramos no relevantes en el analisis
* Renombrar las columnas a nombres intuitivos y en castellano
* Casting necesarios. Fecha como principal cambio
* Creacion de una nueva columna producto de otras de la tabla
* Diferentes analisis graficos de las variables tomando una muestra aleatoria de 3000 filas sobre los datos totales

In [None]:
import pandas as pd

In [None]:
#Lectura de la base de datos
pol = pd.read_csv('pollution_us_2000_2016.csv')
pol.head(2)

### Extraccion de datos a traves de la lectura del csv 'pollution_us_2000_2016.csv' y realizacion de una copia de la informacion para mantener la integriedad de los datos originales



In [None]:
#Copiando datos para no perder los originales
pollu = pol.copy()

In [None]:
pollu1 = pol.copy()

**Gracias a la funcion describe podemos ver de un vistazo un resumen y pequeño analisis de los datos para conocerlos mejor**

In [None]:
pol.describe()

In [None]:
# Lectura de las columnas de la tabla original
pollu.columns


### Eliminar columnas que consideramos no relevantes en el analisis

Hemos considerado oportuno eliminar estas columnas para dejar la tabla con la informacion mas util para el analisis. Dejando los Estados, la media y maximos de cada gas contaminante.

Existen dos formas posibles, las haremos ambas a traves de copias. La forma 2 será la utilizada


In [None]:
#Eliminando columnas innecesarias. FORMA 1: LARGA

del pollu['Unnamed: 0']
del pollu['State Code']
del pollu['County Code']
del pollu['County']
del pollu['Site Num']
del pollu['NO2 Units']
del pollu['NO2 1st Max Hour']
del pollu['NO2 AQI']
del pollu['O3 Units']
del pollu['O3 1st Max Hour']
del pollu['O3 AQI']
del pollu['SO2 Units']
del pollu['SO2 1st Max Hour']
del pollu['SO2 AQI']
del pollu['CO Units']
del pollu['CO 1st Max Hour']
del pollu['CO AQI']

In [None]:
#Eliminando columnas innecesarias. FORMA 1: CORTA

pollu1.drop(columns=['Unnamed: 0', 'State Code', 'County Code', 'County', 'Site Num', 'NO2 Units', 'NO2 1st Max Hour',
                    'NO2 AQI', 'O3 Units', 'O3 1st Max Hour', 'O3 AQI', 'SO2 Units', 'SO2 1st Max Hour', 'SO2 AQI',
                    'CO Units', 'CO 1st Max Hour', 'CO AQI'], axis=1, inplace=True)
pollu1.head()

### Renombrar las columnas a nombres mas intuitivos y en castellano

In [None]:
#Renombrar columnas 
p = pollu1.rename(columns=
                    {'Address':'Direccion', 'State':'Estado', 'City':'Ciudad', 'Date Local':'FechaLocal',
                    'NO2 Mean':'NO2media', 'NO2 1st Max Value':'NO2max', 'O3 Mean':'O3media', 'O3 1st Max Value':'O3max',
                    'SO2 Mean':'SO2media', 'SO2 1st Max Value':'SO2max', 'CO Mean':'COmedia', 'CO 1st Max Value':'COmax'})
p

In [None]:
p.head()

### Tipos de nuestros datos

Analizamos los tipos de datos de cada variable para ver posibles cateos necesarios. Como podemos observar todas las variables son correctas a excepcion de la Fecha que se podría castear a su formato optimo datetime

In [None]:
p.dtypes #Tipos de datos

In [None]:
p[p.Ciudad == 'Phoenix']

In [None]:
p_copy3 = p.copy()

In [None]:
p_copy3.head()

### Casting de la fecha

Primero importamos las funcines necesarias para realizar el casting a datetime
Vamos a crear dos variables fuera de la funcion para poder pasarselas como argumento y que recorra todas las filas
Metemos la funcion en un try except para poder capturar los posibles errores y corregirlos
Por ultimo realizamos un apply que recorra toda la tabla

In [None]:
from datetime import date, datetime

In [None]:
#Casting de Fecha
formato = '%Y-%m-%d'
fecha = '2016-03-23'
def parsea_fecha(fecha):    
    try:
        date = datetime.strptime(fecha,formato)
        return(date)
    except:
        return None
    
p['FechaLocal'] = p.FechaLocal.apply(parsea_fecha)  
p.head()


Podemos comprobar a traves de la funcion dtypes que los cambios realizados son correctos y que el tipo de dato de la variable FechaLocal ha pasado de ser object a datetime

In [None]:
p.dtypes

In [None]:
pco = p.copy

### Columna adicional producto de las demas

Realizamos una copia de seguridad por si necesitamos acudir a la tabla con los datos limpios

Una vez realizadas las transformaciones de datos necesarias, vamos a añadir un nueva columna que sea la suma de las poluciones maximas de cada gas, estado y fecha

In [None]:
# Añadimos una columna que sea el maximo de polucion total registrado

p['TotalPollutionMax'] = p[['NO2max', 'O3max', 'SO2max', 'COmax']].sum(axis=1)
p.head()

### Analisis grafico de las variables 

Para comenzar con el analisis vamos a importar las librerias necesarias

**Esquema de trabajo:**
* Plot general de cada variables para echar un vistazo a los datos
* Creacion de una muestra aleatoria de los datos para la mejor carga de los graficos. La muestra sera de 3000 filas aleatorias
* Creacion de un mapa de densidad del total maximo de la contaminacion por Estados, asi vemos un poco mas clara su distribucion
* Creacion de cada distribucion en funcion de la media de todos los gases en cada Estado. Un grafico por cada gas
* Creacion de los diferentes histogramas de cada gas para ver sus distribuciones

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline

In [None]:
out = p.plot(subplots=True, figsize = (15, 10))

In [None]:
# Para ver mejor los graficos en el Notebook
from matplotlib import rcParams

rcParams['figure.figsize'] = 14, 10
sns.set_context('talk')

In [None]:
# Copio una muestra aleatoria de 3000 datos para cargar mejor los resultados
dat = p.sample(3000, random_state=1234).copy()
dat.head()

In [None]:
#Importamos subplots
import matplotlib.pyplot as plt


In [None]:
#Contaminacio maxima total por Estados
fig, ax = plt.subplots()
out01 = dat.groupby('Estado').plot(kind='kde', x='FechaLocal', y='TotalPollutionMax', ax=ax, legend = False)

In [None]:
out02 = dat.plot(kind='Line', x='FechaLocal', y='COmax', legend = False)

In [None]:
# Dispersion de la media de NO2 en los diferentes Estados
out_NO2 = sns.stripplot(x='NO2media', y='Estado', data=dat)

In [None]:
# Dispersion de la media de O3 en los diferentes Estados
out_O3 = sns.stripplot(x='O3media', y='Estado', data=dat)

In [None]:
# Dispersion de la media de SO2 en los diferentes Estados
out_SO2 = sns.stripplot(x='SO2media', y='Estado', data=dat)

In [None]:
# Dispersion de la media de CO en los diferentes Estados
out_CO = sns.stripplot(x='COmedia', y='Estado', data=dat)

In [None]:
#out = sns.countplot(y='Estado', data=dat, axes_style("whitegrid"))

In [None]:
# Distribucion de NO2media
distNO2 = sns.distplot(dat.NO2media)

In [None]:
# Distribucion de O3media
distO3 = sns.distplot(dat.O3media)

In [None]:
# Distribucion de SO2media
distSO2 = sns.distplot(dat.SO2media)

In [None]:
# Distribucion de COmedia
distCO = sns.distplot(dat.COmedia)

In [None]:
#out = sns.barplot(x="FechaLocal", y="NO2media", hue="Estado", data=dat)

In [None]:
#histogrma de ultimo año de California con 3 ciudades
