## Análisis de datos con Pandas

Pandas es uno de los paquetes de Python más populares entre los usuarios porque brinda herramientas robustas para hacer ánalisis de datos de manera rápida y sencilla. 

Pandas trabaja con tablas indexadas a las que denomina DataFrames y con columnas indexadas a las que denomina Series. Cuenta con gran cantidad de funciones muy flexibles que permiten manipular los datos, realizar consultas similares a las de SQL y hacer análisis estadísticos complejos.

Entre las ventajas que posee pandas, resaltan las siguientes:

 1. Manipulación robusta de los datos
 2. Gestiona múltiples estructuras y formatos de datos.
 3. Manejo integrado de datos faltantes
 4. Búsquedas y agrupaciones optimizadas
 5. Manejo de datos georeferenciados y series de tiempo.



Para importar las funciones de pandas se utilizar la siguiente línea de código:

In [None]:
import pandas as pd

### Importación de datos

Pandas tiene herramientas robustas para importar datos desde: csv (valores separados por comas), xls (excel), gbq (Google BigQuery) y otros gestores de bases de datos como Oracle.

#### Leer un .csv 

La lectura de un csv se realiza a través del método "read_csv()" y pasando como argumento la dirección del archivo. Observe el ejemplo.

In [None]:
# Leer un CSV
# raw = crudo 
#direccion = r"C:\Users\juanf\OneDrive\Escritorio\Python\Building_Energy_Benchmarking_2018.csv"
#energy_df = pd.read_csv(direccion, sep=",") #encoding = "latin-1"
# No olvidar escribir correctamente la dirección del archivo
# La dirección del archivo se compone de la ubiciación más el nombre
# La ubicación la encuentra en propiedades del archivo
# La opción propiedades aparece al dar click derecho sobre el documento
# Dirección: "Ubicacion\Nombre.Extension"

#Para visualizar el documento:
# energy_df
# o tambien 
#print(energy_df)

Si y solo si el documento se encuentra en la misma carpeta que su notebook puede omitir la ubicacion.

In [None]:
energy_df = pd.read_csv("Building_Energy_Benchmarking_2018.csv", sep=",")
energy_df

#### Leer un .xls 

Similar a la lectura de ".csv", se utiliza el método "read_excel()".

In [None]:
# Leer un XLS
#direccion = r"C:\Users\juanf\OneDrive\Escritorio\Python\Concrete_Data.xls" #xlsx
concrete_df = pd.read_excel('Concrete_Data.xls')

# La primera vez probablemente tenga que instalar xlrd con "pip install xlrd"

# No olvidar escribir correctamente la dirección del archivo
# La dirección del archivo se compone de la ubiciación más el nombre
# La ubicación la encuentra en propiedades del archivo
# La opción propiedades aparece al dar click derecho sobre el documento
# Dirección: "Ubicacion\Nombre.Extension"
 
#Para visualizar el documento:
concrete_df

Las tablas que se han importado en las celdas anteriores son de la clase "DataFrame" y están compuestas por columnas de la clase "Series", tanto los DataFrames como las Series tienen un índice que Pandas le añade automáticamente y por ello se dice que están indexadas.

### Manipular datos con Pandas

Antes de manipular los datos es necesario conocerlos, si no se conoce la representación física de los datos si bien se podrían realizar análisis, estos no brindarían ninguna conclusión lógica.  

Los datos contenidos en la variable energy_df corresponden a datos referentes a la energía utilizada por edificaciones: 
https://data.seattle.gov/dataset/2018-Building-Energy-Benchmarking/7rac-kyay

Los datos contenidos en la variable concrete_df corresponden a datos referentes a los componentes de muestras de concreto y su resistencia a la compresión: https://archive.ics.uci.edu/ml/datasets/concrete+compressive+strength

Para manipular los datos se hace uso de métodos y atributos:

In [None]:
# Visualizar las primeras filas
energy_df.head()

In [None]:
# Visualizar las últimas filas
energy_df.tail()

In [None]:
# Obtener los nombres de las columnas

columnas_energy = energy_df.columns
print(columnas_energy)

In [None]:
# Obtener el índice
energy_df.index

In [None]:
# Obtener el tamaño
energy_df.shape

In [None]:
# Obtener la cantidad de datos
energy_df.size

Para separar la tabla en columnas, se hace uso de la notación de los corchetes:

dataframe["NombreDeLaSerie"]

Podrá observar similitudes entre los dataframes y los diccionarios. 

In [None]:
# Solicitar solo cierta columna
energy_df[[r'NaturalGas(therms)']]
# Puede utilizar comillas dobles o simples

In [None]:
# Solicitar solo ciertas columnas

energy_df[['OSEBuildingID','BuildingName',
           'BuildingType','YearBuilt','NumberofFloors']]

In [None]:
# Obtener un nuevo dataframe con solo unas columnas del anterior

myEnergy_df = energy_df[['OSEBuildingID', 'YearBuilt', 'NumberofFloors',
                         'ENERGYSTARScore','Electricity(kBtu)', 
                         'GHGEmissionsIntensity']]
myEnergy_df.head()

In [None]:
# el nuevo dataframe solo tiene 6 columnas
myEnergy_df.shape

In [None]:
# Renombrar las columnas
myEnergy_df = myEnergy_df.rename(columns={'OSEBuildingID': "id",
                                      'YearBuilt': "yearBuilt",
                                      'NumberofFloors': "numberOfFloors",
                                      'ENERGYSTARScore': "energyStarScore",
                                      'Electricity(kBtu)': "electricity",
                                      'GHGEmissionsIntensity': "emissionsIntensity"
                                       })
# Observe que dentro del diccionario se escribe:
#  "nombreAnterior": "nombreNuevo"

myEnergy_df.head(4) 

In [None]:
#Cambiar la columna del índice
myEnergy_df.set_index('id', inplace=True) 
#inplace=True elimina el índice anterior
myEnergy_df.head()

In [None]:
# Solicitar los datos de una fila (row) según el índice

myEnergy_df.loc[8]

In [None]:
# La fila obtenida en la celda anterior es muy similar a un diccionario.
# Al igual que un diccionario, se accede a sus valores a traves de claves.
myEnergy_df.loc[8]["yearBuilt"]

In [None]:
# Conocer el tipo de dato de una columna
myEnergy_df["numberOfFloors"].dtype

In [None]:
# Se puede modificar el tipo de dato de una columna
myEnergy_df["numberOfFloors"] = myEnergy_df["numberOfFloors"].astype(str) 

In [None]:
myEnergy_df["numberOfFloors"].dtype

In [None]:
print(myEnergy_df.loc[8]["numberOfFloors"])
print(type(myEnergy_df.loc[8]["numberOfFloors"]))
print(myEnergy_df["numberOfFloors"].dtype)

Los tipos de datos que tienen soporte en pandas son: int, float, str, bool y datetime.

In [None]:
# Se puede pedir los elementos no repetidos de una columna
pd.unique(myEnergy_df["yearBuilt"])

Pandas cuenta con herramientas que permiten ordenar los datos según el criterio de alguna columna.

In [None]:
# Se puede ordenar datos según una columna
myEnergy_df = myEnergy_df.sort_values(by='energyStarScore')
myEnergy_df.head(50)

In [None]:
# Ordenar por más de un campo
myEnergy_df.sort_values(by=['yearBuilt','numberOfFloors','energyStarScore'], 
                        ascending= True) #ascending = True or False

In [None]:
# Se puede pedir los estadísticos de los datos, todos a la vez
myEnergy_df["energyStarScore"].describe()

In [None]:
# o solicitar directamente alguno de ellos 
myEnergy_df["yearBuilt"].mean() #min, max, mean, std, sum, count

### Exportar datos

In [None]:
# Genere su nuevo dataframe el cual se exportara
print(myEnergy_df)
datosProcesados_df = myEnergy_df.copy()

In [None]:
# Guardar los datos en un archivo csv
datosProcesados_df.to_csv("datosprocesados.csv")

### Manejo de datos faltantes

Pandas posee algoritmos para solucionar el problema de datos faltantes en la tablas. El método más sencillo y eficaz es utilizar la función dropna.

Observe que las columnas "electricity" y "energyStarScore" no poseen la misma cantidad de datos, inclusive no coincide con la cantidad de filas.

In [None]:
myEnergy_df["electricity"].count()

In [None]:
myEnergy_df["energyStarScore"].count()

In [None]:
myEnergy_df.shape

Para solucionar el problema, se filtran los valores vacios, de tal manera que se eliminan las filas que contengan algún valor faltante:

In [None]:
#Se filtran los varores vacios
myEnergy_df = myEnergy_df.dropna() #fillna
# nueva variable = modificacion de la antigua variable

myEnergy_df = myEnergy_df.reset_index()
#print(myEnergy_df.shape)
myEnergy_df.head(10)

In [None]:
myEnergy_df.shape

In [None]:
del myEnergy_df["index"]

In [None]:
myEnergy_df.head()

Se puede solicitar los nuevos estadísticos de todas las columnas de la tabla para verificar que se filtró correctamente.


In [None]:
myEnergy_df.describe()

Tome en cuenta que la función "describe" obtiene los estadísticos solo de datos de tipo numéricos.

### Para practicar:

1. Obtenga los estadísticos de la tabla "Concrete Data".

2. Filtre los datos faltantes de la tabla "Concrete Data". ¿Tenía la tabla datos faltantes? 

3. Genere un nuevo dataframe y expórtelo como csv

### Bibliografía

Bibliografia de Pandas

https://pandas.pydata.org/docs/


Visualización de datos con pandas

https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html

Repositorio del paquete

https://github.com/pandas-dev/pandas

Bases de datos:

https://figshare.com

https://www.kaggle.com

https://www.kaggle.com/loveall/appliances-energy-prediction

https://www.data.gov

https://data.europa.eu/euodp/en/home

https://archive.ics.uci.edu/ml/datasets.php


Bases de datos en Google:

https://datasetsearch.research.google.com

Otros:

https://lionbridge.ai/datasets/the-50-best-free-datasets-for-machine-learning/
https://guides.library.cmu.edu/machine-learning/datasets

Extra: Turoriales para la gestión de bases de datos con python

https://realpython.com/tutorials/databases/