<a href="https://colab.research.google.com/github/Javcm/Intro-a-Deep-Learning-UNAM-FC/blob/main/Tutorial_Padas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src = "https://drive.google.com/uc?id=1KE-uSHGGxJGFZcLVxyM1Fh4JN8PUCIMv" align = "center" >

<font color = 'blue' size = 8>
Tutorial Pandas

<font size=4>
En este Notebook se aborda el uso de la paqueteria Pandas y su utilidad en diversas aplicaciones.

<font color = 'Black' size = 5>
1.- ¿Por qué Pandas?

<font size=4>

Pandas es un herramienta para manipulación y análisis de datos de código abierto, rápida, poderosa, flexible y fácil de utilizar, construida sobre el lenguaje de programación Python.\
Es de uso común en la ciencia de datos y la inteligencia artificial debido a las ventajas y facilidades que proporciona para cargar, preparar, manipular, modelar y analizar datos.

<font size=4>
Algunas características que hacen útil a Pandas son:

<font size=4>
    
1.- Estructuras de datos similares a matrices ($DataFrame$).\
2.- DataFrames similares a los de otros lenguajes de programación.\
3.- Básicamente, los DataFrames son equivalentes a una tabla.\
4.- Los datos en las columnas deben ser del mismo tipo, pero los datos en renglones pueden variar.\
5.- Altamente flexible para tomar datos de múltiples fuentes.

<font size=4> Cualquier cosa que quieras saber de esta biblioteca en el futuro lo puedes encontrar [aquí](https://pandas.pydata.org/docs/user_guide/index.html)

<font size=4>
Importamos la paquetería Pandas:

In [None]:
import pandas as pd
import numpy as np

### Primero vamos a entender las estructuras de datos principales de `Pandas`


# Las series de Pandas


La estructura elemental de panda son las *series*. Para declararlas, se puede usar la función con el constructor por defecto `Series`.

In [None]:
pd.Series(dtype='float64')

Esta estructura de datos es muy parecida a un `np.array` o a una lista de datos en `Python` con la particularidad que existen índices y funciones específicas para manejar la serie. Podemos construir estas series desde una lista, desde un `np.array` o desde un diccionario:

In [None]:
lista = [2, 6, 1, 2.1]
serie_lista=pd.Series(lista)
serie_lista

In [None]:
diccionario = {'H' : 34, 'o' : 1, 'l' : 0, 'a' : 4, 'M' : "Mundo"}
serie_diccionario = pd.Series(diccionario)
serie_diccionario

In [None]:
serie_1 = pd.Series(data=lista, index=['Física', 'Matemáticas', 'Biología','CC'])
serie_1

# Data Frame

Un Data Frame es una colección de series

In [None]:
tiempo = pd.Series(np.arange(1, 6))
posicion = pd.Series(np.random.randint(0, 10, 5))
componentes = pd.DataFrame({'PrimeraColumna': tiempo, 'SegundaColumna': posicion})
componentes

<font color = 'Black' size = 5>
2.- DataFrames (DF)

<font size=4> Para este ejemplo se utilizó la base de datos **Superconductivty Data Data Set** del repositorio:

[UCI Machine Learning Repository: Superconductivty Data Data Set ](https://archive.ics.uci.edu/ml/datasets/Superconductivty+Data)

<font size=4> 
Hay dos archivos: 

(1) train.csv: contiene 81 características extraídas de 21263 superconductores junto con la temperatura crítica en la columna 82, 


(2) unique_m.csv: contiene la fórmula química dividida para todos los 21263 superconductores del archivo  train.csv 



Las dos últimas columnas tienen la temperatura crítica y la fórmula química. 
    
**El objetivo de este trabajo fue es predecir la temperatura crítica en función de las características extraídas.**

# Conectar Colab con Google Drive



In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [None]:
# Crear enlace simbólico entre la dirección /content/gdrive/My\ Drive/ que ahora equivale a /mydrive
!ln -s /content/gdrive/My\ Drive/ /mydrive
!ls /mydrive

 BA   Classroom  'Colab Notebooks'   Tesis-Laseres-Aleatoriosl.pdf   UNAM


In [None]:
# Desplegar información de archivos en tal directorio
!ls -la /mydrive/UNAM/2021-2/TSFC/TSFC_III_2021-2/Tutoriales_de_Introducción/Tutorial_Pandas/

In [None]:
# Copiar archivos.csv a /content/
!cp /mydrive/UNAM/2021-2/TSFC/TSFC_III_2021-2/Tutoriales_de_Introducción/Tutorial_Pandas/unique_m.csv /content/
!cp /mydrive/UNAM/2021-2/TSFC/TSFC_III_2021-2/Tutoriales_de_Introducción/Tutorial_Pandas/train.csv /content/

<font size=4> Levantamos el archivo CSV con pandas:

In [None]:
df = pd.read_csv('train.csv')

#Mostramos el DataFrame
print(type(df))
print("\n")
df

<font size=4> Podemos verificar las dimensiones del DataFrame con el atributo **.shape** como en los arreglos de Python.

In [None]:
df.shape

<font size=4> Observamos que tenemos 21263 superconductores y 82 rasgos (features) de cada uno.

<font size=4> Podemos visualizar los primeros $n$ renglones con el atributo **.head(n)** y los últimos $m$ con **.tail(m)** de la siguiente manera:

In [None]:
n = 10 
df.head(n)

In [None]:
m = 5
df.tail(m)

<font size=4> Podemos renombrar una columna en particular utilzando el atributo **.rename()**

In [None]:
# Cambiamos el nombre de la columna "number_of_elements" 
# por "numero_de_elementos"

df.rename(columns = {"number_of_elements":"numero_de_elementos"}, inplace = True)  

                                                                                   
df.head(5)

<font size=4> Podemos acceder a información de las columnas del dataframe mediante el atributo **df.column_name** o mediante la instrucción **df['column_name']**

In [None]:
#Utilizamos cada uno de los comandos:

print(type(df.numero_de_elementos))
df.numero_de_elementos

In [None]:
print(type(df["numero_de_elementos"]))
df["numero_de_elementos"]


# Sugerencia/Consejo: 

## Al trabajar con cuenstiones numéricas es preferible trabajar con **arrays** que con  **DataFrames**.

Para ello, cuando se tiene un DataFrame podemos acceder a su representación Numpy con el campo**.values**

In [None]:
#Utilizamos cada uno de los comandos:

print(type(df.numero_de_elementos.values))
df.numero_de_elementos

<font size=4> Podemos extraer información de un renglón específico del $DataFrame$  (index) mediante **series** con el atributo **.loc[ ]**:

In [None]:
df.loc[524]  #Utilizamos el atributo .loc()

<font size=4> Se puede acceder a información en particular utilizando los métodos previos, si por ejemplo queremos obtener la temperatura crítica del superconductor 524:

In [None]:
df['critical_temp'][524]

<font size=4> En pandas se utilizan también los **operadores de acceso** como el atributo **.iloc[]** que basa su operación en la enumeración de renglones y columnas de Python

<font size=4> Si por ejemplo buscamos la información del superconductor **i-ésimo**, entonces utilizamos **df.iloc[ i ]** el cual obtiene la información del renglón **i-esimo**.

In [None]:
df.iloc[524]

<font size=4> Si queremos obtener el numero de elementos (columna 0) de todos los superconductores:

In [None]:
df.iloc[:, 0]

<font size=4> Si queremos obtener el número de elementos y su temperatura crítica de los superconductores 0 y 524:

In [None]:
df.iloc[[0,524],  [0,81]]

<font size=4> Como se puede observar, el atributo **.iloc[]** utiliza el índice o posición del superconductor (los renglones en este caso) o las columnas para operar. De distinta manera, **.loc[]** basa su operación en el nombre del índice de los datos, no en su posición o enumeración de Python:

<font size=4> Si queremos obtener el numero de elementos en el superconductor 524:

In [None]:
df.loc[524, 'numero_de_elementos']

<font size=4> Si quieremos obtener el numero de elementos de los superconductores 524 y 342 por ejemplo:

In [None]:
df.loc[[524, 342], 'numero_de_elementos']

<font size=4> Si quieremos obtener el numero de elementos (columna 0) y temperatura crítica (columna 85) de cada uno de los superconductores:

In [None]:
df.loc[:, ['numero_de_elementos', "critical_temp"]]

##  Pandas también puede utilizar **operadores lógicos** como **==**, **<** y **>**.

<font size=4> Si queremos obtener los superconductores con temperatura crítica iguala 85 K hacemos lo siguiente:

In [None]:
df.loc[df.critical_temp == 85]

<font size=4> Si queremos obtener los superconductores con temperatura crítica menor a 85 K hacemos lo siguiente:

In [None]:
df.loc[df.critical_temp < 85]

<font size=4> Si queremos los superconductores con temperatura crítica de 83 o de 85 K

In [None]:
df.loc[df.critical_temp.isin( [83, 85] )]

<font size=4> Si queremos identificar todas las posiciones en el dataframe que tienen un valor vacío o **"NaN"**

In [None]:
df.loc[df.critical_temp.isnull()].shape
#df.loc[df.critical_temp.notnull()].shape

<font size=4> Pandas también puede calcular promedios, desviación estándar, etc. y otras funciones útiles, por ejemplo:

<font size=4> El atributo **.describe()** nos da la siguiente información de cada una de las columnas del dataframe:

In [None]:
df.describe()

<font size = 4> Si queremos sólo la información de la temperatura crítica:

In [None]:
df.critical_temp.describe()

<font size=4> El atributo **.mean()** nos regresa el promedio, en este caso, de cada columna:

In [None]:
#df.critical_temp.mean()

df.mean()

<font size=4> El atributo **.unique()** nos regresa los valores posibles que puede tomar un elemento sin repetir:

In [None]:
df.numero_de_elementos.unique()

<font size = 5> Por otro lado, el archivo **unique_m.csv** contiene la composición por elemento de cada uno de los superconductores así como su fórmula.

In [None]:
df_2 = pd.read_csv('unique_m.csv')
df_2

<font size=4> Si queremos agregar a nuestro dataframe original la columna **material** que aparece en este nuevo archivo, hacemos lo siguiente:

In [None]:
df["compuesto"] = df_2["material"]

In [None]:
df

<font size=4> Observamos que se agregó la columna **material** ahora con el nombre **compuesto**.