In [None]:
# MIT License

# Copyright (c) 2021 GDSC UNI

# Permission is hereby granted, free of charge, to any person obtaining a copy
# of this software and associated documentation files (the "Software"), to deal
# in the Software without restriction, including without limitation the rights
# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
# copies of the Software, and to permit persons to whom the Software is
# furnished to do so, subject to the following conditions:

# The above copyright notice and this permission notice shall be included in all
# copies or substantial portions of the Software.

# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
# SOFTWARE.

<table align="center">
  <td align="center"><a target="_blank" href="https://gdsc.community.dev/universidad-nacional-de-ingenieria/">
        <img src="https://i.ibb.co/pX2w52P/GDSC.png" style="padding-bottom:5px;" />
      View GDSC UNI</a></td>

  <td align="center"><a target="_blank" href="https://colab.research.google.com/drive/1Iec3geBmgbZzLdZccCOL0ZlbtS4MGvGh?usp=sharing">
        <img src="https://i.ibb.co/Bf0HK0q/Colaboratory.png"  style="padding-bottom:5px;" />Run in Google Colab </a></td>


  <td align="center"><a target="_blank" href="https://github.com/GDSC-UNI/Pandas-For-Data-Science/PFDS1_Introducción.ipynb">
        <img src="https://i.ibb.co/VHHdRx2/Github.png"  height="110px" style="padding-bottom:5px;"/>View source on GitHub</a></td>
</table>

<p> </p>

<h1 style="font-size:42px; text-align:center; margin-bottom:30px;"><span style="color:#000080">PFDS1:</span> Introducción a Pandas</h1>
<hr>

## Pandas

Pandas es una librería de python el cual nos provee de estructuras de datos de alto nivel y funciones que nos permiten realizar nuestro trabajo con datos estructurados o tabulares más rápido, fácil y expresivo. Esta librería combina las ideas de computación de matrices de alto rendimiento de NumPy con las capacidades flexibles de manipulación de datos de las hojas de cálculo y las bases de datos relacionales (como SQL), proporcionando una funcionalidad de indexación sofisticada para facilitar la remodelación, el corte, la realización de agregaciones y la selección de subconjuntos de datos como veremos a lo largo de los notebooks de Pandas para Data Science.

A continuación, veremos los objetos principales en pandas.


## Series 

Un Serie es una estructura unidimensional que contiene un array de datos y un array de etiquetas asociados a los datos. No es necesario que las etiquetas sean únicas, la única condición es que deben ser de tipo hashable (Strings, integers, floating-point or boolean). La sintaxis de este objeto es la siguiente.


<code> pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)</code>

El valor que le podemos agregar al parámetro data puede ser un array, iterable, diccionario o un valor escalar. si creamos este objeto solo especificando el parámetro data (el cual puede ser un array, iterable, diccionario o un valor escalar), los índices de la serie serán los índices del array, en el caso del diccionario serán las llaves.

In [None]:
import pandas as pd

In [None]:
series= pd.Series([17, 25, 65, 70, 89])
series

0    17
1    25
2    65
3    70
4    89
dtype: int64

Para obtener los valores de la serie, sus índices y la dimensión, utilizamos los atributos *values*, *index* y *shape* . Además al igual que con los arrays, se puede acceder a un elemento de la serie a través de un índice o conjunto de índices.

In [None]:
series.values

array([17, 25, 65, 70, 89], dtype=int64)

In [None]:
series.index

RangeIndex(start=0, stop=5, step=1)

In [None]:
series.shape

(5,)

In [None]:
series[4]

89

In [None]:
series[[0,4,2]]

0    17
4    89
2    65
dtype: int64

Lo más probable al momento de generar este objeto es que queramos colocarle un índíce a cada elemento, imaginemos que como parámetro data tenemos las edades de una persona y como índices queremos los nombres de esas personas, la creación de la serie para este caso se muestra a continuación. 

In [None]:
series = pd.Series([17, 25, 65, 70, 89], index=['Hernando', 'Fernando', 'Juan', 'Alberto', 'Renato'])
series

Hernando    17
Fernando    25
Juan        65
Alberto     70
Renato      89
dtype: int64

In [None]:
series['Fernando': 'Alberto']

Fernando    25
Juan        65
Alberto     70
dtype: int64

In [None]:
series[['Fernando', 'Alberto']]

Fernando    25
Alberto     70
dtype: int64

La forma más sencilla y la más utilizada de generar series con índices adecuados, es utilizar diccionarios en el parámetro data, como se mencionó anteriormente, este parámetro al recibir un diccionario, utiliza las llaves como índices de la serie.

In [None]:
dict = { 'Hernado' : 17,
         'Fernando' : 25,
         'Juan' : 65,
         'Alberto' : 70,
         'Renato': 89}
        
dict

{'Hernado': 17, 'Fernando': 25, 'Juan': 65, 'Alberto': 70, 'Renato': 89}

In [None]:
pd.Series(dict)

Hernado     17
Fernando    25
Juan        65
Alberto     70
Renato      89
dtype: int64

Hay que tomar en consideración que si al momento de crear la serie le agregamos etiquetas que no están incluidos en el diccionario, el valor que se le asigna un valor nulo (nan)

In [None]:
series = pd.Series(dict, index=['Renato', 'Lorenzo', 'Fernando'])
series

Renato      89.0
Lorenzo      NaN
Fernando    25.0
dtype: float64

Al  ingresar un array como parámetro data, debemos especificar si queremos copiarlo o no a través del parámetro copy. si colocamos el valor de este parámetro como verdadero, copiamos los valores de entrada al momento de realizar la creación de nuestro objeto, con esto, cualquier modificación que hagamos dentro del array sólo modificara al array de entrada o a la serie pero no a ambos.


In [None]:
import numpy as np

In [None]:
age = np.array([17,25,65])
serie = pd.Series(age, copy=False)
serie[0] = 258
print('-'*10 + 'Serie' + '-'*10)
print(serie)
print('-'*10 +  'Array' + '-'*10)
print(age)

----------Serie----------
0    258
1     25
2     65
dtype: int32
----------Array----------
[258  25  65]


In [None]:
age = np.array([17,25,65])
serie = pd.Series(age, copy=True)
serie[0] = 258
print('-'*10 + 'Serie' + '-'*10)
print(serie)
print('-'*10 +  'Array' + '-'*10)
print(age)

----------Serie----------
0    258
1     25
2     65
dtype: int32
----------Array----------
[17 25 65]


## DataFrame


Un DataFrame es una estructura tabular compuesta por filas y columnas, conocidos como ejes, el eje 0 representa a las filas y el eje 1 a las columnas. Esta estructura es muy parecida la representación de los datos en Excel y relacionando con el objeto visto previamente (Series), un DataFrame puede ser considerado como un contenedor para los objetos de las series que son el objeto primario de las estructuras de pandas. La sintaxis es la siguiente 

<code>pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)</code>

A continuación, se muestran algunos ejemplos de la creación de DataFrames.


In [None]:
dict = { 'Hernado' : [17, 18, 19, 12, 17],
         'Fernando' : [18, 16, 17, 14, 18],
         'Juan' : [16, 17, 17, 13, 17],
         'Alberto' : [17, 15, 19, 13, 19],
         'Renato': [19, 14, 20, 13, 20]}

df = pd.DataFrame(dict)
df

Unnamed: 0,Hernado,Fernando,Juan,Alberto,Renato
0,17,18,16,17,19
1,18,16,17,15,14
2,19,17,17,19,20
3,12,14,13,13,13
4,17,18,17,19,20


In [None]:
df = pd.DataFrame(dict, index=['PC1', 'PC2', 'PC3', 'PC4', 'PC5'])
df

Unnamed: 0,Hernado,Fernando,Juan,Alberto,Renato
PC1,17,18,16,17,19
PC2,18,16,17,15,14
PC3,19,17,17,19,20
PC4,12,14,13,13,13
PC5,17,18,17,19,20


Al igual que con las Series, existen atributos que permiten obtener ciertos valores del DataFrame como las etiquetas de las columnas, filas, índices, etc.

In [None]:
df.index

Index(['PC1', 'PC2', 'PC3', 'PC4', 'PC5'], dtype='object')

In [None]:
df.columns

Index(['Hernado', 'Fernando', 'Juan', 'Alberto', 'Renato'], dtype='object')

In [None]:
df.values

array([[17, 18, 16, 17, 19],
       [18, 16, 17, 15, 14],
       [19, 17, 17, 19, 20],
       [12, 14, 13, 13, 13],
       [17, 18, 17, 19, 20]], dtype=int64)

Podemos acceder al valor de una columna utilizando la etiqueta de esta.

In [None]:
df['Fernando']

PC1    18
PC2    16
PC3    17
PC4    14
PC5    18
Name: Fernando, dtype: int64

In [None]:
df[['Fernando', 'Renato', 'Alberto']]

Unnamed: 0,Fernando,Renato,Alberto
PC1,18,19,17
PC2,16,14,15
PC3,17,20,19
PC4,14,13,13
PC5,18,20,19


Con el atributo *loc* accedemos a un grupo de filas y columnas por etiquetas o una matriz booleana.

In [None]:
df.loc['PC1', ['Renato', 'Alberto', 'Hernado']]

Renato     19
Alberto    17
Hernado    17
Name: PC1, dtype: int64

In [None]:
df.loc[['PC1', 'PC2'], ['Renato', 'Alberto']]

Unnamed: 0,Renato,Alberto
PC1,19,17
PC2,14,15


Otro atributo parecido a loc es iloc, solo que esta indexación está basada puramente en la ubicación de los números enteros para la selección por posición.

In [None]:
df.iloc[4, 3]

19

In [None]:
df.iloc[[0,2,4], [1,3]]

Unnamed: 0,Fernando,Alberto
PC1,18,17
PC3,17,19
PC5,18,19


In [None]:
df.iloc[:, [1,3]]

Unnamed: 0,Fernando,Alberto
PC1,18,17
PC2,16,15
PC3,17,19
PC4,14,13
PC5,18,19


Imaginemos que queremos obtener las notas de los exámenes de las personas que sacaron una nota mayor que 17 en la primera práctica.

In [None]:
df = df.T
df[df['PC1'] > 17]

Unnamed: 0,PC1,PC2,PC3,PC4,PC5
Fernando,18,16,17,14,18
Renato,19,14,20,13,20


Si queremos hacer un análisis de las personas que sacaron más de 17 en la primera PC y la Tercera PC.

In [None]:
df[(df['PC1'] > 17)  &  (df['PC3'] > 17)]

Unnamed: 0,PC1,PC2,PC3,PC4,PC5
Renato,19,14,20,13,20


Otro método que puede ser utilizado es *query* que recibe como parámetro un string.

In [None]:
df.query('PC1>17')

Unnamed: 0,PC1,PC2,PC3,PC4,PC5
Fernando,18,16,17,14,18
Renato,19,14,20,13,20


Por último, se pueden realizar comparaciones entre columnas. Por ejemplo imaginemos que solo queremos conocer a las personas cuyas notas de su quinta PC sea mayor que la de su primera PC.

In [None]:
df[df['PC5'] > df['PC1']]

Unnamed: 0,PC1,PC2,PC3,PC4,PC5
Juan,16,17,17,13,17
Alberto,17,15,19,13,19
Renato,19,14,20,13,20


## Manejo de archivos 

Pandas dentro de sus funcionalidades nos permite poder convertir DataFrame a CSV, Excel, SQL, etc. Así como leer estos archivos  convirtiéndolos en DataFrame. 

In [None]:
data = {
    'edad' : [19, 25, 18, 16, 15, 32, 21],
    'peso' : [75, 67, 45, 61, 73, 74, 55],
    'altura' : [172, 169, 155, 167, 171, 175, 161],
    'genero' :['M', 'M', 'F', 'M','M','M', 'F']
}

df = pd.DataFrame(data)
df

Unnamed: 0,edad,peso,altura,genero
0,19,75,172,M
1,25,67,169,M
2,18,45,155,F
3,16,61,167,M
4,15,73,171,M
5,32,74,175,M
6,21,55,161,F


In [None]:
def dir(name: str) -> str:
    """
    Get the direction where the Dataset that we want to
    import is located.
    
    Parameters
    ----------
    name : str
        Name of the Dataset that we will import.
        
    Returns
    -------
    str : Direction where the Dataset is located.
    
    Examples
    --------
    >>> direction = dir('Dataset1.csv')
    >>> direction
        './Datasets/Formatos/Dataset1.csv'
    """
    
    return './Datasets/Formatos/{}'.format(name)


dir_dataset = dir('pacientes.csv')

Una método importante y de mucha utilidad al momento de trabajar con datos, es poder guardar tus avances en un formato especifico, para despues poder visualizarlos con otras aplicaciones o hacer otras trabajos con estos datos ya modificados, a continuación se muestra como se realiza el guardado de los datos en diferentes formatos.

In [None]:
df.to_csv(dir_dataset, index=False)

Una vez realizado el guardado en un formato especifico se puede leer el archivo utilizando el método *read_csv* de pandas.

In [None]:
df_read = pd.read_csv(dir_dataset)
df_read

Unnamed: 0,edad,peso,altura,genero
0,19,75,172,M
1,25,67,169,M
2,18,45,155,F
3,16,61,167,M
4,15,73,171,M
5,32,74,175,M
6,21,55,161,F


Además, la función de conversión a CSV (uno de los formatos más usados en data science) que nos ofrece pandas, permite cambiar el separador de nuestros datos de la siguiente manera

<code> df.to_csv(dir_dataset, sep='|', index=False) </code>

Por último, como se mencionó anteriormente, pandas permite hacer la conversión del DataFrame a diferentes formatos como lo son Excel, Json, pkl, etc.

In [None]:
dir_dataset = dir('pacientes.xlsx')
df.to_excel(dir_dataset, sheet_name='hoja_1')

In [None]:
dir_dataset = dir('pacientes.json')
df.to_json(dir_dataset)

In [None]:
dir_dataset = dir('pacientes.pkl')
df.to_pickle(dir_dataset)