# 7. Pandas

Es una librería de código abierto que provee un alto desempeño, y un fácil manejo de estructuras de datos y herramientas de análisis de datos para el lenguaje de programación Python*

* https://pandas.pydata.org/

Para utilizar este módulo es necesario importarlo:

In [1]:
import pandas as pd

## 7.1 Series

Pandas utiliza un formato para bases de datos. Crea las columnas de esas bases datos (series) y las indexa automáticamente utilizando la función series:

        lista = [1, 2, 3]
        columna = pd.Series(lista)
        
### 1. Imprima una serie a partir de una lista de números del 1 al 20. Utilice range() para crear la lista.
        

In [2]:
import pandas as pd

lista = [1, 2, 3]
columna = pd.Series(lista)

print(columna)


0    1
1    2
2    3
dtype: int64


## 7.1.1 Índices en Series

Observe que a diferencia de los arreglos de numpy, las series están indexadas por default. Este índice también se puede determinar con la siguiente sintaxis:

        indices = lista1
        valores = lista2
        serie1 = pd.Series(valores, index = indices)


### 2. Obtenga una serie en la que se desplieguen las calificaciones de un alumno. Los índices será la lista de materias: matemáticas, historia, física y literatura, y usted asigne las calificaciones correspondientes en cada materia, ejemplo:

        matematicas    8
        historia       6
        fisica         9
        literatura     7

In [3]:
import pandas as pd

indices = ["matematicas", "historia", "fisica", "literatura"]
valores = [8, 6, 9, 7]

serie1 = pd.Series(valores, index=indices)

print(serie1)


matematicas    8
historia       6
fisica         9
literatura     7
dtype: int64


## 7.1.2 Convirtiendo una serie a un diccionario y viceversa

A veces por el manejo de datos es necesario convertir series a diccionarios y diccionarios a series, para este objetivo existen dos funciones complementarias:

- De serie a diccionario:

        diccionario = serie1.to_dict()
        
- De diccionario a serie:

        serie1 = pd.Series(diccionario)
        
### 3. Utilice estas funciones en la serie que creó de las calificaciones e imprima los resultados.

In [4]:
import pandas as pd

indices = ["matematicas", "historia", "fisica", "literatura"]
valores = [8, 6, 9, 7]

serie1 = pd.Series(valores, index=indices)

diccionario = serie1.to_dict()
print(diccionario)
serie2 = pd.Series(diccionario)
print(serie2)


{'matematicas': 8, 'historia': 6, 'fisica': 9, 'literatura': 7}
matematicas    8
historia       6
fisica         9
literatura     7
dtype: int64


## 7.2 Dataframes

Los dataframes son bases de datos, formados por series. Hay muchas formas de crear dataframes.

Como primer ejemplo crearemos un dataframe desde un sitio web: 'https://es.wikipedia.org/wiki/Anexo:Campeones_de_la_NBA'

Para abrir este sitio utilizamos la librería webbroser la cual se deberá importar previamente antes de utilizar la siguiente función:

        webbrowser.open(website)
        
donde la variable website previamente se le asignó el link de la página.

### 4. Abra la página utilizando esta función anteriormente descrita:

In [5]:
import webbrowser

website = "https://es.wikipedia.org/wiki/Anexo:Campeones_de_la_NBA"

webbrowser.open(website)

True

Posteriormente en esa página seleccione toda la tabla que tiene como título: "Campeones de la BAA" y copiela al clipboard presionando las teclas Ctrl + C. 

Después guarde la tabla en un Dataframe en la que se asigne la siguiente instrucción, donde se le está indicando que la separación es un tabulador:

        df = pd.read_clipboard(sep='\t')

In [6]:
import pandas as pd

df = pd.read_clipboard(sep="\t")
print(df)


     Año         Campeón del Oeste  Resultado      Campeón del Este     Ref.
0   1950   Minneapolis Lakersn. 2​        4–2   Syracuse Nationals†   19​18​
1   1951          Rochester Royals        4–3       New York Knicks      20​
2   1952        Minneapolis Lakers        4–3       New York Knicks      21​
3   1953       Minneapolis Lakers†        4–1       New York Knicks      22​
4   1954       Minneapolis Lakers†        4–3    Syracuse Nationals      23​
..    ...                       ...        ...                   ...     ...
68  2018     Golden State Warriors        4–0   Cleveland Cavaliers      86​
69  2019     Golden State Warriors        2–4       Toronto Raptors      87​
70  2020        Los Angeles Lakers        4–2            Miami Heat      88​
71  2021              Phoenix Suns        2–4       Milwaukee Bucks      89​
72  2022     Golden State Warriors        4–2        Boston Celtics     90​ 

[73 rows x 5 columns]


## 7.2.1 Nombres de columnas

Para obtener los nombres de las columnas usamos el método columns directamente en la variable que contiene el dataframe:

        df.columns
        
### 5. Obtenga los nombres de las columnas de la tabla que guardó.

In [7]:
import pandas as pd

df = pd.read_clipboard(sep="\t")

print(df.columns)

Index(['Año ', 'Campeón del Oeste ', 'Resultado ', 'Campeón del Este ',
       'Ref.'],
      dtype='object')


## 7.2.2 Obtener solo una columna

Sí solo se requiere obtener una columna del dataframe podemos hacer utilizando el nombre de la columna directamente:

        df['nombre_columna']

### 6. Imprima la columna 'Campeón del Oeste':

In [8]:
print(df["Campeón del Este "])

0     Syracuse Nationals† 
1         New York Knicks 
2         New York Knicks 
3         New York Knicks 
4      Syracuse Nationals 
              ...         
68    Cleveland Cavaliers 
69        Toronto Raptors 
70             Miami Heat 
71        Milwaukee Bucks 
72         Boston Celtics 
Name: Campeón del Este , Length: 73, dtype: object


## 7.2.3 Obtener solo un registro

Para obtener solo un registro determinado utilizaremos su índice i:

        df[i]

### 7. Obtenga el registro número 5 

In [9]:


print(df.loc[5])

Año                                  1955 
Campeón del Oeste       Ft. Wayne Pistons 
Resultado                             3–4 
Campeón del Este      Syracuse Nationals† 
Ref.                                   24​
Name: 5, dtype: object


## 7.2.4 Obtener solo los primeros 'n' registros

Si solo queremos obtener los primeros n registros utilizamos el método:

        df.head(n)
        
### 8. Obtenga los primeros 10 registros de la tabla

In [48]:
df.head(10)

Unnamed: 0,Año,Campeón del Oeste,Resultado,Campeón del Este,Ref.
0,1950,Minneapolis Lakersn. 2​,4–2,Syracuse Nationals†,19​18​
1,1951,Rochester Royals,4–3,New York Knicks,20​
2,1952,Minneapolis Lakers,4–3,New York Knicks,21​
3,1953,Minneapolis Lakers†,4–1,New York Knicks,22​
4,1954,Minneapolis Lakers†,4–3,Syracuse Nationals,23​
5,1955,Ft. Wayne Pistons,3–4,Syracuse Nationals†,24​
6,1956,Ft. Wayne Pistons,1–4,Philadelphia Warriors†,25​
7,1957,St. Louis Hawks,3–4,Boston Celtics†,26​
8,1958,St. Louis Hawks,4–2,Boston Celtics†,27​
9,1959,Minneapolis Lakers,0–4,Boston Celtics†,28​


## 7.2.5 Obtener los últimos 'n' registros

Si queremos obtener los últimos n registros utilizamos el método:

        df.tail(n)
        
### 8. Obtenga los últimos 10 registros de la tabla

In [49]:
df.tail(10)

Unnamed: 0,Año,Campeón del Oeste,Resultado,Campeón del Este,Ref.
63,2013,San Antonio Spurs,3–4,Miami Heat†,81​
64,2014,San Antonio Spurs†,4–1,Miami Heat,82​
65,2015,Golden State Warriors†,4–2,Cleveland Cavaliers,83​
66,2016,Golden State Warriors†,3–4,Cleveland Cavaliers,84​
67,2017,Golden State Warriors†,4–1,Cleveland Cavaliers,85​
68,2018,Golden State Warriors,4–0,Cleveland Cavaliers,86​
69,2019,Golden State Warriors,2–4,Toronto Raptors,87​
70,2020,Los Angeles Lakers,4–2,Miami Heat,88​
71,2021,Phoenix Suns,2–4,Milwaukee Bucks,89​
72,2022,Golden State Warriors,4–2,Boston Celtics,90​


## 7.3 Construyendo Dataframes desde cero

Existen dos formas básicas:

1. Construir Dataframes desde diccionarios
2. Construir Dataframes desde listas

### 7.3.1 Dataframes desde diccionarios

Primero se deberá crear el diccionario el cual en sus claves (key), tendrá  los nombres de las columnas, y en sus valores (value), listas con los elementos del dataframe, es decir:

    columna1 = lista1
    columna2 = lista2
    
    diccionario = {'Nombre_de_columna1': columna1, 'Nombre_de_columna2': columna2}
    
    df = pd.dataframe(diccionario
    
### 9. Invente un ejemplo para ilustrar este caso

In [3]:
import pandas as pd

columna1 = [1, 2, 3, 4]
columna2 = [5, 6, 7, 8]

diccionario = {'campos': columna1, 'datos': columna2}

df = pd.DataFrame(diccionario)

print(df)


   campos  datos
0       1      5
1       2      6
2       3      7
3       4      8


### 7.3.2 Dataframes desde listas

En este caso, se crearán 3 listas diferentes: la de los nombres de los índices, la de valores del dataframe, la de los nombres de las columnas. La lista de valores en realidad será una matriz, o lista de listas que contengan los valores:

        lista_indices = ['registro_1', 'registro_2',....,'registro_n'
        lista_valores = [[valores_columna_1], [valores_columna_2], ...,[valores_columna_n]]
        lista_columnas = ['Columna_1', 'Columna_2',....,'Columna_n']
        
        df = pd.DataFrame(lista_valores, index = lista_indices, columns = lista_columnas)
        
 ### 10. Realice un código que obtenga el siguiente dataframe:
 
       
              Antonio  Maria	Pedro    Sara
    matematicas 	6	    7	  8       10
    historia	    8	    9	  5        8
    fisica	       6	   9	 7        9
    arte           9       10      9      8
    inglés         7       8      6       10

In [10]:
import pandas as pd

lista_indices = ["matematicas", "historia", "fisica", "arte", "inglés"]
lista_valores = [[6, 7, 8, 10], [8, 9, 5, 8], [
    6, 9, 7, 9], [9, 10, 9, 8], [7, 8, 6, 10]]
lista_columnas = ["Antonio", "Maria", "Pedro", "Sara"]

df = pd.DataFrame(lista_valores, columns=lista_columnas, index=lista_indices)

print(df)

             Antonio  Maria  Pedro  Sara
matematicas        6      7      8    10
historia           8      9      5     8
fisica             6      9      7     9
arte               9     10      9     8
inglés             7      8      6    10


- ¿Cuáles son ls índices de un dataframe? Utilizamos el método index:

        df.index
        df.index[i]


In [12]:
# Obtenga todos los índices del ejemplo anterior

print(df.index)


Index(['matematicas', 'historia', 'fisica', 'arte', 'inglés'], dtype='object')


In [11]:
# Obtenga el índice del registro 0
print(df.index[0])


matematicas


## 7.3 Eliminar elementos

Para eliminar elementos utilizamos la función $drop()$ que elimina un registro o columna, la sintaxis es la siguiente:

        df2 = df.drop('nombre_registro')    #para borrar registros
        
        df2 = df.drop('nombre_columna', axis = 1)     #para borrar columnas
        
        

### 11. En el dataframe del ejercicio 10 elimine el registro de la materia de inglés, y las calificaciones de Maria. Imprima el dataframe resultante.

In [15]:
import pandas as pd

lista_indices = ["matematicas", "historia", "fisica", "arte", "inglés"]
lista_valores = [[6, 7, 8, 10], [8, 9, 5, 8], [
    6, 9, 7, 9], [9, 10, 9, 8], [7, 8, 6, 10]]
lista_columnas = ["Antonio", "Maria", "Pedro", "Sara"]

df = pd.DataFrame(lista_valores, columns=lista_columnas, index=lista_indices)

df2 = df.drop("Maria", axis=1)
df2 = df2.drop("inglés")


print(df)
print(df2)

             Antonio  Maria  Pedro  Sara
matematicas        6      7      8    10
historia           8      9      5     8
fisica             6      9      7     9
arte               9     10      9     8
inglés             7      8      6    10
             Antonio  Pedro  Sara
matematicas        6      8    10
historia           8      5     8
fisica             6      7     9
arte               9      9     8


## 7.4 Seleccionar datos

Para seleccionar ciertos datos se utilizan los corchetes y el nombre de las columnas o de los registros.

- Para seleccionar un dato de las series la sintaxis es:

        serie['nombre_registro']     # nombre_registro también equivale al índice 
        
- Para seleccionar una columna de los dataframes la sintaxis es:

        df['columna']
        
- Para seleccionar un dato individual de los dataframes la sintaxis es:

        df['renglon']['columna']
        
- Para seleccionar un dos columnas específicas: 
        
         df[['columna1', 'columna2']]
         
- Para seleccionar un rango de columnas y todos los renglones, se utiliza loc o iloc:
        
        - df.loc[ : , 'columna1':'columna2']  #Nombres de las columnas
        - df.iloc[ : , columna1 : columna2]   #Números de las columnas 
 
- Para seleccionar un rango de renglones y todos las columnas, se utiliza loc o iloc:
        
        - df.loc['renglon1':'renglon2', :] #Nombres de los renglones
        - df.iloc[renglon1 : renglon, :]   #Números de los renglones
        
- Para seleccionar columnas o filas específicas que no están dentro de un rango, use una lista:


        - df.loc['renglon1':'renglon4',['columna1','columna3']]
        - df.iloc[1:4, [1,3]]
        
- Para seleccionar aquellos registros donde los valores de la columna 2 sean mayores que 8:

        - df[df['columna2'] > 8]

- Para cambiar los datos bajo una condición:

        - df[df['columna2'] > 8] = 10

### 12. Ejecute de nuevo el ejercicio 10 y realice el código a continuación:


In [4]:
#12.1 Seleccione las calificaciones de Pedro
import pandas as pd

lista_indices = ["matematicas", "historia", "fisica", "arte", "inglés"]
lista_valores = [[6, 7, 8, 10], [8, 9, 5, 8], [
    6, 9, 7, 9], [9, 10, 9, 8], [7, 8, 6, 10]]
lista_columnas = ["Antonio", "Maria", "Pedro", "Sara"]

df = pd.DataFrame(lista_valores, columns=lista_columnas, index=lista_indices)

calificaciones_pedro = df["Pedro"]
print(calificaciones_pedro)

matematicas    8
historia       5
fisica         7
arte           9
inglés         6
Name: Pedro, dtype: int64


In [20]:
#12.2 Seleccione la calificación de matemáticas de Antonio
import pandas as pd

lista_indices = ["matematicas", "historia", "fisica", "arte", "inglés"]
lista_valores = [[6, 7, 8, 10], [8, 9, 5, 8], [
    6, 9, 7, 9], [9, 10, 9, 8], [7, 8, 6, 10]]
lista_columnas = ["Antonio", "Maria", "Pedro", "Sara"]

df = pd.DataFrame(lista_valores, columns=lista_columnas, index=lista_indices)

calificacion_matematicas_antonio = df.loc["matematicas"]["Antonio"]

print(calificacion_matematicas_antonio)

6


In [19]:
#12.3 Seleccione sólo las calificaciones de Antonio y Sara
import pandas as pd

lista_indices = ["matematicas", "historia", "fisica", "arte", "inglés"]
lista_valores = [[6, 7, 8, 10], [8, 9, 5, 8], [
    6, 9, 7, 9], [9, 10, 9, 8], [7, 8, 6, 10]]
lista_columnas = ["Antonio", "Maria", "Pedro", "Sara"]

df = pd.DataFrame(lista_valores, columns=lista_columnas, index=lista_indices)

print(df[["Antonio", "Sara"]])

             Antonio  Sara
matematicas        6    10
historia           8     8
fisica             6     9
arte               9     8
inglés             7    10


In [31]:
#12.4 Seleccione las calificaciones desde María
import pandas as pd

lista_indices = ["matematicas", "historia", "fisica", "arte", "inglés"]
lista_valores = [[6, 7, 8, 10], [8, 9, 5, 8], [
    6, 9, 7, 9], [9, 10, 9, 8], [7, 8, 6, 10]]
lista_columnas = ["Antonio", "Maria", "Pedro", "Sara"]

df = pd.DataFrame(lista_valores, columns=lista_columnas, index=lista_indices)

maria_calificaciones = df.iloc[0:, 1:]


print(maria_calificaciones)

             Maria  Pedro  Sara
matematicas      7      8    10
historia         9      5     8
fisica           9      7     9
arte            10      9     8
inglés           8      6    10


In [42]:
#12.5 Seleccione las calificaciones desde física

print(df.iloc[2:,0:])



        Antonio  Maria  Pedro  Sara
fisica        6      9      7     9
arte          9     10      9     8
inglés        7      8      6    10


In [8]:
# 12.6 Seleccione las calificaciones de historia y física de María y Pedro

print(df.iloc[1:3, 1:3])


          Maria  Pedro
historia      9      5
fisica        9      7


In [3]:
#12.7 Despliegue las calificaciones de María que son mayores a 8
import pandas as pd

lista_indices = ["matematicas", "historia", "fisica", "arte", "inglés"]
lista_valores = [[6, 7, 8, 10], [8, 9, 5, 8], [
    6, 9, 7, 9], [9, 10, 9, 8], [7, 8, 6, 10]]
lista_columnas = ["Antonio", "Maria", "Pedro", "Sara"]

df = pd.DataFrame(lista_valores, columns=lista_columnas, index=lista_indices)

print(df.loc[:, "Maria"][df.loc[:, "Maria"] > 8])

historia     9
fisica       9
arte        10
Name: Maria, dtype: int64


In [11]:
#12.8 Cambie a 10 las calificaciones de Pedro que sean menores de 7
import pandas as pd

lista_indices = ["matematicas", "historia", "fisica", "arte", "inglés"]
lista_valores = [[6, 7, 8, 10], [8, 9, 5, 8], [
    6, 9, 7, 9], [9, 10, 9, 8], [7, 8, 6, 10]]
lista_columnas = ["Antonio", "Maria", "Pedro", "Sara"]

df = pd.DataFrame(lista_valores, columns=lista_columnas, index=lista_indices)
print(df)

df.loc[df["Pedro"] < 7, "Pedro"] = 10

print(df)


             Antonio  Maria  Pedro  Sara
matematicas        6      7      8    10
historia           8      9      5     8
fisica             6      9      7     9
arte               9     10      9     8
inglés             7      8      6    10
             Antonio  Maria  Pedro  Sara
matematicas        6      7      8    10
historia           8      9     10     8
fisica             6      9      7     9
arte               9     10      9     8
inglés             7      8     10    10


## 7.5 Suma de Dataframes

Ejecute el siguiente código para crear dos dataframes:

In [18]:
#Crear 2 dataframes

import numpy as np

#Dataframe1

df1 = pd.DataFrame(np.arange(4).reshape(2,2), index=list('ab'), columns=list('12'))
print(df1)

print()

#Dataframe2

df2 = pd.DataFrame(np.arange(9).reshape(3,3), index=list('abc'), columns=list('123'))
print(df2)

   1  2
a  0  1
b  2  3

   1  2  3
a  0  1  2
b  3  4  5
c  6  7  8


Sume los dos dataframes e imprima el dataframe resultante:

    df3 = df1 + df2 
    
### 13. Explique el resultado que se obtiene

In [32]:
df3 = df1 + df2
print(df3)

#      1    2   3
# a  0.0  2.0 NaN
# b  5.0  7.0 NaN
# c  NaN  NaN NaN

#Esto pasa por que se estan sumando datos numerimos con datos que no son definidos
#Esto provoca un error devolviendo un NAN (Not a Number)



     1    2   3
a  0.0  2.0 NaN
b  5.0  7.0 NaN
c  NaN  NaN NaN
