# **Pandas**

Lo primero que debemos hacer es instalar Pandas ingresando en el cmd:

pip install pandas

Página oficial:
https://pandas.pydata.org/

In [None]:
# Si no se puede realizar la instalación mediante el cmd se puede ejecuar esta celda
# !pip install pandas

In [4]:
# El primer paso siempre es importar las librerías necesarias

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [6]:
# Verificamos la versión instalada del Pandas. No es necesario hacer esto todas las veces.

print(pd.__version__)

2.2.3


### Mi primera Serie de Pandas

Se puede crear una Serie de Pandas a partir de una Lista de Python.

In [8]:
# Para crear una serie usamos el método pd.Series() de Pandas

serie_1 = pd.Series([3, -8.2, 'a'])

In [9]:
# Mostramos el tipo de dato que es serie_1

print(type(serie_1))

<class 'pandas.core.series.Series'>


In [10]:
# Mostramos el contenido de la serie

print(serie_1)

0      3
1   -8.2
2      a
dtype: object


In [None]:
# Se puede acceder de manera independiente a los valores e índices de la serie de pandas.
# Para acceder solo a los valores usamos el atributo values

a = serie_1.values
print(f"Tipo de dato guardado en la serie: {type(a)}") 
print(f"Los valores guardados en la serie son: {a}")

Tipo de dato guardado en la serie <class 'numpy.ndarray'>
Los valoes guardados en la serie son: [3 -8.2 'a']


In [None]:
# Vemos que los valores de la serie son guardados en un arreglo de numpy.
# ¿Qué tipo de dato es guardado dentro del arreglo de numpy?

print(f"Tipo de dato guardado dentro del arreglo de numpy: {a.dtype}")

Tipo de dato guardado dentro del arreglo de numpy object


In [17]:
# Para acceder solo a los índices usamos el atributo index

b = serie_1.index
print(f"Tipo de dato guardado en los índices: {type(b)}")
print(f"Los índices son: {b}")

Tipo de dato guardado en los índices: <class 'pandas.core.indexes.range.RangeIndex'>
Los índices son: RangeIndex(start=0, stop=3, step=1)


In [18]:
# Los índices se usan para acceder a elementos dentro de la serie

print(f"Valor: {serie_1[0]}")
print(f"Tipo de dato del valor guardado dentro de la serie: {type(serie_1[2])}")

Valor: 3
Tipo de dato del valor guardado dentro de la serie: <class 'str'>


In [19]:
# Podemos cambiar los índices de una Serie

serie_1.index = [1000,2000,3000]

In [20]:
# Mostramos la serie con los nuevos índices

print(serie_1)

1000      3
2000   -8.2
3000      a
dtype: object


In [23]:
# Ahora vamos a susar los nuevos índices para acceder a un valor

print(serie_1[1000])

3


### Mi segunda Serie de Pandas

In [25]:
# También se pueden asignar los índices al momento de crear la Serie

premier_league = pd.Series([67,65,64,59,56],index=['Liverpool','Arsenal','ManchesterCity','AstonVilla','Tottenham'])

In [27]:
# Mostramos la nueva serie

print(premier_league)

Liverpool         67
Arsenal           65
ManchesterCity    64
AstonVilla        59
Tottenham         56
dtype: int64


In [29]:
# Usamos los índices para acceder a los valores asociados

print(premier_league['Arsenal'])

65


In [30]:
# Podemos usar los índices para modificar los valores alamacenados

premier_league['Liverpool'] = premier_league['Liverpool'] + 3

In [32]:
print(premier_league)

Liverpool         70
Arsenal           65
ManchesterCity    64
AstonVilla        59
Tottenham         56
dtype: int64


## **Ejercicio**

- Cree una serie de Pandas cuyos índices sean las asignaturas que esta cursando este semetre y los valores sean las notas del primer corte para cada una de ellas.
- Muestre la Serie creada.
- Muestre la nota de una de las asignaturas.

In [None]:
## Solución:


In [None]:
# Se puede realizar operaciones lógicas sobre los elementos de la Serie

b = premier_league[premier_league>60]
print(b)
print(type(b))

Liverpool         70
Arsenal           65
ManchesterCity    64
dtype: int64
<class 'pandas.core.series.Series'>


In [None]:
filtro = premier_league>60
print(filtro)
print(type(filtro))

Liverpool          True
Arsenal            True
ManchesterCity     True
AstonVilla        False
Tottenham         False
dtype: bool
<class 'pandas.core.series.Series'>


In [None]:
# Se pueden realizar otras operaciones con las Series

serie_2 = pd.Series([3, -8.2, 2])

In [None]:
c = serie_2*2
print(c)
print(type(c))

0     6.0
1   -16.4
2     4.0
dtype: float64
<class 'pandas.core.series.Series'>


In [None]:
d = serie_2+serie_2
print(d)
print(type(d))

0     6.0
1   -16.4
2     4.0
dtype: float64
<class 'pandas.core.series.Series'>


También se puede crear una Serie de Pandas a partir de un Diccionario de Python.

In [None]:
# Otra forma de crear una Serie es a través de un diccionario

sdata = {'Ohio':35000, 'Texas':71000, 'Oregon': 16000, 'Utah':5000}
serie_3 = pd.Series(sdata)
print(serie_3)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64


In [None]:
# Una variación consiste en crear la Serie usando un diccionario y
# también pasando un vector de índices

sdata = {'Ohio':35000, 'Texas':71000, 'Oregon': 16000, 'Utah':5000}
states = ['California','Ohio','Oregon','Texas']
serie_4 = pd.Series(sdata, index= states)

In [None]:
print(serie_4)

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64


In [None]:
sdata = {'Ohio':35000, 'Texas':71000, 'Oregon': 16000, 'Utah':5000, 'California':np.nan}
serie_5 = pd.Series(sdata)
print(serie_5)

Ohio          35000.0
Texas         71000.0
Oregon        16000.0
Utah           5000.0
California        NaN
dtype: float64


In [None]:
## Vamos a actualizar el valor del índice Californi

serie_5['California'] = 45000

In [None]:
print(serie_5)

Ohio          35000.0
Texas         71000.0
Oregon        16000.0
Utah           5000.0
California    45000.0
dtype: float64


In [None]:
## Vamos a crear otro elemento dentro de la Serie

serie_5['New York'] = 30000
print(serie_5)

Ohio          35000.0
Texas         71000.0
Oregon        16000.0
Utah           5000.0
California    45000.0
New York      30000.0
dtype: float64


In [None]:
## Vamos a eliminar un elemento de la Serie

serie_5.drop(labels=['Ohio'],inplace=True)
print(serie_5)

Texas         71000.0
Oregon        16000.0
Utah           5000.0
California    45000.0
New York      30000.0
dtype: float64


In [None]:
# Debido a que ingresamos una llave nueva (california) al que
# no tiene un valor asignado en sdata obtenemos como
# resultado un NaN (valor faltante) y el valor de la llave 'Utah' se pierde.

# Mi primer DataFrame de Pandas

### Hay diferentes maneras de crear un DataFrame de Pandas

### 1. Usando Series

In [None]:
## Mi primer DataFrame

state = pd.Series( ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], name="state")
year = pd.Series([2000, 2001, 2002, 2001, 2002, 2003], name="year")
pop =  pd.Series([1.5, 1.7, 3.6, 2.4, 2.9, 3.2], name="pop")


In [None]:
print(state)
print(type(state))

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object
<class 'pandas.core.series.Series'>


In [None]:
print(year)
print(type(year))

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64
<class 'pandas.core.series.Series'>


In [None]:
print(pop)
print(type(pop))

0    1.5
1    1.7
2    3.6
3    2.4
4    2.9
5    3.2
Name: pop, dtype: float64
<class 'pandas.core.series.Series'>


## Las series se concatenan para crear el DataFrame

In [None]:
df_1 = pd.concat([state,year,pop], axis=1)
print(df_1)
print(type(df_1))

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2
<class 'pandas.core.frame.DataFrame'>


In [None]:
df_1

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Para imprimir o mostrar el contenido de un DataFrame también se puede usar librería **tabulate**, la cual tiene diversas opciones de formato:

    “plain”
    “simple”
    “github”
    “grid”
    “fancy_grid”
    “pipe”
    “orgtbl”
    “jira”
    “presto”
    “pretty”
    “psql”
    “rst”
    “mediawiki”
    “moinmoin”
    “youtrack”
    “html”
    “latex”
    “latex_raw”
    “latex_booktabs”
    “textile”

In [None]:
from tabulate import tabulate

# displaying the DataFrame
print(tabulate(df_1, headers = 'keys', tablefmt = 'fancy_grid'))

╒════╤═════════╤══════════╤══════════╤═══════════╕
│    │ Mes     │   Ventas │   Gastos │   Balance │
╞════╪═════════╪══════════╪══════════╪═══════════╡
│  0 │ Enero   │    30500 │    22000 │      8500 │
├────┼─────────┼──────────┼──────────┼───────────┤
│  1 │ Febrero │    35600 │    23400 │     12200 │
├────┼─────────┼──────────┼──────────┼───────────┤
│  2 │ Marzo   │    28300 │    18100 │     10200 │
├────┼─────────┼──────────┼──────────┼───────────┤
│  3 │ Abril   │    33900 │    20700 │     13200 │
╘════╧═════════╧══════════╧══════════╧═══════════╛


### 2. Usando un diccionario donde la llave (key) será el nombre de la columna y los datos (valores) serán Listas de Python

In [None]:
##

dict_1 = {
    "state":['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
    "year":[2000, 2001, 2002, 2001, 2002, 2003],
    "pop":[1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
}

df_1 = pd.concat([state,year,pop], axis=1)
print(df_1)
print(type(df_1))

In [None]:
dict_1

{'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
 'year': [2000, 2001, 2002, 2001, 2002, 2003],
 'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

In [None]:
df_2 = pd.DataFrame(dict_1)

In [None]:
df_2

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


#**Ejercicio**

Crear un DataFrame con las notas de las asignaturas de los Cortes 1 y 2.

Mostrar el DataFrame

In [None]:
## Solución 1: Utilizando listas.

asignaturas = pd.Series(['curso_1', 'curso_2', 'curso_3', 'curso_4', 'curso_5'], name="Asinaturas")
corte_1 = pd.Series([4.3, 4.5, np.nan, 4.0, 5.0], name="Corte_1")
corte_2 =  pd.Series([3.5, 3.7, np.nan, 3.6, 3.4], name="Corte_2")

df_notas = pd.concat([asignaturas,corte_1,corte_2], axis=1)

print(tabulate(df_notas, headers = 'keys', tablefmt = 'simple'))

╒════╤══════════════╤═══════════╤═══════════╕
│    │ Asinaturas   │   Corte_1 │   Corte_2 │
╞════╪══════════════╪═══════════╪═══════════╡
│  0 │ curso_1      │       4.3 │       3.5 │
├────┼──────────────┼───────────┼───────────┤
│  1 │ curso_2      │       4.5 │       3.7 │
├────┼──────────────┼───────────┼───────────┤
│  2 │ curso_3      │     nan   │     nan   │
├────┼──────────────┼───────────┼───────────┤
│  3 │ curso_4      │       4   │       3.6 │
├────┼──────────────┼───────────┼───────────┤
│  4 │ curso_5      │       5   │       3.4 │
╘════╧══════════════╧═══════════╧═══════════╛


In [None]:
## Solución 2: Utilizando un Diccionario.

notas = {

         'Asignaturas':['curso_1', 'curso_2', 'curso_3', 'curso_4', 'curso_5'],
         'Corte_1': [4.3, 4.5, np.nan, 4.0, 5.0],
         'Corte_2': [3.5, 3.7, np.nan, 3.6, 3.4]
}

df_notas_2 = pd.DataFrame(notas)

print(tabulate(df_notas_2, headers = 'keys', tablefmt = 'simple'))

    Asignaturas      Corte_1    Corte_2
--  -------------  ---------  ---------
 0  curso_1              4.3        3.5
 1  curso_2              4.5        3.7
 2  curso_3            nan        nan
 3  curso_4              4          3.6
 4  curso_5              5          3.4


In [None]:
# Leer los nombres de las columnas de un DataFrame

a = df_notas_2.columns
print(a)

Index(['Asignaturas', 'Corte_1', 'Corte_2'], dtype='object')


In [None]:
b = df_notas_2.index
print(b)

RangeIndex(start=0, stop=5, step=1)


In [None]:
## Vamos a cambiar el índice del DataFrame

df_notas_2.set_index(keys=['Asignaturas'], drop=True, inplace=True)

print(df_notas_2)

             Corte_1  Corte_2
Asignaturas                  
curso_1          4.3      3.5
curso_2          4.5      3.7
curso_3          NaN      NaN
curso_4          4.0      3.6
curso_5          5.0      3.4


In [None]:
df_notas_2.index

Index(['curso_1', 'curso_2', 'curso_3', 'curso_4', 'curso_5'], dtype='object', name='Asignaturas')

In [None]:
print(tabulate(df_notas_2, headers = 'keys', tablefmt = 'simple'))

Asignaturas      Corte_1    Corte_2
-------------  ---------  ---------
curso_1              4.3        3.5
curso_2              4.5        3.7
curso_3            nan        nan
curso_4              4          3.6
curso_5              5          3.4


In [None]:
## Vamos a adicionar una nueva columna

df_notas_2['Corte_3'] = [np.nan,np.nan,np.nan,np.nan,np.nan]

In [None]:
df_notas_2

Unnamed: 0_level_0,Corte_1,Corte_2,Corte_3
Asignaturas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
curso_1,4.3,3.5,
curso_2,4.5,3.7,
curso_3,,,
curso_4,4.0,3.6,
curso_5,5.0,3.4,


In [None]:
df_notas_2.columns

Index(['Corte_1', 'Corte_2', 'Corte_3'], dtype='object')

In [None]:
df_notas_2.index.names = [None]

df_notas_2

Unnamed: 0,Corte_1,Corte_2,Corte_3
curso_1,4.3,3.5,
curso_2,4.5,3.7,
curso_3,,,
curso_4,4.0,3.6,
curso_5,5.0,3.4,


# **Ejercicios**

### Ejercicio 1

Escribir programa que genere y muestre por pantalla un DataFrame con los datos de la tabla siguiente:

Mes 	Ventas 	Gastos

Enero 	30500 	22000

Febrero 	35600 	23400

Marzo 	28300 	18100

Abril 	33900 	20700

In [None]:
dict_1 = {

          'Mes':["Enero", "Febrero","Marzo", "Abril"],
          'Ventas':[30500, 35600, 28300, 33900],
          'Gastos':[22000, 23400, 18100, 20700]
}

In [None]:
df_1 = pd.DataFrame(dict_1)

In [None]:
df_1

Unnamed: 0,Mes,Ventas,Gastos
0,Enero,30500,22000
1,Febrero,35600,23400
2,Marzo,28300,18100
3,Abril,33900,20700


In [None]:
## Para determinar el tamaño de un DataFrame utilizamos el atributo shape

df_1.shape

(4, 3)

In [None]:
rows, cols = df_1.shape

print(f"El número de filas del DataFrame es {rows} y de las columnas es {cols}")

El número de filas del DataFrame es 4 y de las columnas es 3


In [None]:
rows = df_1.shape[0]
cols = df_1.shape[1]

print(f"El número de filas del DataFrame es {rows} y de las columnas es {cols}")

El número de filas del DataFrame es 4 y de las columnas es 3


In [None]:
## Para determinar los tipos de datos de las columnas de un DataFrame utilizamos el atributo dtypes

df_1.dtypes

Unnamed: 0,0
Mes,object
Ventas,int64
Gastos,int64


### Ejercicio 2

Escribir una función que reciba un DataFrame con el formato del ejercicio anterior, y devuelva un DataFrame con el balance (ventas - gastos) total en cada uno de los meses.



In [None]:
df_1['Balance'] = df_1['Ventas'] - df_1['Gastos']

In [None]:
df_1

Unnamed: 0,Mes,Ventas,Gastos,Balance
0,Enero,30500,22000,8500
1,Febrero,35600,23400,12200
2,Marzo,28300,18100,10200
3,Abril,33900,20700,13200


In [None]:
df_1.shape

(4, 4)

In [None]:
df_1['Ventas']

Unnamed: 0,Ventas
0,30500
1,35600
2,28300
3,33900


In [None]:
df_1.Ventas

Unnamed: 0,Ventas
0,30500
1,35600
2,28300
3,33900


In [None]:
## Para obtener los valores como un arreglo de Numpy

df_1['Balance'].values

array([ 8500, 12200, 10200, 13200])