<a href="https://colab.research.google.com/github/blonsh/cpython/blob/main/Fundamentos_de_Pandas_clase_1_2024_CopyBASG.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a Pandas


<img src="https://velog.velcdn.com/images/eunhye_/post/ac0d922e-49fe-4782-88e4-2ddf36c1e1e9/image.png"/>


Vivimos en un mundo lleno de datos. De hecho, hay tantos datos que es
casi imposible comprenderlo todo. Actualmente, dependemos más que nunca
de las computadoras para ayudarnos a comprender esta enorme cantidad de
información y encontrarle alguna utilidad.


**Pandas** es el paquete ideal para trabajar con grandes conjuntos de datos en Python. El nombre **pandas** proviene del término datos panel (panel data en inglés).

Algunos datos interesantes acerca de la aplicación de análisis de datos con **pandas**:

*   **pandas** se utilizó para normalizar todos los datos recopilados de varios grandes telescopios para construir la primera imagen de un agujero negro. Fuentes: https://github.com/achael/eht-imaging, https://solarsystem.nasa.gov/resources/2319/first-image-of-a-black-hole/
*   Muchas instituciones financieras usan **pandas**, junto con inteligencia artificial, para determinar si alguna información de los mercados puede ser relevante para ayudar a tomar mejores decisiones de inversión.
*   Las empresas recopilan toneladas de datos sobre los usuarios todos los días. Para las empresas de radiodifusión, por ejemplo, los datos son particularmente relevantes tanto para mostrar anuncios como para recomendar  contenido adicional para los usuarios.

La información de este curso se ha diseñado y construido a partir de la siguiente bibliografía:


*   Harrison, M., & Petrou, T. (2020). Pandas 1. x Cookbook: Practical recipes for scientific computing, time series analysis, and exploratory data analysis using Python. Packt Publishing Ltd.
* McKinney, W. (2018). Python for data analysis: Data wrangling with Pandas, NumPy, and IPython. " O'Reilly Media, Inc.".
* Molin, S. (2019). Hands-On Data Analysis with Pandas: Efficiently perform data collection, wrangling, analysis, and visualization using Python. Packt Publishing Ltd.
*   Stepanek, H. (2020). Thinking in Pandas. Apress.


Página oficial de la librería: https://pandas.pydata.org/



## Documentación de **pandas**:

Es muy importante que nos familiaricemos con la documentación de las librerías que trabajamos, porque tendremos que volver a estas cada vez que queramos resolver alguna duda acerca de sus objetos, atributos, métodos y funciones que nos permiten implementar.

En algunos casos vamos a encontrar ejemplos que nos ayudarán a comprender más cómo resolver correctamente el problema que estamos enfrentando.

En el siguiente enlace está la documentación de la librería **pandas**. Hagamos un recorrido por esta!

https://pandas.pydata.org/docs/user_guide/index.html

## Importar pandas:

In [6]:
# importemos la librería:
import pandas as pd

## Principales objetos de pandas: **series** y **dataframes**:


**Python** ya tiene varias estructuras de datos, como tuplas, listas y diccionarios. Mientras que **pandas** proporciona dos estructuras principales para facilitar el trabajo con datos: Series y DataFrame.

**pandas** tiene una sintaxis similar a la de un diccionario que es muy intuitiva para aquellos que están familiarizados con **Python**. En un DataFrame (que es como una tabla de datos en excel), por ejemplo, el nombre de columna se trata como una clave de un diccionario, y el valor corresponde a los datos de las filas.

Las estructuras de datos de las Series y DataFrame contienen otra estructura: su **índice**.

### Series:


Una **Serie** es un objeto similar a un vector que contiene una secuencia de valores (de tipos similares a los tipos **NumPy**) y una matriz asociada de etiquetas de datos, denominada **índice**. La serie más simple se forma solo a partir de una matriz de datos. Veamos un ejemplo:

In [None]:
import numpy as np

In [None]:
np.array([1, 2, 3])

array([1, 2, 3])

In [None]:
mi_serie = pd.Series([24, 17, 25, 23])
mi_serie

0    24
1    17
2    25
3    23
dtype: int64

In [None]:
type(mi_serie)

La representación de una serie muestra el índice en la izquierda y los valores de la derecha.

Como no especificamos un índice para los datos de la serie, se asignan por defecto los números enteros de 0 a N - 1 (donde N es la longitud de la serie).

Se puede obtener la representación de arreglo (vector) y el índice de la serie a través de sus valores y atributos de índice, respectivamente:

In [None]:
# representación de matriz de la serie:
mi_serie.values

array([24, 17, 25, 23])

In [None]:
# tipo de objeto:
type(mi_serie.values)

numpy.ndarray

In [None]:
# índice de la serie:
mi_serie.index

RangeIndex(start=0, stop=4, step=1)

In [None]:
for x in range(4):
  print(x)

0
1
2
3


In [None]:
#tipo de objeto:
type(mi_serie.index)

pandas.core.indexes.range.RangeIndex


A menudo, será deseable crear una Serie con un índice que identifique cada punto de datos con una etiqueta asignada por nosotros mismos:

In [None]:
mi_serie_con_indice = pd.Series([24, 17, 25, 23], index = ["juan", "andrea", "luis", "pepita"])
mi_serie_con_indice

juan      24
andrea    17
luis      25
pepita    23
dtype: int64

In [None]:
# consultamos el índice:
mi_serie_con_indice.index

Index(['juan', 'andrea', 'luis', 'pepita'], dtype='object')

In [None]:
# verificamos tipo de objeto:
type(mi_serie_con_indice.index)

pandas.core.indexes.base.Index

De forma similar a los diccionarios, listas y a otros contenedores, podemos acceder a los elementos de una serie a través de los índices:

In [None]:
mi_serie_con_indice['juan']

24

In [None]:
mi_serie_con_indice['andrea']

17

Podemos consultar, o acceder, a más de un elemento al mismo tiempo, a través de una lista de índices:

In [None]:
lista_de_indices = ['luis', 'pepita', 'andrea']
mi_serie_con_indice[lista_de_indices]

luis      25
pepita    23
andrea    17
dtype: int64

Podemos usar operaciones lógicas (que nos entregan un booleano) para filtrar los valores de una serie. Esto se conoce como aplicar una máscara:

In [None]:
# operación lógica para filtrar valores de una serie:
mi_serie_con_indice == 24

juan       True
andrea    False
luis      False
pepita    False
dtype: bool

In [None]:
type(mi_serie_con_indice == 24)

In [None]:
# la máscara va a ser la operación lógica:
máscara = mi_serie_con_indice != 24
# el resultado es una lista con booleanos con el resultado de la operación lógica:
máscara

juan      False
andrea     True
luis       True
pepita     True
dtype: bool

In [None]:
# aplico la máscara sobre la serie y me muestra los elementos de la serie donde
# el resultado de la máscara (operación lógica) es verdadera:
mi_serie_con_indice[máscara]

andrea    17
luis      25
pepita    23
dtype: int64


Otra forma de entender una serie es pensarla como un diccionario, ya que las llaves serían los índices y los valores sus correspondientes datos en la serie:

In [None]:
# creo mi diccionario:
mi_diccionario = {'Chiapas': 35000, 'DF': 71000, 'Teotihuacán': 16000, 'Jalisco': 5000}
mi_diccionario

{'Chiapas': 35000, 'DF': 71000, 'Teotihuacán': 16000, 'Jalisco': 5000}

In [None]:
mi_diccionario['Chiapas']

35000

In [None]:
# creo un nueva serie a partir de mi diccionario:
mi_nueva_serie = pd.Series(mi_diccionario)
mi_nueva_serie

Chiapas        35000
DF             71000
Teotihuacán    16000
Jalisco         5000
dtype: int64


Cuando se genera una serie a partir de un diccionario, el índice en la serie resultante será las llaves del diccionario en el mismo orden del diccionario:

In [None]:
# consulto las llaves de mi diccionario:
mi_diccionario.keys()

dict_keys(['Chiapas', 'DF', 'Teotihuacán', 'Jalisco'])

In [None]:
# consulto los elementos del índice de la serie:
mi_nueva_serie.index

Index(['Chiapas', 'DF', 'Teotihuacán', 'Jalisco'], dtype='object')

In [None]:
# pero qué pasaría si comparo los objetos y no los elementos que contienen?
mi_diccionario.keys() == mi_nueva_serie.index

array([False, False, False, False])

In [None]:
# comparo si estos dos objetos anteriores contienen los mismos elementos:
list(mi_diccionario.keys()) == list(mi_nueva_serie.index)

True

In [None]:
mi_diccionario.keys()

In [None]:
mi_nueva_serie.index

In [None]:
type(mi_diccionario.keys())

In [None]:
type(mi_nueva_serie.index)

Pero también puedo cambiar el orden de los índices de la serie por medio de un contenedor:

In [None]:
mi_nueva_serie

Chiapas        35000
DF             71000
Teotihuacán    16000
Jalisco         5000
dtype: int64

In [None]:
nuevo_orden_indice = ('DF', 'Chiapas', 'Jalisco', 'Teotihuacán')
mi_nueva_serie_2 = pd.Series(mi_diccionario, index = nuevo_orden_indice)
mi_nueva_serie_2

DF             71000
Chiapas        35000
Jalisco         5000
Teotihuacán    16000
dtype: int64


Una función muy útil para muchas aplicaciones de las Series, es que se alinea automáticamente por índice para realizar operaciones aritméticas:

In [None]:
serie_1 = pd.Series([1, 2, 3, 4, 5,])
serie_2 = pd.Series([10, 20, 30, 40, 50, 60])
resultado = serie_1 + serie_2
resultado

0    11.0
1    22.0
2    33.0
3    44.0
4    55.0
5     NaN
dtype: float64

In [None]:
serie_1.index

RangeIndex(start=0, stop=5, step=1)

El índice de una serie se puede modificar mediante asignación:

In [None]:
serie_1.index = ['a', 'b', 'c', 'd', 'e']
serie_1

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [None]:
# qué pasaría si realizo una operación algebráica entre dos series que no comparten
# ningún elemento en su índice?
serie_1 + serie_2

a   NaN
b   NaN
c   NaN
d   NaN
e   NaN
0   NaN
1   NaN
2   NaN
3   NaN
4   NaN
5   NaN
dtype: float64

NaN (Not a Number) es el marcador estándar de datos faltantes que se usa en pandas.

In [None]:
serie_2

Puedo modificar (renombrar) los índices de una serie:

In [None]:
# reasigno el índice de la serie para hacer coincidir tan solo algunos elementos:
serie_2.index = ['a', 'b', 2, 3, 4, 5]
serie_2

a    10
b    20
2    30
3    40
4    50
5    60
dtype: int64

Las operaciones entre series se realizan por defecto en los índices donde hay coincidencia:

In [None]:
serie_1 + serie_2

2     NaN
3     NaN
4     NaN
5     NaN
a    11.0
b    22.0
c     NaN
d     NaN
e     NaN
dtype: float64

### Atributos de las series:

Los siguientes son algunos de los atributos comunes que vamos a
utilizar para las series. Observe que dtype y shape están disponibles, tal como con los arreglos en NumPy:

In [None]:
# atributo: name
serie_1.name = 'fíjate'
serie_1.name

'fíjate'

In [None]:
pd.DataFrame(serie_1)

Unnamed: 0,fíjate
a,1
b,2
c,3
d,4
e,5


In [None]:
serie_2.name

In [None]:
serie_1

a    1
b    2
c    3
d    4
e    5
Name: mi serie 1, dtype: int64

In [None]:
# atributo: dtype
serie_1.dtype

dtype('int64')

In [None]:
# atributo: shape
serie_1.shape

(5,)

In [None]:
# atributo: index
serie_1.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [None]:
# atributo: values
serie_1.values

array([1, 2, 3, 4, 5])

In [None]:
serie_1 ** serie_1

a       1
b       4
c      27
d     256
e    3125
Name: mi serie 1, dtype: int64

### DataFrame:

Un DataFrame representa una tabla (bidimensional) de datos y contiene una colección ordenada de columnas, cada una de las cuales puede ser un tipo de valor diferente (numérico, cadena, booleano, etc).

El DataFrame tiene un índice de fila y columna; se puede pensar en este objeto como una colección de Series, donde todas comparten el mismo índice.

Hay muchas formas de construir un DataFrame, aunque una de las más comunes es a partir de un diccionario de listas de igual longitud:

In [None]:
# creo mi diccionario:
mi_diccionario = {"números": [1.0, 2.0, 3.0, 4.0, 5.0], "letras": ['a', 'b', 'c', 'd', 'e']}
mi_diccionario

{'números': [1.0, 2.0, 3.0, 4.0, 5.0], 'letras': ['a', 'b', 'c', 'd', 'e']}

In [None]:
# creo mi dataframe a partir de mi diccionario:
mi_DataFrame = pd.DataFrame(mi_diccionario)
mi_DataFrame

Unnamed: 0,números,letras
0,1.0,a
1,2.0,b
2,3.0,c
3,4.0,d
4,5.0,e


In [None]:
type(mi_DataFrame)

Si especifica una secuencia de columnas, las columnas del DataFrame se organizarán en ese orden:

In [None]:
mi_DataFrame = pd.DataFrame(mi_diccionario, columns = ['letras', 'números'])
mi_DataFrame

Unnamed: 0,letras,números
0,a,1.0
1,b,2.0
2,c,3.0
3,d,4.0
4,e,5.0


Si llamas a una columna que no está contenida en el diccionario, aparecerá con valores NaN en el resultado:

In [None]:
mi_DataFrame = pd.DataFrame(mi_diccionario, columns = ['letras', 'números', 'colores'])
mi_DataFrame

Unnamed: 0,letras,números,colores
0,a,1.0,
1,b,2.0,
2,c,3.0,
3,d,4.0,
4,e,5.0,


El nombre de columna de un DataFrame hace referencia a una llave (del diccionario), y cuando se llama a una columna de este, está haciendo referencia a una Serie:

In [None]:
mi_diccionario['letras']

['a', 'b', 'c', 'd', 'e']

In [None]:
mi_DataFrame['letras']

0    a
1    b
2    c
3    d
4    e
Name: letras, dtype: object

In [None]:
type(mi_DataFrame['letras'])


Tenga en cuenta que la Serie tiene el mismo índice que el DataFrame.

In [None]:
mi_DataFrame['números']

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
Name: números, dtype: float64

In [None]:
mi_DataFrame['colores']

0    NaN
1    NaN
2    NaN
3    NaN
4    NaN
Name: colores, dtype: object

In [None]:
mi_nueva_serie = mi_DataFrame['números']
np.log(mi_nueva_serie)

0    0.000000
1    0.693147
2    1.098612
3    1.386294
4    1.609438
Name: números, dtype: float64

In [None]:
mi_DataFrame['números'].apply(lambda x: np.log(x))

0    0.000000
1    0.693147
2    1.098612
3    1.386294
4    1.609438
Name: números, dtype: float64

In [None]:
mi_DataFrame['números'].apply(np.log)

0    0.000000
1    0.693147
2    1.098612
3    1.386294
4    1.609438
Name: números, dtype: float64

Podemos crear un DataFrame a partir de las series:

In [None]:
serie_1

a    1
b    2
c    3
d    4
e    5
Name: fíjate, dtype: int64

In [None]:
serie_1.name = 'columna_1'

In [None]:
serie_2

a    10
b    20
2    30
3    40
4    50
5    60
dtype: int64

In [None]:
mi_dataframe_1 = pd.DataFrame(serie_2)
mi_dataframe_1

Unnamed: 0,0
a,10
b,20
2,30
3,40
4,50
5,60



Tenga en cuenta que el DataFrame tiene el mismo índice que la Serie.


Las columnas se pueden modificar por asignación. Por ejemplo, podemos crear una nueva columna y le asignamos un valor:

In [None]:
mi_dataframe_1['nueva_variable'] = 'azul'
mi_dataframe_1

Unnamed: 0,0,nueva_variable
a,10,5
b,20,5
2,30,5
3,40,5
4,50,5
5,60,5


In [None]:
mi_dataframe_1['nuevo_valor'] = (10, 20, 30, 40, 50, 60)
mi_dataframe_1

Unnamed: 0,0,nueva_variable,nuevo_valor
a,10,5,10
b,20,5,20
2,30,5,30
3,40,5,40
4,50,5,50
5,60,5,60


también podemos asignar una nueva columna a partir de un contenedor:

In [None]:
# creo un contenedor con la misma longitud que mi DataFrame:
vocales = ['a', 'e', 'i', 'o', 'u', 'a']
# le doy un nombre a la nueva columna, y le asigno el objeto que contiene los datos:
mi_dataframe_1['vocales'] = vocales
# visualizo mi DataFrame:
mi_dataframe_1

Unnamed: 0,0,nueva_variable,nuevo_valor,vocales
a,10,5,10,a
b,20,5,20,e
2,30,5,30,i
3,40,5,40,o
4,50,5,50,u
5,60,5,60,a


In [None]:
mi_dataframe_1['resultado_operacion'] = mi_dataframe_1[0].astype(str) + mi_dataframe_1['vocales']
mi_dataframe_1

Unnamed: 0,0,nueva_variable,nuevo_valor,vocales,resultado_operacion
a,10,5,10,a,10a
b,20,5,20,e,20e
2,30,5,30,i,30i
3,40,5,40,o,40o
4,50,5,50,u,50u
5,60,5,60,a,60a


In [None]:
mi_dataframe_1['resultado_operacion']['a']

'10a'

In [None]:
type(mi_dataframe_1['resultado_operacion']['a'])

str


La palabra clave del eliminar columnas como con un diccionario:

In [None]:
del mi_dataframe_1['nueva_variable']
mi_dataframe_1

Unnamed: 0,0,nuevo_valor,vocales,resultado_operacion
a,10,10,a,10a
b,20,20,e,20e
2,30,30,i,30i
3,40,40,o,40o
4,50,50,u,50u
5,60,60,a,60a


In [None]:
mi_dataframe_1.drop('vocales', axis=1, inplace=True)

In [None]:
mi_dataframe_1

Unnamed: 0,0,nuevo_valor,resultado_operacion
a,10,10,10a
b,20,20,20e
2,30,30,30i
3,40,40,40o
4,50,50,50u
5,60,60,60a


In [None]:
mi_dataframe_1.drop('a')

Unnamed: 0,0,nuevo_valor,resultado_operacion
b,20,20,20e
2,30,30,30i
3,40,40,40o
4,50,50,50u
5,60,60,60a


#### **Tipos de datos de un DataFrame**:

En términos muy generales, los datos pueden clasificarse como cuantitativos o cualitativos.

Los datos cuantitativos siempre son numéricos y representan algún tipo de medida, como altura, edad o salario. Los datos continuos (o discretos) y pueden asumir un número infinito de posibilidades.

Los datos cualitativos, por otro lado, representan cantidades finitas de valores categóricos como el color del automóvil o marca del automóvil.

pandas no clasifica ampliamente los datos como cuantitativos o cualitativos. En cambio, tiene definiciones técnicas precisas para muchos tipos de datos distintos. A c]ontinuación se describen los más comunes:



*   float – Decimal
*   int – Entero
*   'Int64' – Entero
*   object – cadenas de texto (y tipos combinados)
*   'category' – categórico
*   bool – booleano (no acepta NaN)
*   'boolean' – booleano
*   datetime64[ns] – fecha

Utilice el atributo .dtypes para mostrar cada nombre de columna junto con su tipo de datos

In [None]:
mi_dataframe_1.dtypes

0                       int64
nuevo_valor             int64
resultado_operacion    object
dtype: object

Otra forma común de generar DataFrames es a partir de un diccionario anidado de diccionarios:

In [None]:
población = {'Nevada': {2001: 2.4, 2002: 2.9},
              'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6, 2022: 4}}

pd.DataFrame(población)

In [None]:
# las llaves del diccionario anidado son las columnas del dataframe:
población.keys()

In [None]:
# los valores del diccionario anidado son una lista de diccionarios,
# donde la llave de cada diccionario corresponde al índice
# y el valor al dato de la fila:
población.values()

In [None]:
# cada diccionario adentro de los valores del diccionario principal
# contiene los datos de una columan específica,
# indicando en la llave el índice (que corresponde a la fila):
list(población.values())[0]

In [None]:
list(población.values())[1]

## Crear DataFrames importando datos de otros formatos:

Pandas puede leer datos de una amplia variedad de formatos utilizando sus funciones de lector (consulte la lista completa de formatos soportados aquí: https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

Los formatos más utilizados son:

*   Archivos CSV
*   Archivos de Excel
*   Archivos JSON
*   desde un HTML


### CSV:

La función read_csv se puede usar para leer datos de un archivo CSV en un DataFrame, como se muestra a continuación:

In [None]:
archivo_csv = '/content/adm_data.csv'
adm_data = pd.read_csv(archivo_csv, header=0, delimiter = ',')
adm_data

Unnamed: 0,Serial No.,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
0,1,337,118,4,4.5,4.5,9.65,1,0.92
1,2,324,107,4,4.0,4.5,8.87,1,0.76
2,3,316,104,3,3.0,3.5,8.00,1,0.72
3,4,322,110,3,3.5,2.5,8.67,1,0.80
4,5,314,103,2,2.0,3.0,8.21,0,0.65
...,...,...,...,...,...,...,...,...,...
395,396,324,110,3,3.5,3.5,9.04,1,0.82
396,397,325,107,3,3.0,3.5,9.11,1,0.84
397,398,330,116,4,5.0,4.5,9.45,1,0.91
398,399,312,103,3,3.5,4.0,8.78,0,0.67


Este conjunto de datos incluye diversa información como puntaje GRE, puntaje TOEFL, calificación universitaria, SOP (Declaración de propósito), LOR (Carta de recomendación), CGPA, investigación y posibilidad de admisión.

En este conjunto de datos, se incluyen 400 entradas.

* Puntuaciones GRE (de 340)
* Puntuaciones TOEFL (de 120)
* Calificación universitaria (sobre 5)
* Fuerza de la declaración de propósito (SOP) (sobre 5)
* Carta de recomendación (LOR) (de 5)
* GPA de pregrado (de 10)
* Experiencia en investigación (ya sea 0 o 1)
* Probabilidad de admisión (que va de 0 a 1).



In [None]:
adm_data.head(2)

Unnamed: 0,Serial No.,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
0,1,337,118,4,4.5,4.5,9.65,1,0.92
1,2,324,107,4,4.0,4.5,8.87,1,0.76



La lectura de datos de archivos CSV es una de las formas más comunes de crear un DataFrame.

Los archivos CSV son archivos separados por comas para almacenar y recuperar valores, donde cada línea es equivalente a una fila. Demos una mirada a la documentación de esta función:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

### Archivos de Excel:

Pandas brinda soporte para importar datos desde formatos de archivo xls y xlsx usando la función pd.read_excel, como se muestra a continuación.

In [None]:
excel_file  = '/content/Historicalinvesttemp.xlsx'
hist_df = pd.read_excel(excel_file, header=6,
                        #names = ['Año',
                        #         'Acciones',
                        #         'Tresury Bill',
                        #         'Bonos del Tesoro'],
                        nrows = 82
                        )
hist_df

Unnamed: 0,Year,Stocks,T.Bills,T.Bonds
0,1928,0.4381,0.0308,0.0084
1,1929,-0.0830,0.0316,0.0420
2,1930,-0.2512,0.0455,0.0454
3,1931,-0.4384,0.0231,-0.0256
4,1932,-0.0864,0.0107,0.0879
...,...,...,...,...
77,2005,0.0491,0.0781,0.0120
78,2006,0.1579,0.0119,0.0298
79,2007,0.0549,0.0988,0.0466
80,2008,-0.3700,0.2587,0.0160


In [None]:
hist_df.rename(columns={'Year': 'Año'}, inplace=True)

In [None]:
hist_df

Unnamed: 0,Año,Stocks,T.Bills,T.Bonds
0,1928,0.4381,0.0308,0.0084
1,1929,-0.0830,0.0316,0.0420
2,1930,-0.2512,0.0455,0.0454
3,1931,-0.4384,0.0231,-0.0256
4,1932,-0.0864,0.0107,0.0879
...,...,...,...,...
77,2005,0.0491,0.0781,0.0120
78,2006,0.1579,0.0119,0.0298
79,2007,0.0549,0.0988,0.0466
80,2008,-0.3700,0.2587,0.0160


___

Esta base de datos contiene información de los rendimientos anuales de las inversiones en stocks, Treasury Bills y Treasury Bonds.


Los Tresury Bill son inversiones a corto plazo, con un vencimiento entre unas pocas semanas y un año desde el momento de la compra. Los bonos del Tesoro son más variados y son inversiones a más largo plazo que se mantienen durante más de un año. Los bonos del Tesoro también tienen un pago de intereses más alto.

___

La documentación de esta función para leer archivos de Excel se encuentra en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html

Revisemos el archivo de Excel y corrijamos nuestro DataFrame de acuerdo con las indicaciones en la documentación.

In [None]:
# omitamos las celdas encima de los títulos de las columnas (variables):
hist_df = pd.read_excel(excel_file, header = 6, nrows=82)
hist_df

NameError: name 'pd' is not defined

### JSON:

JSON significa JavaScript Object Notation, y es un formato de archivo multiplataforma para transmisión e intercambio de datos entre el cliente y el servidor. Pandas proporciona la función read_json para leer datos de un archivo JSON, como se muestra a continuación:

In [None]:
iris_data = '/content/iris.json'
pd.read_json(iris_data)

Unnamed: 0,sepalLength,sepalWidth,petalLength,petalWidth,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


La documentación de esta función la podemos encontrar en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html

### Desde un archivo HTML en línea:


También podemos importar datos desde una página web usando la función pd.read_html.

En el siguiente ejemplo, esta función analiza las tablas de la página web en Objetos de marco de datos. Esta función devuelve una lista de objetos DataFrame que corresponden a las tablas de la página web. En el siguiente ejemplo, table[0] corresponde a la primera tabla en la URL mencionada.

In [None]:
url = "https://es.wikipedia.org/wiki/Copa_Mundial_de_F%C3%BAtbol"
table = pd.read_html(url)
table

[                              Copa Mundial de la FIFA  \
 0   La selección de fútbol de Argentina, vigente c...   
 1                                     Datos generales   
 2                                                Sede   
 3                                         Organizador   
 4                                            Palmarés   
 5                                             Campeón   
 6                                          Subcampeón   
 7                                  Datos estadísticos   
 8                                       Participantes   
 9                                         Más títulos   
 10                                Más participaciones   
 11                                    Máximo goleador   
 12                                     Más presencias   
 13                                                NaN   
 14                                      Sitio oficial   
 15                         [editar datos en Wikidata]   
 
            

In [None]:
# verifiquemos tipo de objeto que recibimos:
type(table)

list

In [None]:
# identifiquemos la cantidad de elementos de la lista:
len(table)

13

In [None]:
# veamos qué son esos elementos:
table[0]

Unnamed: 0,Copa Mundial de la FIFA,Copa Mundial de la FIFA.1,Copa Mundial de la FIFA.2
0,"La selección de fútbol de Argentina, vigente c...","La selección de fútbol de Argentina, vigente c...","La selección de fútbol de Argentina, vigente c..."
1,Datos generales,Datos generales,Datos generales
2,Sede,Por elección (Territorios asociados a la FIFA),Por elección (Territorios asociados a la FIFA)
3,Organizador,Federación Internacional de Fútbol Asociación ...,Federación Internacional de Fútbol Asociación ...
4,Palmarés,Palmarés,Palmarés
5,Campeón,Argentina (3),Argentina (3)
6,Subcampeón,Francia,Francia
7,Datos estadísticos,Datos estadísticos,Datos estadísticos
8,Participantes,211 (fase clasificatoria) 48 (fase final; desd...,211 (fase clasificatoria) 48 (fase final; desd...
9,Más títulos,Brasil (5),Brasil (5)


In [None]:
table[1]

Unnamed: 0,Año,Sede,Costo (en miles de millones USD),Fuente
0,1994,Estados Unidos,0.5,[116]​
1,1998,Francia,2.3,[116]​
2,2002,Corea Japón,7.0,[116]​
3,2006,Alemania,4.3,[116]​
4,2010,Sudáfrica,3.6,[116]​
5,2014,Brasil,15.0,[116]​
6,2018,Rusia,11.6,[116]​
7,2022,Catar,220.0,[116]​


In [None]:
table[2]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,Edición,Sede,,Campeón,Final Resultado,Subcampeón,,Tercer lugar,Resultado,Cuarto lugar,N.º de selecciones
1,1930,Uruguay,,Uruguay,4:2,Argentina,,Estados Unidos,n.r.[n 6]​,Yugoslavia,13
2,1934,Italia,,Italia,2:1[n 7]​,Checoslovaquia,,Alemania,3:2,Austria,16
3,1938,Francia,,Italia,4:2,Hungría,,Brasil,4:2,Suecia,15
4,1942,—,,No celebrada por la Segunda Guerra Mundial.[n 8]​,No celebrada por la Segunda Guerra Mundial.[n 8]​,No celebrada por la Segunda Guerra Mundial.[n 8]​,No celebrada por la Segunda Guerra Mundial.[n 8]​,No celebrada por la Segunda Guerra Mundial.[n 8]​,No celebrada por la Segunda Guerra Mundial.[n 8]​,No celebrada por la Segunda Guerra Mundial.[n 8]​,No celebrada por la Segunda Guerra Mundial.[n 8]​
5,1946,—,,No celebrada por la Segunda Guerra Mundial.[n 8]​,No celebrada por la Segunda Guerra Mundial.[n 8]​,No celebrada por la Segunda Guerra Mundial.[n 8]​,No celebrada por la Segunda Guerra Mundial.[n 8]​,No celebrada por la Segunda Guerra Mundial.[n 8]​,No celebrada por la Segunda Guerra Mundial.[n 8]​,No celebrada por la Segunda Guerra Mundial.[n 8]​,No celebrada por la Segunda Guerra Mundial.[n 8]​
6,1950,Brasil,,Uruguay,2:1[n 9]​,Brasil,,Suecia,3:1[n 9]​,España,13
7,1954,Suiza,,Alemania Federal,3:2,Hungría,,Austria,3:1,Uruguay,16
8,1958,Suecia,,Brasil,5:2,Suecia,,Francia,6:3,Alemania Federal,16
9,1962,Chile,,Brasil,3:1,Checoslovaquia,,Chile,1:0,Yugoslavia,16


Documentación de la función: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_html.html

### Exportar DataFrames:

Pandas es una biblioteca de Python que proporciona estructuras de datos y herramientas de análisis de datos. Una de las estructuras de datos más utilizadas en Pandas es el DataFrame, que es una estructura de datos bidimensional similar a una hoja de cálculo de Excel.

Pandas proporciona varias funciones para exportar DataFrames a diferentes formatos de archivo como CSV, Excel, JSON, HTML y SQL.

In [None]:
data = {'Estado': ['Ciudad de México', 'Jalisco', 'Nuevo León', 'Puebla', 'Guanajuato'],
        'Población': [8918653, 8348681, 5610153, 6604451, 6228175],
        'PIB_per_capita': [474297, 215853, 283828, 128961, 160158]}

df = pd.DataFrame(data)
df

Unnamed: 0,Estado,Población,PIB_per_capita
0,Ciudad de México,8918653,474297
1,Jalisco,8348681,215853
2,Nuevo León,5610153,283828
3,Puebla,6604451,128961
4,Guanajuato,6228175,160158


Para exportar este DataFrame a un archivo CSV, puedes usar la función `to_csv()`.

In [None]:
df

Unnamed: 0,Estado,Población,PIB_per_capita
0,Ciudad de México,8918653,474297
1,Jalisco,8348681,215853
2,Nuevo León,5610153,283828
3,Puebla,6604451,128961
4,Guanajuato,6228175,160158


In [None]:
# Exportar a CSV
df.to_csv('estados.csv', index=False)

Para exportar el DataFrame a un archivo Excel, puedes usar la función `to_excel()`. Necesitarás tener instalado el paquete `openpyxl`.

In [None]:
# Exportar a Excel
df.to_excel('estados.xlsx', index=False)

Para exportar el DataFrame a un archivo JSON, puedes usar la función `to_json()`.

In [None]:
# Exportar a JSON
df.to_json('estados.json', orient='records')

Para exportar el DataFrame a un archivo HTML, puedes usar la función `to_html()`.

In [None]:
# Exportar a HTML
df.to_html('estados.html', index=False)

En todos estos ejemplos, el argumento `index=False` se usa para evitar que los índices del DataFrame se incluyan en el archivo de salida. Si deseas incluir los índices, simplemente omite este argumento.

## Exploración básica de un DataFrame:

In [None]:
data = {
    'Estado': ['Aguascalientes', 'Baja California', 'Baja California Sur', 'Campeche', 'Coahuila', 'Colima', 'Chiapas', 'Chihuahua', 'Durango', 'Guanajuato', 'Guerrero', 'Hidalgo', 'Jalisco', 'México', 'Michoacán', 'Morelos', 'Nayarit', 'Nuevo León', 'Oaxaca', 'Puebla', 'Querétaro', 'Quintana Roo', 'San Luis Potosí', 'Sinaloa', 'Sonora', 'Tabasco', 'Tamaulipas', 'Tlaxcala', 'Veracruz', 'Yucatán', 'Zacatecas'],
    'Poblacion': [1425607, 3769020, 798447, 928363, 3146771, 731391, 5543828, 3741869, 1832650, 6166934, 3540685, 3082841, 8348681, 17427790, 4748846, 1971520, 1235456, 5784442, 4132148, 6383721, 2279637, 1723259, 2822255, 3026943, 2944846, 2395272, 3527735, 1324842, 8112505, 2259098, 1622138],
    'Superficie': [5616, 71346, 73909, 57507, 151563, 5626, 73311, 247455, 123451, 30607, 63596, 20813, 78588, 22351, 58599, 4892, 27864, 64156, 93793, 34306, 11699, 50120, 63308, 58341, 184934, 24730, 80249, 3997, 71825, 39524, 75249]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Estado,Poblacion,Superficie
0,Aguascalientes,1425607,5616
1,Baja California,3769020,71346
2,Baja California Sur,798447,73909
3,Campeche,928363,57507
4,Coahuila,3146771,151563
5,Colima,731391,5626
6,Chiapas,5543828,73311
7,Chihuahua,3741869,247455
8,Durango,1832650,123451
9,Guanajuato,6166934,30607


Para ver las primeras n filas de tu dataframe, puedes usar el método `head(n)` por defecto, si omitimos n, se mostrarán las 5 primeras filas:

In [None]:
df.head(3)

Unnamed: 0,Estado,Poblacion,Superficie
0,Aguascalientes,1425607,5616
1,Baja California,3769020,71346
2,Baja California Sur,798447,73909


Para ver las últimas n filas de tu dataframe, puedes usar el método `tail(n)`:

In [None]:
df.tail(7)

Unnamed: 0,Estado,Poblacion,Superficie
24,Sonora,2944846,184934
25,Tabasco,2395272,24730
26,Tamaulipas,3527735,80249
27,Tlaxcala,1324842,3997
28,Veracruz,8112505,71825
29,Yucatán,2259098,39524
30,Zacatecas,1622138,75249


Para obtener información general sobre tu dataframe, como el número de filas y columnas, los tipos de datos de las columnas y la cantidad de memoria que se utiliza, puedes usar el método `info()`:

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31 entries, 0 to 30
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Estado      31 non-null     object
 1   Poblacion   31 non-null     int64 
 2   Superficie  31 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 872.0+ bytes


Para obtener estadísticas descriptivas de las columnas numéricas de tu dataframe, como el conteo, la media, la desviación estándar, los valores mínimo y máximo, y los cuartiles, puedes usar el método `describe()`:

In [None]:
df.describe().astype(int)

Unnamed: 0,Poblacion,Superficie
count,31,31
mean,3767081,63655
std,3248345,53930
min,731391,3997
25%,1777954,26297
50%,3026943,58599
75%,4440497,74579
max,17427790,247455


Para obtener el número de valores únicos en cada columna, puedes usar el método `nunique()`:

In [None]:
df.nunique()

Estado        31
Poblacion     31
Superficie    31
dtype: int64

Para obtener el número de valores no nulos en cada columna, puedes usar el método `count()`:

In [None]:
df.count()

Estado        31
Poblacion     31
Superficie    31
dtype: int64

Para obtener la suma de los valores de una columna, puedes usar el método `sum()`:

In [None]:
df.sum()

Estado        AguascalientesBaja CaliforniaBaja California S...
Poblacion                                             116779540
Superficie                                              1973325
dtype: object

Para obtener el valor medio de una columna, puedes usar el método `mean()`:

In [None]:
df['Poblacion'].mean()

3767081.935483871

In [None]:
df['Superficie'].mean()

63655.645161290326

Para obtener el valor mínimo y máximo de una columna, puedes usar los métodos `min()` y `max()`, respectivamente:

In [None]:
print(df['Poblacion'].min())
print(df['Poblacion'].max())

731391
17427790


Estos son solo algunos ejemplos de cómo puedes explorar un dataframe en Python. Hay muchas otras funciones y métodos disponibles en la biblioteca pandas que puedes usar para explorar y analizar tus datos.

# Ejercicios:



1.   Crea una lista con los nombres de los meses del año en orden cronológico.
2.   Crea un rango con el número que corresponde a cada mes del año.
3. A partir de estos dos elementos, crea una serie que el índice sea el número del año, y el dato de correspondiente sea el nombre del mes.
4. Ahora crea una nueva serie donde el índice sea el nombre del mes y el valor asignado a este sea el número del mes.
5. Convierte esta Serie en un DataFrame.
6. Crea una serie que contenga en, orden de preferencia, tus cinco libros favoritos. El índice asignado al libro favorito debe ser el 1.
7. Ahora modifica el índice a tu serie de libros, de tal forma que el favorito corresponda al índice A, el segundo favorito a la B, y así sucesivamente.
8. Convierte esta Serie en un DataFrame.
9. Agrégale una nueva columna que contenga tus álbumes de música favoritos.
10. Agrega una columna que contenga la calificación que le darías a cada uno de estos álbumes.




In [1]:
#1 Crea una lista con los nombres de los meses del año en orden cronológico.
meses_del_año = [
    "Enero",
    "Febrero",
    "Marzo",
    "Abril",
    "Mayo",
    "Junio",
    "Julio",
    "Agosto",
    "Septiembre",
    "Octubre",
    "Noviembre",
    "Diciembre"
]

print(meses_del_año)

['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio', 'Julio', 'Agosto', 'Septiembre', 'Octubre', 'Noviembre', 'Diciembre']


In [2]:
#2 Crea un rango con el número que corresponde a cada mes del año.
numeros_de_meses = range(1, 13)

print(list(numeros_de_meses))

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]


In [14]:
#3 A partir de estos dos elementos, crea una serie que el índice sea el número del año, y el dato de correspondiente sea el nombre del mes.
meses_del_año = [
    "Enero", "Febrero", "Marzo", "Abril",
    "Mayo", "Junio", "Julio", "Agosto",
    "Septiembre", "Octubre", "Noviembre", "Diciembre"
]

numeros_de_meses = range(1, 13)

serie_meses = pd.Series(meses_del_año, index=numeros_de_meses)

print(serie_meses)

1          Enero
2        Febrero
3          Marzo
4          Abril
5           Mayo
6          Junio
7          Julio
8         Agosto
9     Septiembre
10       Octubre
11     Noviembre
12     Diciembre
dtype: object


In [20]:
#4 Ahora crea una nueva serie donde el índice sea el nombre del mes y el valor asignado a este sea el número del mes.
meses_dict = {
    "Enero": 1,
    "Febrero": 2,
    "Marzo": 3,
    "Abril": 4,
    "Mayo": 5,
    "Junio": 6,
    "Julio": 7,
    "Agosto": 8,
    "Septiembre": 9,
    "Octubre": 10,
    "Noviembre": 11,
    "Diciembre": 12
}
serie_meses = pd.Series(meses_dict)

print(serie_meses)

Enero          1
Febrero        2
Marzo          3
Abril          4
Mayo           5
Junio          6
Julio          7
Agosto         8
Septiembre     9
Octubre       10
Noviembre     11
Diciembre     12
dtype: int64


In [25]:
#5 Convierte esta Serie en un DataFrame y nombré el encabezado de esa serie.
meses_dict = {
    "Enero": 1,
    "Febrero": 2,
    "Marzo": 3,
    "Abril": 4,
    "Mayo": 5,
    "Junio": 6,
    "Julio": 7,
    "Agosto": 8,
    "Septiembre": 9,
    "Octubre": 10,
    "Noviembre": 11,
    "Diciembre": 12
  }
serie_meses= pd.Series(meses_dict)

df_meses = serie_meses.to_frame().rename_axis('Mes').reset_index()

print(df_meses)

           Mes   0
0        Enero   1
1      Febrero   2
2        Marzo   3
3        Abril   4
4         Mayo   5
5        Junio   6
6        Julio   7
7       Agosto   8
8   Septiembre   9
9      Octubre  10
10   Noviembre  11
11   Diciembre  12


In [38]:
#6 Crea una serie que contenga en, orden de preferencia, tus cinco libros favoritos. El índice asignado al libro favorito debe ser el 1.
libros_fav = pd.Series([
    "El amor en tiempos del cólera",
    "Caín",
    "Fahrenheit 451",
    "Ensayo sobre la ceguera",
    "La ladrona de libros"
], index=[1, 2, 3, 4, 5])

print(libros_fav)

1    El amor en tiempos del cólera
2                             Caín
3                   Fahrenheit 451
4          Ensayo sobre la ceguera
5             La ladrona de libros
dtype: object


In [42]:
#7 Ahora modifica el índice a tu serie de libros, de tal forma que el favorito corresponda al índice A, el segundo favorito a la B, y así sucesivamente.
libros_fav = pd.Series([
    "El amor en tiempos del cólera",
    "Caín",
    "Fahrenheit 451",
    "Ensayo sobre la ceguera",
    "La ladrona de libros"
], index=[1, 2, 3, 4, 5])

nuevos_indices = {1: 'A', 2: 'B', 3: 'C', 4: 'D', 5: 'E'}

libros_fav = libros_fav.rename(index=nuevos_indices)

print(libros_fav)


A    El amor en tiempos del cólera
B                             Caín
C                   Fahrenheit 451
D          Ensayo sobre la ceguera
E             La ladrona de libros
dtype: object


In [45]:
#8 Convierte esta Serie en un DataFrame.
libros_fav = pd.Series([
    "El amor en tiempos del cólera",
    "Caín",
    "Fahrenheit 451",
    "Ensayo sobre la ceguera",
    "La ladrona de libros"
], index=[1, 2, 3, 4, 5])

df_libros_fav = libros_fav.to_frame(name='LibroFavorito')

print(df_libros_fav)

                   LibroFavorito
1  El amor en tiempos del cólera
2                           Caín
3                 Fahrenheit 451
4        Ensayo sobre la ceguera
5           La ladrona de libros


In [77]:
# @title Texto de título predeterminado
#9 Agrégale una nueva columna que contenga tus álbumes de música favoritos.
libros_favoritos = pd.Series([
    "El amor en tiempos del cólera",
    "Caín",
    "Fahrenheit 451",
    "Ensayo sobre la ceguera",
    "La ladrona de libros"
], index=['A', 'B', 'C', 'D', 'E'])

# Crear una serie con los álbumes de música favoritos
albumes_favoritos = pd.Series([
    "Whatever It Takes",
    "Thunder",
    "Synphony",
    "Demons",
    "Enemy",
], index=['A', 'B', 'C', 'D', 'E'])

# Convertir las series en un DataFrame
df = pd.DataFrame({'Libros': libros_favoritos, 'Álbumes de música': albumes_favoritos})

print(df)

                          Libros  Álbumes de música
A  El amor en tiempos del cólera  Whatever It Takes
B                           Caín            Thunder
C                 Fahrenheit 451           Synphony
D        Ensayo sobre la ceguera             Demons
E           La ladrona de libros              Enemy


In [73]:
#10 Agrega una columna que contenga la calificación que le darías a cada uno de estos álbumes.
libros_favoritos = pd.Series([
    "El amor en tiempos del cólera",
    "Caín",
    "Fahrenheit 451",
    "Ensayo sobre la ceguera",
    "La ladrona de libros"
], index=['A', 'B', 'C', 'D', 'E'])

# Crear una serie con los álbumes de música favoritos
albumes_favoritos = pd.Series([
    "Whatever It Takes",
    "Thunder",
    "Synphony",
    "Demons",
    "Enemy",
], index=['A', 'B', 'C', 'D', 'E'])

# Crear una serie con las calificaciones para cada álbum
calificaciones_albumes = pd.Series([10, 8, 5, 4.5, 3], index=['A', 'B', 'C', 'D', 'E'])

# Convertir las series en un DataFrame
df = pd.DataFrame({'Libros': libros_favoritos, 'Álbumes de música': albumes_favoritos, 'Calificación': calificaciones_albumes})

print(df)

                          Libros  Álbumes de música  Calificación
A  El amor en tiempos del cólera  Whatever It Takes          10.0
B                           Caín            Thunder           8.0
C                 Fahrenheit 451           Synphony           5.0
D        Ensayo sobre la ceguera             Demons           4.5
E           La ladrona de libros              Enemy           3.0
