
# Introducción a pandas

En esta sección del curso aprenderemos cómo usar pandas para el análisis de datos. Puede pensar en los pandas como una versión extremadamente poderosa de Excel, con muchas más funciones. En esta sección del curso, debe revisar los cuadernos en este orden:

* Introducción a los pandas
* Series
* DataFrames
* Datos vacíos
* Agrupar por (Group by)
* Fusión, unión y concatenación
* Operaciones
* Entrada y salida de datos

El primer tipo de datos principal que aprenderemos para pandas es el tipo de datos Series. Importemos Pandas y exploremos el objeto Serie.

Una serie es muy similar a una matriz NumPy (de hecho, está construida sobre el objeto de matriz NumPy). Lo que diferencia la matriz NumPy de una serie es que una serie puede tener etiquetas de eje, lo que significa que puede indexarse mediante una etiqueta, en lugar de solo una ubicación numérica. Tampoco necesita contener datos numéricos, puede contener cualquier Objeto Python arbitrario.

Exploremos este concepto a través de algunos ejemplos:

In [1]:
import numpy as np
import pandas as pd


### Creando una serie

Puede convertir una lista, una matriz numérica o un diccionario en una serie:

In [2]:
etiquetas = ['a','b','c']
mi_lista = [10,20,30]
arr = np.array([10,20,30])
d = {'a':10,'b':20,'c':30}

**Usando listas**

In [3]:
pd.Series(data=mi_lista)

0    10
1    20
2    30
dtype: int64

In [4]:
pd.Series(data=mi_lista,index=etiquetas)

a    10
b    20
c    30
dtype: int64

In [5]:
pd.Series(mi_lista,etiquetas)

a    10
b    20
c    30
dtype: int64


**Matrices NumPy**

In [6]:
pd.Series(arr)

0    10
1    20
2    30
dtype: int32

In [7]:
pd.Series(arr,etiquetas)

a    10
b    20
c    30
dtype: int32

**Diccionarios**

In [8]:
pd.Series(d)

a    10
b    20
c    30
dtype: int64


### Datos en una serie

Una serie de pandas puede contener una variedad de tipos de objetos:

In [9]:
pd.Series(data=etiquetas)

0    a
1    b
2    c
dtype: object

## Usando un índice

La clave para usar una serie es comprender su índice. Pandas hace uso de los nombres o números de índice que nos permiten búsquedas rápidas de información (funciona como una tabla hash o un diccionario).

Veamos algunos ejemplos de cómo obtener información de una serie. Creemos dos series, ser1 y ser2:

In [10]:
ser1 = pd.Series([1,2,3,4],index = ['USA', 'Germany','USSR', 'Japan'])                                

In [11]:
ser1

USA        1
Germany    2
USSR       3
Japan      4
dtype: int64

In [12]:
ser2 = pd.Series([1,2,5,4],index = ['USA', 'Germany','Italy', 'Japan'])                                   

In [13]:
ser2

USA        1
Germany    2
Italy      5
Japan      4
dtype: int64

In [14]:
ser1['USA']

1

Luego, las operaciones también se realizan en función del índice:

In [15]:
ser1 + ser2

Germany    4.0
Italy      NaN
Japan      8.0
USA        2.0
USSR       NaN
dtype: float64

## Metodos integrados de calculos

In [16]:
#Conteo de registros
ser1.count()

4

In [17]:
#suma de valores numericos
ser1.sum()

10

In [18]:
#promedio de valores numericos
ser1.mean()

2.5

In [19]:
#maximo de valores numericos
ser1.max()

4

In [20]:
#minimo de valores numericos
ser1.min()

1

In [21]:
#desviacion estandar de valores numericos
ser1.std()

1.2909944487358056

In [22]:
#varianza de valores numericos
ser1.var()

1.6666666666666667

In [23]:
#mediana de valores numericos
ser1.median()

2.5

In [24]:
#los dos valores numericos mas grandes
ser1.nlargest(2)

Japan    4
USSR     3
dtype: int64

In [25]:
#los 3 valores numericos mas pequeños
ser1.nsmallest(3)

USA        1
Germany    2
USSR       3
dtype: int64

# DataFrames

Los DataFrames son el caballo de batalla de pandas y se inspiran directamente en el lenguaje de programación R. Podemos pensar en un DataFrame como un grupo de objetos Series juntos para compartir el mismo índice. Un DataFrame está compuesto por una matriz de datos, divididas por columnas e indices ¡Usemos pandas para explorar este tema!

# Creando un DataFrame

In [26]:
#cinco filas y 4 columnas
matriz = np.random.randn(5,4)

In [27]:
columnas = ['A','B','C','D']

In [28]:
indices = ['E','F','G','H','I']

In [29]:
pd.DataFrame(data=matriz,columns = columnas, index =  indices)

Unnamed: 0,A,B,C,D
E,-0.847289,0.127379,-0.959886,0.29794
F,-0.697763,-0.884381,0.851067,-0.676004
G,-0.033938,-0.42794,0.39797,-1.317968
H,0.101913,-2.313287,0.492888,-0.344882
I,0.741286,1.054853,-1.638834,0.692478


In [30]:
df = pd.DataFrame(data=matriz,columns = columnas, index =  indices)

# Conectando a fuentes de datos
Con pandas puede leer una variedad de tipos de archivos usando sus métodos pd.read_. Echemos un vistazo a los tipos de datos más comunes:

## CSV

### CSV Entrada

In [31]:
df_csv = pd.read_csv('data_ventas.csv')

In [32]:
df_csv

Unnamed: 0,Vendedor,NroFactura,FechaFactura,Cliente,MontoSinImp,Impuestos,Costo,MontoFactura,Tipo,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12
0,Laura,1,1/3/2014,Semillas Santo Mongo,765.68,203.53,109,969.21,Empresa,,,,
1,Maria,2,1/3/2014,Buffalo Cnia,420.60,111.80,56,532.40,Empresa,,,,
2,Juan,3,1/3/2014,Englewood Cnia,108.98,28.96,113,137.94,Empresa,,,,
3,Alfonso,4,1/4/2014,"Ross, Christian",304.94,81.05,75,385.99,Persona,,,,
4,Juan,5,1/4/2014,"Diaz, Gabriel",107.07,28.45,111,135.52,Persona,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
4395,Pedro,4396,7/28/2016,"Ward, Jeremy",113.00,23.73,106,136.73,Persona,,,,
4396,Carla,4397,7/28/2016,Coffs Harbour Cnia,409.00,85.89,61,494.89,Empresa,,,,
4397,Juan,4398,7/28/2016,"Miller, Seth",801.00,168.21,59,969.21,Persona,,,,
4398,Penelope,4399,7/28/2016,"Sharma, Ethan",856.00,179.76,63,1035.76,Persona,,,,


## Excel
Pandas puede leer y escribir archivos de Excel, tenga en cuenta que esto solo importa datos, no fórmulas o imágenes, tener imágenes o macros puede hacer que este método read_excel se bloquee.

In [33]:
df_excel = pd.read_excel('data_ventas.xlsx')

In [34]:
df_excel

Unnamed: 0,Vendedor,NroFactura,FechaFactura,Cliente,MontoSinImp,Impuestos,Costo,MontoFactura,Tipo
0,Laura,1,2014-01-03,Semillas Santo Mongo,765.68,203.53,109,969.21,Empresa
1,Maria,2,2014-01-03,Buffalo Cnia,420.60,111.80,56,532.40,Empresa
2,Juan,3,2014-01-03,Englewood Cnia,108.98,28.96,113,137.94,Empresa
3,Alfonso,4,2014-01-04,"Ross, Christian",304.94,81.05,75,385.99,Persona
4,Juan,5,2014-01-04,"Diaz, Gabriel",107.07,28.45,111,135.52,Persona
...,...,...,...,...,...,...,...,...,...
4395,Pedro,4396,2016-07-28,"Ward, Jeremy",113.00,23.73,106,136.73,Persona
4396,Carla,4397,2016-07-28,Coffs Harbour Cnia,409.00,85.89,61,494.89,Empresa
4397,Juan,4398,2016-07-28,"Miller, Seth",801.00,168.21,59,969.21,Persona
4398,Penelope,4399,2016-07-28,"Sharma, Ethan",856.00,179.76,63,1035.76,Persona


## HTML

Es posible que debas instalar htmllib5, lxml y BeautifulSoup4. En su terminal/comando del sistema, ejecutando:

    conda instalar lxml
    conda instalar html5lib
    conda instalar BeautifulSoup4

Luego reinicie Jupyter Notebook.
(o use pip install si no está usando la distribución Anaconda)

Pandas pueden leer las pestañas de las tablas en html. Por ejemplo:

### Entrada HTML

La función read_html de Pandas leerá tablas de una página web y devolverá una lista de objetos DataFrame:

In [35]:
df_html = pd.read_html('https://www.basketball-reference.com/leagues/NBA_2022_per_game.html')

In [36]:
df_html[0]

Unnamed: 0,Rk,Player,Pos,Age,Tm,G,GS,MP,FG,FGA,...,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
0,1,Precious Achiuwa,C,22,TOR,73,28,23.6,3.6,8.3,...,.595,2.0,4.5,6.5,1.1,0.5,0.6,1.2,2.1,9.1
1,2,Steven Adams,C,28,MEM,76,75,26.3,2.8,5.1,...,.543,4.6,5.4,10.0,3.4,0.9,0.8,1.5,2.0,6.9
2,3,Bam Adebayo,C,24,MIA,56,56,32.6,7.3,13.0,...,.753,2.4,7.6,10.1,3.4,1.4,0.8,2.6,3.1,19.1
3,4,Santi Aldama,PF,21,MEM,32,0,11.3,1.7,4.1,...,.625,1.0,1.7,2.7,0.7,0.2,0.3,0.5,1.1,4.1
4,5,LaMarcus Aldridge,C,36,BRK,47,12,22.3,5.4,9.7,...,.873,1.6,3.9,5.5,0.9,0.3,1.0,0.9,1.7,12.9
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
837,601,Thaddeus Young,PF,33,TOR,26,0,18.3,2.6,5.5,...,.481,1.5,2.9,4.4,1.7,1.2,0.4,0.8,1.7,6.3
838,602,Trae Young,PG,23,ATL,76,76,34.9,9.4,20.3,...,.904,0.7,3.1,3.7,9.7,0.9,0.1,4.0,1.7,28.4
839,603,Omer Yurtseven,C,23,MIA,56,12,12.6,2.3,4.4,...,.623,1.5,3.7,5.3,0.9,0.3,0.4,0.7,1.5,5.3
840,604,Cody Zeller,C,29,POR,27,0,13.1,1.9,3.3,...,.776,1.9,2.8,4.6,0.8,0.3,0.2,0.7,2.1,5.2


# SQL

El módulo pandas.io.sql proporciona una colección de colecciones de consultas para facilitar la recuperación de datos y reducir la dependencia de la API específica de la Base de Datos. SQLAlchemy proporciona la abstracción de la base de datos si está instalada. Además, necesitará una biblioteca de controladores para su base de datos. Ejemplos de estos controladores son psycopg2 para PostgreSQL o pymysql para MySQL. Para SQLite, esto se incluye en la biblioteca estándar de Python de forma predeterminada. Puede encontrar una descripción general de los controladores admitidos para cada dialecto SQL en los documentos de SQLAlchemy.


Si SQLAlchemy no está instalado, solo se proporciona un respaldo para sqlite (y para mysql para compatibilidad con versiones anteriores, pero esto está en desuso y se eliminará en una versión futura). Este modo requiere un adaptador de base de datos de Python que respete la DB-API de Python.

Vea también algunos ejemplos de libros para algunas estrategias avanzadas.

Las funciones clave son:

* read_sql_table (table_name, con [, esquema, ...])
    * Leer la tabla de la base de datos SQL en un DataFrame.
* read_sql_query (sql, con [, index_col, ...])
    * Leer consulta SQL en un DataFrame.
* read_sql (sql, con [, index_col, ...])
    * Leer consulta SQL o tabla de base de datos en un DataFrame.
* DataFrame.to_sql (nombre, con [, sabor, ...])
    * Escribir registros almacenados en un DataFrame en una base de datos SQL.

In [37]:
from sqlalchemy import create_engine

In [38]:
#create_engine(dialect+driver://username:password@host:port/database)

In [39]:
#create_engine("mysql+mysqldb://scott:tiger@localhost/foo")

In [40]:
#create_engine("mssql+pyodbc://scott:tiger@mydsn")

In [41]:
#create_engine("sqlite:///foo.db")

In [42]:
#create_engine("oracle+cx_oracle://scott:tiger@tnsname")

In [43]:
#create_engine('mssql+pyodbc://SERVIDOR/BASE DE DATOS?driver=SQL Server Native Client 11.0')

In [44]:
engine = create_engine('mssql+pyodbc://LAPTOP-HAPH02BA/ventas?driver=SQL Server Native Client 11.0')

In [45]:
#conexion a tabla clientes a traves del motor
tabla_df = pd.read_sql_table('clientes',con=engine)
tabla_df

Unnamed: 0,Cliente,Tipo,Teléfono,Fecha Vinculación,Fecha Nacimiento/Constitución,Ubicación
0,"Adams, Fernando",Persona,373846615.0,2011-10-06,1977-05-06,"Miami, Estados Unidos"
1,"Adams, Wyatt",Persona,646775929.0,2006-08-10,1943-11-11,"Madrid, España"
2,"Alonso, Julio",Persona,667028591.0,2009-05-17,1981-03-20,"Buenos Aires, Argentina"
3,"Ana, Maria",Persona,707344341.0,2005-10-02,1947-08-28,"Córdoba, Argentina"
4,"Anderson, Nicholas",Persona,743415512.0,2005-04-11,1943-02-19,"La Paz, Bolivia"
...,...,...,...,...,...,...
102,Wapato Cnia,Empresa,501853861.0,2000-10-15,1995-08-16,"Santa Cruz de la Sierra, Bolivia"
103,"Ward, Jeremy",Persona,281797334.0,2007-12-13,1983-05-05,"Córdoba, Argentina"
104,"Washington, Jack",Persona,490574837.0,2000-05-09,1975-06-12,"Río de Janeiro, Brasil"
105,"Washington, Jose",Persona,342142162.0,2006-08-29,1983-04-15,"San Juan, Puerto Rico"


In [46]:
#query para consultar info

query = """

select * from clientes

"""

In [47]:
#conexion a query clientes a traves del motor
query_df = pd.read_sql_query(query,con=engine)
query_df

Unnamed: 0,Cliente,Tipo,Teléfono,Fecha Vinculación,Fecha Nacimiento/Constitución,Ubicación
0,"Adams, Fernando",Persona,373846615.0,2011-10-06,1977-05-06,"Miami, Estados Unidos"
1,"Adams, Wyatt",Persona,646775929.0,2006-08-10,1943-11-11,"Madrid, España"
2,"Alonso, Julio",Persona,667028591.0,2009-05-17,1981-03-20,"Buenos Aires, Argentina"
3,"Ana, Maria",Persona,707344341.0,2005-10-02,1947-08-28,"Córdoba, Argentina"
4,"Anderson, Nicholas",Persona,743415512.0,2005-04-11,1943-02-19,"La Paz, Bolivia"
...,...,...,...,...,...,...
102,Wapato Cnia,Empresa,501853861.0,2000-10-15,1995-08-16,"Santa Cruz de la Sierra, Bolivia"
103,"Ward, Jeremy",Persona,281797334.0,2007-12-13,1983-05-05,"Córdoba, Argentina"
104,"Washington, Jack",Persona,490574837.0,2000-05-09,1975-06-12,"Río de Janeiro, Brasil"
105,"Washington, Jose",Persona,342142162.0,2006-08-29,1983-04-15,"San Juan, Puerto Rico"


## Clipboard

Tambien puedes copiar un marco de datos y con el metodo read_clipboard convertirlo en un dataframe en el notebook.

In [48]:
df_portapapeles = pd.read_clipboard()

In [49]:
df_portapapeles

Unnamed: 0,#los,dos,valores,numericos,mas,grandes


# Salida de datos


**Excel**

df.to_excel(r'RUTA DEL ARCHIVO EN TEXTO\NOMBRE DEL ARCHIVO.xlsx')

In [96]:
df_fechas.to_excel(r'C:\Users\gilbe\OneDrive\Desktop\data_fechas.xlsx')

**CSV**

df.to_csv(r'RUTA DEL ARCHIVO EN TEXTO\NOMBRE DEL ARCHIVO.csv')

In [97]:
df_fechas.to_csv(r'C:\Users\gilbe\OneDrive\Desktop\data_fechas.csv')

**SQL**

df.to_sql(name='NOMBRE DE LA TABLA', con = 'MOTOR DE CONEXION', if_exists = 'adjuntar, reemplazar o fallar', schema = 'ESQUEMA DE LA BASE DE DATOS', index = 'CON INDICE O SIN INDICE' )

In [98]:
from sqlalchemy import create_engine

In [99]:
#create_engine('mssql+pyodbc://SERVIDOR/BASE DE DATOS?driver=SQL Server Native Client 11.0')

In [100]:
#creacion de motor para conexion a base de datos
engine = create_engine('mssql+pyodbc://LAPTOP-HAPH02BA/Ventas?driver=SQL Server Native Client 11.0')

In [101]:
df_fechas.to_sql(name = 'df_fechas',
                 con = engine,
                 if_exists = 'replace',
                 schema = 'dbo',
                 index = False)

  df_fechas.to_sql(name = 'df_fechas',


-1

**Portapeles (copiar dataframe)**

df.to_clipboard()

In [102]:
df_fechas.to_clipboard()

## Selección e indexación

Aprendamos los diversos métodos para obtener datos de un DataFrame

In [50]:
df_ventas = pd.read_excel('data_ventas.xlsx')

In [51]:
#me permite ver los primeros 5 registros del dataframe
df_ventas.head()

Unnamed: 0,Vendedor,NroFactura,FechaFactura,Cliente,MontoSinImp,Impuestos,Costo,MontoFactura,Tipo
0,Laura,1,2014-01-03,Semillas Santo Mongo,765.68,203.53,109,969.21,Empresa
1,Maria,2,2014-01-03,Buffalo Cnia,420.6,111.8,56,532.4,Empresa
2,Juan,3,2014-01-03,Englewood Cnia,108.98,28.96,113,137.94,Empresa
3,Alfonso,4,2014-01-04,"Ross, Christian",304.94,81.05,75,385.99,Persona
4,Juan,5,2014-01-04,"Diaz, Gabriel",107.07,28.45,111,135.52,Persona


In [52]:
#me permite ver los ultimos 5 registros del dataframe
df_ventas.tail()

Unnamed: 0,Vendedor,NroFactura,FechaFactura,Cliente,MontoSinImp,Impuestos,Costo,MontoFactura,Tipo
4395,Pedro,4396,2016-07-28,"Ward, Jeremy",113.0,23.73,106,136.73,Persona
4396,Carla,4397,2016-07-28,Coffs Harbour Cnia,409.0,85.89,61,494.89,Empresa
4397,Juan,4398,2016-07-28,"Miller, Seth",801.0,168.21,59,969.21,Persona
4398,Penelope,4399,2016-07-28,"Sharma, Ethan",856.0,179.76,63,1035.76,Persona
4399,Luz,4400,2016-07-29,"Smith, Jonathan",781.0,164.01,108,945.01,Persona


In [53]:
df_ventas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4400 entries, 0 to 4399
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   Vendedor      4400 non-null   object        
 1   NroFactura    4400 non-null   int64         
 2   FechaFactura  4400 non-null   datetime64[ns]
 3   Cliente       4400 non-null   object        
 4   MontoSinImp   4400 non-null   float64       
 5   Impuestos     4400 non-null   float64       
 6   Costo         4400 non-null   int64         
 7   MontoFactura  4400 non-null   float64       
 8   Tipo          4400 non-null   object        
dtypes: datetime64[ns](1), float64(3), int64(2), object(3)
memory usage: 309.5+ KB


In [54]:
pd.options.display.float_format = '{:,.2f}'.format
df_ventas.describe()

Unnamed: 0,NroFactura,MontoSinImp,Impuestos,Costo,MontoFactura
count,4400.0,4400.0,4400.0,4400.0,4400.0
mean,2200.5,472.73,124.99,87.35,597.73
std,1270.31,221.64,58.62,18.97,280.11
min,1.0,95.59,22.68,55.0,121.0
25%,1100.75,276.98,73.18,71.0,349.69
50%,2200.5,475.09,125.45,87.0,600.16
75%,3300.25,661.49,175.32,104.0,837.32
max,4400.0,896.0,228.69,120.0,1089.0


**Seleccionando Columnas:**

In [55]:
df_ventas['Cliente']

0       Semillas Santo Mongo
1               Buffalo Cnia
2             Englewood Cnia
3            Ross, Christian
4              Diaz, Gabriel
                ...         
4395            Ward, Jeremy
4396      Coffs Harbour Cnia
4397            Miller, Seth
4398           Sharma, Ethan
4399         Smith, Jonathan
Name: Cliente, Length: 4400, dtype: object

In [56]:
type(df_ventas['Cliente'])

pandas.core.series.Series

In [57]:
df_ventas[['Cliente','MontoFactura']]

Unnamed: 0,Cliente,MontoFactura
0,Semillas Santo Mongo,969.21
1,Buffalo Cnia,532.40
2,Englewood Cnia,137.94
3,"Ross, Christian",385.99
4,"Diaz, Gabriel",135.52
...,...,...
4395,"Ward, Jeremy",136.73
4396,Coffs Harbour Cnia,494.89
4397,"Miller, Seth",969.21
4398,"Sharma, Ethan",1035.76


In [58]:
type(df_ventas[['Cliente','MontoFactura']])

pandas.core.frame.DataFrame

**Seleccionando filas**

In [59]:
df_ventas[0:5]

Unnamed: 0,Vendedor,NroFactura,FechaFactura,Cliente,MontoSinImp,Impuestos,Costo,MontoFactura,Tipo
0,Laura,1,2014-01-03,Semillas Santo Mongo,765.68,203.53,109,969.21,Empresa
1,Maria,2,2014-01-03,Buffalo Cnia,420.6,111.8,56,532.4,Empresa
2,Juan,3,2014-01-03,Englewood Cnia,108.98,28.96,113,137.94,Empresa
3,Alfonso,4,2014-01-04,"Ross, Christian",304.94,81.05,75,385.99,Persona
4,Juan,5,2014-01-04,"Diaz, Gabriel",107.07,28.45,111,135.52,Persona


In [60]:
#seleccionando en funcion del nombre del indice
df_ventas.loc[5]

Vendedor                       John
NroFactura                        6
FechaFactura    2014-01-04 00:00:00
Cliente                 Gao, Ronnie
MontoSinImp                  665.31
Impuestos                    176.85
Costo                           117
MontoFactura                 842.16
Tipo                        Persona
Name: 5, dtype: object

In [61]:
#seleccionando en funcion de la posicion del indice
df_ventas.iloc[2]

Vendedor                       Juan
NroFactura                        3
FechaFactura    2014-01-03 00:00:00
Cliente              Englewood Cnia
MontoSinImp                  108.98
Impuestos                     28.96
Costo                           113
MontoFactura                 137.94
Tipo                        Empresa
Name: 2, dtype: object

In [62]:
#loc[FILA,COLUMNA]
df_ventas.loc[5,'MontoFactura']

842.16

In [63]:
#loc[FILA,COLUMNA]
df_ventas.loc[5:10,['MontoFactura','Costo']]

Unnamed: 0,MontoFactura,Costo
5,842.16,117
6,424.71,86
7,370.26,76
8,666.71,83
9,614.68,106
10,657.03,87


**Creando una nueva columna:**

In [64]:
df_ventas['Ganancias'] = df_ventas['MontoSinImp'] - df_ventas['Costo'] 

In [65]:
df_ventas.head()

Unnamed: 0,Vendedor,NroFactura,FechaFactura,Cliente,MontoSinImp,Impuestos,Costo,MontoFactura,Tipo,Ganancias
0,Laura,1,2014-01-03,Semillas Santo Mongo,765.68,203.53,109,969.21,Empresa,656.68
1,Maria,2,2014-01-03,Buffalo Cnia,420.6,111.8,56,532.4,Empresa,364.6
2,Juan,3,2014-01-03,Englewood Cnia,108.98,28.96,113,137.94,Empresa,-4.02
3,Alfonso,4,2014-01-04,"Ross, Christian",304.94,81.05,75,385.99,Persona,229.94
4,Juan,5,2014-01-04,"Diaz, Gabriel",107.07,28.45,111,135.52,Persona,-3.93


**Agregando filas:**

In [66]:
nueva_fila = {'Vendedor':'Laura',
              'NroFactura':4401,
              'FechaFactura':'7/30/2016',
              'Cliente':'Buffalo Cnia',
              'MontoSinImp':792.25,
              'Impuestos':200.26,
              'Costo':105,
              'MontoFactura':992.51,
              'Tipo':'Empresa'}

In [67]:
df_ventas.append(nueva_fila,ignore_index=True)

  df_ventas.append(nueva_fila,ignore_index=True)


Unnamed: 0,Vendedor,NroFactura,FechaFactura,Cliente,MontoSinImp,Impuestos,Costo,MontoFactura,Tipo,Ganancias
0,Laura,1,2014-01-03 00:00:00,Semillas Santo Mongo,765.68,203.53,109,969.21,Empresa,656.68
1,Maria,2,2014-01-03 00:00:00,Buffalo Cnia,420.60,111.80,56,532.40,Empresa,364.60
2,Juan,3,2014-01-03 00:00:00,Englewood Cnia,108.98,28.96,113,137.94,Empresa,-4.02
3,Alfonso,4,2014-01-04 00:00:00,"Ross, Christian",304.94,81.05,75,385.99,Persona,229.94
4,Juan,5,2014-01-04 00:00:00,"Diaz, Gabriel",107.07,28.45,111,135.52,Persona,-3.93
...,...,...,...,...,...,...,...,...,...,...
4396,Carla,4397,2016-07-28 00:00:00,Coffs Harbour Cnia,409.00,85.89,61,494.89,Empresa,348.00
4397,Juan,4398,2016-07-28 00:00:00,"Miller, Seth",801.00,168.21,59,969.21,Persona,742.00
4398,Penelope,4399,2016-07-28 00:00:00,"Sharma, Ethan",856.00,179.76,63,1035.76,Persona,793.00
4399,Luz,4400,2016-07-29 00:00:00,"Smith, Jonathan",781.00,164.01,108,945.01,Persona,673.00


# Ejercicio

1. Conectate al archivo data_pandas.xlsx y crea un dataframe df_1
2. Conectate a la pagina web https://en.wikipedia.org/wiki/List_of_presidents_of_the_United_States y crea un dataframe df_pres
3. Selecciona los ultimos 5 registros del dataframe df_pres
4. Cual fue el vicepresident del penultimo presidente de USA
5. Cuantos registros, columnas y que tipos de datos tiene el dataframe df_1

In [68]:
df_1 = pd.read_excel('data_pandas.xlsx')

In [69]:
df_pres = pd.read_html('https://en.wikipedia.org/wiki/List_of_presidents_of_the_United_States')[0]

In [70]:
df_pres.tail(5)

Unnamed: 0,No.[a],Portrait,Name(Birth–Death),Term[14],Party[b][15],Party[b][15].1,Election,Vice President[16]
41,42,,Bill Clinton(b. 1946)[71],"January 20, 1993–January 20, 2001",,Democratic,1992 1996,Al Gore
42,43,,George W. Bush(b. 1946)[72],"January 20, 2001–January 20, 2009",,Republican,2000 2004,Dick Cheney
43,44,,Barack Obama(b. 1961)[73],"January 20, 2009–January 20, 2017",,Democratic,2008 2012,Joe Biden
44,45,,Donald Trump(b. 1946)[74],"January 20, 2017–January 20, 2021",,Republican,2016,Mike Pence
45,46,,Joe Biden(b. 1942)[6],"January 20, 2021–Incumbent",,Democratic,2020,Kamala Harris


In [71]:
df_pres.iloc[-2]['Vice President[16]']

'Mike Pence'

In [72]:
df_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7979 entries, 0 to 7978
Data columns (total 5 columns):
 #   Column                                                    Non-Null Count  Dtype 
---  ------                                                    --------------  ----- 
 0   Tasas de Cambio del dólar de Referencia del Mercado Spot  7978 non-null   object
 1   Unnamed: 1                                                7978 non-null   object
 2   Unnamed: 2                                                7978 non-null   object
 3   Unnamed: 3                                                7978 non-null   object
 4   Unnamed: 4                                                7978 non-null   object
dtypes: object(5)
memory usage: 311.8+ KB
