## Ciencia de datos con Python - Preparación para la certificación PCEP de Python Institute-Día 5

In [1]:
# Los dataframes en pandas, que son estructuras de dos dimensiones(filas y columnas)
# Se puden cargar de dos maneras: - de manera manual o leyendo de un origen de datos
# Es te origen de datos puede ser desde un fichero plano(.csv, .txt ,.json, .xlsx, .pdf) o de una base 
# de datos Ms Access, SQL Server, Oracle, Informix, MySQL, Postgres, MariaDB

import pandas as pd
# 1-paréntesis (), si es una función
# 2- Corchete [],si hay más de un elemento
# 3- Llave {}, para poner un registro
pedidos = pd.DataFrame([
    {'Cliente':'Comercial Pérez S.A.','Precio Unidad':1.74,'Cantidad':29},
    {'Cliente':'Distribuciones López','Precio Unidad':2.68,'Cantidad':37},
    {'Cliente':'Almacenes Rodríguez','Precio Unidad':1.65,'Cantidad':64},
    {'Cliente':'Importadora García','Precio Unidad':2.23,'Cantidad':35},
    {'Cliente':'Mercantil Fernández','Precio Unidad':1.64,'Cantidad':19},
    {'Cliente':'Suministros Martínez','Precio Unidad':3.67,'Cantidad':22}
])
# Vemos el dataframe, con formato pandas, mas curioso
pedidos
# Muestrame el dataframe con print original de python, más sencillo
print(pedidos)

                Cliente  Precio Unidad  Cantidad
0  Comercial Pérez S.A.           1.74        29
1  Distribuciones López           2.68        37
2   Almacenes Rodríguez           1.65        64
3    Importadora García           2.23        35
4   Mercantil Fernández           1.64        19
5  Suministros Martínez           3.67        22


In [3]:
# Cómo ver solamente un campo o una serie, es lo mismo
pedidos['Cliente'] # vemos los campos de "cliente"

0    Comercial Pérez S.A.
1    Distribuciones López
2     Almacenes Rodríguez
3      Importadora García
4     Mercantil Fernández
5    Suministros Martínez
Name: Cliente, dtype: object

In [4]:
# Cómo ver más de un campo/serie a la vez
pedidos[['Cliente','Precio Unidad']] # Ver 1er campo 'Cliente
pedidos[['Precio Unidad', 'Cliente']] # ver 1er campo 'Precio Unidad'

Unnamed: 0,Precio Unidad,Cliente
0,1.74,Comercial Pérez S.A.
1,2.68,Distribuciones López
2,1.65,Almacenes Rodríguez
3,2.23,Importadora García
4,1.64,Mercantil Fernández
5,3.67,Suministros Martínez


In [5]:
# muestra ordenado clientes de lectura y reindexado debe coincidir con minus y mayus el nombre del campo
pedidos['Cliente'].sort_values(ascending = True, ignore_index= True)

0     Almacenes Rodríguez
1    Comercial Pérez S.A.
2    Distribuciones López
3      Importadora García
4     Mercantil Fernández
5    Suministros Martínez
Name: Cliente, dtype: object

In [6]:
# Cómo añadir un campo o serie a un DataFrame
# 1- Con un valor manual fijo(Que será el mismo, para todas las filas)
# 2- Usando la función apply()
# 3- Partiendo dde una columna existente

# Caso1 - Valor manual fijo para todas las filas del df, poniendo un nombre de campo  que no existía en el df
pedidos['Zona'] = 'Zona Centro'
pedidos # vista desde pandas

Unnamed: 0,Cliente,Precio Unidad,Cantidad,Zona
0,Comercial Pérez S.A.,1.74,29,Zona Centro
1,Distribuciones López,2.68,37,Zona Centro
2,Almacenes Rodríguez,1.65,64,Zona Centro
3,Importadora García,2.23,35,Zona Centro
4,Mercantil Fernández,1.64,19,Zona Centro
5,Suministros Martínez,3.67,22,Zona Centro


In [7]:
# Caso2 - Mediante apply() voy a sumar 2 unidades a cantidad, para las cantidades mayores de 25 
# y voy a restar 3 unidades a cantidad, para las cantidades menor o igual a 25

def modifica_cant(x):
    if x >25:
        return x + 2
    else:
        return x - 3
    
# aplicar la función

pedidos['Cantidad2'] = pedidos['Cantidad'].apply(modifica_cant)
print(pedidos) # visualización con el nativo de python
    


                Cliente  Precio Unidad  Cantidad         Zona  Cantidad2
0  Comercial Pérez S.A.           1.74        29  Zona Centro         31
1  Distribuciones López           2.68        37  Zona Centro         39
2   Almacenes Rodríguez           1.65        64  Zona Centro         66
3    Importadora García           2.23        35  Zona Centro         37
4   Mercantil Fernández           1.64        19  Zona Centro         16
5  Suministros Martínez           3.67        22  Zona Centro         19


In [8]:
# Caso3 - Partiendo de una columna existente o dos o varias columnas, sumar 10 a una serie al dataframe
pedidos['Cantidad3'] = pedidos['Cantidad'] + 10
pedidos['Cantidad4'] = pedidos['Cantidad'] + pedidos['Cantidad2']
print(pedidos)

                Cliente  Precio Unidad  Cantidad         Zona  Cantidad2  \
0  Comercial Pérez S.A.           1.74        29  Zona Centro         31   
1  Distribuciones López           2.68        37  Zona Centro         39   
2   Almacenes Rodríguez           1.65        64  Zona Centro         66   
3    Importadora García           2.23        35  Zona Centro         37   
4   Mercantil Fernández           1.64        19  Zona Centro         16   
5  Suministros Martínez           3.67        22  Zona Centro         19   

   Cantidad3  Cantidad4  
0         39         60  
1         47         76  
2         74        130  
3         45         72  
4         29         35  
5         32         41  


### PRACTICA 24:
* Aprovechando el dataframe pedidos, crear un campo nuevo que se llamará "dif_cantidad" y que me dará la diferencia que hay  entre la cantidad más grande de toda la serie y la cantidad de cada fila

In [9]:
# Lo he leído mal y he restado la cantidad mayor con la cantidad menor, pero lo dejamos pues es buena praxis
pedidos['dif_cantidad'] = pedidos['Cantidad'].max() - pedidos['Cantidad'].min()
pedidos


Unnamed: 0,Cliente,Precio Unidad,Cantidad,Zona,Cantidad2,Cantidad3,Cantidad4,dif_cantidad
0,Comercial Pérez S.A.,1.74,29,Zona Centro,31,39,60,45
1,Distribuciones López,2.68,37,Zona Centro,39,47,76,45
2,Almacenes Rodríguez,1.65,64,Zona Centro,66,74,130,45
3,Importadora García,2.23,35,Zona Centro,37,45,72,45
4,Mercantil Fernández,1.64,19,Zona Centro,16,29,35,45
5,Suministros Martínez,3.67,22,Zona Centro,19,32,41,45


In [10]:
# la solución del profe
# Almacenar en una variable/objeto la cantidad mayor
cantidad_mayor = pedidos['Cantidad'].max()
# Creamos una columna nueva
pedidos['dif_cantidad2'] = cantidad_mayor - pedidos['Cantidad']
pedidos

Unnamed: 0,Cliente,Precio Unidad,Cantidad,Zona,Cantidad2,Cantidad3,Cantidad4,dif_cantidad,dif_cantidad2
0,Comercial Pérez S.A.,1.74,29,Zona Centro,31,39,60,45,35
1,Distribuciones López,2.68,37,Zona Centro,39,47,76,45,27
2,Almacenes Rodríguez,1.65,64,Zona Centro,66,74,130,45,0
3,Importadora García,2.23,35,Zona Centro,37,45,72,45,29
4,Mercantil Fernández,1.64,19,Zona Centro,16,29,35,45,45
5,Suministros Martínez,3.67,22,Zona Centro,19,32,41,45,42


### PRACTICA 25:
* Crear en el dataframe una columna nueva que se llame transportista, cuyo valor sea "SEUR"

In [11]:
# Creamos una nueva columna con un único valor en sus celdas
pedidos['Transportista'] = 'SEUR'
pedidos

Unnamed: 0,Cliente,Precio Unidad,Cantidad,Zona,Cantidad2,Cantidad3,Cantidad4,dif_cantidad,dif_cantidad2,Transportista
0,Comercial Pérez S.A.,1.74,29,Zona Centro,31,39,60,45,35,SEUR
1,Distribuciones López,2.68,37,Zona Centro,39,47,76,45,27,SEUR
2,Almacenes Rodríguez,1.65,64,Zona Centro,66,74,130,45,0,SEUR
3,Importadora García,2.23,35,Zona Centro,37,45,72,45,29,SEUR
4,Mercantil Fernández,1.64,19,Zona Centro,16,29,35,45,45,SEUR
5,Suministros Martínez,3.67,22,Zona Centro,19,32,41,45,42,SEUR


### PRACTICA 26:
* Crear en el dataframe pedidos la columna nueva "Precio Unidad 2" que incremente sobre la serie "Precio Unidad" un 10% si el precio unidad es mayor de 1.70

In [12]:
# Generamos la función que va a operar en la columna
def incremento(x):
    if x > 1.70:
        return x + (x * 0.10)
    else: 
        return x
# Generamos la columna y aplicamos al función, redondeamos a 3 decimales con "round()"    
pedidos['Precio Unidad 2'] = round(pedidos['Precio Unidad'].apply(incremento),3)
pedidos




Unnamed: 0,Cliente,Precio Unidad,Cantidad,Zona,Cantidad2,Cantidad3,Cantidad4,dif_cantidad,dif_cantidad2,Transportista,Precio Unidad 2
0,Comercial Pérez S.A.,1.74,29,Zona Centro,31,39,60,45,35,SEUR,1.914
1,Distribuciones López,2.68,37,Zona Centro,39,47,76,45,27,SEUR,2.948
2,Almacenes Rodríguez,1.65,64,Zona Centro,66,74,130,45,0,SEUR,1.65
3,Importadora García,2.23,35,Zona Centro,37,45,72,45,29,SEUR,2.453
4,Mercantil Fernández,1.64,19,Zona Centro,16,29,35,45,45,SEUR,1.64
5,Suministros Martínez,3.67,22,Zona Centro,19,32,41,45,42,SEUR,4.037


In [13]:
# Cómo eliminar una columna de un DataFrame, con la instrucción drop + el parámetro axis

pedidos = pedidos.drop(['Precio Unidad 2'], axis = 1) # el axis = 1 significa eliminame la columna
pedidos

# del(pedidos['Cantidad4']) # para borrar columnas

Unnamed: 0,Cliente,Precio Unidad,Cantidad,Zona,Cantidad2,Cantidad3,Cantidad4,dif_cantidad,dif_cantidad2,Transportista
0,Comercial Pérez S.A.,1.74,29,Zona Centro,31,39,60,45,35,SEUR
1,Distribuciones López,2.68,37,Zona Centro,39,47,76,45,27,SEUR
2,Almacenes Rodríguez,1.65,64,Zona Centro,66,74,130,45,0,SEUR
3,Importadora García,2.23,35,Zona Centro,37,45,72,45,29,SEUR
4,Mercantil Fernández,1.64,19,Zona Centro,16,29,35,45,45,SEUR
5,Suministros Martínez,3.67,22,Zona Centro,19,32,41,45,42,SEUR


In [14]:
# n una sola línea sin el = puedo machacar el original
# eliminamos el campo "Zona"
pedidos.drop(['Zona'], axis = 1, inplace = True) # esto es lo mismo que lo de arriba, es decir, no hace falta igualarlo 
# en una variable
pedidos

Unnamed: 0,Cliente,Precio Unidad,Cantidad,Cantidad2,Cantidad3,Cantidad4,dif_cantidad,dif_cantidad2,Transportista
0,Comercial Pérez S.A.,1.74,29,31,39,60,45,35,SEUR
1,Distribuciones López,2.68,37,39,47,76,45,27,SEUR
2,Almacenes Rodríguez,1.65,64,66,74,130,45,0,SEUR
3,Importadora García,2.23,35,37,45,72,45,29,SEUR
4,Mercantil Fernández,1.64,19,16,29,35,45,45,SEUR
5,Suministros Martínez,3.67,22,19,32,41,45,42,SEUR


In [15]:
# Voy a eliminar filas drop + axis = 0, con su número de índice
pedidos.drop([3], axis = 0, inplace = True)
pedidos

Unnamed: 0,Cliente,Precio Unidad,Cantidad,Cantidad2,Cantidad3,Cantidad4,dif_cantidad,dif_cantidad2,Transportista
0,Comercial Pérez S.A.,1.74,29,31,39,60,45,35,SEUR
1,Distribuciones López,2.68,37,39,47,76,45,27,SEUR
2,Almacenes Rodríguez,1.65,64,66,74,130,45,0,SEUR
4,Mercantil Fernández,1.64,19,16,29,35,45,45,SEUR
5,Suministros Martínez,3.67,22,19,32,41,45,42,SEUR


In [16]:
# Como cargar un dataframe mediante un fichero, github, vamos a descargar el fichero
# "January 2019.csv", "February 2019.csv", "March 2019.csv" del repositorio de la clase

# Para cargar un fichero a un dataframe tipo .csv no necesito instalar/llamar a ninguna librería adicional
# con read_csv, dentro del parentesis pondremos la ruta del fichero

ventas = pd.read_csv('/Users/andresrojo/Desktop/Python-PCEP/resursos dia5/January 2019.csv')
ventas # en mac o linux los slash van bien pero en sistemas windows NO
# Porqué no funciona para Windows, los slash van al revés
# Solución A: sería duplicar la barra \\
# Solución B: Sería poner la barra del revés /
# Solución C: Ponerle una "r" delante pd.read_csv(r'C:\Users\andresrojo\Desktop\Python-PCEP\resursos dia5\January 2019.csv'), en windows,repito

Unnamed: 0,IdOrder,Date,Country,Units,Revenue,Customer
0,1,2019-01-08,USA,343,15461.36,Octan Corporation
1,2,2019-01-04,Panama,93,4681.26,Rich Industries
2,3,2019-01-07,Panama,42,2220.36,Blue Sun Corporation
3,4,2019-01-16,Brazil,103,1853.78,Hexagon Global
4,5,2019-01-17,USA,28,286.30,Octan Corporation
...,...,...,...,...,...,...
184,185,2019-01-25,USA,337,4352.75,Octan Corporation
185,186,2019-01-20,Colombia,197,3256.95,BiffCo
186,187,2019-01-14,Brazil,214,12188.36,Hexagon Global
187,188,2019-01-12,Colombia,102,6566.51,Octan Corporation


In [17]:
# Para ver lo primeron n registros, usaremos la función head()
ventas.head(10) # output los 10 primeros registros 


Unnamed: 0,IdOrder,Date,Country,Units,Revenue,Customer
0,1,2019-01-08,USA,343,15461.36,Octan Corporation
1,2,2019-01-04,Panama,93,4681.26,Rich Industries
2,3,2019-01-07,Panama,42,2220.36,Blue Sun Corporation
3,4,2019-01-16,Brazil,103,1853.78,Hexagon Global
4,5,2019-01-17,USA,28,286.3,Octan Corporation
5,6,2019-01-24,Canada,372,24826.98,Spacely Sprockets
6,7,2019-01-26,Canada,61,1592.42,BiffCo
7,8,2019-01-28,Canada,264,3228.11,Delos Incorporated
8,9,2019-01-13,Canada,27,257.97,Monarch Solutions
9,10,2019-01-28,Brazil,323,3024.25,Hooli


In [18]:
# Para ver los últimos n refistross, usarmos la función tail()
ventas.tail(10) # para ver los últimos 10 registros

Unnamed: 0,IdOrder,Date,Country,Units,Revenue,Customer
179,180,2019-01-26,Colombia,82,2997.26,Initech
180,181,2019-01-22,Brazil,347,2855.54,Wonka Industries
181,182,2019-01-17,Brazil,300,14911.08,Stark Industries
182,183,2019-01-23,Panama,139,49.69,Initech
183,184,2019-01-03,Canada,263,10726.25,BiffCo
184,185,2019-01-25,USA,337,4352.75,Octan Corporation
185,186,2019-01-20,Colombia,197,3256.95,BiffCo
186,187,2019-01-14,Brazil,214,12188.36,Hexagon Global
187,188,2019-01-12,Colombia,102,6566.51,Octan Corporation
188,189,2019-01-26,Panama,77,5103.71,Hexagon Global


In [19]:
# Cómo ver información del dataframe, entries, colunms, nombre + el tipo
ventas.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 189 entries, 0 to 188
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   IdOrder   189 non-null    int64  
 1   Date      189 non-null    object 
 2   Country   189 non-null    object 
 3   Units     189 non-null    int64  
 4   Revenue   189 non-null    float64
 5   Customer  189 non-null    object 
dtypes: float64(1), int64(2), object(3)
memory usage: 9.0+ KB


In [20]:
# Ver los 5 primeros nombres de customer, ordenados de la A-Z 

ventas['Customer'].head(5).sort_values(ascending=True) # al poner False el ascendig lo hace de la Z-A
# el ascending depend del tipo de dato 
# string / object = A-Z or Z-A
# int64 o float64 = Mayor a menor y/o menor a mayor
# date = mas antigua a las mas reciente / mas reciente a la mas antigua

2    Blue Sun Corporation
3          Hexagon Global
0       Octan Corporation
4       Octan Corporation
1         Rich Industries
Name: Customer, dtype: object

In [21]:
# Ver los primeros 3 registros cuyas units sean mayor de 100
ventas[ventas['Units']>100].head(3)

# otra manera con "by="
ventas[ventas['Units']>100].sort_values(ascending = True, by = 'Units').head(3)

Unnamed: 0,IdOrder,Date,Country,Units,Revenue,Customer
187,188,2019-01-12,Colombia,102,6566.51,Octan Corporation
3,4,2019-01-16,Brazil,103,1853.78,Hexagon Global
122,123,2019-01-21,USA,110,1340.29,Umbrella Corp


In [22]:
# Mostrar todos los customers cuyo nombre contenga la palabra "Industries"
ventas[ventas['Customer'].str.contains('Industries')].tail(10)

# El comodín sería el valor seguido de punto y asterisco Industr.*
ventas[ventas['Customer'].str.contains('Industr.*')].tail(10)

Unnamed: 0,IdOrder,Date,Country,Units,Revenue,Customer
117,118,2019-01-13,Brazil,73,1565.69,Vandelay Industries
125,126,2019-01-25,Canada,351,34287.19,Stark Industries
129,130,2019-01-09,USA,94,2218.79,Stark Industries
157,158,2019-01-13,Colombia,395,9533.13,Abstergo Industries
161,162,2019-01-28,Canada,371,5661.27,Stark Industries
162,163,2019-01-03,Colombia,45,2346.82,Abstergo Industries
166,167,2019-01-22,Panama,387,10165.37,Wonka Industries
172,173,2019-01-12,Colombia,17,217.73,Wonka Industries
180,181,2019-01-22,Brazil,347,2855.54,Wonka Industries
181,182,2019-01-17,Brazil,300,14911.08,Stark Industries


In [23]:
# Ver todos los customers cuyos nombres enpiecen por W con la funció "startswith()"
ventas[ventas['Customer'].str.startswith('W')]

Unnamed: 0,IdOrder,Date,Country,Units,Revenue,Customer
21,22,2019-01-05,USA,279,12881.19,Wayne Enterprises
61,62,2019-01-25,Panama,30,751.31,Wonka Industries
66,67,2019-01-01,Canada,307,16448.55,Weyland-Yutani
72,73,2019-01-11,USA,138,7199.14,Weyland-Yutani
77,78,2019-01-17,Panama,347,12848.19,Wayne Enterprises
94,95,2019-01-31,Panama,196,1134.15,Wonka Industries
138,139,2019-01-04,Colombia,350,6070.06,Wayne Enterprises
166,167,2019-01-22,Panama,387,10165.37,Wonka Industries
172,173,2019-01-12,Colombia,17,217.73,Wonka Industries
174,175,2019-01-06,USA,127,1684.76,Wayne Enterprises


In [24]:
# Ver todos los Customers cuyo nombre terminen por "S"

ventas[ventas['Customer'].str.endswith('s')]

Unnamed: 0,IdOrder,Date,Country,Units,Revenue,Customer
1,2,2019-01-04,Panama,93,4681.26,Rich Industries
5,6,2019-01-24,Canada,372,24826.98,Spacely Sprockets
8,9,2019-01-13,Canada,27,257.97,Monarch Solutions
10,11,2019-01-27,Canada,187,4046.31,Yoyodyne Propulsion Systems
16,17,2019-01-15,Colombia,392,16229.64,Cyberdyne Systems
...,...,...,...,...,...,...
166,167,2019-01-22,Panama,387,10165.37,Wonka Industries
172,173,2019-01-12,Colombia,17,217.73,Wonka Industries
174,175,2019-01-06,USA,127,1684.76,Wayne Enterprises
180,181,2019-01-22,Brazil,347,2855.54,Wonka Industries


In [25]:
# Para mayus y minus, solo para contains [] 
ventas[ventas['Customer'].str.contains('[Ii]ndustries')].tail(10)

Unnamed: 0,IdOrder,Date,Country,Units,Revenue,Customer
117,118,2019-01-13,Brazil,73,1565.69,Vandelay Industries
125,126,2019-01-25,Canada,351,34287.19,Stark Industries
129,130,2019-01-09,USA,94,2218.79,Stark Industries
157,158,2019-01-13,Colombia,395,9533.13,Abstergo Industries
161,162,2019-01-28,Canada,371,5661.27,Stark Industries
162,163,2019-01-03,Colombia,45,2346.82,Abstergo Industries
166,167,2019-01-22,Panama,387,10165.37,Wonka Industries
172,173,2019-01-12,Colombia,17,217.73,Wonka Industries
180,181,2019-01-22,Brazil,347,2855.54,Wonka Industries
181,182,2019-01-17,Brazil,300,14911.08,Stark Industries


In [26]:
# Cómo averiguar cuantos registros cumplen la condición filtrada

print("Numero de customers que contienen 'Industries'", 
      ventas[ventas['Customer'].str.contains('Industries')].IdOrder.count())

# Con count() solo cuenta registros qeu no son nulos (NA), si no son NA, no los cuenta
# hay que buscar un campo que siempre esté informado

Numero de customers que contienen 'Industries' 33


### PRACTICA 27:
* Queremos tener un objeto clonado de ventas que contenga sólamente los customers cuyo nombre contenga la plabra "Systems" y el customers debe estar ordenado de la A-Z.

In [27]:
#ventas.info() visualizamos las columnas
# clonamos el dataframe con los customers
df_customer = ventas[ventas['Customer'].str.contains("Systems")]
# estructura : nombre_dataframe[nombre_dataframe['nombre_columna'].lo que se quiera operar]
df_customer['Customer'].sort_values(ascending = True)

16               Cyberdyne Systems
78               Cyberdyne Systems
123              Cyberdyne Systems
132              Cyberdyne Systems
136              Cyberdyne Systems
152              Cyberdyne Systems
159              Cyberdyne Systems
23                Hyperion Systems
51                Hyperion Systems
109               Hyperion Systems
137               Hyperion Systems
10     Yoyodyne Propulsion Systems
127    Yoyodyne Propulsion Systems
Name: Customer, dtype: object

### PRACTICA 28:
* Queremos ver en un texto el número de Customer cuyo nombre termina por "n".

In [28]:
# Con la función endswith buscamos la letra y despues con count contamos los resultados
termina_n = ventas[ventas['Customer'].str.endswith('n')].IdOrder.count()
print("El número de cliente que termina en 'n' es:",termina_n)

El número de cliente que termina en 'n' es: 40


### PRACTICA 29:
* Queremos ver una lista con los diez primeros Customer cuyo "country" es "Canada".

In [29]:
# Customers que contenga "Canada" en la columna 'Country'
ventas[ventas['Country'].str.contains('na')].head(10) # el contains solo busca los que contenga por ello aparece 'Panama'

Unnamed: 0,IdOrder,Date,Country,Units,Revenue,Customer
1,2,2019-01-04,Panama,93,4681.26,Rich Industries
2,3,2019-01-07,Panama,42,2220.36,Blue Sun Corporation
5,6,2019-01-24,Canada,372,24826.98,Spacely Sprockets
6,7,2019-01-26,Canada,61,1592.42,BiffCo
7,8,2019-01-28,Canada,264,3228.11,Delos Incorporated
8,9,2019-01-13,Canada,27,257.97,Monarch Solutions
10,11,2019-01-27,Canada,187,4046.31,Yoyodyne Propulsion Systems
15,16,2019-01-19,Panama,288,4532.62,Nakatomi Trading
23,24,2019-01-07,Canada,306,4131.21,Hyperion Systems
24,25,2019-01-27,Canada,141,9419.58,Initech


In [30]:
# la solución del profe
# Buscamos la palabra entera sin "str.contains"
ventas[ventas['Country'] == 'Canada'].head(10)

Unnamed: 0,IdOrder,Date,Country,Units,Revenue,Customer
5,6,2019-01-24,Canada,372,24826.98,Spacely Sprockets
6,7,2019-01-26,Canada,61,1592.42,BiffCo
7,8,2019-01-28,Canada,264,3228.11,Delos Incorporated
8,9,2019-01-13,Canada,27,257.97,Monarch Solutions
10,11,2019-01-27,Canada,187,4046.31,Yoyodyne Propulsion Systems
23,24,2019-01-07,Canada,306,4131.21,Hyperion Systems
24,25,2019-01-27,Canada,141,9419.58,Initech
28,29,2019-01-05,Canada,289,5758.91,Soylent Corp
33,34,2019-01-08,Canada,220,13798.08,Tyrell Corporation
35,36,2019-01-20,Canada,210,10027.93,Oscorp


### PRACTICA 30:
* Queremos ver en un texto el número de registros cuyo "IdOrder" sea mayor de 180.

In [31]:
# primero vamos a genrerar el filtro
mayor_180 = ventas[ventas['IdOrder']>180].IdOrder.count()

# generamos el texto donde no va a contar el número de IdOrders mayor a 180
print(" El número de registros mayor de 180 en IdOrders es:",mayor_180)


 El número de registros mayor de 180 en IdOrders es: 9


In [32]:
# Cómo aplicar más de una condición en el filtro, usaremos los operadores de lógica
# El OR = | (opt + 1)devuelve verdadero si se cumple una sola de las condiciones que se analizan
# si no se cumple ninguna devuelve False
# El AND = & (mayus + 6)devuelve verdadero si se cumplen todas las condiciones que se analizan
# si hay una sola que no se cumple, devuelve False
# Ver los registros que son de 'Basil' o de 'Panamá'
ventas[(ventas['Country'] == 'Brazil') | (ventas['Country'] == 'Panama')] # va entre parentesis la operación lógica

#Ver los registros que son de Brazil o que el Revenue sea mayor de 4000
ventas[(ventas['Country'] == 'Brazil') | (ventas['Revenue']> 4000)] # muestra los registros mientras se cumpla una de las dos condiciones

Unnamed: 0,IdOrder,Date,Country,Units,Revenue,Customer
0,1,2019-01-08,USA,343,15461.36,Octan Corporation
1,2,2019-01-04,Panama,93,4681.26,Rich Industries
3,4,2019-01-16,Brazil,103,1853.78,Hexagon Global
5,6,2019-01-24,Canada,372,24826.98,Spacely Sprockets
9,10,2019-01-28,Brazil,323,3024.25,Hooli
...,...,...,...,...,...,...
183,184,2019-01-03,Canada,263,10726.25,BiffCo
184,185,2019-01-25,USA,337,4352.75,Octan Corporation
186,187,2019-01-14,Brazil,214,12188.36,Hexagon Global
187,188,2019-01-12,Colombia,102,6566.51,Octan Corporation


In [33]:
# Ver los registros qu cumplen dos registros de Brazil y qeu ademas el 'revenue' sea mayor de 2000 
ventas[(ventas['Country'] == 'Brazil') & (ventas['Revenue']> 2000)] # muestra las dos condiciones


Unnamed: 0,IdOrder,Date,Country,Units,Revenue,Customer
9,10,2019-01-28,Brazil,323,3024.25,Hooli
19,20,2019-01-03,Brazil,377,30840.25,Virtucon
73,74,2019-01-19,Brazil,252,3449.39,Soylent Corp
75,76,2019-01-24,Brazil,364,13878.72,Rich Industries
81,82,2019-01-22,Brazil,43,2723.93,Vandelay Industries
95,96,2019-01-06,Brazil,240,6998.14,Nakatomi Trading
99,100,2019-01-05,Brazil,217,10063.03,MomCorp
102,103,2019-01-27,Brazil,199,7349.02,OCP
106,107,2019-01-05,Brazil,383,11854.56,Octan Corporation
107,108,2019-01-12,Brazil,258,12418.27,Oscorp


In [35]:
# Ver los registros cuyo 'Revenue' esté entre 5000 - 15000 ordenados por 'Revenue'
ventas[(ventas['Revenue'] >= 5000) & (ventas['Revenue'] <= 15000)].sort_values(ascending = True, by = 'Revenue')
# clasifico todos los registros dentro de este tramo

Unnamed: 0,IdOrder,Date,Country,Units,Revenue,Customer
31,32,2019-01-12,Colombia,175,5058.76,Soylent Corp
188,189,2019-01-26,Panama,77,5103.71,Hexagon Global
53,54,2019-01-20,Panama,137,5174.79,Dunder Mifflin
168,169,2019-01-15,Brazil,334,5471.35,Oscorp
161,162,2019-01-28,Canada,371,5661.27,Stark Industries
...,...,...,...,...,...,...
33,34,2019-01-08,Canada,220,13798.08,Tyrell Corporation
75,76,2019-01-24,Brazil,364,13878.72,Rich Industries
29,30,2019-01-17,USA,298,14543.85,BiffCo
100,101,2019-01-09,Canada,207,14860.00,Spacely Sprockets


In [36]:
#Ver los registros que son de Brazil o de Panama o de USA
ventas[(ventas['Country'] == "Brazil") | (ventas['Country'] == "Panama") | (ventas['Country'] == "USA")]

Unnamed: 0,IdOrder,Date,Country,Units,Revenue,Customer
0,1,2019-01-08,USA,343,15461.36,Octan Corporation
1,2,2019-01-04,Panama,93,4681.26,Rich Industries
2,3,2019-01-07,Panama,42,2220.36,Blue Sun Corporation
3,4,2019-01-16,Brazil,103,1853.78,Hexagon Global
4,5,2019-01-17,USA,28,286.30,Octan Corporation
...,...,...,...,...,...,...
181,182,2019-01-17,Brazil,300,14911.08,Stark Industries
182,183,2019-01-23,Panama,139,49.69,Initech
184,185,2019-01-25,USA,337,4352.75,Octan Corporation
186,187,2019-01-14,Brazil,214,12188.36,Hexagon Global


### PRACTICA 31:
* Queremos averiguar la suma total de 'Revenue' después de haber juntado los datos de los tres ficheros .csv(), es decir, el January, el February y el March. Queremos ver este total de 'Revenue' de los paises 'Usa' o 'Canada' y cuyo importe está comperndido entre 300-12000

Practica 31: (Hacer en casa) Queremos averiguar la suma total de Revenue, despues de haber
juntado los datos de los 3 ficheros .csv (January 2019, February 2019, March 2019), solamente de los paises que son USA o Canada y cuyo Revenue esta comprendido entre 3000-12000.

In [37]:
import pandas as pd
# leemos los dataframes
df1 = pd.read_csv('/Users/andresrojo/Desktop/Python-PCEP/resursos dia5/January 2019.csv')
df2 = pd.read_csv('/Users/andresrojo/Desktop/Python-PCEP/resursos dia5/February 2019.csv')
df3 = pd.read_csv('/Users/andresrojo/Desktop/Python-PCEP/resursos dia5/March 2019.csv')

# los unimos con concat de la libreria pandas y les reseteamos el indicee
df_final = pd.concat([df1,df2,df2], ignore_index = True)

#comprobamos las filas
df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 623 entries, 0 to 622
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   IdOrder   623 non-null    int64  
 1   Date      623 non-null    object 
 2   Country   623 non-null    object 
 3   Units     623 non-null    int64  
 4   Revenue   623 non-null    float64
 5   Customer  623 non-null    object 
dtypes: float64(1), int64(2), object(3)
memory usage: 29.3+ KB


In [38]:
# Una vez unidas los tres dataframes, vamos a realizar el filtrado
resultado=df_final[(df_final['Country'] == 'USA') | (df_final['Country'] == 'Canada') & (df_final['Revenue'] >= 300) & (df_final['Revenue'] <= 12000)].Revenue.sum()

print("El total de Revenue de los tres dataframes con los filtro es: $",resultado,"$")


El total de Revenue de los tres dataframes con los filtro es: $ 1253286.41 $


In [39]:
# la solución del profesor
# vamos a ver los dataframes y su lectura correcta
print(df1.head(5)) # Enero
print()
print(df2.head(5)) # Febrero
print()
print(df3.head(5)) # Marzo

# Vamos a concatenar p anexionar los 3 dataframes, con la función "concat"
print() 
trimestre = pd.concat([df1,df2,df3], ignore_index = True)
print(trimestre.head(3)) # muestra los 3 primeros (Enero)
print("\n")
print(trimestre.tail(3)) # muestra los 3 últimos (marzo)


   IdOrder        Date Country  Units   Revenue              Customer
0        1  2019-01-08     USA    343  15461.36     Octan Corporation
1        2  2019-01-04  Panama     93   4681.26       Rich Industries
2        3  2019-01-07  Panama     42   2220.36  Blue Sun Corporation
3        4  2019-01-16  Brazil    103   1853.78        Hexagon Global
4        5  2019-01-17     USA     28    286.30     Octan Corporation

   IdOrder        Date   Country  Units   Revenue              Customer
0      190  2019-02-24       USA    366  28641.21  Blue Sun Corporation
1      191  2019-02-14    Panama    128   4223.28        Dunder Mifflin
2      192  2019-02-26    Canada    110   1101.63                BiffCo
3      193  2019-02-13    Panama    166  10996.77     Cyberdyne Systems
4      194  2019-02-20  Colombia     91    104.93        Dunder Mifflin

   IdOrder        Date   Country  Units  Revenue             Customer
0      407  2019-03-10       USA    288  4283.13    Spacely Sprockets
1     

In [40]:
# Solcución del profesor, hacemos el filtrado
# habría que poner doble parntesis para que lo trate como doble condición, si no, no coge bien los datos del 'Revenue'
resultado = trimestre[((trimestre['Country'] == 'USA') | (trimestre['Country'] == 'Canada')) & # se tiene que cumplir las dos condiciones
          ((trimestre['Revenue']>= 3000) & (trimestre['Revenue']<= 12000))]
# se cumplen las dos condiciones, repito, por tener doble parentesis, que divide el filtro en dos partes
# vemos el ñutimo apartado ver la cantidad total del Revenue

print("El valor de revenue total es:", resultado.Revenue.sum())      

El valor de revenue total es: 845123.84


In [41]:
#!pip3 install -U ipykernel
# probando instalación para ejecutar solo una línea de código

In [42]:
help(pd.concat)

Help on function concat in module pandas.core.reshape.concat:

concat(objs: 'Iterable[Series | DataFrame] | Mapping[HashableT, Series | DataFrame]', *, axis: 'Axis' = 0, join: 'str' = 'outer', ignore_index: 'bool' = False, keys: 'Iterable[Hashable] | None' = None, levels=None, names: 'list[HashableT] | None' = None, verify_integrity: 'bool' = False, sort: 'bool' = False, copy: 'bool | None' = None) -> 'DataFrame | Series'
    Concatenate pandas objects along a particular axis.
    
    Allows optional set logic along the other axes.
    
    Can also add a layer of hierarchical indexing on the concatenation axis,
    which may be useful if the labels are the same (or overlapping) on
    the passed axis number.
    
    Parameters
    ----------
    objs : a sequence or mapping of Series or DataFrame objects
        If a mapping is passed, the sorted keys will be used as the `keys`
        argument, unless it is passed, in which case the values will be
        selected (see below). Any 