# Introducción a Pandas

Pandas es una biblioteca que construye sobre NumPy y provee una implementación eficiente de *DataFrames* un tipo de objetos de Python similar a una tabla que permite una conveniente manipulación de columnas y renglones, así como mecanismos para trabajar con valores faltantes e índices más complejos que los usuales (por ejemplo, fechas o instantes de tiempo).

En esta libreta veremos cómo utilizar los tipos `Series` y `DataFrame` de Pandas. Pero primero asegúrate de haber instalado la biblioteca:
1. Activa tu entorno de trabajo.
2. Ejecuta el comando en la consola: `pip install pandas`.

In [2]:
import numpy as np
import pandas as pd

**Problema 1:** Determina qué ocurre cuando creamos un objeto `Series` a partir de un diccionario, pero adicionalmente proveemos el argumento opcional `index`. ¿De qué forma podemos utilizar esta propiedad?

In [22]:
Mundial = pd.Series([
    'Mexico',
    'Brasil',
    'Japon',
    'Belgica',
    'Argentina',
])
Mundial.index = ['CONCACAF' , 'CONMEBOL' ,'AFC', 'UEFA', 'CONMEBOL']
Mundial

CONCACAF       Mexico
CONMEBOL       Brasil
AFC             Japon
UEFA          Belgica
CONMEBOL    Argentina
dtype: object

*Nos sirve para etiquetar nuestro diccionario creado*

**Problema 2:** Determina qué ocurre cuando creamos un objeto `Series` a partir de un valor numérico, pero adicionalmente proveemos el argumento opcional `index`. ¿De qué forma podemos utilizar esta propiedad?

In [25]:
MundialEquipos = pd.Series([4,1,5,2,3])
Mundial.index = ['Mexico' , 'Brasil' ,'Japon', 'Belgica', 'Argentina']
MundialEquipos

0    4
1    1
2    5
3    2
4    3
dtype: int64

*Se etiquetaron como lista con valor numericos*

**Problema 3:** El ejemplo anterior utiliza un concepto llamado *Structured Arrays* de NumPy. Investiga para qué pueden ser utilizados este tipo de arreglos.

In [None]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
print(A.dtype)
pd.DataFrame(A)

[('A', '<i8'), ('B', '<f8')]


Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


*Sirve para agrupar datos de diferentes tipos y tamaños*

**Problema 4:** Investiga las operaciones `isnull`, `notnull`, `dropna` y `fillna` de Pandas, así como el valor `pd.NA`. Puedes apoyarte de [la documentación](https://pandas.pydata.org/docs/user_guide/missing_data.html)

`isnull =` Detectar valores faltantes

`notnull` = Examina valores para saber si son no nulos

`dropna` = Elimina los renglones con datos faltantes

`fillna` = Nos ayuda a colocar un valor cuando hay un dato faltante

`pd.NA` = Representa valores faltantes 

---

**Problema 5:** Pandas incluye funciones para la lectura de archivos CSV o Excel. Consulta los sitios de datos abiertos de algúna institución pública o gubernamental, descarga un dataset en formato CSV, otro en Excel y carga los datos en un DataFrame de Pandas. El DataFrame resultante debe tener asociada a cada columna el tipo de dato adecuado para trabajar.

In [67]:
import pandas as pd
path = os.getcwd()
print(path)

/Users/Granich/Documents/Programacion para ciencias de datos/Python


In [91]:
df_1 = pd.read_csv('/Users/Granich/Documents/Programacion para ciencias de datos/Python/Productos2021.csv')
df_1

Unnamed: 0,Chapter 4 Digit ID,Chapter 4 Digit,HS2 4 Digit ID,HS2 4 Digit,HS4 4 Digit ID,HS4 4 Digit,Trade Value,Growth Value,Growth Percentage,Share
0,1,Los Productos de Origen Animal,101,Animales Vivos,10101,"Caballos, Asnos, Mulos y Burdéganos, Vivos",85204,-9599.0,-0.101252,0.000645
1,1,Los Productos de Origen Animal,101,Animales Vivos,10102,Animales Vivos de la Especie Bovina,87167022,-20785765.0,-0.192545,0.659469
2,1,Los Productos de Origen Animal,102,Carne y Despojos Comestibles,10201,"Carne de Animales de la Especie Bovina, Fresca...",13663611,6671920.0,0.954264,0.103373
3,1,Los Productos de Origen Animal,102,Carne y Despojos Comestibles,10203,"Carne de Animales de la Especie Porcina, Fresc...",462945576,-46551179.0,-0.091367,3.502452
4,1,Los Productos de Origen Animal,102,Carne y Despojos Comestibles,10206,Despojos Comestibles de Animales de las Especi...,19872605,6796048.0,0.519712,0.150348
...,...,...,...,...,...,...,...,...,...,...
447,20,Diverso,2096,Manufacturas Diversas,209608,Bolígrafos y Marcadores Punta de Fieltro u otr...,846284,321988.0,0.614134,0.006403
448,20,Diverso,2096,Manufacturas Diversas,209609,"Lápices, Minas, Pasteles, Carboncillos, Tizas ...",632893,111135.0,0.213001,0.004788
449,20,Diverso,2096,Manufacturas Diversas,209611,"Fechadores, Sellos, Numeradores, Timbradores y...",1561,-277.0,-0.150707,0.000012
450,20,Diverso,2096,Manufacturas Diversas,209612,Cintas para Máquinas de Escribir y Cintas Simi...,650490,-145066.0,-0.182345,0.004921


In [75]:
df_1.dtypes

Chapter 4 Digit ID      int64
Chapter 4 Digit        object
HS2 4 Digit ID          int64
HS2 4 Digit            object
HS4 4 Digit ID          int64
HS4 4 Digit            object
Trade Value             int64
Growth Value          float64
Growth Percentage     float64
Share                 float64
dtype: object

In [89]:
df_2 = pd.read_excel('/Users/Granich/Documents/Programacion para ciencias de datos/Python/Destinoscomerciales2021.xlsx')
df_2

Unnamed: 0,Continent ID,Continent,Country ID,Country,Trade Value,Growth Value,Growth Percentage,Share
0,af,África,ago,Angola,19411,,,0.000146
1,af,África,bfa,Burkina Faso,24808,-17582.0,-0.414768,0.000187
2,af,África,civ,Côte d'Ivoire,45750,-142119.0,-0.756479,0.000345
3,af,África,cmr,Camerún,352716,219572.0,1.649132,0.002659
4,af,África,dza,Argelia,9034770,4666054.0,1.068061,0.068109
...,...,...,...,...,...,...,...,...
88,sa,América del Sur,guy,Guayana,618637,194760.0,0.459473,0.004664
89,sa,América del Sur,per,Perú,1917305,-852051.0,-0.305808,0.014454
90,sa,América del Sur,sur,Suriname,106724,-296744.0,-0.735483,0.000805
91,sa,América del Sur,ury,Uruguay,184799,-41979.0,-0.185111,0.001393


In [90]:
df_2.dtypes

Continent ID          object
Continent             object
Country ID            object
Country               object
Trade Value            int64
Growth Value         float64
Growth Percentage    float64
Share                float64
dtype: object