# **02 - Análisis y Exploración de datos con Pandas**

## **La librería Pandas**

Es una librería del lenguaje Python cuyo principal objetivo es manipular fácilmente grandes conjuntos de datos, y realizar operaciones y estadísticas sobre los mismos. Se lleva muy bien con las librerías *numpy y pyplot*. Acá, [la documentación oficial](https://pandas.pydata.org/)



### Importación de librería
Tal cual vimos con las otras librerías, Pandas también tiene un pseudónimo y es **pd**. Así llamaremos a la librería cada vez que necesitemos utilizar alguna de sus funcionalidades

In [0]:
import pandas as pd

Podemos ver información relevante de una librería, escribiendo su nombre seguido de un símbolo de pregunta.

*Tip importante*: Esto funciona también para conocer qué realiza una función en particular

In [0]:
pd?

## Lectura de datasets 
Un *dataset* es un conjunto de datos organizados en una cierta disposición. Existen muchos formatos de datasets. A lo largo del módulo de Ciencia de Datos, trabajaremos con datasets que provienen de archivos .CSV, archivos JSON, .txt, entre otros.

La librería Pandas procesa de forma rápida el contenido de los datasets (cualquiera sea el caso) y lo almacena en un **DataFrame**. Un DataFrame es una estructura bidimensional lógica (existe únicamente en memoria), que contiene datos estructurados y, a diferencia de un dataset, cada columna o campo tiene su nombre correspondiente que identifica los valores de cada registro o fila. 

### Archivos .CSV
Los archivos *CSV* son fuentes de información generalmente separadas por comas, o por algún caracter en particular que delimita el final de cada dato. 


Como ejemplo de importación de un archivo .CSV, vamos a obtener los datos de Ingresos y Egresos de personas al país en el 4° trimestre del año 2019, cuyo link de acceso al dataset figura en este [sitio web](https://datos.gob.ar/dataset/interior-ingresos-egresos-personas-al-pais-residencias-otorgadas/archivo/interior_effbfa04-fec7-43af-ab9e-ad5347f5e767)  

El enlace que vamos a utilizar se obtiene haciendo click derecho en el botón "*Descargar*" y eligiendo la opción "copiar la dirección del vínculo".

Para importar los datos, guardamos la URL destino en una variable, y se la mandamos por parámetro a la función **read_csv** que provee Pandas


In [0]:
url = "https://datos.mininterior.gob.ar/dataset/dd032084-b7eb-4317-9151-05fc850c1654/resource/effbfa04-fec7-43af-ab9e-ad5347f5e767/download/movimientos-migratorios--4-trimestre---ano-2019.csv"
df = pd.read_csv(url, sep=',', encoding = "ISO-8859-1")

En este caso, aparte de mandarle por parámetro la URL, vemos que se definió el caracter separador (una coma), y además se utilizó cierta codificación particular (ISO-8859-1). Estas dos configuraciones de lectura no son siempre necesarias, depende exclusivamente de cómo estén guardados los datos a importar.

Lo que hicimos fue guardar en una variable df , el resultado de la lectura del dataset. Posteriormente, invocaremos a df en una nueva celda de código para **visualizar sus primeras y últimas 5 filas**.

In [14]:
df

Unnamed: 0,PASO_CRUCE,CANTIDAD
0,AERO EZEIZA,2949664
1,PTE. INT. TANCREDO NEVES,2765577
2,PTE. SAN ROQUE GONZALEZ DE SAN,2202025
3,SALVADOR MAZZA - YACUIBA,923252
4,PASO DE LOS LIBRES,880025
...,...,...
95,PASO SICO,2236
96,AERO PUBLICO DE USHUAIA,2127
97,PUERTO LIBERTAD,2083
98,PUERTO OASIS,2025


Es muy importante separar la lectura del dataset en una celda diferente a las que utilizamos para visualizarlo o procesar su contenido. De lo contrario, estaremos cargando nuevamente la fuente de datos cuando tal vez no sea necesario. 

### Características y Métodos generales de un DataFrame

Invocando al método **info**, podemos ver fácilmente cómo está compuesto el DataFrame

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   PASO_CRUCE  100 non-null    object
 1   CANTIDAD    100 non-null    int64 
dtypes: int64(1), object(1)
memory usage: 1.7+ KB


En este caso podemos observar que el DataFrame tiene 2 columnas, una para conocer el Paso o Cruce, y en la otra (de tipo int64), conocemos la cantidad de personas que cruzaron por esa vía.

**Ejercicio**

¿Qué hacen los siguientes atributos y métodos sobre el DataFrame: **columns y count()**?

Probalos en las siguientes celdas de código!

Respuesta: 

### Visualización general de datos del DataFrame

Podemos obtener registros específicos de un dataframe de varias maneras.

Con **head(n)** y **tail(n)** podemos ver los **n** primeros y últimos (respectivamente) registros del dataframe

Si dejamos vacío el valor de n, los métodos nos mostrarán **5** valores

In [24]:
df.head()

Unnamed: 0,PASO_CRUCE,CANTIDAD
0,AERO EZEIZA,2949664
1,PTE. INT. TANCREDO NEVES,2765577
2,PTE. SAN ROQUE GONZALEZ DE SAN,2202025
3,SALVADOR MAZZA - YACUIBA,923252
4,PASO DE LOS LIBRES,880025


In [25]:
df.head(2)

Unnamed: 0,PASO_CRUCE,CANTIDAD
0,AERO EZEIZA,2949664
1,PTE. INT. TANCREDO NEVES,2765577


In [26]:
df.tail(10)

Unnamed: 0,PASO_CRUCE,CANTIDAD
90,PASO AGUA NEGRA,2776
91,PUERTO OLIVOS,2682
92,PUERTO YAHAPE,2494
93,PUERTO ISLA MARTIN GARCIA,2354
94,ING. PALLAVICINI - IBAÑEZ,2248
95,PASO SICO,2236
96,AERO PUBLICO DE USHUAIA,2127
97,PUERTO LIBERTAD,2083
98,PUERTO OASIS,2025
99,PUERTO SANTA ANA,1970
