# Introduciendo Pandas

Pandas es una biblioteca de Python que facilita el manejo de datos tabulares. Ya que estamos haciendo ciencia de datos, ¡esto es algo que usaremos de vez en cuando!

Es una de las tres bibliotecas que encontrará repetidamente en el campo de la ciencia de datos:

## Pandas
Introduce conceptos de "DataFrames" y "Series" que permiten dividir y agrupar filas y columnas de información.

## NumPy
Por lo general, trabajermos con "NumPy arrays", que son objetos de matriz multidimensionales. Es fácil crear un DataFrame a partir de un NumPy array, y los DataFrames se pueden convertir en NumPy arrays. Los NumPy arrays son principalmente importantes debido a ...

## Scikit_Learn
La biblioteca de aprendizaje automático que usaremos para muchas tareas, y generalmente toma NumPy arrays como entrada.

Por lo tanto, lo típico es cargar, limpiar y manipular los datos de entrada usando Pandas. Luego, convertir el DataFrame en un NumPy array para usar alguna función de Scikit_Learn. Esa conversión a muchas veces puede ocurrir automáticamente.


Comencemos instalando todas las librerías requeridas a lo largo de la presentación:

In [None]:
!pip install -r ../requirements.txt

Ahora si, cargamos algunos datos de valores separados por comas usando Pandas en un DataFrame:

In [None]:
import pandas as pd

df = pd.read_csv("ContratacionesAnteriores.csv")
df.head()

head() es una forma práctica de visualizar lo que ha cargado. Puede pasarle un número entero para ver un número específico de filas al comienzo de tu DataFrame:

In [None]:
df.head(10)

También puede ver el final de tus datos con tail():

In [None]:
df.tail(4)

A menudo hablamos del "shape" de tu DataFrame. Estas son sus dimensiones. Este archivo CSV en particular tiene 13 filas con 5 columnas por fila:

In [None]:
df.shape

El tamaño total del DataFrame es filas * columnas:

In [None]:
df.size

La función len() retorna el número de filas en un DataFrame:

In [None]:
len(df)

Si tu DataFrame tiene columnas con nombre (en nuestro caso, extraídas automáticamente de la primera fila de un archivo .csv), puede obtener el listado de estas:

In [None]:
df.columns

Puedes extraer una sola columna de tu DataFrame así: esto te da una "Serie" en Pandas:

In [None]:
df['Contratado?']

También puede extraer un rango determinado de filas de una columna con nombre, así:

In [None]:
df['Contratado?'][:5]

O incluso extraer un solo valor de una combinación de columna / fila especificada:

In [None]:
df['Contratado?'][4]

Para extraer más de una columna, pasa un listado de nombres de columna en lugar de una sola:

In [None]:
df[['Tiempo de experiencia', 'Contratado?']]

También puedes extraer rangos específicos de filas de más de una columna:

In [None]:
df[['Tiempo de experiencia', 'Contratado?']][:5]

Puedes ordenar el DataFrame por una columna específica así:

In [None]:
df.sort_values(['Tiempo de experiencia'])

También puedes desglosar la cantidad de valores únicos de una columna determinada en una serie usando value_counts(); esta es una buena manera de comprender la distribución de sus datos:

In [None]:
degree_counts = df['Nivel de educacion'].value_counts()
degree_counts

Pandas incluso hace fácil hacer un gráfico de una serie o DataFrame, simplemente llamando la función plot():

In [None]:
degree_counts.plot(kind='bar')

## Ejercicio

1. Extraer las filas 5 a 10 de nuestro DataFrame, conservando solo las columnas "No. empleos anteriores" y "Contratado?". 
2. Asigne el resultado a un nuevo DataFrame
3. cree un histograma que represente la distribución de columna "No. empleos anteriores" en este subconjunto de datos.