# **INTRODUCCION A PANDAS**

1. Instalación de Pandas

2. Creación de dataframe

3. Creación de series 

4. Lectura de datasets

5. Funciones exploración dataframe 

<img src="../imgs/foto-dia-01.jpg" width="450px" height="300px">

### **1. Instalación de Pandas**

In [None]:
%pip install pandas

### **2. Creación de dataframe**

Hay dos objetos principales en pandas: los **DataFrame** y las **series**.

Un DataFrame es una tabla. Contiene una matriz de entradas individuales, cada una de las cuales tiene un valor específico. Cada entrada corresponde a una fila (o registro) y una columna.

In [None]:
import pandas as pd

pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

En este ejemplo, la entrada "0, No" tiene el valor de 131. La entrada "0, Yes" tiene un valor de 50, y así sucesivamente.

Las entradas de un DataFrame no están limitadas a enteros. Por ejemplo, aquí hay un DataFrame cuyos valores son cadenas de texto:

In [None]:
pd.DataFrame({'Bob': ['Me gusta.', 'Horroroso.'], 'Sue': ['Muy bien.', 'Un poco soso.']})

Estamos utilizando el constructor pd.DataFrame() para generar estos objetos DataFrame. La sintaxis para declarar uno nuevo es un diccionario cuyas claves son los nombres de las columnas (Bob y Sue en este ejemplo), y cuyos valores son una lista de entradas. Esta es la forma estándar de construir un nuevo DataFrame, y es la que es más probable que encuentres.

El constructor de diccionario-lista asigna valores a las etiquetas de las columnas, pero solo utiliza un conteo ascendente desde 0 (0, 1, 2, 3, ...) para las etiquetas de las filas. A veces esto está bien, pero muchas veces querremos asignar estas etiquetas nosotros mismos.

La lista de etiquetas de fila utilizada en un DataFrame se conoce como un Índice. Podemos asignar valores a este utilizando un parámetro de índice en nuestro constructor:

In [None]:
pd.DataFrame({'Bob': ['Me gusta.', 'Horroroso.'], 'Sue': ['Muy bien.', 'Un poco soso.']},
             index=['Producto A', 'Producto B'])

### **3. Series**

Por otro lado, una Serie es una secuencia de valores de datos. Si un DataFrame es una tabla, una Serie es una lista. De hecho, puedes crear una Serie con nada más que una lista:

In [None]:
pd.Series([1, 2, 3, 4, 5])

Una Serie es, en esencia, una única columna de un DataFrame. Por lo tanto, puedes asignar etiquetas de fila a la Serie de la misma manera que antes, utilizando un parámetro de índice. Sin embargo, una Serie no tiene un nombre de columna, solo tiene un nombre general:

In [None]:
pd.Series([30, 35, 40], index=['Ventas 2015', 'Ventas 2016', 'Ventas 2017'], name='Producto A')

La Serie y el DataFrame están íntimamente relacionados. Es útil pensar en un DataFrame como simplemente un conjunto de Series. Veremos más de esto en el curso.

### **4. Lectura de datasets**

Poder crear un DataFrame o una Serie manualmente es útil. Pero, la mayoría de las veces, en realidad no estaremos creando nuestros propios datos manualmente. En cambio, estaremos trabajando con datos que ya existen.

Los datos pueden almacenarse en cualquiera de una serie de formas y formatos diferentes. Por mucho, el más básico de estos es el humilde archivo CSV. Cuando abres un archivo CSV, obtienes algo que se ve así:

Producto A,Producto B,Producto C,
- 30,21,9,
- 35,34,1,
- 41,11,11


Entonces, un archivo CSV es una tabla de valores separados por comas. De ahí el nombre: "Comma-Separated Values", o CSV.

Ahora, dejemos de lado nuestros conjuntos de datos de juguete y veamos cómo se ve un conjunto de datos real cuando lo leemos en un DataFrame. Usaremos la función **pd.read_csv()** para leer los datos en un DataFrame. Esto se hace de la siguiente manera:

In [None]:
ryanair_reviews = pd.read_csv("datasets/ryanair_reviews.csv")

Podemos usar el atributo shape para verificar cuán grande es el DataFrame resultante:

In [None]:
ryanair_reviews.shape

Entonces, nuestro nuevo DataFrame tiene 2249 registros divididos en 21 columnas diferentes.

Podemos examinar el contenido del DataFrame resultante usando el comando head(), que toma las primeras cinco filas:

In [None]:
ryanair_reviews.head()

La función pd.read_csv() es muy amplica, con más de 30 parámetros opcionales que puedes especificar. Por ejemplo, puedes ver en este conjunto de datos que el archivo CSV tiene un índice incorporado, que pandas no recogió automáticamente. Para hacer que pandas use esa columna como índice (en lugar de crear uno nuevo desde cero), podemos especificar un index_col para que tome el index desde una columna, en este caso va a tomar el index de cada fila de la primera columna del dataset y esta no lo va a mostrar.

In [None]:
ryanair_reviews = pd.read_csv("datasets/ryanair_reviews.csv", index_col=0)
ryanair_reviews.head()