# Introducción a Pandas

> Pandas es una librería de Python escrita como extensión de NumPy para manipulación y análisis de datos.

Sitio oficial: [pandas.python.org](https://pandas.pydata.org/)
Documentación Oficial: [pandas.pydata.org/pandas-docs/stable/](https://pandas.pydata.org/pandas-docs/stable/)

In [3]:
import pandas as pd

## DataFrame

Un objeto del tipo DataFrame define un conjunto de datos estructurado en forma de tabla donde cada columna es un objeto de tipo Series, es decir, todos los datos de una misma columna son del mismo tipo, y las filas son registros que pueden contender datos de distintos tipos.

Un DataFrame contiene dos índices, uno para las filas y otro para las columnas, y se puede acceder a sus elementos mediante los nombres de las filas y las columnas.

Ejemplo. El siguiente DataFrame contiene información sobre los alumnos de un curso. Cada fila corresponde a un alumno y cada columna a una variable.

![Ejemplo](../images/dataframe-ejemplo.png)

### Creación de una Serie a partir de una lista

`DataFrame(data=diccionario, index=filas, columns=columnas, dtype=tipos)`

Devuelve un objeto de tipo DataFrame cuyas columnas son las listas contenidas en los valores del diccionario `diccionario`, los nombres de filas indicados en la lista `filas`, los nombres de columnas indicados en la lista `columnas` y los tipos indicados en la lista `tipos`. 

La lista `filas` tiene que tener el mismo tamaño que las listas del diccionario, mientras que las listas `columnas` y `tipos` tienen que tener el mismo tamaño que el `diccionario`. 

- Si no se pasa la lista de filas se utilizan como nombres los enteros empezando en 0.
- Si no se pasa la lista de columnas se utilizan como nombres las claves del diccionario.
- Si no se pasa la lista de tipos, se infiere.

In [4]:
record1 = pd.Series({'Name': 'Hallie',
                     'Class': 'Physics',
                     'Score': 55})
record2 = pd.Series({'Name': 'Jack',
                     'Class': 'Chemistry',
                     'Score': 53})
record3 = pd.Series({'Name': 'Alison',
                     'Class': 'Biology',
                     'Score': 58})
df = pd.DataFrame([record1, record2, record3],
                  index=['school1', 'school2', 'school1'])
df.head()

Unnamed: 0,Name,Class,Score
school1,Hallie,Physics,55
school2,Jack,Chemistry,53
school1,Alison,Biology,58


### Creación de un DataFrame a partir de un diccionario de listas

In [5]:
students = {'name': ['Hallie', 'Jack', 'Alison', 'Victoria'],
            'age': [18, 22, 20, 21],
            'class': ['Physics', 'Chemistry', 'Biology', 'Math'],
            'email':['hallie@gmail.com', 'jack@yahoo.es', 'alison@gmail.com', 'victoria@gmail.com']}

df = pd.DataFrame(students)
df

Unnamed: 0,name,age,class,email
0,Hallie,18,Physics,hallie@gmail.com
1,Jack,22,Chemistry,jack@yahoo.es
2,Alison,20,Biology,alison@gmail.com
3,Victoria,21,Math,victoria@gmail.com


### Creación de un DataFrame a partir de una lista de listas

In [6]:
df = pd.DataFrame([['Hallie', 18, 'Physics', 'hallie@gmail.com'],
                   ['Jack', 22, 'Chemistry', 'jack@yahoo.uy'],
                   ['Alison', 20, 'Biology', 'alison@gmail.com'],
                   ['Victoria', 21, 'Math', 'victoria@gmail.com']],
                  columns=['name', 'age', 'class', 'email'])
df

Unnamed: 0,name,age,class,email
0,Hallie,18,Physics,hallie@gmail.com
1,Jack,22,Chemistry,jack@yahoo.uy
2,Alison,20,Biology,alison@gmail.com
3,Victoria,21,Math,victoria@gmail.com


### Creación de un DataFrame a parti de una lista de diccionarios

In [7]:
df = pd.DataFrame([{'name': 'Hallie', 'age': 18, 'class': 'Physics', 'email': 'hallie@gmail.com'},
                   {'name': 'Jack', 'age': 22, 'class': 'Chemistry', 'email': 'jack@yahoo.uy'},
                   {'name': 'Alison', 'age': 20, 'class': 'Biology', 'email': 'alison@gmail.com'},
                   {'name': 'Victoria', 'age': 21, 'class': 'Math', 'email': 'victoria@gmail.com'}])
df

Unnamed: 0,name,age,class,email
0,Hallie,18,Physics,hallie@gmail.com
1,Jack,22,Chemistry,jack@yahoo.uy
2,Alison,20,Biology,alison@gmail.com
3,Victoria,21,Math,victoria@gmail.com


## Atributos de los DataFrames

In [8]:
df.info()  # Devuelve información (número de filas, número de columnas, índices, tipo de las columnas y memoria usado) sobre el DataFrame df.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    4 non-null      object
 1   age     4 non-null      int64 
 2   class   4 non-null      object
 3   email   4 non-null      object
dtypes: int64(1), object(3)
memory usage: 256.0+ bytes


In [9]:
df.shape  # Devuelve una tupla con el número de filas y columnas del DataFrame df.

(4, 4)

In [10]:
df.size  # Devuelve el número de elementos del DataFrame.

16

In [11]:
df.columns  # Devuelve una lista con los nombres de las columnas del DataFrame df.

Index(['name', 'age', 'class', 'email'], dtype='object')

In [12]:
df.index  # Devuelve una lista con los nombres de las filas del DataFrame df.

RangeIndex(start=0, stop=4, step=1)

In [13]:
df.dtypes  # Devuelve una serie con los tipos de datos de las columnas del DataFrame df.

name     object
age       int64
class    object
email    object
dtype: object