# Introduccion a Pandas

In [1]:
import pandas as pd

In [2]:
pd.__version__

'1.0.5'

http://pandas.pydata.org/

Pandas es la extensión logica de numpy al mundo del Análisis de datos. 

De forma muy general, Pandas extrae la figura del Dataframe conocida por aquellos que usan R a python.

Un pandas dataframe es una tabla, lo que es una hoja de excel, con filas y columnas.

En pandas cada columna es una Serie que esta definida con un numpy array por debajo.

### Qué puede hacer pandas por ti?

- Cargar datos de diferentes recursos
- Búsqueda de una fila o columna en particular
- Realización de calculos estadísticos
- Processamiento de datos
- Combinar datos de múltiples recursos

# 1. Creación y Carga de Datos
---------------------------------

pandas puede leer archivos de muchos tipos, csv, json, excel entre otros

<img src='./img/pandas_resources.PNG'>

### Carga de datos a partir de fuentes de información

Pandas soporta múltiples fuentes de información entre los que estan csv , sql, json,excel, etc

In [5]:
df = pd.read_csv('./data/primary_results.csv')

In [6]:
df.head()

Unnamed: 0,state,state_abbreviation,county,fips,party,candidate,votes,fraction_votes
0,Alabama,AL,Autauga,1001.0,Democrat,Bernie Sanders,544,0.182
1,Alabama,AL,Autauga,1001.0,Democrat,Hillary Clinton,2387,0.8
2,Alabama,AL,Baldwin,1003.0,Democrat,Bernie Sanders,2694,0.329
3,Alabama,AL,Baldwin,1003.0,Democrat,Hillary Clinton,5290,0.647
4,Alabama,AL,Barbour,1005.0,Democrat,Bernie Sanders,222,0.078


por convención cuando se analiza un solo dataframe se suele llamar df

# Exploración
-----------------------------

`shape` nos devuelve el número de filas y columnas

In [14]:
df.shape

(24611, 8)

`head` retorna los primertos 5 resultados contenidos en el dataframe (df)

In [19]:
# head retorna los primeros 5 resultados del dataframe
df.head(2)

Unnamed: 0,state,state_abbreviation,county,fips,party,candidate,votes,fraction_votes
0,Alabama,AL,Autauga,1001.0,Democrat,Bernie Sanders,544,0.182
1,Alabama,AL,Autauga,1001.0,Democrat,Hillary Clinton,2387,0.8


`tail` retorna los 5 últimos resultados contenidos en el dataframe (df)

In [22]:
# tail -> retorna los últimos 5 resultados del df
df.tail(5)

Unnamed: 0,state,state_abbreviation,county,fips,party,candidate,votes,fraction_votes
24606,Wyoming,WY,Teton-Sublette,95600028.0,Republican,Ted Cruz,0,0.0
24607,Wyoming,WY,Uinta-Lincoln,95600027.0,Republican,Donald Trump,0,0.0
24608,Wyoming,WY,Uinta-Lincoln,95600027.0,Republican,John Kasich,0,0.0
24609,Wyoming,WY,Uinta-Lincoln,95600027.0,Republican,Marco Rubio,0,0.0
24610,Wyoming,WY,Uinta-Lincoln,95600027.0,Republican,Ted Cruz,53,1.0


In [23]:
df.dtypes

state                  object
state_abbreviation     object
county                 object
fips                  float64
party                  object
candidate              object
votes                   int64
fraction_votes        float64
dtype: object

In [24]:
# Describe -> nos brinda un resumen de la cantidad de datos, promedio, desviación estandar, minimo, máximo, etc 
# de los datos de las columnas posibles
df.describe()

Unnamed: 0,fips,votes,fraction_votes
count,24511.0,24611.0,24611.0
mean,26671520.0,2306.252773,0.304524
std,42009780.0,9861.183572,0.231401
min,1001.0,0.0,0.0
25%,21091.0,68.0,0.094
50%,42081.0,358.0,0.273
75%,90900120.0,1375.0,0.479
max,95600040.0,590502.0,1.0


# Seleccion
----------------------------

In [25]:
df.head()

Unnamed: 0,state,state_abbreviation,county,fips,party,candidate,votes,fraction_votes
0,Alabama,AL,Autauga,1001.0,Democrat,Bernie Sanders,544,0.182
1,Alabama,AL,Autauga,1001.0,Democrat,Hillary Clinton,2387,0.8
2,Alabama,AL,Baldwin,1003.0,Democrat,Bernie Sanders,2694,0.329
3,Alabama,AL,Baldwin,1003.0,Democrat,Hillary Clinton,5290,0.647
4,Alabama,AL,Barbour,1005.0,Democrat,Bernie Sanders,222,0.078


La columna a la izquierda del state es el index. Un dataframe tiene que tener un index, que es la manera de organizar los datos.

In [26]:
df.index

RangeIndex(start=0, stop=24611, step=1)

### Seleccion de Columnas

In [27]:
df.columns

Index(['state', 'state_abbreviation', 'county', 'fips', 'party', 'candidate',
       'votes', 'fraction_votes'],
      dtype='object')

Seleccionamos una columna mediante '[]' como si el dataframe fuese un diccionario

In [28]:
# Seleccion de una única columna
df['state'].head()

0    Alabama
1    Alabama
2    Alabama
3    Alabama
4    Alabama
Name: state, dtype: object

In [29]:
# Seleccion de más de una columna
columns = ['state','state_abbreviation']
df[columns].head()

Unnamed: 0,state,state_abbreviation
0,Alabama,AL
1,Alabama,AL
2,Alabama,AL
3,Alabama,AL
4,Alabama,AL


In [30]:
df["state"][:10]

0    Alabama
1    Alabama
2    Alabama
3    Alabama
4    Alabama
5    Alabama
6    Alabama
7    Alabama
8    Alabama
9    Alabama
Name: state, dtype: object

Tambien podemos seleccionar una columna mediante '.'

In [28]:
df.state.head()

0    Alabama
1    Alabama
2    Alabama
3    Alabama
4    Alabama
Name: state, dtype: object

# Filtrando Información
------------------------------

Podemos filtrar un dataframe de la misma forma que filtramos en numpy

In [44]:
df[df['votes']>=590502]

Unnamed: 0,state,state_abbreviation,county,fips,party,candidate,votes,fraction_votes
1386,California,CA,Los Angeles,6037.0,Democrat,Hillary Clinton,590502,0.57


podemos concatenar varias condiciones usando `&`

In [45]:
df[(df.county=="Manhattan") & (df.party=="Democrat")]

Unnamed: 0,state,state_abbreviation,county,fips,party,candidate,votes,fraction_votes
15011,New York,NY,Manhattan,36061.0,Democrat,Bernie Sanders,90227,0.337
15012,New York,NY,Manhattan,36061.0,Democrat,Hillary Clinton,177496,0.663


# Exportar
----------------------------------

podemos escribir a excel, necesitamos instalar el paquete `xlwt`

<img src='https://pandas.pydata.org/docs/_images/02_io_readwrite1.svg'>

In [61]:
rick_morty.to_excel("./out/rick_y_morty.xls", sheet_name="personajes")

In [62]:
rick_morty.to_excel('./out/rick_y_morty.xlsx',sheet_name="personajes",index=False)

In [63]:
rick_morty.to_csv('./out/rick_y_morty.csv',sep='|',encoding='utf-8',index=False)

podemos leer de excel, necesitamos el paquete `xlrd`