_Autor: Christian Camilo Urcuqui López_

# Python como herramienta para la preparación y el análisis exploratorio de datos


__Contenido__

+ [Pandas](#Pandas)
    + [Estructuras de datos](#Estructuras-de-datos)
        + [Series](#Series)
        + [Dataframe](#Dataframe)
            + [Carga de datos](#Carga-de-datos)
                - [CSV](#CSV)
                - [JSON](#JSON)
                - [EXCEL](#EXCEL)
                - [SQLite](#SQLite)
            + [Persistencia de datos](#Persistencia-de-datos)
            + [Cambiando tipos de las variables](#Cambiando-tipos-de-las-variables)
            + [Renombrando Columnas](#Renombrando-columnas)
            + [Obteniendo información de nuestro dataframe](#Obteniendo-información-de-nuestro-dataframe)
            + [Indexación, selección y asignación](#Indexación,-selección-y-asignación)
            + [Selección condicional](#Selección-condicional)
            + [Asignación de datos](#Asignación-de-datos)
+ [Ejercicios prácticos](#Ejercicios-prácticos)

## Pandas

<img src="https://github.com/urcuqui/Data-Science/blob/master/Utilities/pandas_logo.png?raw=true" >
<center>https://pandas.pydata.org/ </center>

<br>

Pandas es una libreria _open source_ de estructuras de datos para el análisis de información en el lenguaje de programación Python. 

En este notebook veremos las funciones esenciales para la aplicación de análisis de datos a través de Pandas, además, veremos los primeros pasos de un análisis exploratorio de datos (_Exploratory Data Analysis_) desde la carga de los datos hasta el descubrimiento de elementos de valor en nuestros conjuntos de datos.

_La gran diferencia entre Pandas y NumPy es que esta librería esta diseñada para la manipulación de datos de distinto tipo en un mismo objeto, es común que ambas herramientas se utilicen juntas ya que Pandas depende en gran medida de la matriz NumPy_.



### Importando pandas

Es común que algunos desarrolladores por estándar usen el seudónimo _pd_ al momento de importar el paquete Pandas.

In [1]:
import pandas as pd
pd.__version__

'0.24.0'

### Estructuras de datos

En Pandas podemos encontrar dos tipos de estructuras de datos:
+ Series 
+ Dataframes

In [23]:
from pandas import Series, DataFrame

#### Series

Las series representan a un arreglo de secuencia de valores de una sola dimensión que se encuentra asociado a un arreglo de labels (_index_).

**Un objeto Serie es más flexible que un array NumPy ya que podemos definir nuestras propias etiquetas para los índices, es decir, podemos utilizar tanto números como letras**

In [9]:
serie = Series([3, -8, "a"])
serie

0     3
1    -8
2     a
dtype: object

Del anterior ejemplo podemos observar dos cosas, en primer lugar la serie puede integrar objetos de distinto tipo y en segundo lugar hay una asociación con unos indices que inician en 0.

In [10]:
# la forma de obtener los valores
serie.values

array([3, -8, 'a'], dtype=object)

In [11]:
# Podemos ver el rango de indexes desde donde inicia, cuanto imcrementa y donde finaliza
serie.index

RangeIndex(start=0, stop=3, step=1)

In [12]:
# también podemos cambiar los indices 
serie.index = ["a", "b", "c"]
serie

a     3
b    -8
c     a
dtype: object

In [24]:
# también podemos cambiar los indices 
serie = Series([3, -8, "a"], index=["a", "b", "c"])
serie

a     3
b    -8
c     a
dtype: object

In [14]:
# observe que el objeto asociado (RangeIndex -> Index) cambia ya que no 
# estamos utilizando datos númericos
serie.index

Index(['a', 'b', 'c'], dtype='object')

__Los indices nos permitirán recorrer y obtener los valores__

In [4]:
serie['a']

3

In [27]:
# cambiemos el valor de la posición con indice 'c'
serie['c'] = 'k'
serie['c']

'k'

__Podemos realizar filtros y otras operaciones__

In [13]:
# operaciones lógicas para filtros
serie[serie == "k"]

c    k
dtype: object

In [7]:
# operaciones lógicas para filtros
serie = Series([2, -8, 3])
serie[serie >= 1]

0    2
2    3
dtype: int64

In [4]:
# operaciones matemáticas para los valores
serie = Series([3, -8, 3])
serie * 2

0     6
1   -16
2     6
dtype: int64

In [9]:
# operaciones matemáticas para los valores
serie2 = Series([1, -2, 0])
serie + serie2

0     3
1   -10
2     3
dtype: int64

Otra forma de crear una Serie es a través de diccionarios

In [29]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah':5000}
series = Series(sdata)
series

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [30]:
# observe que en el anterior ejemplo obtuvimos una serie ordenada númericamente, esto lo podemos 
# cambiar pasandole las llaves directamente
states = ['California','Ohio', 'Oregon', 'Texas']
series = Series(sdata, index=states)
series

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

**Observación:** debido a que ingresamos una llave nueva (california) al conjunto de datos (sdata) sin un valor asignado obtenemos como resultado un NaN (valor faltante) y el valor de la llave 'Utah' se pierde. 

In [31]:
series2 = Series(sdata)
print(series)
print()
print(series2)
print()
print(series + series2) 

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


**Observación:** Del anterior ejemplo podemos ver que las operaciones de registros con NaN implica como resultado NaN. 

Podemos encontrar más atributos como el nombre del objeto Serie y el nombre asignado a los indices.

In [32]:
series2.name = 'population'
series2

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
Name: population, dtype: int64

In [33]:
series2.index.name = 'states'
series2.index

Index(['Ohio', 'Texas', 'Oregon', 'Utah'], dtype='object', name='states')

#### Dataframe
Un dataframe es una estructura similar a una tabla de datos rectangular donde cada columna puede tener distintos tipos de datos (numéricos, caracteres, boolean). Un Dataframe tiene tanto una indexación para sus filas y columnas por lo cual permite almacenar en memoria más de dos bloques dimensionales a diferencia de otros tipos de estructuras.

<img src="https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png" width="450">
<center> https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/ </center>


_Observemos distintas formas para crear un dataframe_

In [41]:
state = Series( ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], name="state")
year = Series([2000, 2001, 2002, 2001, 2002, 2003], name="year")
pop =  Series([1.5, 1.7, 3.6, 2.4, 2.9, 3.2], name="pop")
# concatenamos las tres series por sus columnas (axis=1) y obtenemos un dataframe
data = pd.concat([state,year,pop], axis=1)
print(type(data))
data

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [42]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
       'year': [2000, 2001, 2002, 2001, 2002, 2003],
       'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
# utilizamos un diccionario en Python 
data = DataFrame(data)
print(type(data))
data

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [44]:
# podemos leer un archivo (csv) y cargarlo como un dataframe
data = pd.read_csv("../../../Datasets/parks.csv")
print(type(data))
data.head(5)

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Park Code,Park Name,State,Acres,Latitude,Longitude
0,ACAD,Acadia National Park,ME,47390,44.35,-68.21
1,ARCH,Arches National Park,UT,76519,38.68,-109.57
2,BADL,Badlands National Park,SD,242756,43.75,-102.5
3,BIBE,Big Bend National Park,TX,801163,29.25,-103.25
4,BISC,Biscayne National Park,FL,172924,25.65,-80.08


Podemos cambiar los nombres de las columnas y a los índices

In [21]:
state = Series( ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], name="state")
year = Series([2000, 2001, 2002, 2001, 2002, 2003], name="year")
pop =  Series([1.5, 1.7, 3.6, 2.4, 2.9, 3.2], name="pop")
data = pd.concat([state,year,pop], axis=1)
# cambiemos los nombres de las columnas a español
data.columns = ["Estado", "Año", "Población"]
#data = data.rename({'state':'Estado','year':'Año','pop':'Población'}, axis='columns')
# cambiemos los nombres de los indices de las filas 
data.index = ["Registro1", "Registro2", "Registro3", "Registro4", "Registro5", "Registro6"]
data

Unnamed: 0,Estado,Año,Población
Registro1,Ohio,2000,1.5
Registro2,Ohio,2001,1.7
Registro3,Ohio,2002,3.6
Registro4,Nevada,2001,2.4
Registro5,Nevada,2002,2.9
Registro6,Nevada,2003,3.2


##### Carga de datos

Podemos tener distintas situaciones donde debemos cargar conjuntos de datos (posiblemente de distinto tipo) a nuestra computadora local, observemos algunos ejemplos de Pandas para cargar datos.

+ _Si tenemos disponible un URL (enlace) donde podemos descargar y cargar los datos en memoria_, Pandas nos ofrece un método para realizar estas operaciones. Existen multiples repositorios abiertos a su uso para el trabajo de ciencia de datos, entre estos podemos citar:
    + Kaggle
    + University of California Machine Learning (UCI Machine Learning)
    + IEEE DataPort
    + World Bank Dataset
    + AWS datasets
    + Fuentes abiertas de instituciones públicas (por ejemplo, data.gov.in y datos.gov.co)
    

###### CSV

In [58]:
?pd.read_csv

In [53]:
# cargamos un conjunto de datos (tipo .data) y les asignamos los nombres a cada columna
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', 
                 header=None, names=["sepal_length","sepal_width", "petal_length","petal_width","class"])

#df = pd.read_csv('../../../Datasets/iris.data', 
#                 header=None, names=["sepal_length","sepal_width", "petal_length","petal_width","class"])

df.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [61]:
""" Cargamos un csv desde un URL, preste atención que ahora definimos el separador (por defecto
procesa datos separados por comas) """
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv',
                sep=';')
#df = pd.read_csv('../../../Datasets/winequality-red.csv', sep=';')
df.head(5)

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [14]:
# Cargamos un csv que se encuentra comprimido dentro de un archivo .zip
df = pd.read_csv('https://gist.github.com/cjpeterein/643029/raw/4d7064c0f0a680deadc9f34056a8fb1d2711e45b/deaths.csv.zip')
df.head(5)

Unnamed: 0,ID,Longitude,Latitude,Report key,Date and time,Type,Category,Title,Region,Attack on,...,Coalition forces killed,Iraq forces wounded,Iraq forces killed,Civilian wia,Civilian kia,Enemy wia,Enemy kia,Enemy detained,Total deaths,Longitude.1
0,9488,44.390114,33.299713,9488,01/01/2004 03:00,Non-Combat Event,Accident,FATAL VEHICLE ACCIDENT IN BAGHDAD (ZONE 1) - 2...,MND-BAGHDAD,NEUTRAL,...,2,0,0,0,0,0,0,0,2,44.390114
1,9507,43.403477,33.181026,9507,01/01/2004 09:26,Non-Combat Event,Accident,1/1 ID 5-TON TRUCK ACCIDENT S. OF AR RAMADI: 1...,MNF-W,NEUTRAL,...,1,0,0,0,0,0,0,0,1,43.403477
2,9543,43.1661,36.378567,9543,01/01/2004 12:00,Criminal Event,Murder,UNIVERSITY DEAN FOUND DEAD,MND-N,ENEMY,...,0,0,0,0,1,0,0,0,1,43.1661
3,9549,46.187485,31.057678,9549,01/01/2004 16:30,Friendly Action,Other,"GAS STATION SET ON FIRE; 1 X EN KIA, 2 X EN WIA",MND-SE,FRIEND,...,0,0,0,0,0,2,1,0,1,46.187485
4,63A65482-0487-4D2C-93F6-E3AD2637CDA0,46.187485,31.057678,63A65482-0487-4D2C-93F6-E3AD2637CDA0,01/01/2004 16:30,Criminal Event,Arson,"TF DIMONIUS personnel guarding CIMIC house, re...",MND-SE,ENEMY,...,0,0,0,2,1,0,0,0,1,46.187485


Otra forma de cargar y su vez grabar el archivo csv en nuestro disco duro.

In [7]:
import requests 
import csv
data = requests.get('https://archive.ics.uci.edu/ml/machine-learning-databases/car/car.data')
with open("name.csv", "w+") as f:
    writer = csv.writer(f)
    reader = csv.reader(data.text.splitlines())
    for row in reader:
        writer.writerow(row)
data = pd.read_csv("name.csv")                    
data.head()

Unnamed: 0,vhigh,vhigh.1,2,2.1,small,low,unacc
0,vhigh,vhigh,2,2,small,med,unacc
1,vhigh,vhigh,2,2,small,high,unacc
2,vhigh,vhigh,2,2,med,low,unacc
3,vhigh,vhigh,2,2,med,med,unacc
4,vhigh,vhigh,2,2,med,high,unacc


Pandas tiene métodos dedicados a procesar distintas fuentes de datos, esta y más información la podemos encontrar en su página web:

https://pandas.pydata.org/pandas-docs/stable/reference/io.html

Algunos de los tipos de archivos que podemos tratar son los siguientes:

+ HTML
+ JSON
+ Excel
+ SQL
+ SAS
+ Google BigQuery
+ STATA

###### JSON

In [34]:
# hay que tener encuenta que el json debe estar normalizado

pd.read_json("https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/data.json").head()

Unnamed: 0,integer,datetime,category
0,5,2015-01-01 00:00:00,0
1,5,2015-01-01 00:00:01,0
10,5,2015-01-01 00:00:10,0
11,5,2015-01-01 00:00:11,0
12,8,2015-01-01 00:00:12,0


###### EXCEL

In [10]:
"""
Vamos a cargar los siguientes archivos de excel obtenidos de las siguientes páginas 
https://pbpython.com/excel-file-combine.html
https://github.com/marsja/jupyter/blob/master/example_sheets2.xlsx
"""
# Para el siguiente ejemplo cargaremos un excel que tiene dos sheets, debemos tener presente
# que por defecto trae la posición 0
#df = pd.read_excel("../../../datasets/example_sheets2.xlsx")
# cargamos el segundo sheet desde el indice
#df = pd.read_excel("../../../datasets/example_sheets2.xlsx", sheet_name=1)
# cargamos el segundo desde su nombre que lo identifica
df = pd.read_excel("../../../datasets/example_sheets2.xlsx", sheet_name="Session2")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
Name       10 non-null object
ID         10 non-null int64
Mean       9 non-null float64
Correct    9 non-null float64
Session    10 non-null int64
dtypes: float64(2), int64(2), object(1)
memory usage: 480.0+ bytes


In [17]:
# Ahora veamos la diferencia de cargar los datos con el sheet igual a None
df = pd.read_excel("../../../datasets/example_sheets2.xlsx", sheet_name=None)
type(df)
# Observemos que obtenemos un diccionario donde cada key corresponde a un identificador sheet
#print(df.keys())

odict_keys(['Session1', 'Session2'])


In [19]:
# obteniendo los valores por identificador vemos que son de tipo DataFrame de Pandas
# type(df['Session1'])
df = df['Session1']
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
Name       10 non-null object
ID         10 non-null int64
Mean       10 non-null int64
Correct    10 non-null int64
Session    10 non-null int64
dtypes: int64(4), object(1)
memory usage: 480.0+ bytes


¿Cuantos recursos se encuentra consumiendo nuestro dataframe?

In [29]:
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv',
                sep=';')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1599 entries, 0 to 1598
Data columns (total 12 columns):
fixed acidity           1599 non-null float64
volatile acidity        1599 non-null float64
citric acid             1599 non-null float64
residual sugar          1599 non-null float64
chlorides               1599 non-null float64
free sulfur dioxide     1599 non-null float64
total sulfur dioxide    1599 non-null float64
density                 1599 non-null float64
pH                      1599 non-null float64
sulphates               1599 non-null float64
alcohol                 1599 non-null float64
quality                 1599 non-null int64
dtypes: float64(11), int64(1)
memory usage: 150.0 KB


Un problema común que podríamos enfrentar es el formato en el archivo excel, analicemos el siguiente archivo descargado desde el siguiente repositorio:

<img src="../../../Utilities/excel_problem.png" >
<center> 
https://www.kaggle.com/plsms21/xls-files-all/downloads/xls-files-all.zip/1 </center>

En la última captura podemos ver que el archivo tiene muchas hojas, como vimos podemos hacer un dataframe llamando a una de ellas, pero ¿qué va a pasar con su formato?

In [45]:
pd.read_excel("../../../Datasets/xls-files-all/WICAgencies2013ytd.xls", 
              sheet_name='Total Women').head()

Unnamed: 0,WIC PROGRAM -- TOTAL NUMBER OF WOMEN PARTICIPATING,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13
0,FISCAL YEAR 2013,,,,,,,,,,,,,
1,"Data as of October 05, 2018",,,,,,,,,,,,,
2,,,,,,,,,,,,,,
3,State Agency or Indian Tribal Organization,2012-10-01 00:00:00,2012-11-01 00:00:00,2012-12-01 00:00:00,2013-01-01 00:00:00,2013-02-01 00:00:00,2013-03-01 00:00:00,2013-04-01 00:00:00,2013-05-01 00:00:00,2013-06-01 00:00:00,2013-07-01 00:00:00,2013-08-01 00:00:00,2013-09-01 00:00:00,Average Participation
4,Connecticut,11891,11763,11328,11786,11159,11070,11379,11666,11387,11587,11570,11376,11496.8


###### SQLite

Voy a utilizar una base de datos descargada del siguiente repositorio 

https://www.kaggle.com/rtatman/188-million-us-wildfires/downloads/188-million-us-wildfires.zip/1

Para generar la conexión entre Python y una base de datos SQLite podemos utilizar el paquete **sqlite3**.

In [38]:
import sqlite3
# let's make the connection with our database
conn = sqlite3.connect("../../../Datasets/FPA_FOD_20170508.sqlite")
# we are going to use pandas to query a table
fires = pd.read_sql_query("SELECT * FROM Fires", conn)
fires.head()

Unnamed: 0,OBJECTID,FOD_ID,FPA_ID,SOURCE_SYSTEM_TYPE,SOURCE_SYSTEM,NWCG_REPORTING_AGENCY,NWCG_REPORTING_UNIT_ID,NWCG_REPORTING_UNIT_NAME,SOURCE_REPORTING_UNIT,SOURCE_REPORTING_UNIT_NAME,...,FIRE_SIZE_CLASS,LATITUDE,LONGITUDE,OWNER_CODE,OWNER_DESCR,STATE,COUNTY,FIPS_CODE,FIPS_NAME,Shape
0,1,1,FS-1418826,FED,FS-FIRESTAT,FS,USCAPNF,Plumas National Forest,511,Plumas National Forest,...,A,40.036944,-121.005833,5.0,USFS,CA,63,63,Plumas,b'\x00\x01\xad\x10\x00\x00\xe8d\xc2\x92_@^\xc0...
1,2,2,FS-1418827,FED,FS-FIRESTAT,FS,USCAENF,Eldorado National Forest,503,Eldorado National Forest,...,A,38.933056,-120.404444,5.0,USFS,CA,61,61,Placer,b'\x00\x01\xad\x10\x00\x00T\xb6\xeej\xe2\x19^\...
2,3,3,FS-1418835,FED,FS-FIRESTAT,FS,USCAENF,Eldorado National Forest,503,Eldorado National Forest,...,A,38.984167,-120.735556,13.0,STATE OR PRIVATE,CA,17,17,El Dorado,b'\x00\x01\xad\x10\x00\x00\xd0\xa5\xa0W\x13/^\...
3,4,4,FS-1418845,FED,FS-FIRESTAT,FS,USCAENF,Eldorado National Forest,503,Eldorado National Forest,...,A,38.559167,-119.913333,5.0,USFS,CA,3,3,Alpine,b'\x00\x01\xad\x10\x00\x00\x94\xac\xa3\rt\xfa]...
4,5,5,FS-1418847,FED,FS-FIRESTAT,FS,USCAENF,Eldorado National Forest,503,Eldorado National Forest,...,A,38.559167,-119.933056,5.0,USFS,CA,3,3,Alpine,b'\x00\x01\xad\x10\x00\x00@\xe3\xaa.\xb7\xfb]\...


##### Cambiando tipos de las variables

In [3]:
data = pd.read_csv("../../../Datasets/parks.csv", index_col=['Park Code'], encoding='utf-8')
data.dtypes

Park Name     object
State         object
Acres          int64
Latitude     float64
Longitude    float64
dtype: object

Podemos utilizar el método astype(“el tipo a cambiar”) de un objeto tipo DataFrame con el fin de cambiar  el tipo de una columna en especifico. También, podemos utilizar el método sobre el DataFrame para afectar a todas las variables, en el siguiente ejemplo cambiaremos solo la columna State.

In [4]:
#data.State = data.State.astype("category")
data['State'] = data['State'].astype("category")
data.dtypes

Park Name      object
State        category
Acres           int64
Latitude      float64
Longitude     float64
dtype: object

In [5]:
# change all the columns
data.astype("object").dtypes

Park Name    object
State        object
Acres        object
Latitude     object
Longitude    object
dtype: object

Pandas también provee dos métodos que nos ayudarán a cambiar los tipos de una variable
+ to_numeric()
+ to_datetime()

**Recomendaciones:**

+ Los métodos solo reciben objetos tipos Series de Pandas
+ Esta es la URL https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior donde podemos revisar los formatos para el tratamiento de datetime (fechas en Python)

In [6]:
# https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior
serie_dates = pd.Series(["1970-01-01", "1980-01-01", "2019-03-01", "2019-02-16"])
pd.to_datetime(serie_dates, format='%Y-%m-%d')

0   1970-01-01
1   1980-01-01
2   2019-03-01
3   2019-02-16
dtype: datetime64[ns]

##### Renombrando columnas

Observemos que un objeto pandas nos retorna información acerca de sus dimensiones y los nombres asignados a cada variable.

In [10]:
df_park = pd.read_csv('https://raw.githubusercontent.com/urcuqui/Data-Science/master/datasets/parks.csv', index_col=['Park Code'], encoding='utf-8')
df_park.info()

<class 'pandas.core.frame.DataFrame'>
Index: 56 entries, ACAD to ZION
Data columns (total 5 columns):
Park Name    56 non-null object
State        56 non-null object
Acres        56 non-null int64
Latitude     56 non-null float64
Longitude    56 non-null float64
dtypes: float64(2), int64(1), object(2)
memory usage: 2.6+ KB


In [44]:
print(df_park.shape)
print("")
print(len(df_park))
print("")
print(df_park.columns)

(56, 5)

56

Index(['Park Name', 'State', 'Acres', 'Latitude', 'Longitude'], dtype='object')


La forma más sencilla es a través del método **rename()**; esta función recibe por parámetro un diccionario con las llaves de los viejos nombres y por cada valor serán los nombres para las columnas.

In [49]:
df_park.rename({'Park Name': 'park_name', 'State': 'state', 'Acres': 'acres', 'Latitude': 'latitude', 
                'Longitude': 'longitude'}, axis='columns').copy().head()

Unnamed: 0_level_0,park_name,state,acres,latitude,longitude
Park Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
ACAD,Acadia National Park,ME,47390,44.35,-68.21
ARCH,Arches National Park,UT,76519,38.68,-109.57
BADL,Badlands National Park,SD,242756,43.75,-102.5
BIBE,Big Bend National Park,TX,801163,29.25,-103.25
BISC,Biscayne National Park,FL,172924,25.65,-80.08


En algunas ocasiones podemos encontrarnos nombres con espacios y mayúsculas, existen dos métodos que nos permitirán llevar todos los nombres a un mismo estándar.

In [11]:
df_park.columns.str.replace(' ', '_')

Index(['Park_Name', 'State', 'Acres', 'Latitude', 'Longitude'], dtype='object')

In [16]:
# obtenemos cada nombre en un repetitiva y a este le aplicamos el reemplazo y el lower
df_park.columns = [col.replace(' ', '_').lower() for col in df_park.columns]
df_park.columns

Index(['park_name', 'state', 'acres', 'latitude', 'longitude'], dtype='object')

In [9]:
df_park.columns = df_park.columns.str.replace(' ', '_').str.lower()
df_park.columns

Index(['park_name', 'state', 'acres', 'latitude', 'longitude'], dtype='object')

##### Obteniendo información de nuestro dataframe

In [19]:
data = pd.read_csv("../../../Datasets/parks.csv", index_col=['Park Code'], encoding='utf-8')
data.columns = data.columns.str.replace(" ", "_").str.lower()
data.state = data.state.astype("category")
data.describe()

Unnamed: 0,acres,latitude,longitude
count,56.0,56.0,56.0
mean,927929.1,41.233929,-113.234821
std,1709258.0,10.908831,22.440287
min,5550.0,19.38,-159.28
25%,69010.5,35.5275,-121.57
50%,238764.5,38.55,-110.985
75%,817360.2,46.88,-103.4
max,8323148.0,67.78,-68.21


In [26]:
data.describe(include="all")

Unnamed: 0,park_name,state,acres,latitude,longitude
count,56,56,56.0,56.0,56.0
unique,56,27,,,
top,Cuyahoga Valley National Park,AK,,,
freq,1,8,,,
mean,,,927929.1,41.233929,-113.234821
std,,,1709258.0,10.908831,22.440287
min,,,5550.0,19.38,-159.28
25%,,,69010.5,35.5275,-121.57
50%,,,238764.5,38.55,-110.985
75%,,,817360.2,46.88,-103.4


In [34]:
data.describe(include=['O'])

Unnamed: 0,park_name
count,56
unique,56
top,Cuyahoga Valley National Park
freq,1


In [35]:
data.describe(include=['category'])

Unnamed: 0,state
count,56
unique,27
top,AK
freq,8


In [45]:
data.state.value_counts()

AK            8
CA            7
UT            5
CO            4
WA            3
AZ            3
FL            3
TX            2
SD            2
HI            2
MI            1
AR            1
CA, NV        1
KY            1
ME            1
WY, MT, ID    1
MN            1
MT            1
WY            1
NM            1
NV            1
OH            1
OR            1
SC            1
TN, NC        1
VA            1
ND            1
Name: state, dtype: int64

##### Indexación, selección y asignación

Podemos acceder a una variable como si fuera un atributo del objeto. Un parque nacional en US podría tener una propiedad nombre, podemos obtener los datos así:  

In [3]:
data.park_name.head()

Park Code
ACAD      Acadia National Park
ARCH      Arches National Park
BADL    Badlands National Park
BIBE    Big Bend National Park
BISC    Biscayne National Park
Name: park_name, dtype: object

Otra manera que podemos acceder a los datos es como si fuera un directorio en Python, es decir, la llave seria el nombre de la variable.

In [4]:
data['park_name'].head()

Park Code
ACAD      Acadia National Park
ARCH      Arches National Park
BADL    Badlands National Park
BIBE    Big Bend National Park
BISC    Biscayne National Park
Name: park_name, dtype: object

**Observación**: Note que el tipo de objeto que obtenemos del anterior proceso es de tipo Serie.


In [6]:
type(data.park_name)

pandas.core.series.Series

Ahora si deseamos obtener uno o más  valores de la serie solo le agregamos unos índices asociados a los registros, es decir...

In [7]:
data.park_name[0] # primer registro

'Acadia National Park'

In [9]:
data['park_name'][0:8]  # slice – los primeros ocho registros

Park Code
ACAD                          Acadia National Park
ARCH                          Arches National Park
BADL                        Badlands National Park
BIBE                        Big Bend National Park
BISC                        Biscayne National Park
BLCA    Black Canyon of the Gunnison National Park
BRCA                    Bryce Canyon National Park
CANY                     Canyonlands National Park
Name: park_name, dtype: object

**Observación**: podríamos decir que el estándar base en Python para acceder a los datos por índices es [columna, fila]

Otra forma de acceder a los datos es a través de los métodos indexación que Pandas nos provee, entre estos encontramos dos:
+ **iloc**, obtenemos los datos a partir de su posición numérica. 
+ **loc**, obtenemos los datos con los identificadores.

Ambos métodos utilizan una convención de [fila, columna] totalmente opuesto al enfoque nativo en Python.

_iloc_

In [10]:
data.iloc[0] # obtenemos el primer registro

park_name    Acadia National Park
state                          ME
acres                       47390
latitude                    44.35
longitude                  -68.21
Name: ACAD, dtype: object

In [11]:
data.iloc[1, 2:4] # obtenemos del segundo registro las columnas 2 y 3

acres       76519
latitude    38.68
Name: ARCH, dtype: object

In [12]:
data.iloc[1:3, [1,2]] # podemos pasar una lista

Unnamed: 0_level_0,state,acres
Park Code,Unnamed: 1_level_1,Unnamed: 2_level_1
ARCH,UT,76519
BADL,SD,242756


_loc_

In [13]:
data.index # obtenemos los índices, es decir, la variable “Park Code” 

Index(['ACAD', 'ARCH', 'BADL', 'BIBE', 'BISC', 'BLCA', 'BRCA', 'CANY', 'CARE',
       'CAVE', 'CHIS', 'CONG', 'CRLA', 'CUVA', 'DENA', 'DEVA', 'DRTO', 'EVER',
       'GAAR', 'GLAC', 'GLBA', 'GRBA', 'GRCA', 'GRSA', 'GRSM', 'GRTE', 'GUMO',
       'HALE', 'HAVO', 'HOSP', 'ISRO', 'JOTR', 'KATM', 'KEFJ', 'KOVA', 'LACL',
       'LAVO', 'MACA', 'MEVE', 'MORA', 'NOCA', 'OLYM', 'PEFO', 'PINN', 'REDW',
       'ROMO', 'SAGU', 'SEKI', 'SHEN', 'THRO', 'VOYA', 'WICA', 'WRST', 'YELL',
       'YOSE', 'ZION'],
      dtype='object', name='Park Code')

In [15]:
data.loc['ACAD', 'latitude'] # del registro ‘ACAD’ obtenemos la latitude

44.35

In [17]:
data.loc[["ACAD","ARCH"]] # obtenemos dos registros

Unnamed: 0_level_0,park_name,state,acres,latitude,longitude
Park Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
ACAD,Acadia National Park,ME,47390,44.35,-68.21
ARCH,Arches National Park,UT,76519,38.68,-109.57


In [18]:
data.loc[:, ["latitude", "acres"]]# la latitude y acres de todos los registros

Unnamed: 0_level_0,latitude,acres
Park Code,Unnamed: 1_level_1,Unnamed: 2_level_1
ACAD,44.35,47390
ARCH,38.68,76519
BADL,43.75,242756
BIBE,29.25,801163
BISC,25.65,172924
BLCA,38.57,32950
BRCA,37.57,35835
CANY,38.2,337598
CARE,38.2,241904
CAVE,32.17,46766


Finalmente ya es cuestión del programador el proceso de indexación y selección de los datos.

In [19]:
data.iloc[1:3].loc[: ,['state','park_name']]

Unnamed: 0_level_0,state,park_name
Park Code,Unnamed: 1_level_1,Unnamed: 2_level_1
ARCH,UT,Arches National Park
BADL,SD,Badlands National Park


##### Selección condicional

Podemos realizar filtros en nuestro conjunto de datos a partir de condicionales en el DataFrame.
Supongamos que estamos interesados en conocer solo los registros que pertenecen al estado de ‘CA’.

In [20]:
data.loc[data.state == "CA"]

Unnamed: 0_level_0,park_name,state,acres,latitude,longitude
Park Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
CHIS,Channel Islands National Park,CA,249561,34.01,-119.42
JOTR,Joshua Tree National Park,CA,789745,33.79,-115.9
LAVO,Lassen Volcanic National Park,CA,106372,40.49,-121.51
PINN,Pinnacles National Park,CA,26606,36.48,-121.16
REDW,Redwood National Park,CA,112512,41.3,-124.0
SEKI,Sequoia and Kings Canyon National Parks,CA,865952,36.43,-118.68
YOSE,Yosemite National Park,CA,761266,37.83,-119.5


In [23]:
data.loc[(data.state == "CA") & (data.acres >= 700000)]

Unnamed: 0_level_0,park_name,state,acres,latitude,longitude
Park Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
JOTR,Joshua Tree National Park,CA,789745,33.79,-115.9
SEKI,Sequoia and Kings Canyon National Parks,CA,865952,36.43,-118.68
YOSE,Yosemite National Park,CA,761266,37.83,-119.5


Pandas provee otros métodos para selección condicional, un ejemplo de estos es isin(). isin selecciona los datos cuyo valor pertenece a una lista. 

_Supongamos que estamos interesados obtener los datos de los estados de ‘CA’ y ‘AK’_

In [24]:
data[data.state.isin(['AK', 'CA'])]

Unnamed: 0_level_0,park_name,state,acres,latitude,longitude
Park Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
CHIS,Channel Islands National Park,CA,249561,34.01,-119.42
DENA,Denali National Park and Preserve,AK,3372402,63.33,-150.5
GAAR,Gates Of The Arctic National Park and Preserve,AK,7523898,67.78,-153.3
GLBA,Glacier Bay National Park and Preserve,AK,3224840,58.5,-137.0
JOTR,Joshua Tree National Park,CA,789745,33.79,-115.9
KATM,Katmai National Park and Preserve,AK,3674530,58.5,-155.0
KEFJ,Kenai Fjords National Park,AK,669983,59.92,-149.65
KOVA,Kobuk Valley National Park,AK,1750717,67.55,-159.28
LACL,Lake Clark National Park and Preserve,AK,2619733,60.97,-153.42
LAVO,Lassen Volcanic National Park,CA,106372,40.49,-121.51


##### Asignación de datos

La asignación de datos a una DataFrame es relativamente sencilla, podemos aplicar los pasos vistos y asignar los registros a un valor constante. 

_Supongamos que deseamos cambiar los registros que tienen un estado 'AK' por NaN_

In [5]:
data[data.state =='AK']['state'] = np.nan

##### Selección condicional NaN

In [14]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 56 entries, ACAD to ZION
Data columns (total 5 columns):
park_name    48 non-null object
state        48 non-null category
acres        48 non-null float64
latitude     48 non-null float64
longitude    48 non-null float64
dtypes: category(1), float64(3), object(1)
memory usage: 3.7+ KB


In [13]:
print(data[data.state.notnull()].shape)
print(data[data.state.isnull()].shape)

(56, 5)
(8, 5)


##### Eliminando objetos en memoria

_Si deseamos liberar el espacio de memoria solo le asignamos null al objetivo_

In [30]:
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv',
                sep=';')
try:
    del df
    df
except:
    print("No existe el dataframe en memoria")   

No existe el dataframe en memoria


##### Persistencia de datos

Podemos escribir los datos de un dataframe en un archivo para futuros trabajos, para esta tarea Pandas nos provee un conjunto de métodos para la escritura, entre estos podemos encontrar:
```
+ to_csv:	Write object to a comma-separated values (csv) file.
+ to_excel():	Write object to an Excel sheet.
+ to_gbq():	Write a DataFrame to a Google BigQuery table.
+ to_hdf():	Write the contained data to an HDF5 file using HDFStore.
+ to_html():	Render a DataFrame as an HTML table.
+ to_json():	Convert the object to a JSON string.
+ to_latex():	Render an object to a LaTeX tabular environment table.
+ to_pickle():	Pickle (serialize) object to file.
```
Para mayor información podemos ir a la documentación oficial del paquete:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

In [48]:
# Vamos a crear un nuevo dataframe
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
       'year': [2000, 2001, 2002, 2001, 2002, 2003],
       'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
data = DataFrame(data, index=['indice1', 'indice2', 'indice3','indice4', 'indice5', 'indice6'])
# ahora vamos a guardarlo como un csv
data.to_csv("prueba.csv")
# el objeto dataframe previamente creado lo borramos 
del data
# cargamos el csv previamente creado en un dataframe
pd.read_csv("prueba.csv").head()

Unnamed: 0.1,Unnamed: 0,state,year,pop
0,indice1,Ohio,2000,1.5
1,indice2,Ohio,2001,1.7
2,indice3,Ohio,2002,3.6
3,indice4,Nevada,2001,2.4
4,indice5,Nevada,2002,2.9


Observe que los índices fueron almacenados como una columna, deberíamos tenerlos en cuenta nuevamente cuando carguemos el dataset.

In [51]:
pd.read_csv("prueba.csv", index_col=0).head()

Unnamed: 0,state,year,pop
indice1,Ohio,2000,1.5
indice2,Ohio,2001,1.7
indice3,Ohio,2002,3.6
indice4,Nevada,2001,2.4
indice5,Nevada,2002,2.9


## Ejercicios prácticos

#### Ejercicio 1

Cree un DataFrame que represente a la siguiente información:

<table> 
    <tr>
        <th>
            <td> asd
            </td>
            <td> Apples
            </td>
            <td>
                Bananas
            </td>
   </tr>
   <tr>
        <td>
            2017 Sales
        </td>    
        <td>
            2017 Sales
        </td>    
        <td>
            35
        </td>
        <td>
            21
        </td>    
    </tr>
    <tr>
        <td>
            2017 Sales
        </td>    
        <td>
            2017 Sales
        </td>    
        <td>
            41
        </td>
        <td>
            34
        </td>    
    </tr>
</table>

In [6]:
fruit_sales = pd.DataFrame({'Apples':[35,41],'Bananas':[21,34]})
fruit_sales.index = ["2017 Sales", "2018 Sales"]
fruit_sales

Unnamed: 0,Apples,Bananas
2017 Sales,35,21
2018 Sales,41,34


#### Ejercicio 2

Descargue el archivo studentgrades.csv.
+ Construya un data frame a partir del archivo csv, sin especificar los tipos de clase de las variables. Las filas deben nombrarse con el valor del ID de cada estudiante
+ Data frame resultante:

| First  | Last  | Math  | Science  | Social.Studies  |
|:-:|:-:|:-:|:-:|:-:|
| Bob | Smith  | 90  | 80  | 67  |
| Jane | Weary  | 75  | NA  | 80  |
| Dan | Thornton, III  | 65  | 75  | 70  |
| Mary|  O'Leary |  90 | 95 | 92  |

In [20]:
import pandas as pd
df = pd.read_csv("../../../Datasets/studentgrades.csv", index_col=0)
df.head()

Unnamed: 0_level_0,First,Last,Math,Science,Social Studies
StudentID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
11,Bob,Smith,90,80.0,67
12,Jane,Weary,75,,80
10,Dan,"Thornton, III",65,75.0,70
40,Mary,O'Leary,90,95.0,92


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4 entries, 11 to 40
Data columns (total 5 columns):
First             4 non-null object
Last              4 non-null object
Math              4 non-null int64
Science           3 non-null float64
Social Studies    4 non-null int64
dtypes: float64(1), int64(2), object(2)
memory usage: 192.0+ bytes


Observemos como fueron cargados los tipos de las variables, para los nombres lo correcto es que sean de tipo carácter.

#### Ejercicio 3

Convierta todos los nombres de las columnas en minúsculas y reemplace el carácter " " por "_".

In [21]:
df.columns = [col.replace(' ','_').lower() for col in df.columns]
df.columns

Index(['first', 'last', 'math', 'science', 'social_studies'], dtype='object')

#### Ejercicio 4
Cree una variable **ingredientes** tipo Series que sea así:
```
Flour     4 cups
Milk       1 cup
Eggs     2 large
Spam       1 can
Name: Dinner, dtype: object
```

In [35]:
ingredientes = pd.Series(['4 cups', '1 cup', '2 large','1 can'], index=["Flour", "Milk", "Eggs", "Spam"], name="Dinner")
ingredientes

Flour     4 cups
Milk       1 cup
Eggs     2 large
Spam       1 can
Name: Dinner, dtype: object

#### Ejercicio 5

Cargue el dataset train_titanic.csv con index_col para PassengerId

In [19]:
df = pd.read_csv("https://raw.githubusercontent.com/urcuqui/Ciencia-de-datos-ICESI/master/posgrado/datasets/titanic/train_titanic.csv", index_col=["PassengerId"])
df.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


#### Ejercicio 6

Transforme los nombres de las columnas a minúsculas

In [20]:
df.columns = df.columns.str.lower()
df.columns

Index(['survived', 'pclass', 'name', 'sex', 'age', 'sibsp', 'parch', 'ticket',
       'fare', 'cabin', 'embarked'],
      dtype='object')

#### Ejercicio 7

Explore el dataset e identifique las variables que presentan datos faltantes

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 11 columns):
survived    891 non-null int64
pclass      891 non-null int64
name        891 non-null object
sex         891 non-null object
age         714 non-null float64
sibsp       891 non-null int64
parch       891 non-null int64
ticket      891 non-null object
fare        891 non-null float64
cabin       204 non-null object
embarked    889 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 83.5+ KB


### Ejercicio 8

Transforme las variables a los siguientes tipos (solo si es necesario):
+ Name -> object
+ Ticket -> object
+ Cabin -> category
+ Embarked -> category
+ Survived -> category
+ pclass -> category

In [21]:
columns= ['ticket', 'cabin', 'embarked', 'survived', 'pclass']
df.loc[:, columns] = df.loc[:, columns].astype("category")
df.dtypes

survived    category
pclass      category
name          object
sex           object
age          float64
sibsp          int64
parch          int64
ticket      category
fare         float64
cabin       category
embarked    category
dtype: object

### Ejercicio 9

Filtre los datos y obtenga los registros que no tienen datos faltantes

In [18]:
df = df.dropna()
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 183 entries, 2 to 890
Data columns (total 11 columns):
survived    183 non-null category
pclass      183 non-null category
name        183 non-null object
sex         183 non-null object
age         183 non-null float64
sibsp       183 non-null int64
parch       183 non-null int64
ticket      183 non-null category
fare        183 non-null float64
cabin       183 non-null category
embarked    183 non-null category
dtypes: category(5), float64(2), int64(2), object(2)
memory usage: 43.0+ KB


### Ejercicio 10

Cual es el número de registros (valores) más grande para la variable Survived (0,1) 

In [33]:
df.survived.value_counts()

0    549
1    342
Name: survived, dtype: int64

### Ejercicio 11

¿Quien sobrevivió más, mujeres o hombres? 

In [35]:
df.loc[df.survived == 1].sex.value_counts()

female    233
male      109
Name: sex, dtype: int64

### Ejercicio 12

Calcule la media de la tarifa del pasajero (parch) para los de clase 1 (pclass)

In [36]:
df.loc[df.pclass == 1].parch.mean()

0.35648148148148145