_Autor: Christian Camilo Urcuqui López_

# Python como herramienta para la preparación y el análisis exploratorio de datos


__Contenido__

+ [Pandas](#Pandas)
    + Estructuras de datos
        + [Series](#Series)
        + [Dataframe](#Dataframe)
            + [Carga de datos](#Carga-de-datos)
+ [Ejercicios prácticos](#Ejercicios-prácticos)

## Pandas

<img src="https://github.com/urcuqui/Data-Science/blob/master/Utilities/pandas_logo.png?raw=true" >
<center>https://pandas.pydata.org/ </center>

<br>

Pandas es una libreria _open source_ de estructuras de datos para el análisis de información en el lenguaje de programación Python. 

En este notebook veremos las funciones esenciales para la aplicación de análisis de datos a través de Pandas, además, veremos los primeros pasos de un análisis exploratorio de datos (_Exploratory Data Analysis_) desde la carga de los datos hasta el descubrimiento de elementos de valor en nuestros conjuntos de datos.

_La gran diferencia entre Pandas y NumPy es que esta libreria esta diseñada para la manipulación de datos de distinto tipo en un mismo objeto_



### Importando pandas

Es común que algunos desarrolladores por estándar usen el seudónimo _pd_ al momento de importar el paquete Pandas.

In [29]:
import pandas as pd

### Estructuras de datos

En Pandas podemos encontrar dos tipos de estructuras de datos:
+ Series 
+ Dataframes

In [1]:
from pandas import Series, DataFrame

#### Series

Las series representan a un arreglo de secuencia de valores de una sola dimensión que se encuentra asociado a un arreglo de labels (_index_).

In [9]:
serie = Series([3, -8, "a"])
serie

0     3
1    -8
2     a
dtype: object

Del anterior ejemplo podemos observar dos cosas, en primer lugar la serie puede integrar objetos de distinto tipo y en segundo lugar hay una asociación con unos indices que inician en 0.

In [10]:
# la forma de obtener los valores
serie.values

array([3, -8, 'a'], dtype=object)

In [11]:
# Podemos ver el rango de indexes desde donde inicia, cuanto imcrementa y donde finaliza
serie.index

RangeIndex(start=0, stop=3, step=1)

In [12]:
# también podemos cambiar los indices 
serie.index = ["a", "b", "c"]
serie

a     3
b    -8
c     a
dtype: object

In [3]:
# también podemos cambiar los indices 
serie = Series([3, -8, "a"], index=["a", "b", "c"])
serie

a     3
b    -8
c     a
dtype: object

In [14]:
# observe que el objeto asociado (RangeIndex -> Index) cambia ya que no 
# estamos utilizando datos númericos
serie.index

Index(['a', 'b', 'c'], dtype='object')

__Los indices nos permitirán recorrer y obtener los valores__

In [4]:
serie['a']

3

In [6]:
# cambiemos el valor de la posición 'c'
serie['c'] = 'k'
serie['c']

'k'

__Podemos realizar filtros y otras operaciones__

In [13]:
# operaciones lógicas para filtros
serie[serie == "k"]

c    k
dtype: object

In [7]:
# operaciones lógicas para filtros
serie = Series([2, -8, 3])
serie[serie >= 1]

0    2
2    3
dtype: int64

In [4]:
# operaciones matemáticas para los valores
serie = Series([3, -8, 3])
serie * 2

0     6
1   -16
2     6
dtype: int64

In [9]:
# operaciones matemáticas para los valores
serie2 = Series([1, -2, 0])
serie + serie2

0     3
1   -10
2     3
dtype: int64

Otra forma de crear una Serie es a través de diccionarios

In [19]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah':5000}
series = Series(sdata)
series

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [20]:
# observe que en el anterior ejemplo obtuvimos una serie ordenada númericamente, esto lo podemos 
# cambiar pasandole las llaves directamente
states = ['California','Ohio', 'Oregon', 'Texas']
series = Series(sdata, index=states)
series

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

**Observación:** debido a que no ingresamos una llave nueva (california) al conjunto de datos (stadata) sin un valor asignado obtenemos como resultado un NaN (valor faltante). 

In [21]:
series2 = Series(sdata)
print(series)
print()
print(series2)
print()
print(series + series2) 

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


**Observación:** Del anterior ejemplo podemos ver que las operaciones de registros con NaN implica como resultado NaN. 

#### Dataframe
Un dataframe es una estructura similar a una tabla de datos rectangular donde cada columna puede tener distintos tipos de datos (numéricos, caracteres, boolean). Un Dataframe tiene tanto una indexación para sus filas y columnas por lo cual permite almacenar en memoria más de dos bloques dimensionales a diferencia de otros tipos de estructuras.

<img src="https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png" width="450">
<center> https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/ </center>


_Observemos distintas formas para crear un dataframe_

In [41]:
state = Series( ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], name="state")
year = Series([2000, 2001, 2002, 2001, 2002, 2003], name="year")
pop =  Series([1.5, 1.7, 3.6, 2.4, 2.9, 3.2], name="pop")
# concatenamos las tres series por sus columnas (axis=1) y obtenemos un dataframe
data = pd.concat([state,year,pop], axis=1)
print(type(data))
data

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [42]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
       'year': [2000, 2001, 2002, 2001, 2002, 2003],
       'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
# utilizamos un diccionario en Python 
data = DataFrame(data)
print(type(data))
data

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [44]:
# podemos leer un archivo (csv) y cargarlo como un dataframe
data = pd.read_csv("../../../Datasets/parks.csv")
print(type(data))
data.head(5)

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Park Code,Park Name,State,Acres,Latitude,Longitude
0,ACAD,Acadia National Park,ME,47390,44.35,-68.21
1,ARCH,Arches National Park,UT,76519,38.68,-109.57
2,BADL,Badlands National Park,SD,242756,43.75,-102.5
3,BIBE,Big Bend National Park,TX,801163,29.25,-103.25
4,BISC,Biscayne National Park,FL,172924,25.65,-80.08


Podemos cambiar los nombres de las columnas y a los índices

In [49]:
state = Series( ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], name="state")
year = Series([2000, 2001, 2002, 2001, 2002, 2003], name="year")
pop =  Series([1.5, 1.7, 3.6, 2.4, 2.9, 3.2], name="pop")
data = pd.concat([state,year,pop], axis=1)
# cambiemos los nombres de las columnas a español
data.columns = ["Estado", "Año", "Población"]
# cambiemos los nombres de los indices de las filas 
data.index = ["Registro1", "Registro2", "Registro3", "Registro4", "Registro5", "Registro6"]
data

Unnamed: 0,Estado,Año,Población
Registro1,Ohio,2000,1.5
Registro2,Ohio,2001,1.7
Registro3,Ohio,2002,3.6
Registro4,Nevada,2001,2.4
Registro5,Nevada,2002,2.9
Registro6,Nevada,2003,3.2


##### Carga de datos

Podemos tener distintas situaciones donde debemos cargar conjuntos de datos (posiblemente de distinto tipo) a nuestra computadora local, observemos algunos ejemplos de Pandas para cargar datos.

+ _Si tenemos disponible un URL (enlace) donde podemos descargar y cargar los datos en memoria_, Pandas nos ofrece un método para realizar estas operaciones. Existen multiples repositorios abiertos a su uso para el trabajo de ciencia de datos, entre estos podemos citar:
    + Kaggle
    + University of California Machine Learning (UCI Machine Learning)
    + IEEE DataPort
    + World Bank Dataset
    + AWS datasets
    + Fuentes abiertas de instituciones públicas (por ejemplo, data.gov.in y datos.gov.co)
    

In [58]:
?pd.read_csv

In [53]:
# cargamos un conjunto de datos (tipo .data) y les asignamos los nombres a cada columna
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', 
                 header=None, names=["sepal_length","sepal_width", "petal_length","petal_width","class"])
df.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [61]:
""" Cargamos un csv desde un URL, preste atención que ahora definimos el separador (por defecto
procesa datos separados por comas) """
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv',
                sep=';')
df.head(5)

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [64]:
# Cargamos un csv que se encuentra comprimido dentro de un archivo .zip
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/00222/bank-additional.zip')
df.head(5)

ValueError: ('Multiple files found in compressed zip file %s', "['bank-additional/', 'bank-additional/.DS_Store', '__MACOSX/', '__MACOSX/bank-additional/', '__MACOSX/bank-additional/._.DS_Store', 'bank-additional/.Rhistory', 'bank-additional/bank-additional-full.csv', 'bank-additional/bank-additional-names.txt', 'bank-additional/bank-additional.csv', '__MACOSX/._bank-additional']")

## Ejercicios prácticos