# Bibliotecas de Python

Python, al igual que otros lenguajes de programación, tiene una gran cantidad de módulos o bibliotecas adicionales que aumentan el marco base y la funcionalidad del lenguaje.

Piense en una biblioteca como una colección de funciones a las que se puede acceder para completar ciertas tareas de programación sin tener que escribir su propio algoritmo.

Para este curso, nos centraremos principalmente en las siguientes bibliotecas:

* **Numpy** es una biblioteca para trabajar con matrices de datos.

* **Pandas** proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar.

* **Scipy** es una biblioteca de técnicas de computación numérica y científica.

* **Matplotlib** es una biblioteca para hacer gráficos.

* **Seaborn** es una interfaz de nivel superior para Matplotlib que se puede utilizar para simplificar muchas tareas gráficas.

* **Statsmodels** es una biblioteca que implementa muchas técnicas estadísticas.

# Documentación

La documentación confiable y accesible es una necesidad absoluta cuando se trata de la transferencia de conocimientos de lenguajes de programación. Afortunadamente, Python proporciona una cantidad significativa de documentación detallada que explica los entresijos de la sintaxis del lenguaje, las bibliotecas y más.

Comprender cómo leer la documentación es crucial para cualquier programador, ya que servirá como un recurso fantástico para aprender las complejidades de Python.

Aquí está el enlace a la documentación de la biblioteca estándar de Python: [Biblioteca estándar de Python](https://docs.python.org/3/library/index.html#library-index)


### Importación de bibliotecas

Al usar Python, siempre debe comenzar sus scripts importando las bibliotecas que usará.

La siguiente declaración importa la biblioteca numpy y pandas, y les da nombres abreviados:

In [1]:
import numpy as np
import pandas as pd

### Utilizing Library Functions

After importing a library, its functions can then be called from your code by prepending the library name to the function name.  For example, to use the '`dot`' function from the '`numpy`' library, you would enter '`numpy.dot`'.  

To avoid repeatedly having to type the libary name in your scripts, it is conventional to define a two or three letter abbreviation for each library, e.g. '`numpy`' is usually abbreviated as '`np`'.  This allows us to use '`np.dot`' instead of '`numpy.dot`'.  Similarly, the Pandas library is typically abbreviated as '`pd`'.

In [2]:
a = np.array([0,1,2,3,4,5,6,7,8,9,10]) 
np.mean(a)


5.0

In [3]:
np.dot([2j, 3j], [2j, 3j])

(-13+0j)

In [4]:
np.dot(3, 4)

12

More on [numpy.dot](https://numpy.org/doc/stable/reference/generated/numpy.dot.html) can be seen [here](https://numpy.org/doc/stable/reference/generated/numpy.dot.html). 

# Gestión de datos

La gestión de datos es un componente crucial para el trabajo de análisis estadístico y ciencia de datos. El siguiente código mostrará cómo importar datos a través de la biblioteca de pandas, ver sus datos y transformarlos.

*  La estructura de datos principal con la que trabaja Pandas se llama **DataFrames** (df). Se trata de una tabla de datos bidimensional en la que las filas suelen representar casos (p. Ej., Participantes del concurso Cartwheel) y las **columnas** representan **variables**.

* Pandas también tiene una estructura de datos unidimensional llamada ``Series`` que encontraremos al acceder a una sola columna de un Marco de datos.

Pandas tiene una variedad de funciones llamadas '`read_xxx`' para leer datos en diferentes formatos. Ahora mismo nos centraremos en leer archivos '`csv`', que significa valores separados por comas. Sin embargo, los otros formatos de archivo incluyen excel, json y sql, solo por nombrar algunos.


Hay muchas otras opciones para '`read_csv`' que son muy útiles. Por ejemplo, usaría la opción `sep ='\t' ` en lugar del predeterminado `sep =','` si los campos de su archivo de datos están delimitados por tabulaciones en lugar de comas. Consulte [aquí](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) para obtener la documentación completa de '`read_csv`'.

### Importing Data

In [5]:
url = "datasets/Cartwheeldata.csv"

# Read the .csv file and store it as a pandas Data Frame
df = pd.read_csv(url)

# Output object type
type(df)


pandas.core.frame.DataFrame

### Viewing Data

We can view our Data Frame by calling the head() function

In [None]:
df.head() 

In [None]:
df.head(3)

The head() function simply shows the first 5 rows of our Data Frame.  If we wanted to show the entire Data Frame we would simply write the following:

In [None]:
df

As you can see, we have a 2-Dimensional object where each row is an independent observation of our cartwheel data.

To gather more information regarding the data, we can view the column names and data types of each column with the following functions:

In [None]:
df.columns

In [None]:
for i in df.columns:
    print(i)

In [None]:
column_names = df.columns
print(column_names)

column_names = list(df.columns)
column_names.sort()
print(column_names)

Lets say we would like to splice our data frame and select only specific portions of our data.  There are three different ways of doing so.

1. .loc()
2. .iloc()
3. .ix()

We will cover the .loc() and .iloc() splicing functions.

## .loc()        

### df.loc[row_start : row_end, column_start, column_end]


.loc() takes two single/list/range operator separated by ','. The first one indicates the row and the second one indicates columns.

Use just "*column_names*". **No indices**

In [None]:
df.loc[:,"CWDistance"]

In [None]:
df.loc[:,["CWDistance", "Height", "Wingspan"]]

In [None]:
df.loc[:9, ["CWDistance", "Height", "Wingspan"]]

In [None]:
# Select range of rows for all columns
df.loc[5:10]

The .loc() function requires two arguments, the indices of the rows and the column names you wish to observe.

In the above case **:** specifies all rows, and our column is **CWDistance**. df.loc[**:**,**"CWDistance"**]

Now, let's say we only want to return the first 10 observations:

In [None]:
df.loc[:9, "CWDistance"]

## .iloc()

### df.iloc[row_start : row_end, column_start, column_end]

.iloc() is integer based slicing, whereas .loc() used labels/column names. 

Use just *column_index*. **No Names**



Here are some examples:

In [None]:
df.iloc[:4]

In [None]:
df.iloc[1:5, 2:4]

In [None]:
#df.iloc[1:5, ["Gender", "GenderGroup"]]# is error. column names can't be called with iloc. 
df.iloc[1:5, ]

We can view the data types of our data frame columns with by calling .dtypes on our data frame:

In [None]:
df.dtypes

The output indicates we have integers, floats, and objects with our Data Frame.

We may also want to observe the different unique values within a specific column, lets do this for Gender:

In [6]:
df.Gender.unique()

array(['F', 'M'], dtype=object)

In [7]:
df.Height.unique()

array([62.  , 66.  , 64.  , 73.  , 75.  , 65.  , 74.  , 63.  , 69.5 ,
       62.75, 61.5 , 71.  , 70.  , 68.  , 69.  ])

In [8]:
# Lets explore df["GenderGroup] as well
df.GenderGroup.unique()

array([1, 2])

It seems that these fields may serve the same purpose, which is to specify male vs. female. Lets check this quickly by observing only these two columns:

In [9]:
df.loc[:,["Gender", "GenderGroup"]]

Unnamed: 0,Gender,GenderGroup
0,F,1
1,F,1
2,F,1
3,F,1
4,M,2
5,M,2
6,M,2
7,F,1
8,M,2
9,F,1


From eyeballing the output, it seems to check out.  We can streamline this by utilizing the groupby() and size() functions.

In [10]:
df.groupby(['Gender','GenderGroup']).size()

Gender  GenderGroup
F       1              12
M       2              13
dtype: int64

This output indicates that we have two types of combinations. 

* Case 1: Gender = F & Gender Group = 1 
* Case 2: Gender = M & GenderGroup = 2.  

This validates our initial assumption that these two fields essentially portray the same information.