<font size=4 color='indianred'>
    
 # Análisis de datos usando Pandas

<font size=4>
    
  Pandas es una biblioteca de Python que facilita el análisis de datos. 
 
Pandas trabaja con dos tipos de objetos principales: **DataFrame** y **Serie**.

Un **DataFrame** es como una tabla y una **serie** es como una columna. 

La sintaxis para declarar a un **DataFrame** es declarando un diccionario, en donde las palabras clave seran el nombre de las columnas y los valores serán el listado de entradas para la columna dada. 



<font size=4 color='indianred'>
    
> ### Leer un archivo de datos.

<font size=4>
    
Un archivo csv es una tabla de valores separadas por comas ("Comma-Separated-Values").

Usando la siguiente función, Pandas nos permite leer archivos csv e interpretarlo como un **DataFrame**:

csv ------------> **pd.read_csv(** file_name **)** --------------> DataFrame

___


<font size=4>
    
  Ejemplo: Se descargó la base de datos *Superconductivty Data Data Set*.

    
[UCI Machine Learning Repository: Superconductivty Data Data Set ](https://archive.ics.uci.edu/ml/datasets/Superconductivty+Data)



Hay dos archivos: 

    (1) train.csv: contiene 81 características extraídas de 21263 superconductores junto con la temperatura crítica en la columna 82, 


    (2) unique_m.csv: contiene la fórmula química dividida para todos los 21263 superconductores del archivo  train.csv 



Las dos últimas columnas tienen la temperatura crítica y la fórmula química. Los datos originales provienen de [aquí](https://supercon.nims.go.jp/index_en.html) que es público. 

**El objetivo aquí es predecir la temperatura crítica en función de las características extraídas.**

In [None]:
import pandas as pd

In [None]:
data = pd.read_csv('superconduct/train.csv')

[read_csv( )](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

In [None]:
data

<font size=4>
    
El atributo  **shape** regresa el numero de datos por el numero de columnas: (#records, #column)

In [None]:
data.shape

<font size=4>
    
Los metodos **head()** y **tail()** permiten ver los primeros 5 y los ultimos 5 renglones, respectivamente. 

También se puede especificar dentro de los paréntesis el numero de renglones a ver. 

In [None]:
#data.head()
data.tail(15)

<font size=4 color='indianred'>
    
> ### Seleccionar una columna específica

<font size=4>
    
Para seleccionar una columna (serie) especifica de un DataFrame (df) se usa la sintaxis:
    
    
**df.column_name** o **df['column_name']**

por ejemplo:

In [None]:
data.critical_temp

#data['critical_temp']

<font size=4 color='indianred'>
    
> ### Seleccionar un valor específico

<font size=4>
    
Para seleccionar un valor especifico de un DataFrame (df) se usa la sintaxis:
    
**df['column_name'][index]**

El indexado en Pandas funciona de la misma manera que en Python.

por ejemplo:

In [None]:
#data.critical_temp

data['critical_temp'][567]

<font size=4 color='indianred'>
    
> ### Operadores de acceso

<font size=4>
    
Pandas tiene sus propios operadores de acceso.



<font size=4 color='indianred'>
    
>> ### Selección basada en el índice. 'iloc'

<font size=4>
    
Selecciona a los datos basado en su posicion numérica.(Ignora el indice del conjunto de datos)

**df.iloc[i]** ---> muestra el renglón i+1

**df.iloc[row, column]**


In [None]:
index = 0

row = 0

column = 1

#data.iloc[index]   # muestra el renglon 'index'

#data.iloc[row, column]   # muestra el dato del renglon 'row' y la columna 'column'

data.iloc[:, column]    # muestra todos los elementos de la columna 'column'


<font size=4 color='indianred'>
    
>> ### Selección basada en la etiqueta. 'loc'

<font size=4>
    
Selecciona a los datos basado en el valor del índice de datos, no en su posición.

**df.loc[i, 'name_column']**


In [None]:
data.loc[0, 'number_of_elements']

data.loc[:, ['number_of_elements', 'critical_temp']]

<font size=4>
    
iloc[0:10] ---> 0, 1, 2, ..., 9 


loc[0:10] ---> 0, 1, 2, ..., 10


<font size=4 color='indianred'>
    
> ### Selección condicional

<font size=4>
    
Pandas tiene sus propios operadores de acceso.



In [None]:
data.number_of_elements == 4

In [None]:
data.loc[data.number_of_elements == 4]

<font size=4>
    
Para seleccionar datos que estan en una lista de valores:



In [None]:
data.loc[data.number_of_elements.isin([5, 11])]

<font size=4>
    
Para resaltar valores que estan vacios (NaN):



In [None]:
data.loc[data.number_of_elements.notnull()]
#data.loc[data.number_of_elements.isnull()]

<font size=4 color='indianred'>
    
> ### Funciones utiles

<font size=4>
    
**describe()** ---> aplicado a valores numéricos da un resumen estadístico.


In [None]:
data.number_of_elements.describe()
data.describe()


<font size=4>
    
**mean()** 


In [None]:
data.mean_atomic_mass.mean()
data.mean()

<font size=4>
    


**unique()** ---> Indica los valores diferentes que se pueden tomar en una columna en específico.



In [None]:
data.number_of_elements.unique()

# unique() es atributo de series no de dataframe

<font size=4>
    
**value_counts()** ---> Indica el numero de muestras para los valores que una determinada columna puede tomar.

In [None]:
data.number_of_elements.value_counts()

<font size=4>

[UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/index.php)

[Kaggle](https://www.kaggle.com/)

[sklearn](https://scikit-learn.org/stable/datasets/index.html)

[Google datasets](https://datasetsearch.research.google.com/)

[CDMX data](https://datos.cdmx.gob.mx/pages/home/)