<a href="https://colab.research.google.com/github/RYU-MCFLY/Aprendizaje-no-supervisado/blob/main/WA_Introduccion_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a Pandas



[*Pandas*](http://pandas.pydata.org/) Es una librería de python para análisis de datos estructuradas en columnas y renglones, muy popular para manipulación, análisis y preprocesamiento  en columnas, ideal para manipular y analizar datos de entrada. Además, *Pandas* se integra muy bien con otras librerías de Ciencia de Datos, de manera que usualmente los algoritmos de machine learning reciben como entradas las dos principales estructuras de *Pandas*: los `DataFrames` y las `Series`




# Objetos de Pandas

In [None]:
import numpy as np
import pandas as pd

## Series

Las series son equivalentes a los vectores de NumPy.

Pueden crearse a partir de listas o vectores.

In [None]:
c = ['rojo', 'verde', 'azul', 'amarillo']
colores = pd.Series(c)
colores

In [None]:
p = np.array([0.2, 0.4, 0.8, 1])
porcentajes = pd.Series(p)
porcentajes

Una serie consta de los valores y de los índices y se puede acceder a ellos con los atributos  ``values`` e ``index``.

Los valores son un vector de NumPy

In [None]:
porcentajes.values

In [None]:
colores.values

In [None]:
porcentajes.index

Como en un vector de numpy, usamos los indices par obtener un subconjunto de elementos.

In [None]:
porcentajes[1]

In [None]:
porcentajes[1:3]

Los objetos ``Series`` tienen la ventaja sobre los vectores de numpy que permite definir indices asociados a los valores, y pueden ser de cualquier tipo por ejemplo:

In [None]:
nivel_color = pd.Series( p,   # toma el objeto p (puede ser lista o vector)
                 index=c)    # asigna como índice el objeto c (lista o vector)
nivel_color

In [None]:
nivel_color.values

In [None]:
nivel_color['azul']         # Nos recuerda el uso de los diccionarios

### Series son también como diccionarios



In [None]:
#diccionario con la población en 2020 para estados seleccionados

poblacion_dict = {'Aguascalientes': 1425607	,
                   'Guanajuato': 6166934,
                   'Jalisco': 8348151	,
                   'CDMX': 9209944,
                   'Querétaro': 2368467}

pob = pd.Series(poblacion_dict)
pob

In [None]:
pob['CDMX']

Con la ventaja de que podemos seleccionar una parte de los datos

In [None]:
pob['Aguascalientes':'CDMX']

In [None]:
pob.iloc[3]

lo que no es posible hacer con los diccionarios

In [None]:
poblacion_dict['Aguascalientes':'CDMX']  

### Más ejemplos de series

In [None]:
pd.Series([2, 4, 6])

In [None]:
pd.Series(14, index=[150, 220, 380])

In [None]:
pd.Series({2:'a', 1:'b', 3:'c'})

##  DataFrame 

Igual que las ```Series```, un ```DataFrame``` se puede entender como una matriz de NumPy o como un diccionario, con ventajas adicionales

In [None]:
hombres_dic = {'Guanajuato': 2996454,'Aguascalientes': 696683	,  
               'Jalisco':4098455 , 'CDMX': 4404927, 'Querétaro': 1156820,
               }

In [None]:
pd.DataFrame({'total': poblacion_dict,'hombres': hombres_dic}) # A partir de dos diccionarios

guardamos el DataFrame con el nombre poblacion

In [None]:
poblacion = pd.DataFrame({'total': poblacion_dict,'hombres': hombres_dic}) 
poblacion

Un  ``DataFrame`` tiene además de los atributos ``values`` e ``index``, el atributo ``columns`` que es un índice que contiene las etiquetas de cada columna.

In [None]:
poblacion.values   

In [None]:
poblacion.index

In [None]:
poblacion.columns

Los DataFrame son también una especie de diccionario donde las columnas actuan como claves


In [None]:
poblacion['total']

pero no el índice (como ocurre para las Series)

In [None]:
poblacion['Guanajuato']

al igual que los diccionarios, podemos agregar nuevas claves , y al igual que en NumPy podemos hacer opercion de vectores sin necesidad de recurrir a ciclos for

In [None]:
poblacion['mujeres'] = poblacion['total'] - poblacion['hombres']
poblacion

### Creación de dataframes a partir de distintos objetos



#### Desde una o varias series

In [None]:
pob

In [None]:
pd.DataFrame(pob, columns=['poblacion'])

#### Desde una diccionario

In [None]:
dimensiones = [{'longitud': i, 'área': i*i} for i in range(5)]
pd.DataFrame(dimensiones)

#### Desde una matriz de NumPy


In [None]:
pd.DataFrame(np.random.rand(5, 3),
             columns=['columna1', 'columna2','columna3'],
             index=['a', 'b', 'c', 'd', 'e']
             )

## Lectura de archivos csv como DataFrames

In [None]:
#Leer datos mediante la función csv

titanic = pd.read_csv( "https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv")
type(titanic)

In [None]:
titanic

In [None]:
titanic = titanic.reset_index()

In [None]:
titanic = titanic.set_index(["Name"])
titanic.head(10)

In [None]:
titanic.columns


In [None]:
titanic.index

In [None]:
## Una sola columna del datafreme es una Serie

edad = titanic['Age']
type(edad)

In [None]:
edad

## Funciones, métodos y atributos .


In [None]:
titanic.info()  #regresa el numero de renglones, el número de columnas, los nombres de las columnas, 
                #la cantidad de datos faltanes, la clase de cada variable

In [None]:
titanic.describe()  

In [None]:
#ver la cantidad de renglones y de columnas utilizando el atributo shape
print('dimensiones: ', titanic.shape)
print('\nrenglones: ', titanic.shape[0])
print('columnas:  ', titanic.shape[1])

In [None]:
type(titanic.shape)

In [None]:
#regresa el número de valores en cada variable 
titanic.nunique()  

In [None]:
titanic.columns

Para conocer la distribución y los valores de cada columna utilizamos el método value_counts() que es un método para Series

In [None]:
titanic['Sex'].value_counts()

Para hacer lo anterior con cada columna del data frame podemos iterar por cada una de las columnas

In [None]:
for column in titanic.columns:
    print(titanic[column].value_counts(),'\n')   
    

## Métodos para resumir en un solo valor información

Producen un único valor relacionado con los datos a los que se aplica. Si no se especifica otra cosa se Pandas lo aplica resumiendo los valores de cada columna de un dataframe, si se quiere resumir las variables de cada renglón, se deberá especificar axis=1 entre los paréntesis.



In [None]:
titanic.mean()

In [None]:
titanic.count()

In [None]:
titanic.isnull()

In [None]:
titanic.isnull().sum()

In [None]:
print('\n',titanic.isnull().sum(axis=1))

## Acceso a los datos usando etiquetas o posiciones

Acceso a los datos utilizando etiquetas de las columnas

Las siguientes expresiones son equivalentes:
- titanic['Age'] 
- titanic.Age  

En la segunda forma, se asume que cada columna es un atributo del DataFrame

In [None]:
print(type(titanic['Age']), '\n')
titanic['Age'] 

In [None]:
print(type(titanic.Age), '\n')
titanic.Age

podemos llamar a dos o más columnas juntas, agrupandolas en una lista

In [None]:
titanic[['Survived','Sex','Age']]

Para los renglones, hemos dicho que no se puede usar el índice como si fuera la clave de un diccionario

In [None]:
titanic.index

In [None]:
titanic.iloc[0:15,3:]

### Propiedad **`loc[]`** 

Se utiliza **`df.loc[renglones:columnas]`**  para tener acceso a los datos usando etiquetas

Podemos utilizar esta propiedad de los DataFrames para llamar a un solo renglón

In [None]:
titanic.loc['Miss. Laina Heikkinen']  

O varios renglones, agrupandolos en una lista

In [None]:
titanic.loc[['Miss. Laina Heikkinen','Mr. Timothy J McCarthy']]  

o un grupo de renglones y columnas

In [None]:
titanic.loc[['Miss. Laina Heikkinen','Mr. Timothy J McCarthy'], ['Survived','Age']]

o utilizar '*slicing*'

In [None]:
titanic.loc['Miss. Laina Heikkinen':'Mr. Timothy J McCarthy', 'Survived':'Age']  

In [None]:
titanic.loc[:,'Age']

### Propiedad **`iloc[]`** para acceder mediante posiciones


Se utiliza **`df.iloc[row, column]`**, para  usar las posiciones de un valor

In [None]:
titanic.iloc[15:22,3:5]  

In [None]:
titanic.iloc[[15,22],[3,5]]  

## Filtrado de datos

In [None]:
titanic[titanic['Survived']==1]

In [None]:
filtro = titanic['Pclass']==3

tercera = titanic[filtro]
tercera.head(10)

In [None]:
#Guarda el conjunto de datos que cumple la condición 
menores10anios = titanic[titanic['Age']<10]   
print(menores10anios.shape)
menores10anios.head()

In [None]:
hombres = titanic[titanic['Sex']=='male']
print(hombres.shape)
hombres.tail()

In [None]:
#Subconjunto de pasajeros de primera clase mujeres
filtro1 = titanic['Pclass']==1
filtro2 = titanic['Sex']=='female'

MujeresPrimera = titanic[filtro1 & filtro2]

print(MujeresPrimera.shape)
MujeresPrimera.head()

In [None]:
a = titanic[filtro1]

## Recomendacion para programadores que inician su práctica.


1. Escribe y ejecuta una sola linea de codigo para explorar tus datos
2. Verifica su correcto funcionamiento, obteniendo el output de esa linea
3. Asigna el resultad a una variable
4. En la misma linea, muestra las primeras lineas del Data Frame o la Serie, según la acción ejecutada.
5. Continua en la siguiente celda.