# Qué es Pandas?
Pandas es una biblioteca de software de código abierto diseñada para la manipulación y el análisis de datos en Python. Es potente, flexible y fácil de usar.

**Con Pandas, puedes:**


1.   **Manipular datos:** Cargar datos desde fuentes como archivos CSV, bases de datos o incluso páginas web. Luego, puedes filtrar, ordenar, agregar o eliminar información.

2.  **Limpiar datos:** Manejar valores faltantes, errores tipográficos o información duplicada.

3. **Análisis rápido:** Calcular estadísticas como promedios, medianas o desviaciones estándar.

4. **Visualización de datos: **  Pandas trabaja muy bien con bibliotecas como Matplotlib y Seaborn para crear gráficos y visualizaciones.

**Estructuras de Datos de Pandas**


**DataFrame**: Una estructura bidimensional (similar a una tabla) con filas y columnas. Cada columna puede contener diferentes tipos de datos (números, texto, fechas, etc.).

**Series**: Una estructura unidimensional (como una lista) con etiquetas para cada valor. Puedes pensar en una serie como una columna individual de un DataFrame.

# PANDAS INICIO

## IMPORTAR LIBRERIA

In [None]:
import pandas as pd #importo pandas

# PANDAS DATAFRAME

### CREACION DE DATAFRAME


**INGRESO POR MEDIO DE LISTAS**

In [None]:
modelos = ['A4 3.0 Quattro 4dr manual', 'A4 3.0 Quattro 4dr auto', 'A6 3.0 4dr', 'A6 3.0 Quattro 4dr', 'A4 3.0 convertible 2dr'] #este sera el indice
peso = [3583, 3627, 3561, 3880, 3814] #columna 1
precios =[33430,34480,36640,39640,42490] #columna 2

df = pd.DataFrame({'peso':peso,'precios':precios}, index=modelos)
df

Unnamed: 0,peso,precios
A4 3.0 Quattro 4dr manual,3583,33430
A4 3.0 Quattro 4dr auto,3627,34480
A6 3.0 4dr,3561,36640
A6 3.0 Quattro 4dr,3880,39640
A4 3.0 convertible 2dr,3814,42490


In [None]:
#que pasa si no le agregamos index ?

pd.DataFrame({'peso':peso,'precios':precios})

Unnamed: 0,peso,precios
0,3583,33430
1,3627,34480
2,3561,36640
3,3880,39640
4,3814,42490


In [None]:
#que pasa si solo colocamos una columna sin nombre?

pd.DataFrame(peso)

Unnamed: 0,0
0,3583
1,3627
2,3561
3,3880
4,3814


**POR MEDIO  DE UN DICCIONARIO**

In [None]:
#a traves de un diccionario
df2 = pd.DataFrame(
        {'Nombre':['Andres', 'Camila', 'Laura', 'Marcos'],
        'Apellido':['Rodriguez', 'Ramirez', 'Mendieta', 'Barrera'],
        'Edad':[27, 24, 22, 32]}
        ,index=['encuesta1','encuesta2','encuesta3','encuesta4']
        )

df2

Unnamed: 0,Nombre,Apellido,Edad
encuesta1,Andres,Rodriguez,27
encuesta2,Camila,Ramirez,24
encuesta3,Laura,Mendieta,22
encuesta4,Marcos,Barrera,32


**POR MEDIO DE UN DICCIONARIO DE LISTAS**

In [None]:
datos = {
'nombre':['María', 'Luis', 'Carmen', 'Antonio'],
'edad':[18, 22, 20, 21],
'grado':['Economía', 'Medicina', 'Arquitectura', 'Economía'],
'correo':['maria@gmail.com', 'luis@yahoo.es', 'carmen@gmail.com', 'antonio@gmail.com']
}
df=pd.DataFrame(datos)
df

Unnamed: 0,nombre,edad,grado,correo
0,María,18,Economía,maria@gmail.com
1,Luis,22,Medicina,luis@yahoo.es
2,Carmen,20,Arquitectura,carmen@gmail.com
3,Antonio,21,Economía,antonio@gmail.com


**POR MEDIO DE UN NARRAY**

In [None]:
df = pd.DataFrame(np.random.randn(4, 3), columns=['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,0.437617,0.78122,0.558254
1,-0.270145,-0.727681,0.002184
2,-1.035624,1.761431,0.778567
3,-1.287765,0.667776,-0.133166


**POR MEDIO DE UNA SERIE**

In [None]:
# Vamos a crear una estructura de serie
import pandas as pd
serie= pd.Series(data=[1,2,3,4],index=['David','Juan',1,2],name='SerieX')
serie

Unnamed: 0,SerieX
David,1
Juan,2
1,3
2,4


In [None]:
# Con el medoto to_frame()
serie.to_frame()

Unnamed: 0,SerieX
David,1
Juan,2
1,3
2,4


### LECTURA DE ARCHIVOS



**IMPORTAR CSV**



```
read_csv(fichero.csv, sep=separador, header=n, index_col=m, na_values=no-validos, decimal=separador-decimal)
```



**Descripción de los parámetros:**
Devuelve un objeto del tipo DataFrame con los datos del fichero CSV fichero.csv usando como separador de los datos la cadena separador. Como nombres de columnas se utiliza los valores de la fila n y como nombres de filas los valores de la columna m. Si no se indica m se utilizan como nombres de filas los enteros empezando en 0. Los valores incluídos en la lista no-validos se convierten en NaN. Para los datos numéricos se utiliza como separador de decimales el carácter indicado en separador-decimal.

*  'fichero.csv': Ruta o nombre del archivo CSV que se desea leer.
*  sep=separador: Define el carácter que separa los datos en el archivo (por ejemplo, ',' para CSV estándar o ';' para archivos separados por punto y coma).
*  header=n: Número de la fila (empezando desde 0) que contiene los nombres de las columnas. Si no se especifica, se asume que el archivo no tiene encabezado y se generan nombres automáticos.
*  index_col=m: Número de la columna que se usará como índice del DataFrame. Si no se indica, se generan índices automáticos comenzando desde 0.
*  na_values=no_validos: Lista de valores que serán interpretados como NaN (valores nulos). Por ejemplo, ['NA', '-'].
*  decimal=separador_decimal: Carácter que se usa como separador decimal en los datos numéricos, como '.' o ','.



In [None]:

df= pd.read_csv("https://raw.githubusercontent.com/pablolube/Python_Pandas/refs/heads/main/Teoria/Datasets/winequality-red.csv",sep=',')
df

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.700,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5
1,7.8,0.880,0.00,2.6,0.098,25.0,67.0,0.99680,3.20,0.68,9.8,5
2,7.8,0.760,0.04,2.3,0.092,15.0,54.0,0.99700,3.26,0.65,9.8,5
3,11.2,0.280,0.56,1.9,0.075,17.0,60.0,0.99800,3.16,0.58,9.8,6
4,7.4,0.700,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5
...,...,...,...,...,...,...,...,...,...,...,...,...
1594,6.2,0.600,0.08,2.0,0.090,32.0,44.0,0.99490,3.45,0.58,10.5,5
1595,5.9,0.550,0.10,2.2,0.062,39.0,51.0,0.99512,3.52,0.76,11.2,6
1596,6.3,0.510,0.13,2.3,0.076,29.0,40.0,0.99574,3.42,0.75,11.0,6
1597,5.9,0.645,0.12,2.0,0.075,32.0,44.0,0.99547,3.57,0.71,10.2,5


In [None]:
#inicialmente importamos unos paquetes que necesitamos para conectar nuestro notebook con google
#from google.colab import drive

#drive.mount('/content/gdrive') #aca conecto con google drive...esta linea no cambia nunca, solo necesito llamarla una vez en mi notebook para usarla

#el primer parametro que le enviamos a read_csv es el path, osea donde esta ubicado mi archivo
#la parte inicial /content/gdrive/MyDrive/ nunca cambia (solo se le agrega la carpeta y el nombre del archivo)
#df= pd.read_csv("Link al archivo",sep=',') #con sep=',' le estamos diciendo que los datos estan separados por comas(,)

df

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.700,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5
1,7.8,0.880,0.00,2.6,0.098,25.0,67.0,0.99680,3.20,0.68,9.8,5
2,7.8,0.760,0.04,2.3,0.092,15.0,54.0,0.99700,3.26,0.65,9.8,5
3,11.2,0.280,0.56,1.9,0.075,17.0,60.0,0.99800,3.16,0.58,9.8,6
4,7.4,0.700,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5
...,...,...,...,...,...,...,...,...,...,...,...,...
1594,6.2,0.600,0.08,2.0,0.090,32.0,44.0,0.99490,3.45,0.58,10.5,5
1595,5.9,0.550,0.10,2.2,0.062,39.0,51.0,0.99512,3.52,0.76,11.2,6
1596,6.3,0.510,0.13,2.3,0.076,29.0,40.0,0.99574,3.42,0.75,11.0,6
1597,5.9,0.645,0.12,2.0,0.075,32.0,44.0,0.99547,3.57,0.71,10.2,5


**LECTURA XLSX**




df.to_excel(fichero.xlsx, sheet_name = hoja, columns=booleano, index=booleano)

Exporta el DataFrame df a la hoja de cálculo hoja del fichero fichero.xlsx en formato Excel. Si se pasa True al parámetro columns se exporta también la fila con los nombres de columnas y si se pasa True al parámetro index se exporta también la columna con los nombres de las filas

In [None]:
 import pandas as pd
# Importación del fichero datos-colesteroles.csv
df = pd.read_csv(
'https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesteroles.csv', sep=';', decimal=',')
print(df.head())


                         nombre  edad sexo  peso  altura  colesterol
0  José Luis Martínez Izquierdo    18    H  85.0    1.79       182.0
1                Rosa Díaz Díaz    32    M  65.0    1.73       232.0
2         Javier García Sánchez    24    H   NaN    1.81       191.0
3           Carmen López Pinzón    35    M  65.0    1.70       200.0
4          Marisa López Collado    46    M  51.0    1.58       148.0


**LECTURA DE ARCHIVOS TXT**


In [None]:
df2= pd.read_csv("https://raw.githubusercontent.com/pablolube/Python_Pandas/refs/heads/main/Teoria/Datasets/pokemon_data.txt",sep="\t")
df2

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False
...,...,...,...,...,...,...,...,...,...,...,...,...
795,719,Diancie,Rock,Fairy,50,100,150,100,150,50,6,True
796,719,DiancieMega Diancie,Rock,Fairy,50,160,110,160,110,110,6,True
797,720,HoopaHoopa Confined,Psychic,Ghost,80,110,60,150,130,70,6,True
798,720,HoopaHoopa Unbound,Psychic,Dark,80,160,60,170,130,80,6,True


In [None]:
url = 'https://raw.githubusercontent.com/JJTorresDS/stocks-ds-edu/main/stocks.csv'
df4 = pd.read_csv(url, index_col=0) # con index_col=0 le estamos diciendo que la primera columna es nuestro indice
df4

Unnamed: 0_level_0,MCD,SBUX,GOOG,AMZN,MSFT,JPM,BAC,C,MAR,HLT,RCL,V,MA,PYPL
formatted_date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
2016-01-01,106.332146,54.353962,742.950012,587.000000,49.853489,50.424938,12.573010,36.897804,57.754189,35.192841,74.235298,71.574371,85.822624,36.139999
2016-02-01,100.671043,52.064243,697.770020,552.520020,46.043667,48.033066,11.132540,33.707108,64.228912,41.061607,67.360649,69.556580,83.956566,38.139999
2016-03-01,108.782211,53.571442,744.950012,593.640015,50.339031,50.524323,12.021718,36.223217,67.336624,44.499886,74.790009,73.631477,91.278160,38.599998
2016-04-01,109.483307,50.457645,693.010010,659.590027,45.453705,53.919910,12.995729,40.153545,66.305466,43.716049,70.465584,74.363144,93.683258,39.180000
2016-05-01,105.648926,49.255203,735.719971,722.789978,48.306515,56.098225,13.201019,40.447887,62.474155,41.198154,70.456474,75.999847,92.817329,37.790001
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2021-07-01,240.055786,120.441193,2704.419922,3327.590088,283.846313,150.006454,37.981613,66.635887,145.979996,131.449997,76.870003,245.622177,384.999420,275.529999
2021-08-01,234.863205,116.533272,2909.239990,3470.790039,300.752960,158.991928,41.338173,71.392593,135.139999,124.860001,82.730003,228.386063,345.793121,288.660004
2021-09-01,239.780670,109.836403,2665.310059,3285.040039,281.405182,162.709534,42.031269,69.675041,148.089996,132.110001,88.949997,222.358551,347.241272,260.209991
2021-10-01,244.196198,105.614609,2965.409912,3372.429932,331.014404,168.872391,47.551128,68.662384,160.020004,143.949997,84.430000,211.397858,335.096588,232.589996


 Lectura de xlsx

In [None]:
#el comando wget nos ayuda a descargar el archivo a nuestro directorio

!wget "https://github.com/pablolube/Python_Pandas/raw/refs/heads/main/Teoria/Datasets/defaultoutput2.xlsx"
import pandas as pd
df = pd.read_excel("defaultoutput2.xlsx",sheet_name="hoja_traer",index_col=1)
df

--2024-12-09 01:40:55--  https://github.com/pablolube/Python_Pandas/raw/refs/heads/main/Teoria/Datasets/defaultoutput2.xlsx
Resolving github.com (github.com)... 140.82.113.3
Connecting to github.com (github.com)|140.82.113.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/pablolube/Python_Pandas/refs/heads/main/Teoria/Datasets/defaultoutput2.xlsx [following]
--2024-12-09 01:40:55--  https://raw.githubusercontent.com/pablolube/Python_Pandas/refs/heads/main/Teoria/Datasets/defaultoutput2.xlsx
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 337024 (329K) [application/octet-stream]
Saving to: ‘defaultoutput2.xlsx.5’


2024-12-09 01:40:56 (7.90 MB/s) - ‘defaultoutput2.xlsx.5’ saved [337024/337024]



Unnamed: 0_level_0,Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,...,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response,MostExpensive,Marital_Status_key,Education_key
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,0,5524,1957,Graduation,Single,58138.0,0,0,04-09-2012,58,...,False,False,False,False,3,11,True,Wines,0,1
1,1,2174,1954,Graduation,Single,46344.0,1,1,08-03-2014,38,...,False,False,False,False,3,11,False,Wines,0,1
2,2,4141,1965,Graduation,Together,71613.0,0,0,21-08-2013,26,...,False,False,False,False,3,11,False,Wines,2,1
3,3,6182,1984,Graduation,Together,26646.0,1,0,10-02-2014,26,...,False,False,False,False,3,11,False,MeatProducts,2,1
4,4,5324,1981,PhD,Married,58293.0,1,0,19-01-2014,94,...,False,False,False,False,3,11,False,Wines,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2235,2235,10870,1967,Graduation,Married,61223.0,0,1,13-06-2013,46,...,False,False,False,False,3,11,False,Wines,1,1
2236,2236,4001,1946,PhD,Together,64014.0,2,1,10-06-2014,56,...,False,True,False,False,3,11,False,Wines,2,0
2237,2237,7270,1981,Graduation,Divorced,56981.0,0,0,25-01-2014,91,...,False,False,False,False,3,11,False,Wines,3,1
2238,2238,8235,1956,Master,Together,69245.0,0,1,24-01-2014,8,...,False,False,False,False,3,11,False,Wines,2,2



 Lectura desde Github /Apis

In [None]:
import pandas as pd

url = 'https://raw.githubusercontent.com/JJTorresDS/stocks-ds-edu/main/stocks.csv'
df = pd.read_csv(url, index_col=0)
print(df[['AMZN','MCD','SBUX','GOOG','MSFT']].head(5).round(1))

                 AMZN    MCD  SBUX   GOOG  MSFT
formatted_date                                 
2016-01-01      587.0  106.3  54.4  743.0  49.9
2016-02-01      552.5  100.7  52.1  697.8  46.0
2016-03-01      593.6  108.8  53.6  745.0  50.3
2016-04-01      659.6  109.5  50.5  693.0  45.5
2016-05-01      722.8  105.6  49.3  735.7  48.3


In [None]:
!wget -O cars_clus.csv https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/cars_clus.csv

--2024-12-09 01:40:58--  https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/cars_clus.csv
Resolving s3-api.us-geo.objectstorage.softlayer.net (s3-api.us-geo.objectstorage.softlayer.net)... 67.228.254.196
Connecting to s3-api.us-geo.objectstorage.softlayer.net (s3-api.us-geo.objectstorage.softlayer.net)|67.228.254.196|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 17774 (17K) [text/csv]
Saving to: ‘cars_clus.csv’


2024-12-09 01:40:59 (4.11 MB/s) - ‘cars_clus.csv’ saved [17774/17774]



In [None]:
filename = 'cars_clus.csv'
#Lectura
pdf = pd.read_csv(filename)
print ("Shape: ", pdf.shape)
print(pdf[['manufact','model','sales','resale']].head(5))

Shape:  (159, 16)
  manufact    model   sales  resale
0    Acura  Integra  16.919  16.360
1    Acura       TL  39.384  19.875
2    Acura       CL  14.114  18.225
3    Acura       RL   8.588  29.725
4     Audi       A4  20.397  22.255


### ATRIBUTOS PANDAS

*   **df.info() :** Devuelve información (número de filas, número de columnas, índices, tipo de las columnas y memoria usado) sobre el DataFrame df.

*   **df.shape :** Devuelve una tupla con el número de filas y columnas del DataFrame

*   **df.size :** Devuelve el número de elementos del DataFrame.

*   **df.columns :** Devuelve una lista con los nombres de las columnas del DataFrame df.

*   **df.index :** Devuelve una lista con los nombres de las filas del DataFrame df.

*   **df.dtypes :** Devuelve una serie con los tipos de datos de las columnas del DataFrame df.

*   **df.head(n) :** Devuelve las n primeras filas del DataFrame df.

*   **df.tail(n) :** Devuelve las n últimas filas del DataFrame df.

In [None]:
#Manipulacion de datos con pandas
modelos = ['A4 3.0 Quattro 4dr manual', 'A4 3.0 Quattro 4dr auto', 'A6 3.0 4dr', 'A6 3.0 Quattro 4dr', 'A4 3.0 convertible 2dr'] #este sera el indice
peso = [3583, 3627, 3561, 3880, 3814] #columna 1
precios =[33430,34480,36640,39640,42490] #columna 2

df = pd.DataFrame({'peso':peso,'precios':precios}, index=modelos)
df

Unnamed: 0,peso,precios
A4 3.0 Quattro 4dr manual,3583,33430
A4 3.0 Quattro 4dr auto,3627,34480
A6 3.0 4dr,3561,36640
A6 3.0 Quattro 4dr,3880,39640
A4 3.0 convertible 2dr,3814,42490


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, A4 3.0 Quattro 4dr manual to A4 3.0 convertible 2dr
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   peso     5 non-null      int64
 1   precios  5 non-null      int64
dtypes: int64(2)
memory usage: 292.0+ bytes


In [None]:
df.shape #filas y columnas

(5, 2)

In [None]:
df.size  #numero de elementos

10

In [None]:
df.columns #columnas

Index(['peso', 'precios'], dtype='object')

In [None]:
df.index #Indices del DataFrame

Index(['A4 3.0 Quattro 4dr manual', 'A4 3.0 Quattro 4dr auto', 'A6 3.0 4dr',
       'A6 3.0 Quattro 4dr', 'A4 3.0 convertible 2dr'],
      dtype='object')

In [None]:
df.dtypes #tipo

Unnamed: 0,0
peso,int64
precios,int64


In [None]:
df.values

array([[ 3583, 33430],
       [ 3627, 34480],
       [ 3561, 36640],
       [ 3880, 39640],
       [ 3814, 42490]])

In [None]:
#Seleccionar solo una fila
df.values[2]

array([ 3561, 36640])

In [None]:
df.head(5) # Devuelve las n primeras filas del DataFrame df.

Unnamed: 0,peso,precios
A4 3.0 Quattro 4dr manual,3583,33430
A4 3.0 Quattro 4dr auto,3627,34480
A6 3.0 4dr,3561,36640
A6 3.0 Quattro 4dr,3880,39640
A4 3.0 convertible 2dr,3814,42490


In [None]:
df.tail(5) #Devuelve las n últimas filas del DataFrame df.

Unnamed: 0,peso,precios
A4 3.0 Quattro 4dr manual,3583,33430
A4 3.0 Quattro 4dr auto,3627,34480
A6 3.0 4dr,3561,36640
A6 3.0 Quattro 4dr,3880,39640
A4 3.0 convertible 2dr,3814,42490


# RESUMEN DESCRIPTIVO DATAFRAME

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')


In [None]:
df

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
1,Rosa Díaz Díaz,32,M,65.0,1.73,232.0
2,Javier García Sánchez,24,H,,1.81,191.0
3,Carmen López Pinzón,35,M,65.0,1.7,200.0
4,Marisa López Collado,46,M,51.0,1.58,148.0
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
7,Pilar Martín González,22,M,60.0,1.66,
8,Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0
9,Santiago Reillo Manzano,46,H,75.0,1.85,280.0


In [None]:
df.drop(columns='nombre')

Unnamed: 0,edad,sexo,peso,altura,colesterol
0,18,H,85.0,1.79,182.0
1,32,M,65.0,1.73,232.0
2,24,H,,1.81,191.0
3,35,M,65.0,1.7,200.0
4,46,M,51.0,1.58,148.0
5,68,H,66.0,1.74,249.0
6,51,H,62.0,1.72,276.0
7,22,M,60.0,1.66,
8,35,H,90.0,1.94,241.0
9,46,H,75.0,1.85,280.0


In [None]:
df.dropna

In [None]:
# Número de elementos no nulos por columna
df.count()
# Devuelve una serie con el número de elementos que no son nulos ni NaN en cada columna.

# Suma de los datos de cada columna
df.sum()
# Devuelve una serie con la suma de los valores numéricos de las columnas.
# Para columnas de tipo cadena, concatena los elementos.

# Suma acumulada de los datos de cada columna
df.cumsum()
# Devuelve un DataFrame con la suma acumulada de los valores de cada columna (sólo para datos numéricos).

# Valor mínimo de cada columna
df.min()
# Devuelve una serie con los menores valores de cada columna.

# Valor máximo de cada columna
df.max()
# Devuelve una serie con los mayores valores de cada columna.

# Media de los datos de las columnas numéricas
df.mean()
# Devuelve una serie con la media de los valores numéricos de cada columna.

# Varianza de los datos de las columnas numéricas
df.var()
# Devuelve una serie con la varianza de los valores numéricos de cada columna.

# Desviación estándar de los datos de las columnas numéricas
df.std()
# Devuelve una serie con la desviación estándar de los valores numéricos de cada columna.

# Matriz de covarianza de las columnas numéricas
df.cov()
# Devuelve un DataFrame con la matriz de covarianza de los valores numéricos de las columnas.

# Matriz de correlación de Pearson de las columnas numéricas
df.corr()
# Devuelve un DataFrame con la matriz de correlación de Pearson de los valores numéricos de las columnas.

# Resumen estadístico de las columnas del DataFrame
df.describe(include='tipo')
# Devuelve un DataFrame con un resumen estadístico de las columnas de un tipo específico ('number' o 'object').
# Para columnas numéricas, se calculan la media, desviación estándar, mínimo, máximo y cuartiles.
# Para columnas de tipo objeto (texto), se calculan el número de valores, el número de valores distintos,
# la moda y su frecuencia. Si no se indica 'include', solo se consideran columnas numéricas.


TypeError: Could not convert ['José Luis Martínez IzquierdoRosa Díaz DíazJavier García SánchezCarmen López PinzónMarisa López ColladoAntonio Ruiz CruzAntonio Fernández OcañaPilar Martín GonzálezPedro Gálvez TenorioSantiago Reillo ManzanoMacarena Álvarez LunaJosé María de la Guía SanzMiguel Angel Cuadrado GutiérrezCarolina Rubio Moreno'
 'HMHMMHHMHHMHHM'] to numeric

In [None]:
# prompt: df.cov(exclude='nombre')

import pandas as pd
import numpy as np

# Assuming 'df' is already defined as in the provided code.
# Example using the cholesterol dataset:
df= pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')


#LINKS DE INTERES

Manual, hoja de trucos (cheat sheet) o resumen con varios comandos de código importantes de Pandas y NumPy

Pandas:

https://aprendeconalf.es/docencia/python/manual/pandas/
https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
Numpy:

https://www.freecodecamp.org/espanol/news/la-guia-definitiva-del-paquete-numpy-para-computacion-cientifica-en-python/
https://www.datacamp.com/cheat-sheet/numpy-cheat-sheet-data-analysis-in-python
Páginas similares a HackerRank para practicar Ciencia de Datos con retos y ejercicios

https://www.kaggle.com/learn
https://www.datacamp.com/
https://www.codecademy.com/
-- Para practicar Python de manera gratuita (agrego página de Hackerank para personas que no la conozcan):

https://www.hackerrank.com/domains/python
https://exercism.org/tracks/python
Tutoriales adicionales para entender más el .groupby() de pandas

https://www.youtube.com/watch?v=xaM-YolPFB0
https://interactivechaos.com/es/manual/tutorial-de-pandas/agrupaciones-en-dataframes
https://sparkbyexamples.com/pandas/pandas-groupby-explained-with-examples/
Tutorial de cómo exportar o descargar diferentes tipos de archivos usando Python

Para exportar csv o archivos de excel: https://gonzalezgouveia.com/como-exportar-data-frames-de-pandas-a-csv-o-excel-en-python/
Para exportar archivo de texto: https://www.adamsmith.haus/python/answers/how-to-write-contents-of-a-dataframe-into-a-text-file-in-python


En los iguientes recursos pueden encontrar lo que vimos esta semana con ejemplos, explicaciones y a más profundidad.

PYTHON ESTRUCTURAS
  Videos de Educación en YouTube
  Estructura FOR acompañado de range: video
  Estructura FOR en general: video
  Estructura While basica: video
  Estructura IF: video
FUNCIONES
  Funciones: video
FOROS
  Foros: Pueden buscar en español o en inglés sus preguntas.
  STACKOVERFLOW: Ejemplo de una pregunta en este foro para que lo empiecen a usar
  Quora: Ejemplo

PAGINAS CON TUTORIALES
  Páginas con muchos tutoriales


https://ellibrodepython.com/

https://www.freecodecamp.org/espanol/news/tag/python/

Documentación oficial de Python para aquell@s que quieren profundizar en las estructuras de manera teórica

https://docs.python.org/es/3/tutorial/

¿Qué pasa si me gusta leer libros para aprender?

Podemos encontrar en internet pdf gratuitos de libros como este
